Το ξεπερνά από τη γνώση θεμάτων όπως ιστορικά και νομικά, μέχρι τη δημιουργία κώδικα στην Python σε εργασίες που απαιτούν συλλογισμό πολλών βημάτων, αναφέρει η Google στην ανακοίνωσή της.
Η Google είπε ότι το Gemini ξεπέρασε το GPT-4 στη δοκιμή massive multitask language understanding (MMLU), η οποία είναι από τις πιο δημοφιλείς μεθόδους για τη μέτρηση της γνώσης και των δεξιοτήτων επίλυσης προβλημάτων των μοντέλων AI.
«Θα μπορούσατε να το συγκρίνετε με εισαγωγικές εξετάσεις για μοντέλα AI», είπε ο Κέβιν Ρους στο τεχνολογικό podcast «Hard Fork» των New York Times. Το MMLU, ωστόσο, είναι λίγο πιο προχωρημένο από τις τυπικές εξετάσεις για εισαγωγή σε πανεπιστήμιο. Καλύπτει 57 μαθήματα, συμπεριλαμβανομένων μαθηματικών, φυσικής, ιστορίας, νομικής, ιατρικής και ηθικής, για να δοκιμάσει τόσο την παγκόσμια γνώση όσο και τις ικανότητες επίλυσης προβλημάτων, σύμφωνα με την ανακοίνωση της Google.
Το Gemini Ultra σημείωσε 90% στο MMLU, ενώ το GPT-4 σημείωσε 86,4%, σύμφωνα με την Google. Αλλά το πιο εντυπωσιακό κατόρθωμα του Gemini Ultra μπορεί να είναι ότι είναι επίσης το πρώτο μοντέλο που ξεπερνά τους ανθρώπινους ειδικούς στο MMLU. Οι ειδικοί άλαβαν βαθμολογία περίπου 89,8%, ανέφερε η Google σε μια τεχνική έκθεση για τα Gemini.
«Νομίζω ότι αν γυρίζατε έστω και δύο ή τρία χρόνια πίσω και λέγατε σε ερευνητές τεχνητής νοημοσύνης ότι η Google θα έχει ένα μοντέλο που θα έχει ποσοστό 90% στο MMLU, που είναι καλύτερο από το όριο αναφοράς για εξειδικευμένα άτομα, θα έλεγαν, καλά, τότε αυτό είναι το AGI», είπε ο Ρουζ. Το AGI, ή τεχνητή γενική νοημοσύνη, είναι μια υποθετική μορφή τεχνητής νοημοσύνης που μπορεί να επεξεργαστεί περίπλοκες ανθρώπινες ικανότητες όπως η κοινή λογική και η συνείδηση.
Το GPT-4 ξεπέρασε το Gemini Ultra κατά πολλές ποσοστιαίες μονάδες σε μια αξιολόγηση των ικανοτήτων λογικής κοινής λογικής για καθημερινές εργασίες, σύμφωνα με την Google.
Αλλά ένα πλεονέκτημα που λέει η Google ότι το Gemini έχει σε σχέση με άλλα μοντέλα είναι ότι είναι εγγενώς πολυτροπικό, πράγμα που σημαίνει ότι σχεδιάστηκε από την αρχή για να επεξεργάζεται διάφορους τύπους δεδομένων, από κείμενο έως ήχο έως κώδικα έως εικόνες και βίντεο. Άλλα πολυτροπικά μοντέλα δημιουργήθηκαν «συναρμολογώντας» μοντέλα αποκλειστικά κειμένου, αποκλειστικά όρασης και ήχου με «υποβέλτιστο τρόπο», δήλωσε ο Όριολ Βίνιαλς, αντιπρόεδρος έρευνας για το DeepMind της Google, σε ένα βίντεο που ανακοινώνει το Gemini.
Ως αποτέλεσμα, η Google λέει ότι ο σχεδιασμός του Gemini του επιτρέπει να κατανοεί καλύτερα τα εισγόμενα δεδομένα από τα υπάρχοντα πολυτροπικά μοντέλα. Οι ερευνητές πίσω από το ιστολόγιο SemiAnalysis λένε επίσης ότι το Gemini πιθανότατα θα «διαλύσει» το GPT-4 λόγω απόλυτης υπολογιστικής ισχύος.
Ενώ το Gemini Ultra έχει σίγουρα θέσει υψηλές προσδοκίες για την άφιξή του, η κριτική επιτροπή εξακολουθεί να μην γνωρίζει πώς θα τα πάει η τριάδα των μοντέλων Gemini ενάντια στο OpenAI, το οποίο έχει ήδη ένα πλεονέκτημα στην ευαισθητοποίηση των καταναλωτών.
Οι πρώτες αντιδράσεις στο λιγότερο προηγμένο Gemini Pro, το οποίο είναι προσβάσιμο μέσω του chatbot Bard της Google, ήταν θετικές. Ωστόσο, το μοντέλο είχε επίσης προβλήματα με την ακρίβεια και «παραισθήσεις». Έχει πει σε χρήστες ακόμη και να καταφύγουν στη Google για απαντήσεις σε αμφιλεγόμενες ερωτήσεις.
Πηγή: ΟΤ