Warum das große Sprachmodell von Meta für Forscher nicht funktioniert

GettyImages 1206801125 ipopba

[ad_1]

Konnten Sie an der Rework 2022 nicht teilnehmen? Sehen Sie sich jetzt alle Summit-Periods in unserer On-Demand-Bibliothek an! Schau hier.


Als Alan Turing 1950 den Turing-Take a look at entwickelte, conflict es ein Take a look at der Fähigkeit einer Maschine, intelligentes Verhalten an den Tag zu legen, das nicht von dem eines Menschen zu unterscheiden conflict. Turing schlug vor, dass man sagen kann, dass ein Pc über künstliche Intelligenz (KI) verfügt, wenn er menschenähnliche Antworten auf Fragen geben kann.

Dank großer Sprachmodelle sind wir jetzt an dem Punkt angelangt, an dem Pc Texte zu quick jedem Thema schreiben können, das wir ihnen geben – und das größtenteils sehr überzeugend und menschenähnlich.

Sagen Sie ihm, er soll einen Satz schreiben: „Warum strickt Elon Musk gerne?“ und was es ausgibt, ist wohl so intestine wie das, was ein Mensch schreiben könnte:

Some attainable explanation why Elon Musk would possibly take pleasure in knitting might embrace the truth that it's a stress-free and meditative exercise that may assist to clear one's thoughts, and it additionally permits for a substantial amount of creativity and self-expression.
Moreover, knitting is usually a very social exercise, and Elon Musk might benefit from the alternative to talk and join with different knitters.

[Source: OpenAI Playground using text-davinci-002 model]

Komplexe Texte zusammenfassen

Beispiele wie dieses machen Spaß, aber das größere Wertversprechen der Verwendung großer Sprachmodelle besteht weniger darin, verrückte Prosa zu schreiben, als vielmehr in der Zusammenfassung komplexer Texte. Diese Anwendungsfälle sind branchenübergreifend spannend. Beispielsweise kann KI Informationen über potenzielle Interessenten für Gross sales Intelligence-Zwecke destillieren oder Investitionsdokumente im Finanzbereich zusammenfassen.

Vorfall

Meta Beat 2022

MetaBeat wird am 4. Oktober in San Francisco, Kalifornien, Vordenker zusammenbringen, um eine Anleitung zu geben, wie die Metaverse-Technologie die Artwork und Weise, wie alle Branchen kommunizieren und Geschäfte machen, verändern wird.

Hier registrieren

Was mich jedoch besonders interessiert, ist das Zusammenfassen von wissenschaftlichen Arbeiten für Forscher.

Das Downside ist, dass weltweit zu viele Forschungsergebnisse veröffentlicht werden. Im Jahr 2020 wurden mehr als 4,2 Millionen wissenschaftliche Forschungsarbeiten veröffentlicht. Selbst in spezialisierten Forschungsbereichen werden jedes Jahr Hunderte von Arbeiten veröffentlicht – wie kann ein Forscher den Überblick behalten, während er seiner eigenen Forschung nachgeht? Die Zusammenfassung einer Arbeit weist nur auf die darin enthaltenen Forschungsdetails hin.

Als Meta kürzlich sein Sprachmodell OPT-175B als Open-Supply-Lösung veröffentlichte, klang es für akademische Forscher vielversprechend. Es soll eine bessere Leistung bieten als GPT-3 von OpenAI und verwendet nur 15 % der Rechenressourcen von GPT-3, um es zu trainieren.

Modelle auf den Prüfstand stellen

Wie schneidet Meta bei der wissenschaftlichen Forschung ab?

Wir haben es zuerst in einer technischen Pressemitteilung getestet, und dies conflict die Zusammenfassung, die wir erhalten haben:

​​Ahead Wanting Statements, which communicate solely as of the date of this press launch. Artelo undertakes no obligation to publicly replace any forward-looking assertion, whether or not on account of new info, future occasions or in any other case.
Investor Relations Contact:
Westwicke Companions on behalf of Artelo Biosciences
Mike Piccinino, CFA

Es ist kein guter Anfang. Das Modell konzentriert sich auf den Investor Legalese am Ende der Pressemitteilung und berechnet, dass dies die wichtigste Info ist, die der Leser wissen muss. Sie könnten argumentieren, dass es wichtig ist, aber es ist nicht das, wonach wir suchen. Der Investorenkontakt stimmt nicht einmal, er wurde vom Mannequin fabriziert!

Als nächstes haben wir es auf einem Papier aus dem Journal of Digital Supplies ausprobiert:

Journal of ELECTRONIC MATERIALS, Vol. 38, No. 7, 2009 DOI: 10.1007/s11664-009-0701-y (cid:1) 2009 TMS Particular Subject Paper thermally. The samples had been then pulverized and analyzed by XRD, TGA, and XPS. The XRD patterns confirmed that CaCo2O4+d crystallizes as a calcium-ferrite-type construction, which consists of a corner- and edge- shared CoO6 octahedron community together with one-dimensional double chains. The CaCo2O4+d part has a finite density of states on the Fermi stage. The XPS outcomes confirmed that CaCo2O4+d has a composition of CaCo2O4+d = (Ca2CoO3)0.62CoO2. The XPS outcomes additionally confirmed that CaCo2O4+d has

[Source: Meta OPT-175B]

Auf den ersten Blick scheint es wichtige Informationen zu enthalten, aber es gibt eindeutig überflüssige Informationen wie die Particulars der Arbeit, die für die Zusammenfassung nicht wichtig sind, und ich würde das Ergebnis eher als Paraphrasierung eines Teils des Textes beschreiben als fasst alle Aspekte davon zusammen.

Kleine Modelle übertreffen

Wie schneidet additionally ein kleineres Sprachmodell im Vergleich ab? Aufgrund unserer Erfahrung in diesem Bereich haben wir unser Iris.ai-IPG-Modell so konzipiert, dass es nur 25 Millionen Parameter enthält – im Gegensatz zu 175 Milliarden von Meta und OpenAI –, aber wir haben es mit Millionen von domänenspezifischen wissenschaftlichen Artikeln trainiert. Unsere Forschung hat gezeigt, dass dieses Modell auf demselben Papier sehr unterschiedlich abschneidet:

Metallic temperature dependence of the seebeck coefficient s with a big thermoelectric energy (s=151lv/kat387k) has a finite density of states on the fermi stage. On this paper, we report the crystal construction and bodily properties of caco2o4+d. We discover a new compound caco2o4+d, which reveals a big thermoelectric energy, though it has a finite density of states on the fermi stage. Motivated by the easy tenet talked about beforehand, we searched for brand spanking new phases thermoelectric properties associated as a thermoelectric materials relevant to high-temperature use.

[Source: Iris.ai IPG]

Sie können sehen, dass die Satzstruktur etwas einfacher ist als bei einem großen Sprachmodell, aber die Informationen sind viel relevanter. Darüber hinaus betragen die Rechenkosten für die Generierung dieser Zusammenfassung des Nachrichtenartikels weniger als 0,23 $. Dasselbe auf OPT-175 zu tun, würde ungefähr 180 $ kosten.

Die Containerschiffe von AI-Modellen

Man würde annehmen, dass große Sprachmodelle mit enormer Rechenleistung wie OPT-175B in der Lage wären, dieselben Informationen schneller und in höherer Qualität zu verarbeiten. Aber wo das Modell versagt, ist spezifisches Domänenwissen. Es versteht die Struktur einer Forschungsarbeit nicht, es weiß nicht, welche Informationen wichtig sind, und es versteht keine chemischen Formeln. Es ist nicht die Schuld des Modells – es wurde einfach nicht auf diese Informationen trainiert.

Die Lösung besteht additionally darin, das GPT-Modell einfach anhand von Materialpapieren zu trainieren, richtig?

Bis zu einem gewissen Grad, ja. Wenn wir ein GPT-Modell auf Materialpapieren trainieren können, dann wird es gute Arbeit leisten, sie zusammenzufassen, aber große Sprachmodelle sind – von Natur aus – groß. Sie sind die sprichwörtlichen Containerschiffe der KI-Modelle – es ist sehr schwierig, ihre Richtung zu ändern. Dies bedeutet, dass für die Weiterentwicklung des Modells mit Reinforcement Studying Hunderttausende von Materialpapieren erforderlich sind. Und das ist ein Downside – dieser Band an Papieren existiert einfach nicht, um das Modell zu trainieren. Ja, Daten können fabriziert werden (wie es oft in der KI der Fall ist), aber dies verringert die Qualität der Ergebnisse – die Stärke von GPT liegt in der Vielfalt der Daten, mit denen es trainiert wird.

Das „Wie“ revolutionieren

Aus diesem Grund funktionieren kleinere Sprachmodelle besser. Pure Language Processing (NLP) gibt es schon seit Jahren, und obwohl GPT-Modelle in die Schlagzeilen geraten sind, verbessert sich die Komplexität kleinerer NLP-Modelle ständig.

Schließlich wird ein Modell, das mit 175 Milliarden Parametern trainiert wurde, immer schwierig zu handhaben sein, aber ein Modell, das 30 bis 40 Millionen Parameter verwendet, ist für domänenspezifischen Textual content viel handlicher. Der zusätzliche Vorteil besteht darin, dass es weniger Rechenleistung verbraucht und daher auch viel weniger kostet.

Aus Sicht der wissenschaftlichen Forschung, die mich am meisten interessiert, wird KI das Potenzial für Forscher beschleunigen – sowohl in der Wissenschaft als auch in der Industrie. Das derzeitige Veröffentlichungstempo produziert eine unzugängliche Menge an Forschungsergebnissen, die die Zeit der Akademiker und die Ressourcen der Unternehmen verschlingt.

Die Artwork und Weise, wie wir das IPG-Modell von Iris.ai entworfen haben, spiegelt meine Überzeugung wider, dass bestimmte Modelle die Möglichkeit bieten, nicht nur zu revolutionieren, was wir lernen oder wie schnell wir es lernen, sondern auch wie Wir nähern uns verschiedenen Disziplinen der wissenschaftlichen Forschung als Ganzes. Sie geben talentierten Köpfen deutlich mehr Zeit und Ressourcen, um zusammenzuarbeiten und Werte zu schaffen.

Dieses Potenzial für jeden Forscher, die Forschung der Welt nutzbar zu machen, treibt mich voran.

Victor Botev ist CTO bei Iris AI.

DatenEntscheider

Willkommen in der VentureBeat-Neighborhood!

DataDecisionMakers ist der Ort, an dem Experten, einschließlich der technischen Mitarbeiter, die mit Daten arbeiten, datenbezogene Erkenntnisse und Innovationen austauschen können.

Wenn Sie über modern Ideen und aktuelle Informationen, Finest Practices und die Zukunft von Daten und Datentechnologie lesen möchten, besuchen Sie uns bei DataDecisionMakers.

Vielleicht denken Sie sogar darüber nach, einen eigenen Artikel beizusteuern!

Lesen Sie mehr von DataDecisionMakers

[ad_2]

admin

Leave a Reply

Your email address will not be published.