Die Forschungsergebnisse zweier Studenten der Technischen Universität Ho Chi Minh-Stadt wurden auf der AAAI, der weltweit führenden KI-Konferenz, veröffentlicht. Dabei kommen Methoden des kontroversen Trainings zum Einsatz, mit denen KI neue Daten generieren kann.
Die Forschungsergebnisse von Pham Khanh Trinh und Le Minh Khoi (23) zu mehrsprachigen Modellen zum Trainieren der KI zur Erstellung von Synonymen wurden in den Dokumenten der AAAI-24-Konferenz zur künstlichen Intelligenz veröffentlicht, die Ende Februar in Vancouver, Kanada, stattfand.
Außerordentlicher Professor Dr. Quan Thanh Tho, stellvertretender Dekan der Fakultät für Informatik und Ingenieurwesen der Technischen Universität Ho-Chi-Minh-Stadt, bewertete dies als lobenswertes Ergebnis. Herr Tho sagte, dass die AAAI von Forschern und Experten als Spitzenorganisation für wissenschaftliche Konferenzen in den Bereichen Informatik und künstliche Intelligenz angesehen werde, mit einer sehr niedrigen Artikelakzeptanzquote von 23,75 % in diesem Jahr.
Minh Khoi und Khanh Trinh (Mitte) während ihrer Abschlussarbeitsverteidigung, 2023. Foto: Zur Verfügung gestellt von der Figur
Trinh und Khoi teilen ihre Leidenschaft für Deep Learning und natürliche Sprachverarbeitung und forschten daher an großen Sprachmodellen (LLMs). Beide wollten die Grenzen von LLMs herausfinden und diese verbessern.
Khanh Trinh erklärte, dass Chat-GPTs oder -LLMs anhand einer riesigen Menge an Textdaten trainiert werden müssen, um präzise und vielfältige Antworten für die Nutzer zu generieren. Die beiden Jungen stellten fest, dass Chat-GPTs und -LLMs bei weniger verbreiteten Sprachen wie Hindi, Kasachisch oder Indonesisch oft unerwartete Ergebnisse liefern, da sie diese Sprachen nicht intensiv gelernt haben oder ihnen nicht genügend Daten zum Lernen zur Verfügung stehen.
„Warum erstellen wir nicht mehr Textdaten aus den ‚wenigen Ressourcen‘ dieser Sprachen, um die KI weiter zu trainieren?“, fragten die beiden männlichen Studenten. Daraus entstand das LAMPAT-Modell (Low-rank Adaptation for Multilingual Paraphrasing using Adversarial Training) – mehrsprachige Interpretation mithilfe der von Trinh und Khoi erforschten Methode des kontradiktorischen Trainings.
LAMPAT kann aus einem gegebenen Eingabesatz ein Synonym generieren, um weitere Textdaten zu generieren. Der „Adversarial Training“-Erklärer ist eine relativ neue Methode zum Training großer Sprachmodelle. Mit herkömmlichen Trainingsmethoden generiert die Anwendung aus einem Eingabesatz einen Ausgabesatz. Mit Adversarial Training kann die Anwendung den Ausgabesatz kommentieren und bearbeiten, um weitere Sätze zu generieren.
Die Mehrsprachigkeit von LAMPAT liegt darin begründet, dass dieses Modell 60 Sprachen gleichzeitig integriert. Basierend auf den gesammelten Datensätzen trainiert das Team LAMPAT kontinuierlich, um Synonyme zu generieren. Die von LAMPAT generierten Textdaten werden weiterhin zum Training von LLMs verwendet, damit diese Modelle viele verschiedene Ausdrucksformen für denselben Inhalt erlernen und so vielfältige Antworten mit einer höheren Wahrscheinlichkeit der Richtigkeit liefern können. Der Teamvertreter ist überzeugt, dass LAMPAT mit dieser Funktion in Anwendungen wie ChatGPT integriert werden kann, um das Modell weiter zu perfektionieren.
Darüber hinaus zwingt der Mangel an Daten für Chat-GPT oder LLMs einige Unternehmen dazu, zahlreiche externe Quellen wie Bücher, Zeitungen, Blogs usw. zu nutzen, ohne auf Urheberrechtsfragen zu achten. Laut Khanh Trinh ist die Erstellung von Synonymen auch eine Möglichkeit, Plagiate und Urheberrechtsverletzungen einzuschränken.
Nam Sinh nannte ein Beispiel für Anwendungen wie Chat GPT: Wenn ein Benutzer eine Zusammenfassung eines vorhandenen Textes A anfordert, generiert die Anwendung einen zusammenfassenden Text B. Wenn die Forschungsmethode der Gruppe integriert ist, generiert die Anwendung beim Empfang von Text A basierend auf dem Mechanismus zur Generierung von Synonymen mehrere Texte mit demselben Inhalt A1, A2, A3, aus denen sie den Text zusammenfasst und viele Ergebnisse generiert, aus denen der Benutzer auswählen kann.
In der Anfangsphase der Forschung hatte das Team Schwierigkeiten, Evaluierungsdaten für 60 Sprachen vorzubereiten. Da es keinen Zugriff auf ausreichend große Datenmengen hatte, stellte das Team einen umfassenden und umfassenden Datensatz in 13 Sprachen zusammen, um das Modell objektiv zu bewerten. Dazu gehörten Vietnamesisch, Englisch, Französisch, Deutsch, Russisch, Japanisch, Chinesisch, Spanisch, Ungarisch, Portugiesisch, Schwedisch, Finnisch und Tschechisch. Dieser Datensatz ist auch für die abschließende menschliche Evaluierung zuverlässig.
Minh Khoi (links) und Khanh Trinh (rechts) machten am Abschlusstag im November 2023 ein Erinnerungsfoto mit Lehrer Quan Thanh Tho. Foto: Zur Verfügung gestellt von der Figur
Für Englisch, Vietnamesisch, Deutsch, Französisch und Japanisch wählte das Team jeweils 200 Satzpaare (ein Paar bestehend aus dem Ausgabesatz und der korrekten Bezeichnung) zur Bewertung aus. Für jede der oben genannten Sprachen bat das Team fünf Sprachexperten, die Sätze unabhängig voneinander anhand von drei Kriterien zu bewerten: semantische Erhaltung, Wortwahl und lexikalische Ähnlichkeit sowie Flüssigkeit und Kohärenz des Ausgabesatzes. Die Skala reichte von 1 bis 5. Die durchschnittliche Bewertung der Sprachexperten für diese fünf Sprachen lag zwischen 4,2 und 4,6/5 Punkten.
Das Beispiel zeigt ein Paar vietnamesischer Sätze mit einer Bewertung von 4,4/5, wobei der Eingabesatz lautet: „Er erklärte das Problem im Detail“ und der Ausgabesatz lautet: „Er erklärte das Problem im Detail“.
Es gibt aber auch Satzpaare mit mangelhafter Qualität und semantischen Fehlern, wie etwa das Satzpaar „Wir essen, solange die Suppe heiß ist – Wir essen die Suppe, solange wir heiß sind“, das nur 2/5 Punkte erreicht.
Khanh Trinh sagte, die Recherche und Fertigstellung dieses Projekts habe acht Monate gedauert. Dies ist auch das Thema ihrer Abschlussarbeit. Die Arbeit erreichte im Computer Science Council 2 mit 9,72 von 10 Punkten den ersten Platz.
Laut Herrn Quan Thanh Tho hat LAMPAT zwar seine Kompetenz bei der Generierung menschenähnlicher Synonymphrasen in mehreren Sprachen unter Beweis gestellt, muss aber noch verbessert werden, um Redewendungen, Volkslieder und Sprichwörter in verschiedenen Sprachen verarbeiten zu können.
Darüber hinaus umfasst der Evaluierungsdatensatz des Teams nur 13 Sprachen, wodurch viele, insbesondere Minderheitensprachen, noch immer nicht erfasst sind. Daher muss das Team Forschung betreiben, um die Fähigkeiten aktueller mehrsprachiger Interpretationsmodelle zu verbessern und zu erweitern. So können wir die Sprachbarriere zwischen Ländern und Ethnien beseitigen.
Ende 2023 schlossen Trinh und Khoi ihr Informatikstudium mit Auszeichnung und einem Notendurchschnitt von 3,7 bzw. 3,9/4 ab. Beide planen, im Ausland einen Master-Abschluss zu erwerben und in den Bereichen künstliche Intelligenz und maschinelles Lernen zu forschen.
„Wir forschen weiterhin an diesem Thema mit dem Ziel, LAMPAT stärker auf zukünftige wissenschaftliche Projekte anzuwenden und ein zuverlässiges mehrsprachiges Produkt für die Benutzer zu schaffen“, erklärte Trinh.
Le Nguyen
[Anzeige_2]
Quellenlink
Kommentar (0)