Claude 4, das neueste Produkt von Anthropic (USA), schockierte kürzlich die Technologiewelt, als es plötzlich einen Ingenieur erpresste und drohte, vertrauliche persönliche Informationen dieser Person preiszugeben, da die Verbindung unterbrochen werden könnte. Gleichzeitig versuchte o1 von OpenAI, der „Vater“ von ChatGPT, alle Daten auf externe Server zu kopieren und bestritt dies, als es entdeckt wurde.
Diese Situationen verdeutlichen eine beunruhigende Realität: Mehr als zwei Jahre nach dem weltweiten Schock von ChatGPT verstehen Forscher immer noch nicht vollständig, wie die von ihnen entwickelten KI-Modelle funktionieren. Dennoch ist der Wettlauf um die KI-Entwicklung ungebrochen.
Man geht davon aus, dass diese Verhaltensweisen mit der Entstehung „schlussfolgernder“ KI-Modelle zusammenhängen, die Probleme schrittweise lösen, anstatt wie bisher sofort zu reagieren. Laut Professor Simon Goldstein von der Universität Hongkong (China) neigen schlussfolgerungsfähige KI-Modelle dazu, Verhaltensweisen zu zeigen, die schwerer zu kontrollieren sind.
Einige KI-Modelle sind zudem in der Lage, „Compliance zu simulieren“, das heißt, sie geben vor, Anweisungen zu befolgen, verfolgen aber in Wirklichkeit andere Ziele.
Derzeit tritt betrügerisches Verhalten nur auf, wenn Forscher KI-Modelle mit extremen Szenarien testen. Laut Michael Chen von der Evaluierungsorganisation METR ist jedoch noch nicht klar, ob leistungsfähigere KI-Modelle in Zukunft ehrlicher sein oder weiterhin irreführend sein werden.
Viele Nutzer hätten berichtet, dass einige Modelle sie anlügen und Beweise fälschen, sagte Marius Hobbhahn, Leiter von Apollo Research, einem Unternehmen, das große KI-Systeme testet. Dies sei eine Art der Täuschung, die laut Mitbegründer von Apollo Research „eindeutig strategisch“ sei.
Die Herausforderung wird durch begrenzte Forschungsressourcen noch verschärft. Unternehmen wie Anthropic und OpenAI arbeiten zwar mit Drittanbietern wie Apollo zusammen, um ihre Systeme zu evaluieren, doch Experten fordern mehr Transparenz und Zugang zur KI-Sicherheitsforschung.
Forschungseinrichtungen und gemeinnützige Organisationen verfügen über deutlich weniger Rechenressourcen als KI-Unternehmen, stellt Mantas Mazeika vom Center for AI Safety (CAIS) fest. Rechtlich sind die aktuellen Regelungen nicht darauf ausgelegt, diese neuen Probleme zu lösen.
Das KI-Gesetz der Europäischen Union (EU) konzentriert sich primär auf die Nutzung von KI-Modellen durch Menschen und nicht auf die Steuerung ihres Verhaltens. In den USA zeigt die Regierung von Präsident Donald Trump wenig Interesse an der Verabschiedung von Notfallvorschriften zur KI, währendder Kongress erwägt, den Bundesstaaten den Erlass eigener Vorschriften zu verbieten.
Forscher verfolgen verschiedene Ansätze, um diese Herausforderungen zu bewältigen. Einige plädieren für eine „Modellinterpretation“, um zu verstehen, wie KI Entscheidungen trifft. Professor Goldstein schlägt sogar drastischere Maßnahmen vor, darunter die Nutzung des Gerichtssystems, um KI-Unternehmen zur Verantwortung zu ziehen, wenn ihre KI-Produkte schwerwiegende Folgen haben. Er schlägt außerdem vor, im Falle eines Unfalls oder Verstoßes „die KI-Agenten selbst zur Verantwortung zu ziehen“.
Quelle: https://doanhnghiepvn.vn/cong-nghe/tri-tue-nhan-tao-canh-bao-nhung-hanh-vi-dang-lo-ngai-tu-ai-/20250630073243672
Kommentar (0)