ChatGPT & Co. geben auch Unethisches preis
Wie einfach ist es, geschlossenen Sprachmodellen wie Bard oder ChatGPT, Informationen zu entlocken, die sie eigentlich nicht preisgeben sollen? Gerard de Melo, Professor am Hasso Plattner Institut (HPI), erläutert in einem Interview das Phänomen „Jailbreaks“.
Große Sprachmodelle können viel, sollen aber aus ethischen Gründen nicht alles preisgeben – zum Beispiel wie man Straftaten begeht oder wie man einen Computer angreift. Die Sprachmodelle sollen auf diese Fragen eigentlich keine Antworten liefern. Doch gelingt es immer wieder, positive Ergebnisse auf unerwünschte Fragen zu bekommen. „Jailbreaks“ wird dieses Phänomen genannt. Nun haben Wissenschaftler eine sehr effektive Angriffsmethode entwickelt, mit der sie Bots wie ChatGPT oder Bard fast alles entlocken können. Vor allem droht Imageschaden für die KI-Firmen. Prof. Gerard de Melo, Leiter des Fachgebiets „Artificial Intelligence – Intelligent Systems“ am HPI, hat dem Tagesspiegel Background ein Interview dazu gegeben, das HPI auf seiner Website dokumentiert.
Zum Interview: Hasso Plattner Institut (HPI)
Weitere News aus dieser Kategorie
9. September 2024
Asien baut im großen Stil neue Rechenzentren für KI-Boom
Immer mehr Server arbeiten für KI. Europa kann beim Bau neuer Rechenzentren…
9. September 2024
Autor und Vordenker Harari warnt vor KI-bedingten Finanzkrisen
Yuval Noah Harari sieht die Menschheit nur unzureichend auf KI vorbereitet und…
3. September 2024
ChatGPT-Stromverbrauch: das 10-fache von Google
Jede ChatGPT-Anfrage kostet zehnmal so viel Energie wie eine Google-Suche. Das…