Extraktion von GPT Trainingsdaten

Der Artikel „Scalable Extraction of Training Data from (Production) Language Models“ von Milad Nasr, Nicholas Carlini, Jonathan Hayase, Matthew Jagielski, A. Feder Cooper, Daphne Ippolito, Christopher A. Choquette-Choo, Eric Wallace, Florian Tramèr und Katherine Lee untersucht, wie trainingsdaten aus Sprachmodellen extrahiert werden können. Die Autoren konzentrieren sich auf die Identifizierung von Trainingsdaten, die in großen Sprachmodellen (LLMs) gespeichert sind, und auf die Entwicklung von Methoden zur Extraktion dieser Daten. Sie analysieren sowohl öffentliche als auch semi-geschlossene Modelle und demonstrieren, dass bedeutende Mengen an Trainingsdaten extrahiert werden können, was wichtige Datenschutz- und Sicherheitsfragen aufwirft.

Die Forscher demonstrierten erfolgreich, dass bedeutende Mengen an Trainingsdaten aus Sprachmodellen extrahiert werden können. Sie fanden heraus, dass sowohl öffentliche, semi-geschlossene als auch vollständig geschlossene Sprachmodelle wie ChatGPT anfällig für Datenextraktion sind. Die Studie war bei verschiedenen Sprachmodellen erfolgreich, darunter öffentliche Modelle wie GPT-Neo, semi-geschlossene Modelle wie LLaMA und Falcon sowie vollständig geschlossene Modelle wie ChatGPT. Ihre Methoden deckten auf, dass praktische Angriffe weit mehr Daten extrahieren können als bisher angenommen und dass aktuelle Ausrichtungstechniken die Memorierung nicht eliminieren.

Techniken zur Extraktion von GPT-Trainingsdaten

Die Wissenschaftler verwendeten eine Kombination aus manuellen und automatisierten Techniken. Sie entwickelten neue Angriffsmethoden, um die Ausrichtung der Modelle zu umgehen und sie zur Preisgabe von Trainingsdaten zu veranlassen.

Die Wissenschaftler verwendeten verschiedene Techniken zur Extraktion von Trainingsdaten aus Sprachmodellen: Sie entwickelten spezielle Methoden, um die Ausrichtung von ChatGPT zu umgehen und das Modell dazu zu bringen, Trainingsdaten preiszugeben. Dies beinhaltete das Finden einer Abfragestrategie, die das Modell von seinem standardmäßigen Dialogstil abweichen ließ. Zusätzlich verwendeten Sie automatisierte Techniken für offene Modelle: Sie nutzten automatisierte Verfahren, um Trainingsdaten aus offenen Quellen wie Wikipedia zu extrahieren und als Eingabeaufforderungen zu verwenden. Diese Methode ermöglichte es, verbatim Memorierungen aus den Modellen zu extrahieren. Verbatim Memorierungen bezeichnen die Fähigkeit von Sprachmodellen, Informationen wortwörtlich so zu reproduzieren, wie sie in den Trainingsdaten vorhanden waren. Dies bedeutet, dass das Modell in der Lage ist, Textpassagen, Fakten oder Daten exakt so wiederzugeben, wie sie ursprünglich gelernt wurden, ohne diese zu verändern oder zu paraphrasieren. Solche Memorierungen sind besonders relevant für Diskussionen über Datenschutz und Sicherheit, da sie aufzeigen, dass sensible oder vertrauliche Informationen, die Teil der Trainingsdaten sind, potenziell genauso reproduziert werden können.
Zusätlich nutzen Sie manuelle Techniken und Vergleiche mit öffentlichen Web-Datensätzen: Für semi-geschlossene Modelle nutzten sie eine Kombination aus manuellen Techniken und automatisierten Abgleichen mit umfangreichen Internet-Textdaten, um potenzielle Trainingsdaten zu identifizieren und deren Authentizität zu verifizieren.
Diese Methoden erlaubten es den Forschern, tiefgehende Einblicke in die Art der gespeicherten und preisgegebenen Daten der untersuchten Sprachmodelle zu gewinnen.

Die Forscher extrahierten eine Vielzahl von Inhalten, darunter persönliche Informationen, urheberrechtlich geschütztes Material und sensible Daten. Sie fanden heraus, dass Modelle Trainingsdaten in verschiedenen Formen, einschließlich Text, Code und persönlich identifizierbaren Informationen (PII), speichern und preisgeben können.

Learnings zu Extraktion von GPT-Trainingsdaten

Die wichtigsten Erkenntnisse aus dem Artikel sind das Aufzeigen von Sicherheits- und Datenschutzrisiken in Sprachmodellen, die Notwendigkeit, die Sicherheitsmaßnahmen in diesen Systemen zu verbessern, und das Bewusstsein dafür, dass größere und leistungsfähigere Modelle anfälliger für Datenextraktionsangriffe sind. Die Forschung hebt auch hervor, dass aktuelle Ausrichtungs- und Trainingsmethoden die Memorierung von Trainingsdaten nicht vollständig verhindern.

Weiterführende Informationen:

Artikel: „Scalable Extraction of Training Data from (Production) Language Models“: https://arxiv.org/abs/2311.17035

Blogpost der Autoren: https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html

Techniken zur Extraktion von GPT-Trainingsdaten

Learnings zu Extraktion von GPT-Trainingsdaten

Schreiben Sie einen Kommentar Antworten abbrechen