OpenAI und das Trainingsdaten-Unternehmen Handshake AI fordern Berichten zufolge von ihren externen Auftragnehmern, Beispiele für tatsächlich geleistete Arbeit aus früheren und aktuellen Positionen hochzuladen, was Bedenken hinsichtlich geistigen Eigentums und des Datenschutzes aufwirft. Laut einem Bericht von Wired scheint diese Initiative Teil einer umfassenderen Strategie von KI-Unternehmen zu sein, Auftragnehmer zur Generierung hochwertiger Trainingsdaten zu nutzen, mit dem letztendlichen Ziel, mehr Büroarbeit zu automatisieren.
Die Anfrage von OpenAI, die in einer Unternehmenspräsentation dargelegt wird, fordert Auftragnehmer auf, Aufgaben zu detaillieren, die sie in früheren Jobs ausgeführt haben, und konkrete Beispiele ihrer Arbeit zu liefern, darunter Dokumente, Präsentationen, Tabellenkalkulationen, Bilder und Code-Repositories. Das Unternehmen weist die Auftragnehmer an, firmeneigene und personenbezogene Daten (PII) vor dem Hochladen dieser Dateien zu entfernen, und bietet Zugang zu einem "ChatGPT Superstar Scrubbing Tool", um diesen Prozess zu unterstützen.
Der Schritt unterstreicht die entscheidende Rolle von Daten beim Training großer Sprachmodelle (LLMs). Diese Modelle, wie die GPT-Serie von OpenAI, lernen, menschenähnlichen Text zu generieren, indem sie riesige Datensätze analysieren. Die Qualität und Relevanz dieser Trainingsdaten wirken sich direkt auf die Leistung und die Fähigkeiten des Modells aus. Durch die Verwendung von realen Beispielen professioneller Arbeit wollen KI-Unternehmen die Genauigkeit und Effektivität ihrer Modelle bei der Automatisierung komplexer Aufgaben verbessern.
Die Praxis wirft jedoch erhebliche rechtliche und ethische Fragen auf. Der Anwalt für geistiges Eigentum, Evan Brown, sagte gegenüber Wired, dass dieser Ansatz ein erhebliches Risiko für KI-Labore darstellt, da er stark darauf angewiesen ist, dass Auftragnehmer genau bestimmen, was vertrauliche Informationen sind. "Jedes KI-Labor, das diesen Ansatz verfolgt, setzt sich einem großen Risiko aus, da es stark darauf vertrauen muss, dass seine Auftragnehmer entscheiden, was vertraulich ist und was nicht", so Brown.
Ein Sprecher von OpenAI lehnte eine Stellungnahme zu der konkreten Initiative ab.
Die Verwendung von Daten, die von Auftragnehmern bereitgestellt werden, spiegelt einen wachsenden Trend in der KI-Industrie wider. Da KI-Modelle immer ausgefeilter werden, steigt die Nachfrage nach hochwertigen, realen Trainingsdaten. Unternehmen erforschen verschiedene Methoden, um diese Daten zu erhalten, darunter die Generierung synthetischer Daten, Web Scraping und Partnerschaften mit Datenanbietern. Die Abhängigkeit von Auftragnehmern birgt jedoch einzigartige Herausforderungen in Bezug auf Datensicherheit, Datenschutz und Rechte an geistigem Eigentum.
Die langfristigen Auswirkungen dieser Datenerfassungsstrategie sind noch nicht absehbar. Wenn sie erfolgreich ist, könnte sie die Automatisierung von Büroarbeitsplätzen beschleunigen und möglicherweise Auswirkungen auf die Beschäftigung in verschiedenen Branchen haben. Darüber hinaus wirft die Verwendung von realen Daten Bedenken hinsichtlich Voreingenommenheit und Fairness in KI-Systemen auf. Wenn die Trainingsdaten bestehende gesellschaftliche Vorurteile widerspiegeln, können die resultierenden KI-Modelle diese Vorurteile verstärken.
Der aktuelle Stand der Datenerfassungsinitiative von OpenAI ist unklar. Es ist nicht bekannt, wie viele Auftragnehmer teilgenommen haben oder welches Datenvolumen erfasst wurde. Da KI-Unternehmen diese Strategie weiter verfolgen, ist es wahrscheinlich, dass die behördliche Kontrolle und die öffentliche Debatte zunehmen werden, wobei der Schwerpunkt auf der Notwendigkeit klarer Richtlinien und Schutzmaßnahmen zum Schutz des geistigen Eigentums und der Privatsphäre des Einzelnen liegen wird.
Discussion
Join the conversation
Be the first to comment