कथित तौर पर OpenAI और प्रशिक्षण डेटा फर्म हैंडशेक AI अपने तीसरे पक्ष के ठेकेदारों से उनके पिछले और वर्तमान भूमिकाओं में पूरे किए गए वास्तविक कार्यों के उदाहरण अपलोड करने का अनुरोध कर रहे हैं, जिससे बौद्धिक संपदा और डेटा गोपनीयता के बारे में चिंताएँ बढ़ रही हैं। वायर्ड की एक रिपोर्ट के अनुसार, यह पहल AI कंपनियों के बीच उच्च-गुणवत्ता वाले प्रशिक्षण डेटा उत्पन्न करने के लिए ठेकेदारों का लाभ उठाने की एक व्यापक रणनीति का हिस्सा प्रतीत होती है, जिसका अंतिम लक्ष्य अधिक व्हाइट-कॉलर कार्यों को स्वचालित करना है।
OpenAI के अनुरोध में, एक कंपनी प्रस्तुति में उल्लिखित, ठेकेदारों को पिछली नौकरियों में किए गए कार्यों का विवरण देने और उनके काम के ठोस उदाहरण प्रदान करने के लिए कहा गया है, जिसमें दस्तावेज़, प्रस्तुतियाँ, स्प्रेडशीट, चित्र और कोड रिपॉजिटरी शामिल हैं। कंपनी ठेकेदारों को इन फ़ाइलों को अपलोड करने से पहले मालिकाना और व्यक्तिगत रूप से पहचान योग्य जानकारी (PII) हटाने का निर्देश देती है, और इस प्रक्रिया में सहायता के लिए "ChatGPT सुपरस्टार स्क्रबिंग टूल" तक पहुँच प्रदान करती है।
यह कदम बड़े भाषा मॉडल (LLM) को प्रशिक्षित करने में डेटा की महत्वपूर्ण भूमिका पर प्रकाश डालता है। OpenAI की GPT श्रृंखला जैसे ये मॉडल, विशाल डेटासेट का विश्लेषण करके मानव-गुणवत्ता वाला टेक्स्ट उत्पन्न करना सीखते हैं। इस प्रशिक्षण डेटा की गुणवत्ता और प्रासंगिकता सीधे मॉडल के प्रदर्शन और क्षमताओं को प्रभावित करती है। पेशेवर काम के वास्तविक दुनिया के उदाहरणों का उपयोग करके, AI कंपनियों का लक्ष्य जटिल कार्यों को स्वचालित करने में अपने मॉडल की सटीकता और प्रभावशीलता में सुधार करना है।
हालांकि, यह अभ्यास महत्वपूर्ण कानूनी और नैतिक प्रश्न उठाता है। बौद्धिक संपदा वकील इवान ब्राउन ने वायर्ड को बताया कि यह दृष्टिकोण AI प्रयोगशालाओं के लिए एक महत्वपूर्ण जोखिम पैदा करता है, क्योंकि यह इस बात को सटीक रूप से निर्धारित करने के लिए ठेकेदारों पर बहुत अधिक निर्भर करता है कि गोपनीय जानकारी क्या है। ब्राउन ने कहा, "कोई भी AI लैब जो इस दृष्टिकोण को अपना रही है, वह अपने आप को बहुत जोखिम में डाल रही है, जिसके लिए यह तय करने के लिए अपने ठेकेदारों पर बहुत अधिक विश्वास करने की आवश्यकता है कि क्या गोपनीय है और क्या नहीं।"
OpenAI के एक प्रवक्ता ने विशिष्ट पहल पर टिप्पणी करने से इनकार कर दिया।
ठेकेदार द्वारा प्रदान किए गए डेटा का उपयोग AI उद्योग में एक बढ़ती प्रवृत्ति को दर्शाता है। जैसे-जैसे AI मॉडल अधिक परिष्कृत होते जाते हैं, उच्च-गुणवत्ता वाले, वास्तविक दुनिया के प्रशिक्षण डेटा की मांग बढ़ती जाती है। कंपनियां इस डेटा को प्राप्त करने के लिए विभिन्न तरीकों की खोज कर रही हैं, जिसमें सिंथेटिक डेटा जनरेशन, वेब स्क्रैपिंग और डेटा प्रदाताओं के साथ साझेदारी शामिल है। हालांकि, ठेकेदारों पर निर्भरता डेटा सुरक्षा, गोपनीयता और बौद्धिक संपदा अधिकारों से संबंधित अनूठी चुनौतियां पेश करती है।
इस डेटा संग्रह रणनीति के दीर्घकालिक निहितार्थ अभी भी सामने आ रहे हैं। यदि सफल रहा, तो यह व्हाइट-कॉलर नौकरियों के स्वचालन को गति दे सकता है, जिससे विभिन्न उद्योगों में रोजगार प्रभावित हो सकता है। इसके अलावा, वास्तविक दुनिया के डेटा के उपयोग से AI सिस्टम में पूर्वाग्रह और निष्पक्षता के बारे में चिंताएँ बढ़ जाती हैं। यदि प्रशिक्षण डेटा मौजूदा सामाजिक पूर्वाग्रहों को दर्शाता है, तो परिणामी AI मॉडल इन पूर्वाग्रहों को कायम रख सकते हैं और बढ़ा सकते हैं।
OpenAI की डेटा संग्रह पहल की वर्तमान स्थिति अस्पष्ट बनी हुई है। यह अज्ञात है कि कितने ठेकेदारों ने भाग लिया है या डेटा की मात्रा कितनी एकत्र की गई है। जैसे-जैसे AI कंपनियां इस रणनीति को आगे बढ़ाना जारी रखती हैं, यह संभावना है कि नियामक जांच और सार्वजनिक बहस तेज होगी, जो बौद्धिक संपदा और व्यक्तिगत गोपनीयता की रक्षा के लिए स्पष्ट दिशानिर्देशों और सुरक्षा उपायों की आवश्यकता पर ध्यान केंद्रित करेगी।
Discussion
Join the conversation
Be the first to comment