تفيد التقارير بأن شركة OpenAI وشركة Handshake AI المتخصصة في بيانات التدريب تطلبان من المتعاقدين الخارجيين تحميل أمثلة من أعمال حقيقية أُنجزت في أدوار سابقة وحالية، مما يثير مخاوف بشأن الملكية الفكرية وخصوصية البيانات. ووفقًا لتقرير Wired، يبدو أن هذه المبادرة جزء من استراتيجية أوسع بين شركات الذكاء الاصطناعي للاستفادة من المتعاقدين في توليد بيانات تدريب عالية الجودة، بهدف أتمتة المزيد من مهام ذوي الياقات البيضاء في نهاية المطاف.
يطلب طلب OpenAI، الموضح في عرض تقديمي للشركة، من المتعاقدين تفصيل المهام التي أُنجزت في وظائف سابقة وتقديم أمثلة ملموسة لأعمالهم، بما في ذلك المستندات والعروض التقديمية وجداول البيانات والصور ومستودعات التعليمات البرمجية. وتوجه الشركة المتعاقدين بإزالة المعلومات السرية والشخصية التعريفية (PII) قبل تحميل هذه الملفات، وتقدم الوصول إلى "أداة تنظيف ChatGPT Superstar" للمساعدة في هذه العملية.
تسلط هذه الخطوة الضوء على الدور الحاسم للبيانات في تدريب نماذج اللغة الكبيرة (LLMs). تتعلم هذه النماذج، مثل سلسلة GPT من OpenAI، إنشاء نصوص بجودة بشرية من خلال تحليل مجموعات بيانات واسعة. تؤثر جودة وأهمية بيانات التدريب هذه بشكل مباشر على أداء النموذج وقدراته. باستخدام أمثلة واقعية من الأعمال المهنية، تهدف شركات الذكاء الاصطناعي إلى تحسين دقة وفعالية نماذجها في أتمتة المهام المعقدة.
ومع ذلك، تثير هذه الممارسة أسئلة قانونية وأخلاقية مهمة. صرح محامي الملكية الفكرية إيفان براون لـ Wired بأن هذا النهج يمثل خطرًا كبيرًا على مختبرات الذكاء الاصطناعي، لأنه يعتمد بشكل كبير على المتعاقدين لتحديد ما يشكل معلومات سرية بدقة. وذكر براون: "إن أي مختبر للذكاء الاصطناعي يتبع هذا النهج يعرض نفسه لخطر كبير من خلال نهج يتطلب الكثير من الثقة في المتعاقدين لاتخاذ قرار بشأن ما هو سري وما هو غير سري".
رفض متحدث باسم OpenAI التعليق على المبادرة المحددة.
يعكس استخدام البيانات المقدمة من المتعاقدين اتجاهًا متزايدًا في صناعة الذكاء الاصطناعي. مع ازدياد تطور نماذج الذكاء الاصطناعي، يزداد الطلب على بيانات تدريب عالية الجودة وواقعية. تستكشف الشركات طرقًا مختلفة للحصول على هذه البيانات، بما في ذلك توليد البيانات الاصطناعية، وكشط الويب، والشراكات مع مزودي البيانات. ومع ذلك، فإن الاعتماد على المتعاقدين يطرح تحديات فريدة تتعلق بأمن البيانات والخصوصية وحقوق الملكية الفكرية.
لا تزال الآثار الطويلة الأجل لاستراتيجية جمع البيانات هذه تتكشف. إذا نجحت، فقد تسرع أتمتة وظائف ذوي الياقات البيضاء، مما قد يؤثر على التوظيف في مختلف الصناعات. علاوة على ذلك، يثير استخدام البيانات الواقعية مخاوف بشأن التحيز والإنصاف في أنظمة الذكاء الاصطناعي. إذا كانت بيانات التدريب تعكس التحيزات المجتمعية القائمة، فقد تؤدي نماذج الذكاء الاصطناعي الناتجة إلى إدامة هذه التحيزات وتضخيمها.
لا يزال الوضع الحالي لمبادرة جمع البيانات الخاصة بـ OpenAI غير واضح. من غير المعروف عدد المتعاقدين الذين شاركوا أو حجم البيانات التي تم جمعها. مع استمرار شركات الذكاء الاصطناعي في اتباع هذه الاستراتيجية، فمن المرجح أن يشتد التدقيق التنظيمي والنقاش العام، مع التركيز على الحاجة إلى مبادئ توجيهية وضمانات واضحة لحماية الملكية الفكرية والخصوصية الفردية.
Discussion
Join the conversation
Be the first to comment