Según informes, OpenAI y la empresa de datos de entrenamiento Handshake AI están solicitando a sus contratistas externos que suban ejemplos de trabajo real completado en roles pasados y actuales, lo que genera preocupación por la propiedad intelectual y la privacidad de los datos. Según un informe de Wired, esta iniciativa parece ser parte de una estrategia más amplia entre las empresas de IA para aprovechar a los contratistas en la generación de datos de entrenamiento de alta calidad, con el objetivo final de automatizar más tareas de oficina.
La solicitud de OpenAI, descrita en una presentación de la empresa, pide a los contratistas que detallen las tareas realizadas en trabajos anteriores y que proporcionen ejemplos concretos de su trabajo, incluidos documentos, presentaciones, hojas de cálculo, imágenes y repositorios de código. La empresa indica a los contratistas que eliminen la información patentada y la información de identificación personal (PII) antes de subir estos archivos, ofreciendo acceso a una "herramienta de limpieza ChatGPT Superstar" para ayudar en este proceso.
La medida destaca el papel fundamental de los datos en el entrenamiento de modelos de lenguaje grandes (LLM). Estos modelos, como la serie GPT de OpenAI, aprenden a generar texto de calidad humana analizando vastos conjuntos de datos. La calidad y la relevancia de estos datos de entrenamiento influyen directamente en el rendimiento y las capacidades del modelo. Al utilizar ejemplos reales de trabajo profesional, las empresas de IA pretenden mejorar la precisión y la eficacia de sus modelos en la automatización de tareas complejas.
Sin embargo, la práctica plantea importantes cuestiones legales y éticas. El abogado especializado en propiedad intelectual Evan Brown declaró a Wired que este enfoque plantea un riesgo considerable para los laboratorios de IA, ya que depende en gran medida de que los contratistas determinen con precisión lo que constituye información confidencial. "Cualquier laboratorio de IA que adopte este enfoque se está poniendo en gran riesgo con un enfoque que requiere mucha confianza en sus contratistas para decidir qué es y qué no es confidencial", afirmó Brown.
Un portavoz de OpenAI declinó hacer comentarios sobre la iniciativa específica.
El uso de datos proporcionados por contratistas refleja una tendencia creciente en la industria de la IA. A medida que los modelos de IA se vuelven más sofisticados, aumenta la demanda de datos de entrenamiento de alta calidad y del mundo real. Las empresas están explorando varios métodos para obtener estos datos, incluida la generación de datos sintéticos, el web scraping y las asociaciones con proveedores de datos. Sin embargo, la dependencia de los contratistas introduce desafíos únicos relacionados con la seguridad de los datos, la privacidad y los derechos de propiedad intelectual.
Las implicaciones a largo plazo de esta estrategia de recopilación de datos aún se están desarrollando. Si tiene éxito, podría acelerar la automatización de los trabajos de oficina, lo que podría afectar al empleo en varios sectores. Además, el uso de datos del mundo real plantea preocupaciones sobre el sesgo y la equidad en los sistemas de IA. Si los datos de entrenamiento reflejan los sesgos sociales existentes, los modelos de IA resultantes pueden perpetuar y amplificar estos sesgos.
El estado actual de la iniciativa de recopilación de datos de OpenAI no está claro. Se desconoce cuántos contratistas han participado o el volumen de datos que se han recopilado. A medida que las empresas de IA sigan aplicando esta estrategia, es probable que se intensifiquen el escrutinio regulatorio y el debate público, centrándose en la necesidad de directrices y salvaguardias claras para proteger la propiedad intelectual y la privacidad individual.
Discussion
Join the conversation
Be the first to comment