A OpenAI e a empresa de dados de treinamento Handshake AI estão, segundo relatos, solicitando que seus contratados terceirizados carreguem exemplos de trabalho real concluído em funções passadas e atuais, levantando preocupações sobre propriedade intelectual e privacidade de dados. De acordo com uma reportagem da Wired, esta iniciativa parece fazer parte de uma estratégia mais ampla entre as empresas de IA para alavancar contratados para gerar dados de treinamento de alta qualidade, com o objetivo final de automatizar mais tarefas de escritório.
O pedido da OpenAI, delineado em uma apresentação da empresa, solicita que os contratados detalhem as tarefas desempenhadas em empregos anteriores e forneçam exemplos concretos de seu trabalho, incluindo documentos, apresentações, planilhas, imagens e repositórios de código. A empresa instrui os contratados a remover informações proprietárias e informações de identificação pessoal (PII) antes de carregar esses arquivos, oferecendo acesso a uma "ferramenta de limpeza ChatGPT Superstar" para auxiliar neste processo.
A medida destaca o papel crítico dos dados no treinamento de grandes modelos de linguagem (LLMs). Esses modelos, como a série GPT da OpenAI, aprendem a gerar texto com qualidade humana analisando vastos conjuntos de dados. A qualidade e a relevância desses dados de treinamento impactam diretamente o desempenho e as capacidades do modelo. Ao usar exemplos reais de trabalho profissional, as empresas de IA visam melhorar a precisão e a eficácia de seus modelos na automação de tarefas complexas.
No entanto, a prática levanta questões legais e éticas significativas. O advogado de propriedade intelectual Evan Brown disse à Wired que essa abordagem representa um risco considerável para os laboratórios de IA, pois depende fortemente dos contratados para determinar com precisão o que constitui informação confidencial. "Qualquer laboratório de IA que adote essa abordagem está se colocando em grande risco com uma abordagem que exige muita confiança em seus contratados para decidir o que é e o que não é confidencial", afirmou Brown.
Um porta-voz da OpenAI se recusou a comentar sobre a iniciativa específica.
O uso de dados fornecidos por contratados reflete uma tendência crescente na indústria de IA. À medida que os modelos de IA se tornam mais sofisticados, a demanda por dados de treinamento de alta qualidade e do mundo real aumenta. As empresas estão explorando vários métodos para obter esses dados, incluindo geração de dados sintéticos, web scraping e parcerias com provedores de dados. A dependência de contratados, no entanto, introduz desafios únicos relacionados à segurança de dados, privacidade e direitos de propriedade intelectual.
As implicações a longo prazo desta estratégia de coleta de dados ainda estão se desenrolando. Se bem-sucedida, poderá acelerar a automação de empregos de escritório, impactando potencialmente o emprego em vários setores. Além disso, o uso de dados do mundo real levanta preocupações sobre viés e justiça em sistemas de IA. Se os dados de treinamento refletirem os preconceitos sociais existentes, os modelos de IA resultantes poderão perpetuar e amplificar esses preconceitos.
O status atual da iniciativa de coleta de dados da OpenAI permanece incerto. Não se sabe quantos contratados participaram ou o volume de dados que foi coletado. À medida que as empresas de IA continuam a seguir esta estratégia, é provável que o escrutínio regulatório e o debate público se intensifiquem, concentrando-se na necessidade de diretrizes e salvaguardas claras para proteger a propriedade intelectual e a privacidade individual.
Discussion
Join the conversation
Be the first to comment