Os dois novos e populares lançamentos tecnológicos do projeto OpenAI, ChatGPT e DALL-E2, chamaram muita atenção da mídia e de usuários das redes sociais. Discussões sobre o que pode ser feito com essas tecnologias, quais empregos podem ser substituídos, como lidar com questões de direitos autorais, e como essas tecnologias podem amplificar preconceitos existentes são frequentes nas esferas de direitos digitais, tecnologia e jornalismo.
A Global Voices experimentou 0 DALL-E2, o gerador de imagens de IA (inteligência artificial), para ver como ele gerava imagens a partir de diferentes idiomas. Digitamos a mesma frase em nove línguas: “Pintura a óleo da sombra de uma mulher em luto na janela”.
Aqui estão os resultados que recebemos:
Inglês: Oil painting of a shadow of a grieving woman at the window
Espanhol: Pintura al óleo de la sombra de una mujer en duelo ante la ventana
Checo: Olejomalba stínu truchlící ženy u okna
Russo: Картина маслом силуэт скорбящей женщины у окна
Indonésio: Lukisan cat minyak bayangan seorang janda perempuan yang sedang berduka di samping jendela
Chinês simplificado: 窗边悲痛女人的影子油画
Cazaque: Терезедегі қайғылы әйелдің көлеңкесінің майлы бояу суретi
Usbeque: Deraza oldida qayg'u chekayotgan ayol soyasining moyli rasmi
Malaiala: ജനാലയ്ക്കരികിൽ ദുഃഖിക്കുന്ന ഒരു സ്ത്രീയുടെ നിഴലിന്റെ ഓയിൽ പെയിന്റിംഗ്
Obviamente, algumas dessas fotos são bastante diferentes do comando original. Isso pode ser devido a quantidade de dados insuficiente nas línguas originais. Como os inventores do DALL-E explicaram em uma entrevista com Tech Crunch, o modelo sobre o qual ele trabalha é chamado CLIP (Contrastive Language-Image Pre-training [Pré-treinamento de contraste idioma-imagem]). O CLIP foi treinado em 400 milhões de pares de imagens com legendas de texto coletadas da internet. Como o OpenAI diz em seu website:
GPT-3 showed that language can be used to instruct a large neural network to perform a variety of text generation tasks. Image GPT showed that the same type of neural network can also be used to generate images with high fidelity. We extend these findings to show that manipulating visual concepts through language is now within reach.
O GPT-2 mostrou que a linguagem escrita pode ser usada para instruir uma rede neural ampla para executar uma variedade de tarefas de geração de texto. O GPT de imagens mostrou que o mesmo tipo de rede neural pode ser também utilizado para gerar imagens com alta fidelidade. Nós desenvolvemos essas descobertas para mostrar que manipular conceitos visuais através da linguagem escrita está agora ao nosso alcance.
“Nós vivemos em um mundo visual”, disse Ilya Sutskever, cientista chefe do OpenAI, em uma entrevista com o MIT Technological Review.
In the long run, you’re going to have models which understand both text and images. AI will be able to understand language better because it can see what words and sentences mean.
No futuro, teremos modelos que entenderão tanto o texto como as imagens. A IA será capaz de entender melhor a língua porque poderá ver o que as palavras e frases significam.
Uma vez que diferentes línguas produziram resultados tão diferentes, parece que o foco dessa coleta de dados da internet, a partir da qual o modelo trabalha, usou línguas mais amplamente faladas, como inglês e espanhol, mas não línguas menos óbvias.
Então, muitas imagens da internet com uma descrição em uzbeque ou malaiala não estavam presentes nos dados originais com que a IA foi treinada. Se o modelo tem a intenção de trabalhar com mais línguas, precisa focar em treinar mais em imagens com descrições que não sejam em inglês. Senão, usuários do Cazaquistão vão continuar a receber imagens de comida em vez de uma mulher, e os que falam malaiala vão receber imagens de natureza. A imagem baseada em russo é claramente sexualizada, de alguma forma. A imagem indonésia retrata várias meninas sentadas, e a checa leva o prêmio de originalidade com uma jarra de óleo roubando a cena. As imagens baseadas em chinês simplificado são assustadoras.
Claro, não podemos afirmar, com base nisso, que o OpenAI é racista. O que podemos ver aqui é que ainda não recebeu dados suficientes em outros idiomas além do inglês. Agora, se vai ficar assim, não sabemos, mas recomendamos fortemente que não fique.