dezembro 25, 2022

Média Artificiais (artificial media)

2022 ficará na história como o ano em que a Inteligência Artificial foi reconhecida pelas suas capacidades criativas. 

No dia 30 de novembro a OpenAI colocou na rede, em acesso gratuito, um assistente de IA, o ChatGPT, que em apenas 5 dias conseguiu mais de um milhão de utilizadores, alimentados pela curiosidade de contactar com as suas capacidades extraordinárias de conversação. No meio dos muitos defeitos que lhe fomos encontrando —erros factuais, invenção de dados, excesso de confiança, ou falta de “voz” —, todos tivemos de reconhecer que nunca tínhamos visto nada igual. É possível entrar em diálogo com o assistente, conversar sobre a mais ampla gama de assuntos e gerar momentos de profunda partilha empática construída a partir da autoilusão com base na naturalidade, eloquência e compreensão discursiva do assistente.

Mas não foi apenas a conversação que foi tomada de assalto. Meses antes, a 12 de julho, tinha sido divulgado um outro assistente, o Midjourney, depois, a 22 de agosto, era também divulgado o Stable Diffusion da Ludwig Maximilian University de Munich, e ainda a 28 de setembro, a OpenAI disponibilizava a todos o Dall-E 2. Estes três assistentes de IA partilham as mesmas competências de desenho de imagens, com a particularidade de apresentarem resultados originais, simultaneamente muito humanos, como se tivessem sido criados por seres humanos. 

A conversação e o desenho são atividades bastante próximas e profundamente criativas. Do mesmo modo como vamos improvisando com um lápis num papel, assim vamos improvisando na criação de respostas, em tempo real, às interações com o outro. Por isso, interessa perceber o que originou estas novas capacidades das máquinas, tendo em conta que a IA já andava por aí há quase 70 anos. 

Até há alguns anos, construía-se IA a partir de meros algoritmos, como se estivéssemos a esculpir um modelo do pensar, na expectativa de chegar a algo capaz de reconhecer o mundo e a si mesma. Mas os desenvolvimentos de IA começaram a mudar com o Deep Blue que para vencer Garry Gasparov, em 1997, estudou milhares de jogadas de xadrez antes. Desde então a abordagem passou a focar-se na aprendizagem, no ensino e auto-ensino dos sistemas de IA, o Machine Learning (ML), para o que a internet veio contribuir com o acesso a cada vez maiores bases de dados. O processo de treino da IA foi transformacional, não só porque permitiu aos assistentes encontrar padrões parecidos e assim descobrir a chave do significado por meio da mera comparação, mas especialmente, porque deste processo se desenvolvem as chamadas redes neurais artificiais, em que cada conceito ou ideia é interligada a centenas de outras ideias por meio de parâmetros apreendidos pela própria IA.

De forma simplista, quando olhamos para uma caneta, conseguimos estabelecer pouco mais de 4 a 6 parâmetros que a definam — ex. cor: azul; efeito: metálico; brilho: dourado; comprimento: 7cm; largura: 0,5cm. Já um assistente, munido de um conjunto de algoritmos de ML, consegue, por meio de comparações estabelecidas dentro dessas enormes bases de dados, encontrar e definir não apenas algumas dezenas, mas mesmo centenas de parâmetros que definem a mesma caneta (ver Figura 1). Parâmetros que nós, humanos, podemos não conseguir, de forma consciente, ver, ouvir, sentir ou sequer compreender. Mas são esses parâmetros que permitem acesso a uma realidade imensamente fina, provavelmente inacessível ao cérebro humano, que possibilita ao assistente prever as melhores palavras a escrever, umas a seguir às outras, assim como a melhor cor, traço, sombra, volume, escala a assumir no desenho de uma imagem.

Figura 1: Camadas múltiplas de parâmetros, e suas interligações, numa rede neural profunda. O GPT-3, que é o sistema mais avançado do momento, é constituído por 96 camadas de neurónios artificiais, totalizando 175 mil milhões de interconexões [1].

Naturalmente, este processo de aprendizagem a partir de grandes bases de dados criadas por seres humanos apresenta grandes problemas que vão dos vieses embebidos aos direitos autorais dos conteúdos nelas presentes. Se no texto o viés se torna rapidamente claro, com os assistentes a regurgitar muitos dos preconceitos morais que trespassam a internet, é nas imagens que mais problemas se têm levantado. Os assistentes estão a usar bases de dados de imagens, como a LAION, criadas para efeitos de investigação científica. Como o objetivo era o de construir assistentes o mais avançados possíveis, e assim contribuir para a inovação humana, foi permitido a estas bases de dados catalogarem praticamente tudo aquilo que iam encontrando na net.

Figura 2: Stable Diffusion “sonhando segundo”, da esquerda para direita, Gustave Doré, Sebastião Salgado e Loish

Assim, foram catalogadas centenas de milhões de imagens pertencentes a todos, desde a imagem captada pelo mais comum cidadão e colocada no Flickr, até imagens elaboradas de fotógrafos, assim como ilustrações ou pinturas altamente detalhadas de artistas — que podem ser encontrados em jornais, revistas, museus, assim como em portfolios online DeviantArt, ArtStation, Behance, etc. Por isso, se pedirmos a um destes assistentes para nos dar uma imagem seguindo o estilo de Gustave Doré, Sebastião Salgado ou Loish, ele não tem qualquer problema em realizar o nosso desejo, como se pode ver na Figura 2. Se esta capacidade criativa da IA é notável, subjacente a ela surgem duas questões inevitáveis: 1) quem é que deu autorização para usarem as imagens destes autores?; 2) quem é que deu autorização para copiarem e criarem versões dessas imagens? As respostas que temos no final de 2022 não são boas. No caso do Stable Diffusion, apesar do Professor Björn Ommer, dizer “We did not go through the Internet and find the images ourselves”, na verdade estão a usar a LAION. Já no MidJourney, David Holz assume que usaram imagens retiradas da internet sem qualquer consentimento, não fazendo sequer ideia de quem são as imagens que usaram.
 
Figura 3: Imagens criadas no Midjourney. 

Apesar destes problemas, que darão muita discussão nos próximos anos e provavelmente nova legislação, podemos dizer que no campo criativo chegámos a um ponto de não-retorno. Repare-se que a criatividade se define pela capacidade do ser humano em “making unfamiliar combinations of familiar ideas” [2], que é exatamente aquilo que estes sistemas de AI nos oferecem, como podemos ver na figura 3. Mas este ponto de não-retorno não acontece apenas no domínio do texto e das imagens, a partir deste processo computacional “simples” todo o mundo da criação multimédia está a ser transformado num completo novo mundo artificial. Qualquer pessoa pode, hoje, por meio de simples texto pedir aos assistentes de IA criativa (ver Figura 4) que criem histórias, notícias, desenhos, títulos, pinturas, fotografias, gráficos, músicas, vozes ou animações. Estes novos média artificiais podem mesmo ganhar festivais e concursos [3]. Neste momento, qualquer pessoa sem qualquer conhecimento de programação pode pedir orientação a um assistente de IA no desenvolvimento de uma nova aplicação, e tê-la a criar todo o código necessário na linguagem de programação que desejar.


Figura 4 – Os média artificiais definem os assistentes de IA que possibilitam as criações de arte e comunicação. Para uma lista exaustiva de assistentes de IA visitem a Futurepedia

Neste novo mundo artificial, o ser humano será cada vez menos o fazedor. O computador pode fazer, criar, misturar, repetir dezenas ou centenas de vezes por hora até nos oferecer aquilo que procuramos. O humano deixa assim de ter de se preocupar com as questões práticas da arte, assim como com as complexidades materiais de cada média. Qualquer pessoa poderá criar qualquer coisa, o que sendo verdade não se traduzirá no facto de qualquer um poder vir a criar aquilo que muitos de nós desejarão experienciar. Mas já tivemos esta mesma conversa a propósito da Web 2.0 (ex. 4, 5). Neste novo mundo, o humano será diretor de arte, design ou comunicação, para o que necessitará, não de menos, mas de mais, muito mais literacia sobre as média artes que estiver a utilizar. 


Notas:

[1] Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., . . . Amodei, D. (2020). Language models are few-shot learners. arXiv:2005.14165. https://arxiv.org/pdf/2005.14165.pdf

[2] Boden, M. (2007). Creativity in a nutshell. Think, 5(15), 83-96. doi:10.1017/S147717560000230X 

[3] Glenn Marshall venceu o Best Short Short no Cannes Short Film Festival com "The Crow" (2022), enquanto Jason Allen, ganhou um concurso de fotografia digital com “Théâtre D’opéra Spatial”.  

[4] Keen, A. (2007). The Cult of the Amateur: How blogs, MySpace, YouTube and the rest of today's user-generated media are killing our culture and economy. Hachette UK. 

[5] Anderson, C. (2006). The Long Tail: Why the Future of Business is Selling Less of More, Hyperion NY.


Texto publicado em inglês no Medium.


1 comentário: