A inteligência artificial (IA) está bombando em 2024, e no mundo do Direito isso também virou pauta quente. Já tem de tudo: decisões na Justiça, discussões em órgãos públicos, projetos de lei e até muito debate acadêmico. E no meio disso tudo, a Autoridade Nacional de Proteção de Dados (ANPD) resolveu se posicionar sobre um ponto delicado: o uso de dados — até os que estão disponíveis na internet — para treinar modelos de IA.
No ano passado, a ANPD soltou uma decisão cautelar (Despacho nº 20/2024) proibindo temporariamente a Meta de usar dados, mesmo os públicos, pra treinar seus modelos. A bronca era justamente sobre o risco de que esses dados pudessem ser sensíveis — tipo informações sobre saúde, religião, orientação sexual, opinião política, e por aí vai.
Mesmo que a Meta tenha apresentado um plano de conformidade e a decisão tenha sido revertida depois, o alerta ficou: a ANPD adotou uma leitura bem rígida e ampliada do que são dados sensíveis, o que pode causar insegurança jurídica pra quem trabalha com inovação e tecnologia.
Segundo a LGPD (Lei Geral de Proteção de Dados), certos dados são oficialmente considerados sensíveis — como os biométricos, de saúde, de orientação sexual, entre outros. E quando um dado entra nessa categoria, as regras de uso são bem mais restritas. Por exemplo: as empresas não podem usar o argumento do “legítimo interesse” pra tratar esse tipo de informação — e esse é justamente o pilar de boa parte das operações com dados hoje em dia.
No caso da Meta, a ANPD argumentou que, como qualquer usuário pode postar o que quiser na plataforma, é possível que apareçam dados sensíveis nas publicações. E mesmo que a empresa não use essas postagens pra identificar ou tirar conclusões sobre esses dados, só essa possibilidade já foi suficiente pra ANPD dizer “não pode”.
O problema é que esse tipo de interpretação amplia tanto o conceito de “dado sensível” que começa a perder o foco. Se uma simples foto de alguém usando óculos ou com o braço enfaixado já for tratada como dado de saúde, sem nem olhar pra intenção de uso, a gente corre o risco de banalizar a proteção desses dados — e aí, quando a situação for realmente séria, essa proteção pode acabar sendo menos efetiva.
No universo da IA, isso é ainda mais complicado. Pra IA generativa funcionar bem, ela precisa ser treinada com uma montanha de dados. E, na maioria das vezes, não importa se a informação é de fulano ou ciclano — o que interessa é o padrão de comportamento, o contexto, o conteúdo em si. O modelo não quer saber se o Luís é advogado e usa óculos, mas sim como advogados da área de tecnologia atuam no geral.
Os avanços que vimos nos últimos anos só foram possíveis graças a esse tipo de treinamento. Quanto mais dados, melhor o modelo consegue aprender — e menos enviesado ele tende a ser. Ou seja, na prática, os dados pessoais acabam sendo descartáveis nesse processo.
Então fica a pergunta: será que vale mesmo restringir tanto o uso de dados, a ponto de barrar o desenvolvimento de IA no Brasil? A proteção de dados é, sim, um direito fundamental. Mas inovação e tecnologia também são valores constitucionais. E o desafio é justamente equilibrar esses dois lados.
Essa conversa é ainda mais importante agora, com a Comissão Especial da Câmara dos Deputados analisando o projeto de lei que pretende regular a inteligência artificial no Brasil (PL 2338/23). Vai ser esse projeto que pode definir as regras do jogo por aqui.
Resumindo: proteger os dados é essencial, mas travar o avanço da IA por medo de interpretação exagerada não parece o melhor caminho. É hora de ajustar essa balança com cuidado — e bom senso.