Modelos de linguagem são explicáveis?

Como inventários podem reconciliar transparência e desempenho na era da IA Generativa.

1. Introdução

Os avanços recentes em inteligência artificial generativa, especialmente no desenvolvimento de modelos de linguagem de grande porte (Large Language Models – LLMs), têm transformado profundamente a forma como informações são processadas, geradas e aplicadas. Esses modelos demonstram capacidades notáveis na produção de linguagem natural, geração de conteúdo multimodal e simulação de raciocínio complexo, aproximando-se de padrões humanos em diversas tarefas cognitivas.

Contudo, sua crescente sofisticação técnica tem sido acompanhada por desafios igualmente complexos no campo da governança. A dificuldade em compreender, auditar e explicar os processos internos de decisão dos LLMs levanta preocupações em áreas como segurança, responsabilidade e conformidade regulatória. Por exemplo, em sistemas de triagem de crédito, um LLM pode rejeitar um candidato com base em padrões aprendidos, sem que os desenvolvedores ou auditores consigam identificar claramente os fatores que levaram à decisão. A ausência de rastreabilidade clara, aliada à opacidade algorítmica, impacta diretamente a confiança dos usuários e dificulta a implementação de práticas de governança compatíveis com os princípios de transparência e justiça.

Uma questão central emerge desse contexto: como é possível governar modelos cujo funcionamento interno desafia os próprios limites da interpretabilidade técnica? Afinal, os LLMs são, de fato, explicáveis? Embora técnicas de explicação pós-decisão e mecanismos de supervisão humana ofereçam algum grau de mitigação, ainda estamos longe de alcançar uma explicabilidade plena. Além disso, cresce a tensão entre desempenho e transparência: modelos mais eficientes tendem a ser também mais difíceis de compreender, o que impõe dilemas éticos e operacionais em aplicações sensíveis, como saúde, crédito e justiça.

Este artigo propõe explorar abordagens de governança aplicadas aos LLMs, com foco em estratégias que mitiguem sua opacidade. Em especial, será analisado o papel dos inventários de modelos como ferramenta prática para aprimorar a rastreabilidade e a interpretabilidade. Com base no NIST (National Institute of Standards and Technology) AI Risk Management Framework (NIST AI RMF), argumenta-se que inventários estruturados, contendo dados de treinamento, versões, decisões de projeto e limitações, oferecem subsídios concretos para auditorias, avaliações de impacto e avanços na interpretabilidade mecanicista. Mesmo que a explicabilidade total seja tecnicamente inalcançável, é possível adotar práticas que promovam maior transparência, responsabilidade e alinhamento ético na aplicação de modelos generativos em contextos de alto impacto social.

A estrutura do artigo foi organizada em seções temáticas que aprofundam esses aspectos. Caso esteja familiarizado com o tema, sinta-se à vontade para avançar diretamente para a seção de maior interesse.

2. A (in)explicabilidade dos LLMs

A crescente adoção de LLMs acentuou um dos dilemas centrais da inteligência artificial contemporânea: a dificuldade de explicar, de forma confiável e compreensível, os processos internos que conduzem às suas decisões. Embora a explicabilidade seja um princípio amplamente defendido na governança de IA, sua concretização nos LLMs enfrenta obstáculos técnicos, conceituais e epistemológicos ainda não superados.

Diferentemente de modelos tradicionais de aprendizado de máquina, que permitem rastrear a influência das entradas nas saídas por meio de estruturas mais simples, os LLMs operam com bilhões de parâmetros, processando informações em cadeias de transformações não lineares (Bommassani et al., 2021). Esse fenômeno, conhecido como paradoxo da escala, no qual o aumento do tamanho do modelo melhora o desempenho, mas reduz a interpretabilidade, dificulta a engenharia reversa das decisões. Por exemplo, em sistemas de triagem de currículos, um LLM pode priorizar candidatos com base em padrões implícitos nos dados de treinamento, como preferências por determinados perfis demográficos, sem que os desenvolvedores consigam identificar claramente os fatores determinantes.

Técnicas de explicação post-hoc, como SHAP (Shapley Additive Explanations) e LIME (Local Interpretable Model-agnostic Explanations), oferecem aproximações das contribuições de cada entrada para as saídas. No entanto, essas abordagens são limitadas em LLMs, pois não capturam a lógica integral das decisões, especialmente em tarefas contextuais complexas (Bommassani et al., 2021; Wei et al., 2022). As leis de escalonamento, que descrevem como o desempenho dos LLMs melhora com o aumento de dados e parâmetros, também revelam que modelos maiores, como o GPT-3 (175 bilhões de parâmetros) ou o PaLM (540 bilhões), exibem propriedades emergentes que tornam suas decisões menos previsíveis e mais difíceis de interpretar (Bommassani et al., 2021; Wei et al., 2022; Kaplan et al., 2020).

Essa complexidade gera uma tensão inerente entre desempenho e explicabilidade. Modelos mais simples são geralmente mais transparentes, mas não alcançam a sofisticação dos LLMs avançados, que são mais opacos. Esse dilema é crítico em aplicações de alto risco, como diagnósticos médicos ou concessão de crédito, onde a opacidade pode levar a decisões injustas ou não auditáveis.

Do ponto de vista técnico, a explicabilidade total dos LLMs é inviável devido às representações latentes, padrões estatísticos internos que não correspondem diretamente a conceitos humanos compreensíveis. Nesse contexto, os inventários de modelos emergem como uma ferramenta para mitigar a opacidade. Ao documentar dados de treinamento, decisões de design e limitações, os inventários oferecem uma base para auditorias e análises mais profundas, como a interpretabilidade mecanicista, que busca decodificar os mecanismos computacionais dos LLMs. Essas estratégias, exploradas nas seções seguintes, são essenciais para promover transparência proporcional e responsabilidade em aplicações de alto impacto.

3. Abordagens atuais para Governança

A opacidade das LLMs, intensificada por sua complexidade de escala, demanda estratégias robustas para mitigar riscos e promover transparência. Embora nenhuma abordagem garanta explicabilidade total, cinco estratégias complementares, alinhadas ao NIST AI RMF(NIST, 2023), fortalecem a governança de IA: explicações post-hoc, supervisão humana, salvaguardas éticas, monitoramento e documentação. Esta seção analisa suas aplicações e limitações, destacando sua relevância em contextos regulamentados.

3.1 Técnicas de explicação post-hoc

Métodos como SHAP (Shapley Additive Explanations) e LIME (Local Interpretable Model-agnostic Explanations) estimam a influência das entradas nas saídas, oferecendo interpretações localizadas. Como dito anteriormente, em LLMs, porém, sua eficácia é limitada pela alta dimensionalidade e dinâmica não linear, como observado em modelos como GPT-3 (175 bilhões de parâmetros) e PaLM (540 bilhões) (Bommassani et al., 2021; Wei et al., 2022). Essas técnicas geram apenas aproximações parciais, incapazes de elucidar decisões em tarefas contextuais complexas. Por exemplo, em triagem médica, um LLM pode priorizar pacientes com base em padrões obscuros, e métodos post-hoc não conseguem esclarecer completamente os fatores decisivos. Modelos substitutos, que simplificam o comportamento do LLM, também falham em capturar nuances em cenários de alto risco, conforme estudos recentes (Bommassani et al., 2021).

3.2 Supervisão humana e revisões baseadas em limiares

A supervisão humana (human-in-the-loop – HITL) é crucial em aplicações sensíveis, como saúde e justiça, onde revisores analisam saídas de LLMs que excedem limiares de risco ou incerteza. Por exemplo, em diagnósticos médicos, um LLM pode sinalizar casos de baixa confiança, como um possível câncer de pulmão, para validação por especialistas, reduzindo a carga operacional ao focar em saídas críticas (Holzinger et al., 2022). Revisões baseadas em limiares aumentam a eficiência, permitindo que humanos priorizem casos de alto impacto. Contudo, a opacidade técnica dos LLMs, característica de modelos de caixa-preta, limita a capacidade dos revisores de identificar erros sistêmicos, especialmente sem expertise técnica. A eficácia depende de papéis e critérios bem definidos, como interfaces de visualização e treinamento adequado para revisores (Holzinger et al., 2022). Essa abordagem adiciona responsabilidade, alinhando-se às recomendações do NIST AI RMF para transparência e governança, e às exigências da Lei de IA da UE para supervisão humana em sistemas de alto risco. Ainda assim, a complexidade subjacente dos modelos permanece um desafio, exigindo avanços em ferramentas de suporte à decisão e protocolos de interação claros.

3.3 Salvaguardas éticas e técnicas

O Aprendizado por Reforço com Feedback Humano (RLHF) tem sido utilizado para ajustar LLMs, visando reduzir respostas ofensivas ou discriminatórias. No entanto, sua eficácia depende não apenas do método técnico, mas da diversidade dos avaliadores humanos envolvidos. Quando esse feedback é obtido de grupos homogêneos, como ocorre em muitas plataformas digitais, tende a refletir normas culturais dominantes, reforçando vieses e excluindo perspectivas alternativas (Bai et al., 2022; Weidinger et al., 2022).

González Barman et al. (2024) argumentam que essa homogeneidade compromete não só a legitimidade ética dos modelos, mas também sua robustez epistêmica. A ausência de pluralidade no feedback reduz a capacidade dos LLMs de operar de forma sensível em contextos multiculturais, como nos casos de saúde mental ou justiça social, onde respostas baseadas apenas em valores ocidentais podem ser inadequadas ou estereotipadas.

Além disso, salvaguardas excessivamente restritivas podem limitar a utilidade dos modelos em aplicações críticas, como resposta a crises, nas quais são necessárias respostas mais flexíveis e situadas. O NIST AI RMF recomenda revisões éticas contínuas com avaliadores de diferentes origens como forma de mitigar esses riscos, promovendo um equilíbrio entre segurança, funcionalidade e diversidade (NIST, 2023).

3.4 Monitoramento e auditoria

A auditoria contínua é essencial para assegurar que LLMs operem de forma ética, legal e tecnicamente confiável ao longo do tempo. Ao contrário de auditorias pontuais, esse tipo de monitoramento permite identificar, em tempo real, desvios como vieses emergentes ou não conformidades regulatórias, viabilizando intervenções rápidas em aplicações sensíveis, como triagem de crédito.

Mokander et al. (2023) propõem uma abordagem em três camadas, incluindo o monitoramento ex-post, voltado à detecção de comportamentos indesejados, como toxicidade ou discriminação, com base em exigências de órgãos como a SEC e o regulamento europeu de IA. Além de análises quantitativas de outputs, essa auditoria pode envolver feedback qualitativo de usuários, fortalecendo a avaliação dos impactos sociais.

Técnicas automatizadas também têm ganhado destaque. O algoritmo ARCA, por exemplo, permite identificar falhas específicas por meio da otimização de prompts, sendo útil especialmente em fases de pré-implantação (Jones et al., 2023). O NIST AI RMF reforça a importância de sistemas de monitoramento contínuo em aplicações de alto risco, equilibrando segurança com funcionalidade.

Apesar de sua relevância, a auditoria contínua enfrenta desafios significativos, como a complexidade de inspecionar modelos com bilhões de parâmetros e a escassez de métricas padronizadas para avaliar imparcialidade ou veracidade, o que demanda soluções automatizadas e estratégias iterativas para alcançar escalabilidade.

3.5 Transparência e documentação

A documentação detalhada de dados de treinamento, premissas de modelagem e limitações é fundamental para conformidade regulatória e confiança pública, especialmente em setores como saúde e finanças. Inventários de modelos rastreiam a proveniência dos dados e versões, mitigando a opacidade. Por exemplo, registrar que 80% dos dados de treinamento são em inglês alerta para limitações em contextos multilíngues. Embora não resolva a explicabilidade técnica, a documentação gerencia expectativas e facilita auditorias, promovendo responsabilidade (NIST, 2023).

Essas abordagens formam um arcabouço robusto para a governança de LLMs, enfrentando os desafios da opacidade. A integração de supervisão humana, salvaguardas éticas e monitoramento, apoiada por documentação estruturada, alinha-se ao NIST AI RMF e é vital para setores regulamentados. A seção seguinte detalha como os inventários de modelos estruturam a rastreabilidade e a confiança, abordando diretamente a complexidade dos LLMs.

4. Inventários de modelos como ferramenta de Governança

Inventários de modelos são repositórios organizacionais que consolidam informações críticas sobre sistemas de IA, como fontes de dados de treinamento, versões, hiperparâmetros, decisões de design, métricas de desempenho e limitações conhecidas. Em LLMs, cuja alta complexidade dificulta a análise direta das decisões, esses inventários promovem transparência organizacional e rastreabilidade operacional. Por exemplo, registrar a origem dos dados de treinamento permite identificar se um modelo foi treinado com textos predominantemente em inglês, alertando para possíveis limitações em contextos multilíngues. Além disso, os inventários, como a documentação técnica exigida pela Lei de IA da UE (Makauskaite-Samuole, 2025), facilitam auditorias internas e externas, apoiando a conformidade regulatória e a interpretabilidade mecanicista.

4.1 Conceito e finalidade

Inventários de modelos são repositórios organizacionais que consolidam informações críticas sobre sistemas de IA, incluindo fontes de dados de treinamento, versões do modelo, hiperparâmetros, decisões de design, métricas de desempenho e limitações conhecidas. Para LLMs, cuja complexidade dificulta a análise direta das decisões, esses inventários promovem transparência organizacional, controle técnico e previsibilidade operacional.

4.2 Benefícios para a conformidade

A adoção sistemática de inventários de modelos pode trazer benefícios diretos para a governança de IA, especialmente em ambientes regulados:

Rastreabilidade: Permite identificar a origem dos dados, métodos de pré-processamento e alterações nas versões dos modelos, possibilitando a análise de erros ou vieses em contextos específicos.
Conformidade regulatória: Atende às exigências de legislações como a Lei de IA da União Europeia, que requer documentação detalhada sobre sistemas de alto risco, como os usados em diagnósticos médicos, para garantir transparência aos usuários (Makauskaite-Samuole, 2025).
Apoio à interpretabilidade mecanicista: Ao registrar detalhes arquiteturais e operacionais dos modelos, os inventários fornecem insumos valiosos para análises técnicas mais profundas, facilitando a compreensão dos processos internos dos LLMs.

4.3 Etapas de implementação

A implementação de inventários de modelos é uma estratégia estruturada para enfrentar a complexidade dos LLMs. As etapas a seguir, de forma bastante básica, orientam sua criação e manutenção:

1. Definir políticas de documentação: Estabelecer padrões para registrar fontes de dados, arquiteturas, hiperparâmetros e métricas.

2. Criar um sistema centralizado: Utilizar ferramentas digitais para organizar informações de todos os modelos, assegurando acessibilidade e controle de versões.

3. Revisar regularmente: Conduzir auditorias internas periódicas para verificar a atualidade dos dados, adaptando o inventário a novos riscos ou atualizações dos modelos.

4. Integrar com auditorias: Permitir que auditores consultem o inventário, especialmente em aplicações críticas, como triagem médica ou contratação.

5. Divulgar informações relevantes: Produzir relatórios sumarizados, como avaliações de impacto, para reguladores, usuários e parceiros, promovendo transparência. Embora a implementação exija investimento inicial em recursos e treinamento, ferramentas automatizadas podem reduzir a carga operacional, tornando os inventários uma solução viável para organizações de diferentes portes.

5. Interpretabilidade mecanicista

As limitações das técnicas de explicação post-hoc e das estratégias de supervisão destacam a necessidade de abordagens mais rigorosas para compreender LLMs. A interpretabilidade mecanicista, um campo emergente, busca decodificar os mecanismos computacionais internos desses modelos, indo além da análise de entradas e saídas. Esta seção explora como essa abordagem, apoiada por inventários de modelos, pode promover maior transparência e responsabilidade, apesar dos desafios técnicos.

Diferentemente dos métodos de caixa-preta, que se restringem a correlacionar entradas e saídas, a interpretabilidade mecanicista investiga como camadas, cabeçalhos de atenção e fluxos residuais dos transformadores processam informações e geram decisões. Por exemplo, estudos identificaram padrões de atenção em modelos como o BERT que rastreiam estruturas sintáticas ou semânticas, permitindo prever respostas emocionais em textos (Elhage et al., 2021). Essas análises revelam funções internas, como segmentação semântica, oferecendo insights sobre o comportamento do modelo.

Os inventários de modelos são fundamentais para viabilizar essas análises. Ao registrar informações como arquitetura do modelo, checkpoints de treinamento e transformações de dados, eles fornecem uma base estruturada para pesquisadores. Por exemplo, a documentação técnica detalhada, como exigida para modelos de alto risco pela Lei de IA da UE, permite correlacionar vieses em triagem de currículos, como preferência por candidatos de certos perfis demográficos, com decisões de design específicas (Makauskaite-Samuole, 2025). Ferramentas como visualizações de ativações, integradas aos inventários, ajudam a mapear padrões computacionais, facilitando a identificação de causalidades internas.

Além disso, os inventários possibilitam conectar fenômenos externos, como respostas enviesadas, a configurações internas do modelo. Isso permite não apenas compreender o funcionamento do LLM, mas também implementar melhorias direcionadas, documentando alterações e avaliando seus impactos. Essa abordagem iterativa é essencial para mitigar riscos em aplicações de alto impacto, como saúde e justiça.

Apesar de promissora, a interpretabilidade mecanicista enfrenta obstáculos. A complexidade dos LLMs, com bilhões de parâmetros, torna difícil isolar mecanismos específicos. Neurônios polissemânticos, que processam múltiplos conceitos simultaneamente, podem levar a interpretações incorretas ou incompletas (Räuker et al., 2023). Padrões identificados em uma camada nem sempre se generalizam, e comportamentos emergentes desafiam previsões. Ainda assim, a integração de inventários com técnicas de interpretabilidade mecanicista, como análise de circuitos, oferece uma rota viável para uma IA mais compreensível, alinhada às recomendações do NIST AI RMF, sem comprometer o desempenho dos modelos avançados.

6. Desafios e caminhos a seguir

A governança de LLMs enfrenta um ambiente regulatório em rápida transformação, marcado por demandas crescentes de explicabilidade, segurança e responsabilidade. Jurisdições como a União Europeia e os Estados Unidos vêm adotando abordagens distintas para regular sistemas de IA, com impactos diretos sobre as estratégias de conformidade e desenvolvimento de modelos em nível organizacional.

6.1 O panorama regulatório

Regulamentações de IA estão evoluindo rapidamente, com abordagens distintas entre jurisdições. A Lei de IA da União Europeia exige transparência proporcional ao risco, demandando explicações detalhadas para sistemas de alto risco, como diagnósticos médicos (União Europeia, 2024). Nos Estados Unidos, a abordagem é setorial, por exemplo, a FDA exige validação rigorosa de dispositivos médicos assistidos por IA, conforme diretrizes de Software as a Medical Device (SaMD), garantindo segurança e eficácia em aplicações como detecção de câncer (FDA, 2021). Essas exigências criam desafios complexos, como equilibrar desempenho com conformidade, adaptar modelos a regulamentações regionais, justificar decisões automatizadas e mitigar riscos jurídicos e reputacionais. Para enfrentá-los, organizações adotam abordagens híbridas, combinando modelos interpretáveis para decisões críticas e LLMs para tarefas auxiliares. Por exemplo, em finanças, um modelo baseado em regras pode avaliar a elegibilidade inicial de crédito, garantindo transparência, enquanto um LLM analisa dados contextuais para insights adicionais, otimizando precisão e conformidade (Kurshan et al., 2020).

6.2 Por que a explicabilidade absoluta pode não ser possível, e por que isso é aceitável

Tecnicamente, a explicabilidade total dos LLMs é considerada inviável, dada a complexidade estatística de suas arquiteturas. Redes neurais profundas operam com bilhões de parâmetros organizados em camadas sucessivas, que processam informações por meio de padrões latentes não diretamente traduzíveis em relações causais compreensíveis. Essa limitação estrutural, no entanto, não isenta as organizações de promover transparência, pelo contrário, reforça a necessidade de uma governança realista e proporcional ao risco envolvido.

Nesse contexto, torna-se essencial adotar práticas que viabilizem formas parciais de explicação, tais como a manutenção de inventários técnicos com registros estruturados, a supervisão humana em pontos críticos do processo decisório e a comunicação clara das limitações dos modelos aos diferentes públicos envolvidos. Essa abordagem não busca alcançar uma transparência absoluta, mas sim assegurar que as decisões automatizadas possam ser rastreadas, auditadas e compreendidas em seus aspectos mais relevantes.

Além disso, como destaca Ngo (2025), a transparência exerce efeitos não lineares sobre a adoção da IA: embora níveis moderados promovam confiança e reduza incertezas, o excesso de explicações pode gerar sobrecarga cognitiva e ceticismo. Essa abordagem segmentada, baseada na criticidade das aplicações, é uma solução prática para equilibrar desempenho e responsabilidade. Em contextos regulados, mais importante do que revelar a totalidade do funcionamento interno de um modelo é fornecer explicações inteligíveis e úteis, adaptadas ao nível de criticidade da aplicação.

Nesse sentido, cresce a adoção de estratégias híbridas, nas quais modelos mais interpretáveis são utilizados em tarefas sujeitas a auditoria ou conformidade regulatória, enquanto os LLMs mais sofisticados são direcionados a atividades de apoio ou análise exploratória. Esse arranjo segmentado tem se mostrado eficaz especialmente em setores como saúde, finanças e recursos humanos, onde o equilíbrio entre desempenho técnico e responsabilidade jurídica é crucial (NIST, 2023).

Aceitar que a explicabilidade absoluta pode não ser possível não significa abdicar da responsabilidade, mas reconhecer os limites técnicos atuais e, a partir deles, construir mecanismos de governança viáveis, éticos e adaptativos.

6.3 Governança evolutiva e proporcional

A construção de uma governança eficaz para LLMs está em seus estágios iniciais, com limitações evidentes nos métodos atuais, como a dificuldade de escalar auditorias para modelos em evolução e mitigar vieses culturais em contextos globais. Reconhecer essas lacunas é essencial para desenvolver estruturas mais robustas. A governança deve ser flexível, adaptando-se a avanços tecnológicos e mudanças normativas, e oferecer visibilidade por meio de ferramentas como inventários de modelos, mesmo na ausência de explicabilidade total. Compromissos institucionais com rastreabilidade, prestação de contas e melhoria contínua são fundamentais, especialmente à medida que os LLMs influenciam decisões críticas. Adotar práticas éticas e adaptáveis é crucial para garantir que a IA permaneça confiável e alinhada às demandas sociais e regulatórias.

7. Considerações

A evolução acelerada LLMs tem ampliado as possibilidades da inteligência artificial, mas intensifica os desafios de transparência, responsabilidade e governança. Este artigo argumenta que a transparência completa desses modelos é tecnicamente limitada pela complexidade de suas arquiteturas neurais, que geram comportamentos difíceis de mapear. Contudo, essa barreira não justifica opacidade irrestrita. Estratégias de governança proporcional ao risco, combinando supervisão humana, auditorias contínuas e documentação estruturada, são essenciais para promover confiança e conformidade.

Os inventários de modelos destacam-se como uma ferramenta prática. Eles permitem documentar decisões de design, versões e métricas de desempenho, facilitando auditorias em ambientes regulatórios, como saúde e finanças. Além disso, apoiam análises avançadas, como a interpretabilidade mecanicista, que investiga os mecanismos internos dos LLMs, e promovem comunicação transparente sobre limitações e riscos, atendendo a exigências de reguladores e usuários.

Apesar de seus benefícios, a implementação de inventários enfrenta desafios, como a escalabilidade em organizações com múltiplos modelos e a carga operacional de manutenção. Ferramentas de automação podem reduzir esses obstáculos, permitindo atualizações contínuas e integração com auditorias. A governança eficaz da IA exige não apenas soluções técnicas, mas também compromissos institucionais com rastreabilidade, responsabilidade e adaptação às demandas regulatórias e sociais. Embora os inventários não sejam uma solução definitiva, representam um passo concreto para uma inteligência artificial mais auditável, confiável e alinhada aos princípios éticos.

Referências utilizadas

BAI, Y. et al. Constitutional AI: Harmlessness from AI Feedback. arXiv, 2022. Disponível em: https://doi.org/10.48550/arXiv.2212.08073.

BOMMASANI, R. et al. On the opportunities and risks of foundation models. arXiv, 2021. Disponível em: https://doi.org/10.48550/arXiv.2108.07258.

ELHAGE, N. et al. A mathematical framework for transformer circuits. Transformer Circuits Thread, 2021. Disponível em: https://transformer-circuits.pub/2021/framework/index.html.

FDA. Food and Drug Administration. Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) Action Plan. Silver Spring, MD: FDA, Jan. 2021. Disponível em: https://www.fda.gov/media/145022/download.

GONZÁLEZ BARMAN, K.; LOHSE, S.; DE REGT, H. Reinforcement learning from human feedback in LLMs: Whose culture, whose values, whose perspectives? Philosophy & Technology, v. 38, 2025. Disponível em: https://doi.org/10.1007/s13347-025-00861-0.

HOLZINGER, A. et al. Interactive machine learning: Experimental evidence for the human in the algorithmic loop. Applied Intelligence, v. 49, p. 2401–2414, 2019. Disponível em: https://doi.org/10.1007/s10489-018-1361-5.

HOLZINGER, A. et al. Explainable AI methods: A brief overview. In: xxAI – Beyond Explainable AI. Lecture Notes in Computer Science, v. 13200, p. 13–38. Cham: Springer, 2022. Disponível em: https://doi.org/10.1007/978-3-031-04083-2_2.

JONES, E. et al. Automatically auditing large language models via discrete optimization. arXiv, 2023. Disponível em: https://doi.org/10.48550/arXiv.2303.04381.

KAPLAN, J. et al. Scaling laws for neural language models. arXiv, 2020. Disponível em: https://doi.org/10.48550/arXiv.2001.08361.

KURSHAN, E.; SHEN, H.; CHEN, J. Towards self-regulating AI: Challenges and opportunities of AI model governance in financial services. In: Proceedings of the First ACM International Conference on AI in Finance, 2020. p. 1–8. Disponível em: https://doi.org/10.1145/3383455.3422564.

MAKAUSKAITE-SAMUOLE, G. Transparency in the labyrinths of the EU AI Act: Smart or disbalanced? Access to Justice in Eastern Europe, v. 8, p. 1–31, 2025. Disponível em: https://doi.org/10.33327/AJEE-18-8.2-a000105.

MOKANDER, J. et al. Auditing large language models: A three-layered approach. AI and Ethics, v. 3, n. 3, p. 1–21, 2023. Disponível em: https://doi.org/10.1007/s43681-023-00289-2.

NGO, V. The AI transparency dilemma: When more is less for trust and adoption. Information Discovery and Delivery, 2025. Disponível em: https://doi.org/10.1108/IDD-03-2025-0056.

NIST – NATIONAL INSTITUTE OF STANDARDS AND TECHNOLOGY. AI Risk Management Framework. Gaithersburg, MD, 2023. Disponível em: https://www.nist.gov/itl/ai-risk-management-framework.

RÄUKER, T. et al. Toward transparent AI: A survey on interpreting the inner structures of deep neural networks. arXiv, 2022. Disponível em: https://doi.org/10.48550/arXiv.2207.13243.

RESPONSIBLE AI COLLABORATIVE. AI Incident Database. 2025. Disponível em: https://incidentdatabase.ai/

UNIÃO EUROPEIA. Regulamento (UE) 2024/1689 do Parlamento Europeu e do Conselho, de 13 de junho de 2024, que estabelece regras harmonizadas sobre inteligência artificial (Lei da Inteligência Artificial). Jornal Oficial da União Europeia, L 2024/1689, 2024. Disponível em: https://eur-lex.europa.eu/eli/reg/2024/1689/oj.

WEI, J. et al. Emergent abilities of large language models. Transactions on Machine Learning Research, 2022. Disponível em: https://doi.org/10.48550/arXiv.2206.07682.

WEIDINGER, L. et al. Ethical and social risks of harm from language models. arXiv preprint arXiv:2112.04359, 2021. Disponível em: https://arxiv.org/abs/2112.04359.