IA, Dados 5 minutos de leitura
Os LLMs tabulares chegaram — trazendo avanços revolucionários para as equipes de risco
Os avanços no aprendizado profundo têm impulsionado inovações em praticamente todos os setores — desde a mobilidade (Waymo) e a biologia (AlphaFold) até a música (Suno.ai). No entanto, apesar do sucesso do aprendizado profundo em tarefas altamente complexas, como carros autônomos, as aplicações na área de risco têm estado notavelmente ausentes dessa revolução. Mas isso está prestes a mudar.
Uma das principais razões pelas quais as equipes de risco ainda não integraram redes neurais profundas em seus conjuntos de ferramentas é a dificuldade histórica que enfrentam com dados tabulares. Bancos, fintechs e seguradoras dispõem de uma grande quantidade de dados tabulares e os utilizam diariamente para prevenir fraudes, detectar lavagem de dinheiro e avaliar o risco de crédito. E, quando se trata de construir modelos de previsão altamente precisos para esses casos de uso, a família de modelos de árvores com reforço de gradiente tem sido a escolha predominante.
O “momento ChatGPT” dos dados tabulares
Em um lançamento que os especialistas do setor apelidaram de “momento ChatGPT” dos dados tabulares, a Prior Labs divulgou um modelo inovador: o TabPFN. Esse modelo supera amplamente os métodos existentes em conjuntos de dados tabulares em uma ampla gama de tarefas tabulares — uma descoberta tão significativa que foi recentemente publicada na revista *Nature*.
Dada a ampla variedade de aplicações de alto valor no setor de serviços financeiros, estamos entusiasmados com a parceria com a Prior Labs para oferecer às equipes das áreas de risco, fraude e conformidade acesso ao TabPFN.
Pontos principais
- A Prior Labs lançou um modelo inovador, o TabPFN, que supera amplamente os métodos existentes em conjuntos de dados tabulares em uma variedade de tarefas relacionadas a tabelas.
- O modelo representa o que há de mais avançado em cenários com poucos dados, e as equipes não precisam de um retreinamento complexo nem de uma infraestrutura de MLOps.
- Fizemos uma parceria com a Prior Labs para disponibilizar o TabPFN na plataforma Taktile, visando aplicações em gestão de riscos e otimização de decisões.
- O modelo já está se mostrando valioso em diversas aplicações de risco, como verificações de fraude e detecção de anomalias no risco de crédito.
Como funciona o TabPFN
Ao contrário de tentativas anteriores de tornar as redes neurais profundas úteis em contextos tabulares, este modelo é pré-treinado. Da mesma forma que os LLMs modernos são pré-treinados em um vasto corpus de dados textuais, incluindo a maior parte da internet pública, o TabPFN foi pré-treinado em uma ampla variedade de conjuntos de dados sintéticos — uma inovação fundamental do modelo.
Ao fazer uma previsão com o TabPFN, você fornece a ele várias linhas rotuladas dos seus dados, além das linhas não rotuladas. Em seguida, ele preenche as linhas não rotuladas com previsões, de forma semelhante à maneira como um LLM usa os exemplos de um prompt para ajudá-lo com uma consulta.
À primeira vista, pode parecer inacreditável que não haja um treinamento de modelo no sentido tradicional da palavra. Os parâmetros (pesos) do modelo permanecem fixos durante todo o processo. Em vez disso, o modelo se baseia na flexibilidade e no poder da arquitetura do transformador para aprender os padrões dos dados enquanto realiza a previsão. O fato de isso funcionar tão bem também foi uma surpresa nos primórdios da modelagem de linguagem.
O valor do TabPFN para os profissionais da área de risco
Como o modelo não é treinado para cada novo caso de uso e se baseia fortemente nos parâmetros pré-treinados, há algumas vantagens importantes para os profissionais do setor de serviços financeiros:
- Os especialistas na área agora podem criar previsões de modelos competitivas sem precisar de anos de experiência em ciência de dados — isso significa equipes menores, mais ágeis e mais capacitadas.
- O modelo apresenta bom desempenho em contextos com poucos dados — o que é particularmente interessante para aplicações nas áreas de combate à fraude, crédito e combate à lavagem de dinheiro, uma vez que muitas empresas dispõem de relativamente poucos resultados positivos verdadeiros.
- As equipes não precisam de treinamento complexo nem de infraestrutura de MLOps — a ausência de necessidade de novo treinamento significa que é possível minimizar a sobrecarga associada à validação, aos testes e à aprovação dos modelos.
O TabPFN também inclui recursos adicionais valiosos que costumam ser uma fonte de dificuldade no aprendizado de máquina:
- O modelo retorna, naturalmente, distribuições para seus resultados, que você pode utilizar em decisões posteriores.
- O modelo lida nativamente com valores ausentes e outliers, portanto, você não precisa se preocupar com imputação nem com outras estratégias para adaptar os dados ao formato esperado pelo modelo.
- O modelo pode fornecer explicações para suas previsões (utilizando os chamados valores de Shapley), atenuando as preocupações em torno da IA de caixa preta.
“Estamos extremamente entusiasmados com a capacidade do TabPFN de transformar a forma como as equipes trabalham com aprendizado profundo para desenvolver e otimizar produtos financeiros. Os casos de uso que estamos observando com a Taktile são, na verdade, apenas o começo do que é possível.”
Aplicações práticas do TabPFN em cenários de risco
1. Verificações antifraude
Dado que o modelo apresenta bom desempenho em contextos com poucos dados, acreditamos que a aplicação imediata mais promissora seja a verificação de fraudes. Avaliamos o desempenho do modelo em um conjunto de dados anônimos e reais sobre fraudes na abertura de contas e o comparamos a uma abordagem padrão de árvores impulsionadas. Quanto mais esparsos os dados ficam, maior é o desempenho superior do modelo em relação à abordagem clássica de aprendizado de máquina. Observe como o modelo se sai surpreendentemente bem quando mal vê dados de treinamento — esse é o poder do pré-treinamento em ação.
Exemplo: Detecção de fraudes na abertura de contas
2. Detecção de anomalias no risco de crédito
Outra aplicação pela qual somos apaixonados é a detecção de anomalias. O modelo ocupa o primeiro lugar em cenários de séries temporais, superando até mesmo o Chronos da Amazon, pelo que também pode ser utilizado para prever taxas de aprovação e métricas-chave, como o número de inscrições ou a distribuição das pontuações FICO dos candidatos. Se as métricas observadas se desviarem muito dessas distribuições, é possível acionar um alerta para que os analistas investiguem a anomalia.
Exemplo: Detecção de anomalias em pedidos diários de empréstimo
Esses são apenas dois exemplos do motivo pelo qual estamos tão entusiasmados com o TabPFN – acreditamos que existam inúmeros outros casos de uso valiosos.
É importante levar em conta as limitações. Atualmente, o tempo de previsão (latência de inferência) é relativamente alto e há restrições quanto ao tamanho dos dados suportados. No entanto, esperamos que ambas as limitações sejam rapidamente atenuadas ao longo de 2025.
Quer saber como o TabPFN pode agregar valor ao seu caso de uso específico?
Leituras adicionais recomendadas
- IA aplicada ao risco em ação: como as equipes de risco estão desenvolvendo agentes de IA para gerar impacto no mundo real
- Como os LLMs estão se tornando parceiros de investigação na detecção de fraudes no setor de fintech
- Da pontuação de crédito à IA de Geração: como a tomada de decisões de crédito moderna evoluiu — e o que vem por aí
- IA sem exageros: como extrair o verdadeiro valor dos modelos de linguagem de grande escala (LLMs) sem se distrair