O Dilema que Durou Dois Anos
A discussão clássica questionava qual técnica era superior para incorporar conhecimento de domínio em modelos de linguagem. RAG injetava conhecimento durante inferência através de busca semântica. Fine-tuning embutia conhecimento nos pesos do modelo através de treinamento adicional.
A comunidade de pesquisa percebeu que ambas resolvem problemas diferentes. Em março de 2024, pesquisadores de Berkeley e Microsoft publicaram RAFT (Retrieval Augmented Fine-Tuning), demonstrando que combinar treinamento com recuperação superava cada técnica isolada.
Fine-tuning Controla COMO. RAG Controla O QUÊ
| Fine-tuning (como responder) | RAG (o que responder) |
|---|---|
| Formato de saída estruturado (JSON, Markdown) | Documentação actualizada e dinâmica |
| Tom e vocabulário específico do domínio | Base de conhecimento citável |
| Padrões de raciocínio customizados | Contexto de utilizador e histórico |
| Jargão técnico especializado | Dados em larga escala e long tail |
O Benchmark: 96% vs 89% vs 91%
Sistemas híbridos alcançam aproximadamente 96% de acurácia em tarefas de domínio específico, comparado a 89% para RAG puro e 91% para fine-tuning isolado.
O Padrão de Roteamento
A escalabilidade económica emerge através de classificadores leves que direcionam queries:
- Caminho rotina: modelo pequeno fine-tuned com RAG
- Caminho edge case: modelo frontier completo com RAG e reranking
Um classificador TF-IDF + SVM atinge 93.2% de acurácia de roteamento, economizando aproximadamente 28% de tokens.
Quando NÃO Combinar
- Volume baixo – o overhead de manutenção supera os benefícios
- Dados voláteis – fine-tuning produz modelos obsoletos rapidamente
- Apenas formato/tom – fine-tuning sozinho resolve
- Fase POC/MVP – valide hipóteses com prompt engineering puro primeiro
Conclusão
O fim do debate RAG versus fine-tuning reflecte maturação do mercado. As arquitecturas híbridas com roteamento tornaram-se o padrão estabelecido que diferencia implementações produtivas de demonstrações.