Transfer Learning é uma técnica que adapta modelos pré-treinados para novas tarefas com poucos dados, aproveitando conhecimento anterior.
Paradigmas como Zero-shot e Few-shot e One-shot learning fazem parte desse conceito. Isso permite que o modelo aproveite o conhecimento adquirido anteriormente para melhorar o desempenho em uma nova tarefa. Enquanto isso, o Retrieval-Augmented Generation (RAG) expande as capacidades de grandes modelos de linguagem, integrando conhecimento específico de forma espacializada para aprimorar suas respostas em contextos mais especializados. Continue lendo este post para descbrir as diferenças entre esses conceitos.
Zero-shot Learning
Nesse cenário, o modelo é treinado para reconhecer classes que não foram vistas durante o treinamento. Ele usa informações auxiliares, como relações semânticas, para generalizar para novas classes. Por exemplo, um modelo treinado em imagens de animais pode identificar uma nova espécie sem ter visto exemplos dela antes, isso é zero-shot learning.
One-shot Learning
Aqui, o modelo é treinado com apenas um exemplo por classe. Ele aprende a generalizar a partir de um único exemplo, o que é bastante desafiador. Por exemplo, reconhecer um rosto com base em uma única foto, ou determinar o tópico de um texto com base em uma única unidade amostral equivalente.
Few-shot Learning
Similar ao one-shot, mas permite mais exemplos por classe (geralmente poucos). Pode ser N-shot, onde N é o número de exemplos disponíveis. Aqui vai mais um exemplo: Treinar um modelo para reconhecer diferentes raças de cães com apenas algumas imagens por raça.
Isso tudo quer dizer que o zero-shot lida com classes não vistas, one-shot com um exemplo por classe e few-shot com poucos exemplos. Conforme mencionei, todos esses cenários estão relacionados ao Transfer Learning.
Para citar um exemplo, o modelo Vision Transformer (ViT) é um modelo de aprendizado de máquina desenvolvido pelo Google em 2020 para visão computacional. Ele utiliza a arquitetura do transformer para processar imagens e tem sido aplicado com sucesso em várias tarefas computacionas. O ViT adapta a arquitetura do transformer, originalmente projetada para processar sequências de texto, para lidar com imagens.
O ViT é inicialmente treinado em grandes conjuntos de dados de imagens, como o ImageNet. Durante esse pré-treinamento, o modelo aprende representações visuais gerais, capturando padrões e características em imagens, assim como o BERT o fez para textos. Modelos pré-treinados, como o ViT e BERT, têm uma capacidade maior de generalização, pois já aprenderam representações úteis em dados de treinamento anteriores. Por meio da técnica de transfer learning, nós podemos fazer com que o ViT adapte suas representações visuais para uma tarefa bem mais específica, como a de classificar tipos de sementes de café. Veja que o modelo é pré-treinado em grandes quantidades de dados e, em seguida, ajustado para tarefas específicas.
Retrieval-Augmented Generation (RAG)
RAG é uma técnica que combina recuperação de informações com geração de texto. Ela permite que modelos de LLMs (Large Language Models) recuperem informações relevantes de uma fonte de conhecimento e as incorporem no texto gerado, desta forma aprimorando a capacidade dos LLMs ao permitir que eles incorporem informações externas relevantes durante a geração de texto, tornando-os mais úteis e contextuais.
Em particular, RAG estende os LLMs para domínios específicos ou bases de conhecimento internas sem a necessidade de re-treinamento. Isso é semelhante ao conceito de transfer learning, onde um modelo pré-treinado é ajustado para tarefas específicas com dados limitados.
Imagine uma empresa que deseja criar um assistente virtual para responder a perguntas frequentes dos funcionários. O sistema RAG pode recuperar informações relevantes de documentos internos, como manuais de funcionários, políticas da empresa e procedimentos operacionais. Quando um funcionário faz uma pergunta, o RAG usa essas informações recuperadas para gerar uma resposta contextualmente apropriada.
Grandes modelos de linguagem como Llama 3 podem atuar como o componente de recuperação de um framework RAG, sendo usados para entender a consulta do usuário de maneira mais sutil, e assim recuperar documentos de um corpus local com base na relevância semântica, em vez de depender apenas da correspondência de palavras-chave.
Conforme apresentado, essas tarefas consistem em reaproveitar as capacidades mais gerais de um modelo de machine learning para melhorar seu desempenho em casos mais particulares, tornando-os bem mais úteis para resolver problema corporativos envolvendo textos e imagens.
E aí, o que achou deste post? Para mais posts como este, acompanha a gente por meio da nossa newsletter e fique entre os primeiros a saber quando um novo post for publicado no blog.




