CIÊNCIA & TECNOLOGIA
De onde o ChatGPT tira as informações?
O ChatGPT precisa de fontes de informações para dar respostas e executar as ações solicitadas por quem o utiliza. Mas você tem alguma ideia de onde o chatbot da OpenAI tira esse imenso volume de dados?
São variadas as fontes usadas pelo ChatGPT e isso é compreensível. Como a inteligência artificial generativa é treinada a partir de modelos — GPT-3.5 e GPT-4 são os mais recentes —, quanto mais ampla for a base de informações, mais conteúdo disponível o robô terá para se desenvolver.
Confira a seguir as principais origens de onde o ChatGPT se baseia para responder ao usuário.
10 fontes de dados do ChatGPT
10. Conteúdo da web em geral
Originalmente, o ChatGPT não conseguia acessar a sites da internet em tempo real, mas isso mudou a partir do modelo GPT-4. Recentemente, foi anunciada a integração do chatbot com o buscador Bing, o que permite ter acesso a boa parte do conteúdo da internet.
Mesmo assim, ele já conseguia analisar notícias, sites referenciais, fóruns, algumas redes sociais e até documentos. Atualmente, tudo que esteja hospedado na web pode servir como origem de informações da IA, fato que pode levar a uma incrível expansão do conhecimento nos próximos meses.
9. Wikipedia
Se até o Google usa a Wikipedia como fonte, por que o ChatGPT não o faria? Os artigos da Enciclopédia Livre são uma das principais fontes de dados do chatbot, principalmente em perguntas mais diretas. Aliás, o site é um dos maiores ameaçados com a chegada das IAs, afinal suas informações são extraídas por qualquer chatbot de IA sem qualquer compensação.
8. Artigos acadêmicos
Bing e Google possuem mecanismos de indexação de artigos científicos e acadêmicos publicados em periódicos ou repositórios de universidades. É claro que o ChatGPT também foi treinado neste tipo de fonte mais qualificada, porque isso permite discorrer com mais autoridade em assuntos técnicos.
7. Dados estruturados
O ChatGPT é bom em matemática e em lógica de programação por um motivo simples: treinamento em dados estruturados. Isso significa que o modelo de linguagem usado por ele recebeu exaustiva quantidade de tabelas e banco de dados e assim consegue fornecer respostas organizadas ou até tabuladas como no Excel.
6. Perguntas e respostas
As pessoas fazem muitas perguntas a buscadores na tentativa de obter respostas instantâneas. Esse tipo de treinamento também foi feito de maneira separada no ChatGPT para a tecnologia compreender essa característica humana. A IA consegue entender bem os contextos e apresentar respostas de maneira natural, como se fosse produzida de maneira coerente por uma pessoa.
5. Livros
O ChatGPT foi treinado em uma vasta coleção de livros sobre os mais diversos tópicos. Isso inclui desde títulos clássicos de literatura até complexos materiais didáticos de cursos de pós-graduação. Esse viés mais técnico do chatbot permite apresentar conceitos complexos, resumir fatos e criar narrativas fundamentadas, como fazem os autores.
4. Idiomas estrangeiros
Enquanto o Bard é limitado apenas ao inglês, o ChatGPT consegue entender e responder a dúvidas em vários idiomas — inclusive o português. Isso se deve ao acesso aos chamados “dados multilíngues”, que usam bancos de dados similares aos de tradutores online, mas com a importante dosagem de aprendizado de máquina.
3. Dados de conversas
Já notou como o ChatGPT consegue interagir com as pessoas como se houvesse alguém do outro lado? Essa capacidade vem do acesso da IA a dados de conversação, como diálogos, entrevistas de jornalistas e conversas humanas. Esta origem de informações ajuda o modelo a entender o fluxo da comunicação e a dinâmica de conversas, mesmo em idiomas diferentes.
2. Posts de redes sociais
Conteúdos de certas redes sociais entram na base de dados do ChatGPT. O Twitter é a principal ferramenta usada pela IA, já que os posts podem ser localizados até por buscadores. Vídeos, GIFs e fotos ainda não são interpretados pelo chatbot, mas descrições e textos alternativos podem ser fontes de informação para o treinamento.
1. Manuais, análises e avaliações
O ChatGPT consegue comparar produtos para apresentar vantagens e desvantagens. Como ele sabe disso se nunca experimentou nada? Com base em informações dos próprios usuários: reviews de sites especializados, avaliações feitas em e-commerce e manuais técnicos dos sites oficiais são alguns exemplos. Quanto mais análises você envia para esses locais, mais treinamento o ChatGPT receberá nos produtos.