O Opeeni publicou novas pesquisas, explicando que o Chatzpt, seu modelo de linguagem mais usado, às vezes falso, mas a incisão cria informações – um evento conhecido como “alucinações”.
Segundo a agência, os principais motivos estão no caminho de treinamento e avaliação desses modelos, os processos que adivinham a incerteza.
Newsweek Entre em contato com o OpenAI para obter mais informações além do tempo geral de trabalho.
Por que é importante
Modelos de largura grandes como o ChatGPT estão cada vez mais aumentando a educação, a saúde, o atendimento ao cliente e outros casos em que a precisão é importante. Estados de saída alucinados que estão realmente errados, mas a validação está presente, reduz a fé e causam danos no mundo real.
Sabe o que
Apesar do progresso do desenvolvimento de modelos mais capazes, incluindo GPT -5, as alucinações permanecem como um problema contínuo, especialmente quando os modelos são solicitados a gerar dados informativos específicos.
O ProcurarCom base na pesquisa de cientistas do Openai – incluindo Adam Kalai e Santosh Vempal – foram necessárias mudanças estruturais para resolver o problema.
De acordo com a definição interna de OpenAI, as alucinações são “louváveis, mas uma declaração falsa gerada pelo modelo de idioma”.
Um exemplo citado no estudo é que uma pesquisa de pesquisa envolve vários títulos para um chatbot, todos eles estão errados. Em outros casos, o modelo deu três data separada e uniformemente errada para o aniversário da mesma pessoa.
Imagem getty
Isso ocorre por causa de como os modelos de idiomas são treinados. Durante a gravura, os modelos aprenderam a prever a próxima palavra em uma frase com base em muitos textos, mas qual afirmação é falsa nunca é mostrada. Esses processos estatísticos, no entanto, são eficazes na criação de idiomas consistentes, combatendo informações sem curta duração, como data de nascimento e título de publicação.
Quando esses modelos nacionais são testados para desempenho, a precisão é frequentemente considerada a única métrica. Ele cria incentivos semelhantes de testes de múltipla escolha: é estatisticamente melhor adivinhar do que dizer “eu não sei”. Segundo os pesquisadores, “se o placar principal recompensasse estimativas de sorte, os modelos aprenderiam a adivinhar”.
Para ilustrar o problema, a equipe comparou os dois modelos em um teste básico de avaliação. As novas variantes GPT -5 tiveram 52 % da taxa exausta e 26 % de taxa de erro. Enquanto isso, um modelo antigo, open e 4 minutos, mostrou 1 % de negligência, mas mostrou a taxa de 75 % de erro.
O que as pessoas estão dizendo
Openi escreveu Em pesquisa de pesquisa: “No OpenAI, estamos trabalhando duro para tornar os sistemas de IA mais úteis e confiáveis. Mesmo com os modelos de idiomas se tornam mais capazes de resolver um desafio completamente resolvido teimosamente: alucinações. Isso significa que somos esses exemplos em que um modelo de confiança produz uma resposta que não é verdadeira.
“As alucinações continuam parcialmente porque os métodos atuais de avaliação determinam o incentivo incorreto. Embora as avaliações não causem alucinações diretamente, a maioria das avaliações mede o desempenho do modelo de uma maneira que incentive a estimar a incerteza e não a honestidade”.
Depois disso
O Open diz que, em vez de desencorajá -lo, os critérios de avaliação estão trabalhando para renovar a concessão de incerteza.