A capacidade de linguagem dos sistemas de inteligência artificial de hoje é maravilhosa. Agora podemos nos envolver em conversas naturais com sistemas como Chatzpt, Jemi e muitos outros, relativamente fluentes com um homem. No entanto, ainda sabemos muito pouco sobre os processos internos nessas redes que levam a resultados significativos deste nacional.
Publicou um novo estudo Jornal mecânico de estatísticas: teoria e experimentos (Jato) Isso revela uma parte do mistério. Isso mostra que, quando usado para pequenas quantidades de treinamento de dados, as redes neurais dependem principalmente da localização da palavra em uma frase. No entanto, como o sistema entra em contato com dados adequados, ele é transferido para uma nova estratégia com base no significado da palavra. A pesquisa constatou que essa transformação acontece repentinamente, uma vez que o limite crítico de dados é cruzado – como uma mudança em um sistema físico. As pesquisas fornecem informações valiosas para entender os trabalhos desses modelos.
Como aprender as crianças a ler, uma rede neural começa entendendo as frases com base na localização da palavra: a rede pode estimar seus relacionamentos, dependendo de onde as palavras estão localizadas em uma frase (quais são os sujeitos, verbos, objetos?). No entanto, à medida que o treinamento continua – a rede “vai para a escola” – uma mudança acontece: o significado da palavra se torna a principal fonte de informação.
Isso, em uma nova pesquisa, explica que é um modelo simples de sistema de auto-afeção-um bloco de construção de modelos de linguagem de transformadores, como usamos todos os dias (chatzpt, jemini, claud, etc.). O Transformer é uma arquitetura de rede neural projetada para processar sequências como o texto e cria uma espinha de muitos modelos de idiomas modernos. Os transformadores usam o processo auto-mentor para avaliar a importância de cada palavra relacionada ao outro para entender as relações em uma hierarquia.
“Para avaliar a relação entre as palavras”, explicou o pesquisador pós -dortural da Universidade de Harvard e o primeiro autor deste estudo, Hugo Qui, “a rede pode usar duas técnicas, uma das quais é a localização da palavra”. Por exemplo, no idioma inglês, o assunto geralmente está antes da ação, que é vista antes do objeto. “Mary It Is Apple” é um exemplo comum dessa ordem.
“Esta é a primeira estratégia quando a rede é treinada espontaneamente”. “No entanto, em nossa pesquisa, percebemos que se o treinamento continuar e a rede receber dados adequados em um determinado momento – uma vez que um marginal for cruzado – a técnica é repentinamente transferida: a rede começa a confiar em dinheiro”.
“Quando projetamos esse trabalho, só queríamos estudar a mistura de técnicas ou técnicas, mas as redes levariam manteiga
O CUI descreve essa mudança como uma transformação de estágio, emprestando uma idéia da física. A física estatística descreve seu comportamento coletivo descrevendo estatisticamente um grande número de partículas (como átomos ou moléculas) com sistemas de estudos de estudos. Da mesma forma, as redes neurais – a base desses sistemas de IA – compostas por um grande número de “nós” ou neurônios (em homenagem ao cérebro humano), cada um ligado a muitos outros e realiza atividades gerais. A inteligência do sistema é derivada da interação desse neurônio, um evento que pode ser descrito com métodos estatísticos.
É por isso que podemos falar sobre mudança repentina no comportamento da rede como conversão de fase, sob certas condições de temperatura e pressão, de líquido para gás.
“Do ponto de vista teórico, a técnica que acontece dessa maneira é importante”, enfatizou Qui. “Nossas redes foram simplificadas por pessoas que se comunicam diariamente com os modelos complexos, mas podem começar a entender as condições como um motivo para estabilizar nossa estratégia ou qualquer outro modelo.
Pesquisas de Hugo Qui, Frea Behrace, Florent Crazakala e Lenka Jedbovorov, um modelo solúvel de atenção é publicado na JSTAT, intitulado Posicional e Educação de Serreção “e é incluída nas atividades da Conferência Neurips.