Um grupo de pesquisadores do Instituto de Ciência Básica (IBS), da Universidade de Yonesi e do Instituto Max Planck criaram uma nova técnica de inteligência artificial (AI) que se aproxima de como o cérebro humano processa as imagens. Conhecida como LP-Convolution, esse método melhora a precisão e a eficiência dos sistemas de reconhecimento de imagem, reduzindo a dignidade dos modelos de IA existentes.
Preencher o intervalo entre a CNN e o cérebro humano
O cérebro humano é significativamente hábil em identificar os detalhes originais em cenas complexas, um poder que lutou para replicar os sistemas tradicionais de IA das marés. Processe as imagens usando os filtros mais utilizados de modelos de AI, pequenos e quadrados, para o reconhecimento das redes neurais convolucionais (CNNs). Embora eficaz, essa abordagem rígida limita a capacidade de capturar padrões extensos em dados fragmentados.
Recentemente, os transformadores da visão (VITs) mostraram desempenho mais alto analisando as imagens inteiras de uma só vez, mas precisam de uma grande quantidade de energia de cálculo e grandes dados de dados, o que os torna irracionais para muitas aplicações do mundo real.
Inspirado pelas notificações do córtex visual do cérebro, conexões raras, a equipe de pesquisa procurou um espaço médio ao ser inspirado pelos dados: CNNs do cérebro, hábeis e fortes?
Introdução ao LP-Convolução: uma maneira inteligente de visitar
Para responder a isso, a equipe criou a LP-Convolution, um método sofisticado que usa uma distribuição normal generalizada do Multiverso P-generalizada (MPND) para reformar os filtros CNN da CNN. Ao contrário da CNN tradicional, que usa um filtro quadrado fixo, permitindo que os modelos de IA da Convolução LP se adaptem às suas formas de filtro que estendem horizontal ou verticalmente com base na tarefa, como o cérebro humano selecionado em detalhes relevantes.
Esse avanço resolve desafios crônicos na pesquisa de IA, conhecida como o grande problema do kernel. Apenas aumentar o tamanho do filtro (por exemplo, usando 7 × 7 ou maior kernel) nos CNNs) geralmente não melhora o desempenho adicionando mais parâmetros. A Convolução LP excede essa limitação, introduzindo padrões de conexão flexível e biologicamente inspirada.
Performance do mundo real: IA forte, inteligente e mais poderosa
O conjunto de dados de classificação de imagem padrão (CIFAR -100, TENIMIZNET), LP -Convolution, melhorou significativamente em ambas as arquiteturas modernas, como modelos clássicos e repcondeses como Alexnett. O procedimento provou ser alto contra dados corruptos, que é um grande desafio dos aplicativos de IA do mundo real.
Além disso, os pesquisadores descobriram que, quando as máscaras de LP usadas de maneira semelhante são semelhantes a uma distribuição gaussiana, os padrões internos de processamento da IA correspondem intimamente às atividades neurais biológicas, como comparar os dados com os dados do cérebro.
“Identificamos rapidamente as pessoas o que é importante na cena da multidão”, disse o Dr. C. Justin Lee, diretor do Centro de Conhecimento e Social do Instituto de Ciências. “Nosso LP-Convolution duplica essa habilidade, permitindo que a IA se concentre nas partes mais relevantes de uma imagem do cérebro”.
Impacto e aplicativos futuros
Ao contrário dos esforços anteriores, que dependem de pequenos filtros rígidos ou dependendo dos transformadores de recursos necessários, a LP-Convolution fornece uma opção prática e eficiente. Essa inovação pode levar à revolução em tais campos:
– dirigir autônomo, onde a IA precisa detectar obstáculos em tempo real em tempo real
– Melhore os diagnósticos baseados em IA, destacando os detalhes finos da imagem médica
– Ativar visão de robótica, máquina inteligente e adaptável em condições de mudança
O diretor C. Justin Lee diz: “Este trabalho é uma forte contribuição para a IA e a neurociência”. “Desbloqueamos novas possibilidades para as CNNs alinhando a IA ao cérebro, tornando -as mais inteligentes, mais adaptáveis e mais biologicamente realistas”.
Olhando para a frente, a equipe planeja refinar essa tecnologia, explorar suas aplicações em funções racionais complexas, como o quebra-cabeça (por exemplo, sudoku) e processamento de imagens em tempo real.
Este estudo será apresentado na apresentação da Conferência Internacional (ICLR) 2025 e a equipe de pesquisa disponibilizou seus códigos e modelos publicamente:
Mais informações: https://github.com/jeakwon/lpconv/O