Início Ciência e tecnologia Os pesquisadores desenvolveram um modelo sofisticado baseado em votação para obter mais...

Os pesquisadores desenvolveram um modelo sofisticado baseado em votação para obter mais suposições de pose de pose de manutenção à mão corretas

9
0

Muitas aplicações robóticas dependem de armas ou mãos robóticas para gerenciar diferentes tipos de objetos. Este é um trabalho importante, mas desafiador, nas aplicações de robótica, visão computacional e até aplicativos de realidade aumentada (AR) que mantêm essa mão nacional. Um aspecto comprometido é usar imagens como dados de vários modelos, como cores (RGB) e imagens de profundidade (D). Com a crescente disponibilidade de sensores 3D, muitos métodos de aprendizado de máquina foram cultivados para elevar essa técnica.

No entanto, as abordagens existentes ainda enfrentam dois desafios principais. Primeiro, quando os objetos de manutenção manual lidam com as quedas certas, eles enfrentam quedas adequadas, obscurecem os recursos críticos necessários para a suposição de pose. Além disso, as interações manuais intraginais introduzem conversão que não não não não, não sem nenhum sem sentido, o que torna o problema mais complicado. Isso acontece quando a mão altera a forma ou a estrutura do objeto que segura a mão, como ao pressionar uma bola macia, distorce a forma de feltro do objeto. Segundo, a maioria das técnicas atuais extrai os recursos de backbones RGB e RGB-D separados, que posteriormente são conectados ao nível do recurso. Como esses dois colegas de fundo lidam com formas diferentes inerentemente, essa fusão pode causar mudança de distribuição de representação, o que significa que os recursos aprendidos das imagens RGB podem distrair incorretamente os obtidos das entradas RGB-D, o que afeta a estimativa da pose. Além disso, durante a superfície sutil, interações densas entre os dois backbone são prejudicadas o desempenho e limitam os benefícios de incorporar recursos RGB.

Para resolver essas questões, uma equipe de pesquisa liderada por Fan Juan Tan, professora associada de programa global inovador no Instituto de Tecnologia Shivara do Japão, criou uma rede mais profunda para Dinh-Kuong Huang e outros pesquisadores da Universidade FPT do Vietnã, especialmente para RGBBB-D. “A principal inovação de nossa profunda estrutura educacional está em um mecanismo de fusão baseado em votação, que integra efetivamente as teclas 2D (RGB) e 3D (profundidade), ao mesmo tempo em que adiciona a dificuldade de resorts inflamatórios mannual e dados multimodais, adicionando um número adicional, um adicional, um número de autodeterminação. em maio de 2025.

A estrutura de aprendizado profundo proposto contém quatro elementos: imagem 2D e dados da nuvem de pontos 3D, módulos de votação, um módulo de fusão de votação sofisticado e um objeto consciente da mão posam no backbone para extrair características de alta dimensão do módulo. Inicialmente, o backbone 2D e 3D prevê as mãos e os Keipoints 2D e 3D do objeto de imagens RGB-D. Os pontos -chave se referem a posições significativas nas imagens de entrada que ajudam a descrever a postura de mãos e objetos. Posteriormente, os módulos de votação em cada coluna votam independentemente em seus respectivos pontos -chave.

Esses votos são então integrados pelo modelo de fusão baseado em votação, combinado dinamicamente com votos 2D e 3D usando a projeção vizinha baseada no raio e o processo de atenção do canal. As informações locais ex -salvam informações, quando posteriormente confirmam o UST e a precisão, adaptando -se a várias condições de entrada. Essa fusão baseada em votação obtém efetivamente o poder das informações de RGB e profundidade, elimina o efeito do resort e confusão inflamatórios manuais, portanto, permite a estimativa de pose de votos à direita.

O elemento final, o objeto consciente da mão representa o módulo de suposição, melhora mais precisão usando um processo de autodissertação para capturar relações complexas entre os pontos de chave das mãos e do objeto. Ele permite que o sistema faça contas para não-não, não não, não, não-conversão, causada por diferentes postura e aderência à mão.

Para testar sua estrutura, os pesquisadores examinaram os três conjuntos de dados públicos. Os resultados mostraram melhora significativa na precisão (até 15%) e na abordagem sofisticada. Além disso, os testes no local demonstraram a precisão média de 76,8%, incluindo a melhoria do desempenho de 13,9% em comparação com a abordagem existente. A estrutura também alcançou o tempo de aprovação de 40 milissegundos com 40 milissegundos sem refino e 200 milissegundos, demonstrando a aplicabilidade do mundo.

“Our research adds to the long-lasting barrier to robotics and computer vision industries-commenting on” The correct object “assumes the exhausted, dynamic and complex hand-propagation interaction scene. “” Our approach is not only more accurate than many existing techniques, it is likely to accelerate the establishment of AI-powered systems such as skilled automated robotic assembly lines, human-help robotics and Emensative AR/VR technologies. “

No geral, esse método inovador representa uma etapa importante na robótica, permite que os robôs lidem com objetos complexos de maneira mais eficaz e promova a tecnologia para modelar mais vitalícia em interações com objeto manual.

Source link