Para as pessoas em todo o mundo, milhões de audição surda e rígida, as barreiras de comunicação podem contestar a interação diária. Soluções convencionais, como intérpretes de linguagem de sinais, geralmente são raras, caras e dependentes da disponibilidade humana. No crescente mundo digital, a demanda por tecnologia inteligente e útil que fornece soluções de comunicação em tempo real, precisa e acessível está aumentando para atender a essa lacuna crítica.
A American Sign Language (ASL) é uma das linguagens de sinais mais usadas, que contém gestos de mãos separados que representam letras, palavras e frases. Os sistemas de reconhecimento de ASL existentes geralmente combatem performances em tempo real, precisão e UST em diferentes ambientes.
Um grande desafio no sistema ASL são gestos visualmente semelhantes, como “A” e “T” ou “M” e “N”, o que geralmente leva à classificação errada. Além disso, a qualidade do conjunto de dados apresenta obstáculos significativos, incluindo a resolução da imagem fraca, a ambiguidade do ritmo, a luz leve e o tamanho da mão, o tom da pele e a variedade do fundo. Esses fatores introduzem viés e reduz a capacidade do modelo de generalização em diferentes usuários e no meio ambiente.
Para enfrentar esses desafios, os pesquisadores da Faculdade de Engenharia e Ciência da Computação da Universidade Atlantic da Flórida criaram um inovador sistema de explicação em tempo real. Na combinação do poder de identificação de objetos do Yolov11 com o rastreamento manual específico do Mediaiipipe, o sistema pode reconhecer adequadamente os caracteres do alfabeto ASL em tempo real. Usando educação profunda avançada e rastreamento de pontos manuais, traduz gestos de ASL no texto, permite que os usuários sejam escritos interativamente com nomes, locais e uma precisão mais significativa.
Na parte principal, uma webcam embutida atua como um sensor sem comunicação, captura dados visuais ao vivo que são convertidos em um quadro digital para análise de gestos. MediaPipes detectam 21 pontos -chave em cada mão para criar um mapa esqueleto, enquanto o Yolov11 usa esses pontos para identificar e classificar letras ASL com alta precisão.
“Este sistema o torna especialmente significativo é o pipeline de reconhecimento completo – desde capturar gestos até classificação – trabalha em tempo real, independentemente de várias condições de iluminação ou origens”, disse o primeiro autor e doutorado Badar Alsharif. Candidatos no Departamento de Engenharia Elétrica da FAU e Ciência da Computação. “E tudo isso é alcançado usando o hardware padrão e fora do escudo. Esse é o potencial prático do sistema como uma tecnologia útil extremamente acessível e percorrida, tornando-a uma solução eficaz para aplicativos do mundo real”.
O resultado do diário CensurarGaranta a eficácia do sistema, que atingiu uma precisão de 98,2% (precisão média, mapa @0,5) com um atraso mínimo. Esta pesquisa destaca o poder de fornecer alta potência do sistema de precisão, criando uma solução padrão para aplicativos que requerem desempenhos rápidos e confiáveis para processamento de vídeo ao vivo e tecnologias interativas.
Com 1,5 imagens, o gesto das mãos do alfabeto ASL no conjunto de dados inclui vários tipos de gestos manuais capturados sob diferentes condições para ajudar a melhorar os modelos. Essas condições incluem vários ambiente leve (brilhante, desbotado e sombreado), uma variedade de fundos (vistas externas e internas) e vários ângulos e orientações das mãos para garantir a vista.
Cada imagem é cuidadosamente usada com 21 pontos -chave, o que destaca a estrutura da mão semelhante ao dedo, como dedo, nervoso e pulso. Essas vacinas fornecem um mapa esquelético da mão, permitindo que os modelos distinguam entre gestos semelhantes com precisão excepcional.
“Este projeto é um ótimo exemplo de como esse projeto pode ser aplicado para servir a humanidade”, disse Emad Mahgub, co-autores do Departamento de Engenharia Elétrica e Ciência da Computação da FAU. “Ao fundir a educação profunda com a identificação de marcas, nossa equipe criou um sistema que não apenas ganha alta precisão, mas também acessível para uso diário e também é um passo poderoso para a tecnologia de comunicação incluída”.
A população surda nos Estados Unidos ganha cerca de 11 milhões, ou 3,6% da população, e os adultos americanos experimentam cerca de 15% (37,5 milhões) de audiência.
“O significado deste estudo está na possibilidade de mudar a comunicação para a comunidade de surdos, fornecendo um equipamento movido a IA, que traduz os gestos de idiomas de sinais americanos no texto, permitem interagir suaves ao longo da educação, local de trabalho, assistência médica e ambientes sociais”, disse Mohammed Elias, PhD, e professor. “Com o desenvolvimento de um sistema de explicação ASL forte e acessível, nosso estudo contribui para o progresso da tecnologia útil para quebrar a barreira aos surdos e o armazenamento da população auditiva”.
Trabalhos futuros separam cartas ASL se concentrarão em expandir as capacidades do sistema para explicar todas as frases ASL. Ele permitirá uma comunicação mais natural e líquida, permitirá que os usuários informe os pensamentos e frases inteiros sem problemas.
“Este estudo destaca o poder da tecnologia auxiliar orientada pela IA no empoderamento da comunidade de surdos”, disse Stella Batlama, reitora da Faculdade de Engenharia e Ciência da Computação. “Brinche a comunicação com o reconhecimento de ASL em tempo real, esse sistema desempenha um papel fundamental para incentivar a sociedade. Permite que a audição entre em contato com o mundo ao redor do mundo circundante, apresentando-se, navegando em seu ambiente ou não apenas apoiando-o”.
Os co-autores do estudo são ESA Alalwani, PhD, PhD recente. Graduado na FAU College of Engineering e Ciência da Computação e Professor Assistente da Universidade de Taiba na Arábia Saudita; Ali Ibrahim, PhD, PhD. Graduado na FAU College of Engineering and Computer Science.