Implementación de técnicas avanzadas de reconocimiento de voz y visión computacional en un sistema robótico
Palabras clave:
reconocimiento de voz, detección visual, sistema robótico, redes neuronales convolucionales, aprendizaje profundo, control robótico, SimulaciónContenido principal del artículo
Objetive: The present article exposes both the design and validation of a system for a SCARA-type robot with voice recognition using convolutional neural networks (CNNs), visual detection using the YOLOv12 algorithm, and movement control in a simulated environment developed in CoppeliaSim using parallel processing in Python for simultaneous management.
Materials and methods: The speech recognition algorithm (CNN) was trained on a database that was augmented using data augmentation techniques. YOLOv12 was selected as the visual detection algorithm, which is pre-trained on the COCO (Common Objects in Context) dataset. Proportional-derivative control is used for robotic movements.
Results: The voice recognition algorithm achieved an average accuracy of 98.9% on the four defined commands: start, stop, grab, and hand over. The YOLOv12 network correctly identified and located the five selected objects in the working environment with errors of less than 7% corresponding to a maximum of ± 25 px in real time.
Conclusions: The results in the virtual environment demonstrated not only stable but also coordinated performance; However, limitations were identified in CPU processing and memory consumption during prolonged operations. It is concluded that integrating voice recognition, visual detection, and control into the robotic system enhances its autonomy. Therefore, it is proposed that work be done to optimize the hardware and resource utilization for its future application in industrial and assistive robotics environments, which are typically not only dynamic but also complex.
1. Bakouri M. Desarrollo de algoritmo de control por voz para sillas de ruedas robóticas utilizando modelos MIN y LSTM. Ordenadores, Materiales y Continua, 2022; 73(2):2441-2456,
https://doi.org/10.32604/cmc.2022.025106
2. Behera A. K., Mohanraj R. y Prem A. Agarre Inalámbrico Autónomo Inteligente para Operación Colaborativa Humano-Robot. Procedia CIRP, 2025; 136:880-885,
https://doi.org/10.1016/j.procir.2025.08.150
3. Meghana M., Kumari C. U., Priya J. S., Mrinal P., Sai K. A. V., Reddy S. P., Vikranth K., Kumar T. S. y Panigrahy A. K. Reconocimiento de gestos con las manos y robot controlado por voz. Materiales de hoy: Actas, 2020; 33(7):4121-4123,
https://doi.org/10.1016/j.matpr.2020.06.553
4. Saradi V. P. y Kailasapathi P. Control de movimiento basado en voz de un vehículo robótico mediante comunicación por luz visible. Informática e Ingeniería Eléctrica, 2019; 76:154-167,
https://doi.org/10.1016/j.compeleceng.2019.03.011
5. Chakradeo V. K., Malhotra K., Lee M. R. y Nathan C. A. O. Cirugía de navegación con voz: Asistencia robótica controlada para el enfoque endoscópico de la hipófisis. Otorrinolaringología - Cirugía de Cabeza y Cuello, 2005; 133(2-Suplemento):P 153,
https://doi.org/10.1016/j.otohns.2005.05.344
6. Feng Y., He J., Luo J., Fang Z., Zhang C. y Yang G. Un método de autocalibración basado en la visión para robots industriales que utiliza restricciones de postura variable. Robótica y Fabricación Integrada por Ordenador, 2026; 98:103142,
https://doi.org/10.1016/j.rcim.2025.103142
7. Lenţoiu I., Răileanu S., Borangiu T., Constantinescu M. y Morariu O. Predicción instantánea de potencia para robots industriales utilizando métodos de aprendizaje automático basados en árboles. Aplicaciones de ingeniería de la inteligencia artificial, 2025; 162(Parte A):112339,
https://doi.org/10.1016/j.engappai.2025.112339
8. Zhou Q., Gu Y., Li J., Feng B., Li B. y Bi Y. Hacia la manipulación de herramientas robóticas de disparo cero en contexto industrial: un marco modular de VLM mejorado por la representación multimodal de la affordance. Robótica y Fabricación Integrada por Ordenador, 2026; 98:103161,
https://doi.org/10.1016/j.rcim.2025.103161
9. Rogowski, A. Control remoto por voz web de células robotizadas. Robótica y Fabricación Integrada por Ordenador, 2013; 29(4):77-89,
https://doi.org/10.1016/j.rcim.2012.11.002
10. Yu Z., Zhang P. y Shi J. Transformación de la robótica industrial con modelos de lenguaje natural: progreso reciente y perspectivas de futuro. Robótica y Fabricación Integrada por Ordenador, 2026; 97:103113,
https://doi.org/10.1016/j.rcim.2025.103113
11. Ali M. L. y Zhang Z. El marco YOLO: Una revisión exhaustiva de la evolución, aplicaciones y referencias en detección de objetos. Informática, 2024; 13(12):336,
https://doi.org/10.3390/computers13120336
12. Deng X., Huang T., Wang W. y Feng W. SE-YOLO: Un marco mejorado con sobel para detección ligera de tomates en tiempo real y de alta precisión con capacidad de despliegue de borde. Informática y Electrónica en la Agricultura, 2025; 239(Parte B):110973,
https://doi.org/10.1016/j.compag.2025.110973
13. Ma B., Sun L., Mu J., Ren Z., Kang G., Liu R., Liu S., Hu X., Zhang H. y Wang J. MH-YOLO: Múltiples YOLO heterogéneos para la detección de plagas en huertos de manzanos. Procesamiento de la Información en Agricultura; 2025,
https://doi.org/10.1016/j.inpa.2025.08.001
14. Gong Y., Zhang G., Wang C. y Xiao D. CD-ViT-YOLO: Un modelo híbrido ligero ViT-YOLO para el reconocimiento del comportamiento de patos en jaula bajo condiciones de iluminación variables. Tecnología Agrícola Inteligente, 2025; 12:101414,
https://doi.org/10.1016/j.atech.2025.101414
15. Weng W., Lai Z., Cui Z., Chen Z., Chen H., Lin T., Wang J., Zheng S. y Chen G. GCD-YOLO: Una red de aprendizaje profundo para la identificación precisa de tallos de fruta de tomate en entornos no estructurados. Tecnología Agrícola Inteligente, 2025; 12:101465,
https://doi.org/10.1016/j.atech.2025.101465
16. Zhou W., Wang J., Meng X., Wang J., Song Y. y Liu Z. MP-YOLO: Poda adaptativa de capas basada en fusión de características multidimensionales YOLO para algoritmo de detección de objetos de vehículos densos. Journal of Visual Communication and Image Representation, 2025; 112:104560,
https://doi.org/10.1016/j.jvcir.2025.104560
17. Tiruvikraman V., Selvakumar D. y Dijayakumar P. Vigilancia y aplicación inteligente en tiempo real para la detección de lanzamientos de polvo y reconocimiento de identidad usando YOLO 12 y SA - FaceXNet. SIViP, 2025; 19:983,
https://doi.org/10.1007/s11760-025-04582-x
18. Ma W., Cao M., Ma J., Dong Z., Yang C. y Li Z. Mamba-YOLO: Convolución rectangular adaptativa multinivel para análisis de layout de documentos. Reconocimiento de patrones, 2026; 170:112031,
https://doi.org/10.1016/j.patcog.2025.112031
19. Ghahremani A., Adams S. D., Norton M., Khoo S. Y. y Kouzani A. Z. Detección de defectos en paneles solares usando los algoritmos YOLO v10 y v11. Electrónica, 2025; 14(2):344,
https://doi.org/10.3390/electronics14020344
20. Chen M., Tian J., Cao X., Fu Z. y Zhang D. DM-YOLO para la detección automática de defectos de los MLCC. Óptica y Tecnología Láser, 2025; 192 (Parte E):113977,
https://doi.org/10.1016/j.optlastec.2025.113977
21. Kumar A., Dhanalakshmi R., Rajesh R. y Sendhil R. Un Tiny YOLO infundido con características espaciales y pérdida de peso ajustadas para la detección de sombras. Procesamiento de señales: Comunicación de imágenes, 2026; 140:117408,
https://doi.org/10.1016/j.image.2025.117408
22. Lv L., Li J. y Zhao Y. DMP-YOLO: Percepción densa multiescala para escenas complejas algoritmo YOLO Prunus humilis detección de objetivos pequeños. Tecnología Agrícola Inteligente, 2025; 12:101461
https://doi.org/10.1016/j.atech.2025.101461
23. Zhang Y., Xu Y., Xu T., Wang C., Li C. y Wang H. RSD-YOLO: Un marco mejorado YOLOv7-tiny para la identificación de la gravedad de la enfermedad de avena con integración de ReXNet y cabeza desacoplada. Tecnología Agrícola Inteligente, 2025; 12:101433
https://doi.org/10.1016/j.atech.2025.101433
24. Yao J., Li Y., Xia Z., Nie P., Li X. y Li Z. WTAD-YOLO: Un modelo ligero de detección de enfermedades de la hoja de tomate basado en YOLO11. Tecnología Agrícola Inteligente, 2025; 12:101349,
https://doi.org/10.1016/j.atech.2025.101349
25. Murat A. A. y Kiran M. S. Una revisión exhaustiva de las versiones de YOLO para detección de objetos. Engineering Science and Technology, una revista internacional, 2025; 70:102161,
https://doi.org/10.1016/j.jestch.2025.102161
26. Mehra, S., Ranga, V. y Agarwal, R. Un enfoque de aprendizaje profundo para la clasificación de enunciados disartrícos con BiLSTM-GRU, filtrado de señales de voz y espectrogramas log mel. The Journal of Supercomputing, 2024; 80:14520-14547,
Downloads

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Los autores que publican en esta revista están de acuerdo con los siguientes términos:
Los autores ceden los derechos patrimoniales a la revista y a la Universidad del Valle sobre los manuscritos aceptados, pero podrán hacer los reusos que consideren pertinentes por motivos profesionales, educativos, académicos o científicos, de acuerdo con los términos de la licencia que otorga la revista a todos sus artículos.
Los artículos serán publicados bajo la licencia Creative Commons 4.0 BY-NC-SA (de atribución, no comercial, sin obras derivadas).