Análisis de Algoritmos de Machine Learning para la Detección de Violencia en Audio
DOI:
https://doi.org/10.37117/s.v26i1.1156Palabras clave:
Aprendizaje automático, Aprendizaje profundo, Detección de violencia sonora, Análisis de audio, Algoritmos de detección de violencia artificialResumen
Resumen
El aprendizaje automático (ML) ha transformado la interacción con la tecnología, facilitando la detección de patrones y la mejora en tareas de clasificación a partir de grandes volúmenes de datos. En particular, su aplicación en la detección de violencia en audio ha abierto nuevas posibilidades para mejorar los sistemas de seguridad. Este artículo examina la viabilidad de cuatro modelos de aprendizaje profundo: CNN, ResNet50, VGG16 y VGG19, para identificar patrones acústicos asociados con situaciones de violencia en grabaciones de audio. Para ello, se implementaron simulaciones computacionales utilizando espectrogramas Mel como representación de señales acústicas, y se realizaron entrevistas con 7 expertos en Machine Learning para obtener retroalimentación sobre la efectividad de los modelos. Los resultados mostraron que ResNet50 sobresale en términos de precisión y capacidad de generalización, siendo recomendado especialmente para sistemas con recursos adecuados. En comparación, VGG16 y VGG19 demostraron ser útiles para entornos con limitaciones de recursos. Los expertos enfatizaron la importancia de la regularización y el aumento de datos para mitigar el sobreajuste, especialmente en contextos con datos ruidosos o limitados. Este estudio ofrece una perspectiva valiosa sobre la implementación de algoritmos de ML para mejorar la detección automática de violencia verbal, con implicaciones significativas para la seguridad y la vigilancia.
Descargas
Citas
Referencias bibliográficas
Badenes-Sastre, M., & Expósito, F. (2021). Percepción y detección de violencia de género e identificación como víctimas: Un estudio bibliométrico. Anales de Psicología, 37(2), 341-351. https://doi.org/10.6018/analesps.434611
Bugueño Sáez, V. G. (2017). Modelo de detección de agresiones verbales, por medio de algoritmos de Machine Learning (Tesis de pregrado, Universidad de Chile). https://repositorio.uchile.cl/handle/2250/148580
Campos Solano, O. (2022). Método para detectar violencia verbal mediante la combinación de reconocimiento de emociones y análisis de palabras (Tesis doctoral, Universidad Juárez Autónoma de Tabasco). https://ri.ujat.mx/handle/200.500.12107/5570
Crocco, M., Cristani, M., Trucco, A., & Murino, V. (2016). Vigilancia mediante audio: Una revisión sistemática. ACM Computing Surveys, 48(4), 52. https://doi.org/10.1145/2871183
Cumba Armijos, P. D. (2018). Predicción de ataques de cyber bullying mediante técnicas de aprendizaje profundo apoyándose en un corpus de entrenamiento para la clasificación de texto en español (Trabajo de pregrado, Universidad Internacional SEK). Recuperado de https://repositorio.uisek.edu.ec/bitstream/123456789/3224/2/TESIS%20MTI%20PAUL%20CUMBA.pdf
Duraes, D., Santos, F., Marcondes, F. S., Lange, S., & Machado, J. (2021). Comparación del comportamiento de aprendizaje de transferencia en detección de violencia con diferentes conjuntos de datos públicos. En G. Marreiros, F. S. Melo, N. Lau, H. Lopes Cardoso, & L. P. Reis (Eds.), Progreso en Inteligencia Artificial. EPIA 2021. Lecture Notes in Computer Science (Vol. 12981). Springer, Cham. https://doi.org/10.1007/978-3-030-86230-5_23
Gaytán Aguilar, I., Aguilar, A., Eleuterio, R. A., Rendón Lara, E., Miranda Piña, G., & Granda Gutiérrez, E. E. (2024). Un estudio comparativo de tres redes neuronales convolucionales preentrenadas en la detección de violencia contra la mujer. CIENCIA ergo-sum, 31(1). https://dialnet.unirioja.es/servlet/articulo?codigo=9778988
Hershey, S., Chaudhuri, S., Ellis, D. P. W., Gemmeke, J. F., Jansen, A., Moore, R. C., Plakal, M., Platt, D., Saurous, R. A., Seybold, B., Slaney, M., Weiss, R. J., & Wilson, K. W. (2017). Arquitecturas de redes neuronales convolucionales para la clasificación de audio a gran escala. Actas de la Conferencia Internacional de Acústica, Habla y Procesamiento de Señales de IEEE (ICASSP), 131-135. https://doi.org/10.1109/ICASSP.2017.7952132
Li, Z., Liu, F., Yang, W., Peng, S., & Zhou, J. (2021). Una revisión de las redes neuronales convolucionales: Análisis, aplicaciones y perspectivas. IEEE Transactions on Neural Networks and Learning Systems, 33(12), 6999-7019. https://ieeexplore.ieee.org/abstract/document/9451544
Mendoza Álava, J. N., Macías Bermeo, L. A., Morales Carrillo, J., & Cedeño Valarezo, L. (2024). Modelos de aprendizaje automático: Aplicación y eficiencia. Revista Científica de Informática ENCRIPTAR, 7(14), 87–114. https://doi.org/10.56124/encriptar.v7i14.005
Miranda-León, M. J., & Toala-Dueñas, R. A. (2024). Detección de emociones en discursos utilizando machine learning. 593 Digital Publisher CEIT, 9(4), 72-101. Recuperado de https://www.593dp.com/index.php/593_Digital_Publisher/article/view/2367
Ojeda Santana, D. F., & Ochoa Rincón, J. S. (2022). Desarrollo e implementación de un algoritmo basado en Deep Learning para la identificación de señales de audio de arma de fuego (Trabajo de grado, Universidad de San Buenaventura Bogotá). Recuperado de http://biblioteca.usbbog.edu.co:8080/Biblioteca/BDigital/173464.pdf
Patel, M. B. (2021). Detección de violencia en tiempo real utilizando CNN-LSTM. Recuperado de https://arxiv.org/pdf/2107.07578v1
Pérez-Aguilar, D., Risco-Ramos, R., & Casaverde-Pacherrez, L. (2021). Transfer learning en la clasificación binaria de imágenes térmicas. Ingenius. Revista de Ciencia y Tecnología, 26, 71-86. https://doi.org/10.17163/ings.n26.2021.07
Vosta, S., & Yow, K.-C. (2022). Una estructura combinada CNN-RNN para la detección de violencia en el mundo real en cámaras de vigilancia. Applied Sciences, 12(3), 1021. https://doi.org/10.3390/app12031021
Zhou, Z. H. (2021). Machine learning. Springer Nature. https://books.google.es/books?hl=es&lr=&id=ctM-EAAAQBAJ
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2025 Sayda Daniela Cedeño Vera, Ing. Ramón Toala Dueñas PhD

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
El Copyright posee el propósito de proteger tanto la propiedad intelectual de los autores como sus resultados. El comité editorial de la Revista Sinapsis se compromete con los autores a proteger, defender y preservar tanto su trabajo como su reputación, y toma muy en serio las acusaciones de infracción, plagio, disputas éticas y fraude. Si un autor se da cuenta de un posible plagio, copia de resultados, fraude o infracción, le rogamos que se comunique con la mayor brevedad posible con el comité editorial de la revista Sinapsis.
CC BY-NC-ND: esta licencia permite a los reutilizadores copiar y distribuir el material en cualquier medio o formato solo sin adaptarlo, solo con fines no comerciales y siempre que se le atribuya al creador.
Términos de Licencia:
Reconocimiento: debe otorgar el crédito correspondiente, proporcionar un enlace a la licencia e indicar si se realizaron cambios. Puede hacerlo de cualquier manera razonable, pero no de ninguna manera que sugiera que el licenciante lo respalda a usted o su uso.
No comercial: no puede utilizar el material con fines comerciales.
No Derivada: si remezcla, transforma o construye sobre el material, no puede distribuir el material modificado.
Sin restricciones adicionales: no puede aplicar términos legales o medidas tecnológicas que restrinjan legalmente a otros de hacer cualquier cosa que permita la licencia.
El autor esta en la obligación de seguir las exigencias según lo instruido en la licencia ubicada en el enlace: https://creativecommons.org/licenses/by-nc-nd/4.0/deed.es