Análisis de Algoritmos de Machine Learning para la Detección de Violencia en Audio

Authors

  • Sayda Daniela Cedeño Vera Universidad Técnica de Manabí
  • Ing. Ramón Toala Dueñas PhD Universidad Técnica de Manabí

DOI:

https://doi.org/10.37117/s.v26i1.1156

Keywords:

Aprendizaje automático, Aprendizaje profundo, Detección de violencia sonora, Análisis de audio, Algoritmos de detección de violencia artificial

Abstract

Abstract

Machine learning (ML) has revolutionized the interaction with technology, enabling systems to detect patterns and improve classification tasks from large datasets. Specifically, its application in violence detection in audio has opened new opportunities for enhancing security systems. This paper examines the viability of four deep learning models—CNN, ResNet50, VGG16, and VGG19—for identifying acoustic patterns associated with violence in audio recordings. Simulations were implemented using Mel spectrograms as representations of acoustic signals, and interviews were conducted with 7 machine learning experts to gather feedback on model effectiveness. Results showed that ResNet50 outperformed others in terms of accuracy and generalization capability, making it ideal for systems with adequate resources. In contrast, VGG16 and VGG19 proved useful for environments with limited resources. Experts emphasized the importance of regularization and data augmentation techniques to mitigate overfitting, particularly in contexts with noisy or limited data. This study provides valuable insights into the implementation of ML algorithms for automatic verbal violence detection, with significant implications for security and surveillance.

Downloads

Download data is not yet available.

References

Referencias bibliográficas

Badenes-Sastre, M., & Expósito, F. (2021). Percepción y detección de violencia de género e identificación como víctimas: Un estudio bibliométrico. Anales de Psicología, 37(2), 341-351. https://doi.org/10.6018/analesps.434611

Bugueño Sáez, V. G. (2017). Modelo de detección de agresiones verbales, por medio de algoritmos de Machine Learning (Tesis de pregrado, Universidad de Chile). https://repositorio.uchile.cl/handle/2250/148580

Campos Solano, O. (2022). Método para detectar violencia verbal mediante la combinación de reconocimiento de emociones y análisis de palabras (Tesis doctoral, Universidad Juárez Autónoma de Tabasco). https://ri.ujat.mx/handle/200.500.12107/5570

Crocco, M., Cristani, M., Trucco, A., & Murino, V. (2016). Vigilancia mediante audio: Una revisión sistemática. ACM Computing Surveys, 48(4), 52. https://doi.org/10.1145/2871183

Cumba Armijos, P. D. (2018). Predicción de ataques de cyber bullying mediante técnicas de aprendizaje profundo apoyándose en un corpus de entrenamiento para la clasificación de texto en español (Trabajo de pregrado, Universidad Internacional SEK). Recuperado de https://repositorio.uisek.edu.ec/bitstream/123456789/3224/2/TESIS%20MTI%20PAUL%20CUMBA.pdf

Duraes, D., Santos, F., Marcondes, F. S., Lange, S., & Machado, J. (2021). Comparación del comportamiento de aprendizaje de transferencia en detección de violencia con diferentes conjuntos de datos públicos. En G. Marreiros, F. S. Melo, N. Lau, H. Lopes Cardoso, & L. P. Reis (Eds.), Progreso en Inteligencia Artificial. EPIA 2021. Lecture Notes in Computer Science (Vol. 12981). Springer, Cham. https://doi.org/10.1007/978-3-030-86230-5_23

Gaytán Aguilar, I., Aguilar, A., Eleuterio, R. A., Rendón Lara, E., Miranda Piña, G., & Granda Gutiérrez, E. E. (2024). Un estudio comparativo de tres redes neuronales convolucionales preentrenadas en la detección de violencia contra la mujer. CIENCIA ergo-sum, 31(1). https://dialnet.unirioja.es/servlet/articulo?codigo=9778988

Hershey, S., Chaudhuri, S., Ellis, D. P. W., Gemmeke, J. F., Jansen, A., Moore, R. C., Plakal, M., Platt, D., Saurous, R. A., Seybold, B., Slaney, M., Weiss, R. J., & Wilson, K. W. (2017). Arquitecturas de redes neuronales convolucionales para la clasificación de audio a gran escala. Actas de la Conferencia Internacional de Acústica, Habla y Procesamiento de Señales de IEEE (ICASSP), 131-135. https://doi.org/10.1109/ICASSP.2017.7952132

Li, Z., Liu, F., Yang, W., Peng, S., & Zhou, J. (2021). Una revisión de las redes neuronales convolucionales: Análisis, aplicaciones y perspectivas. IEEE Transactions on Neural Networks and Learning Systems, 33(12), 6999-7019. https://ieeexplore.ieee.org/abstract/document/9451544

Mendoza Álava, J. N., Macías Bermeo, L. A., Morales Carrillo, J., & Cedeño Valarezo, L. (2024). Modelos de aprendizaje automático: Aplicación y eficiencia. Revista Científica de Informática ENCRIPTAR, 7(14), 87–114. https://doi.org/10.56124/encriptar.v7i14.005

Miranda-León, M. J., & Toala-Dueñas, R. A. (2024). Detección de emociones en discursos utilizando machine learning. 593 Digital Publisher CEIT, 9(4), 72-101. Recuperado de https://www.593dp.com/index.php/593_Digital_Publisher/article/view/2367

Ojeda Santana, D. F., & Ochoa Rincón, J. S. (2022). Desarrollo e implementación de un algoritmo basado en Deep Learning para la identificación de señales de audio de arma de fuego (Trabajo de grado, Universidad de San Buenaventura Bogotá). Recuperado de http://biblioteca.usbbog.edu.co:8080/Biblioteca/BDigital/173464.pdf

Patel, M. B. (2021). Detección de violencia en tiempo real utilizando CNN-LSTM. Recuperado de https://arxiv.org/pdf/2107.07578v1

Pérez-Aguilar, D., Risco-Ramos, R., & Casaverde-Pacherrez, L. (2021). Transfer learning en la clasificación binaria de imágenes térmicas. Ingenius. Revista de Ciencia y Tecnología, 26, 71-86. https://doi.org/10.17163/ings.n26.2021.07

Vosta, S., & Yow, K.-C. (2022). Una estructura combinada CNN-RNN para la detección de violencia en el mundo real en cámaras de vigilancia. Applied Sciences, 12(3), 1021. https://doi.org/10.3390/app12031021

Zhou, Z. H. (2021). Machine learning. Springer Nature. https://books.google.es/books?hl=es&lr=&id=ctM-EAAAQBAJ

Published

2025-06-30

How to Cite

Cedeño Vera, S. D., & Toala Dueñas PhD, I. R. (2025). Análisis de Algoritmos de Machine Learning para la Detección de Violencia en Audio. Sinapsis, 26(1). https://doi.org/10.37117/s.v26i1.1156

Issue

Section

Information and Communication Technologies