Automatic Silence Detection Employing Artificial Intelligence for Clinical Context Analyses Conference Poster

abstract

  • Automated speech and pause/silence detection is a crucial task in clinical and pathological environments, supporting diagnostic processes and providing essential information for treatment planning. This study evaluates three methods for automatic silence detection in clinical speech analysis: (1) a traditional energy-based method using zero-crossing detection, (2) a pretrained neural network model for voice activity detection (Silero-VAD), and (3) NVIDIA's speaker diarization and transcription tool. All methods demonstrated effective pause/silence detection with comparable error rates, though Silero-VAD exhibited superior precision and performance. Key metrics included a Dice coefficient of 0.917, an onset error of 500 ms, and an endpoint error of 370 ms, highlighting the importance of audio preprocessing.
  • La detección automática del habla y de las pausas/silencios es una tarea crucial en entornos clínicos y patológicos, ya que apoya los procesos de diagnóstico y proporciona información esencial para la planificación del tratamiento. Este estudio evalúa tres métodos de detección automática del silencio en el análisis clínico del habla: (1) un método tradicional basado en la energía que utiliza la detección de cruce por cero, (2) un modelo de red neuronal preentrenada para la detección de la actividad vocal (Silero-VAD) y (3) la herramienta de diarización y transcripción de hablantes de NVIDIA. Todos los métodos demostraron ser eficaces en la detección de pausas/silencios con tasas de error comparables, aunque Silero-VAD mostró una precisión y un rendimiento superiores. Las métricas clave incluyeron un coeficiente Dice de 0,917, un error de inicio de 500 ms y un error de final de 370 ms, lo que pone de relieve la importancia del preprocesamiento del audio.

publication date

  • 2024-12-1

ISBN

  • 9798331532352