Categorías
Nuevo blog
Speex: un códec gratuito para la libertad de expresión
November 17 , 2021Visión general
Speex es un formato de compresión de audio de código abierto / software libre sin patente diseñado para voz. El Proyecto Speex tiene como objetivo reducir la barrera de entrada para las aplicaciones de voz al proporcionar una alternativa gratuita a los costosos códecs de voz patentados. Además, Speex está bien adaptado a las aplicaciones de Internet y proporciona funciones útiles que no están presentes en la mayoría de los demás códecs. Finalmente, Speex es parte del Proyecto GNU y está disponible bajo la licencia BSD revisada.
Speex está dirigido a voz sobre IP (VoIP) y compresión basada en archivos. Los objetivos del diseño han sido crear un códec que se optimice para una voz de alta calidad y una tasa de bits baja. Para lograr esto, el códec utiliza múltiples velocidades de bits y admite banda ultraancha, banda ancha y banda estrecha.. Se determina que el códec es resistente a los paquetes perdidos, pero débil a los corruptos. Todo esto llevó a la elección de la predicción lineal excitada por código (CELP) como la técnica de codificación a utilizar para Speex.
Características
Tasa de muestreo
Speex está diseñado principalmente para tres frecuencias de muestreo diferentes: 8 kHz (la misma frecuencia de muestreo para transmitir llamadas telefónicas), 16 kHz y 32 kHz. Estos se denominan respectivamente banda estrecha, banda ancha y banda ultraancha.
Calidad
La codificación Speex se controla la mayor parte del tiempo mediante un parámetro de calidad que va de 0 a 10. En la operación de tasa de bits constante (CBR), el parámetro de calidad es un número entero, mientras que para la tasa de bits variable (VBR), el parámetro es un número real (punto flotante).
Complejidad (variable)
Con Speex, es posible variar la complejidad permitida para el codificador. Esto se hace controlando cómo se realiza la búsqueda con un número entero que va de 1 a 10 de una manera similar a las opciones de -1 a -9 para las utilidades de compresión gzip. Para un uso normal, el nivel de ruido en la complejidad 1 es entre 1 y 2 dB más alto que en la complejidad 10, pero los requisitos de la CPU para la complejidad 10 son aproximadamente cinco veces más altos que para la complejidad 1. En la práctica, la mejor compensación es entre complejidad 2 y 4, [13] aunque los ajustes más altos suelen ser útiles cuando se codifican sonidos que no son de voz, como tonos DTMF, o si la codificación no se realiza en tiempo real.
Velocidad de bits variable (VBR)
La tasa de bits variable (VBR) permite que un códec cambie su tasa de bits dinámicamente para adaptarse a la "dificultad" del audio que se codifica. En el ejemplo de Speex, los sonidos como vocales y los transitorios de alta energía requieren una tasa de bits más alta para lograr una buena calidad, mientras que las fricativas (por ejemplo, los sonidos syf) se pueden codificar adecuadamente con menos bits. Por esta razón, VBR puede lograr una tasa de bits más baja para la misma calidad o una mejor calidad para una determinada tasa de bits. A pesar de sus ventajas, VBR tiene tres inconvenientes principales: primero, al especificar solo la calidad, no hay garantía sobre la tasa de bits promedio final. En segundo lugar, para algunas aplicaciones en tiempo real como voz sobre IP (VoIP), lo que cuenta es la tasa de bits máxima, que debe ser lo suficientemente baja para el canal de comunicación. En tercer lugar, es posible que el cifrado de la voz codificada en VBR no garantice la privacidad completa, ya que las frases aún pueden identificarse, al menos en un entorno controlado con un pequeño diccionario de frases, [14] mediante el análisis del patrón de variación de la tasa de bits.
Tasa de bits promedio (ABR)
La tasa de bits promedio resuelve uno de los problemas de VBR, ya que ajusta dinámicamente la calidad de VBR para cumplir con una tasa de bits objetivo específica. Debido a que la calidad / tasa de bits se ajusta en tiempo real (bucle abierto), la calidad global será ligeramente más baja que la obtenida mediante la codificación en VBR con exactamente la configuración de calidad correcta para cumplir con la tasa de bits promedio objetivo.
Detección de actividad de voz (VAD)
Cuando está habilitada, la detección de actividad de voz detecta si el audio que se codifica es voz o silencio / ruido de fondo. VAD siempre se activa implícitamente cuando se codifica en VBR, por lo que la opción solo es útil en operaciones que no son VBR. En este caso, Speex detecta períodos sin habla y los codifica con los bits suficientes para reproducir el ruido de fondo. Esto se denomina "generación de ruido de confort" (GNC). La última versión de VAD que funcionaba bien es la 1.1.12, ya que la versión 1.2 ha sido reemplazada por una simple detección de cualquier actividad.
Transmisión discontinua (DTX)
La transmisión discontinua es una adición a la operación VAD / VBR que permite dejar de transmitir completamente cuando el ruido de fondo está estacionario. En un archivo, se utilizan 5 bits por cada trama que falta (correspondiente a 250 bit / s).
Mejora de la percepción
La mejora de la percepción es una parte del decodificador que, cuando se enciende, intenta reducir (la percepción de) el ruido producido por el proceso de codificación / decodificación. En la mayoría de los casos, la mejora de la percepción hace que el sonido se aleje objetivamente del original (relación señal / ruido), pero al final sigue sonando mejor (mejora subjetiva).
Retraso algorítmico
Cada códec introduce un retraso en la transmisión. Para Speex, este retraso es igual al tamaño del cuadro, más una cierta cantidad de "anticipación" necesaria para procesar cada cuadro. En la operación de banda estrecha (8 kHz), el retardo es de 30 ms, mientras que para la banda ancha (16 kHz), el retardo es de 34 ms. Estos valores no tienen en cuenta el tiempo de CPU que se tarda en codificar o decodificar las tramas.
TONMIND, diseñador y fabricante deIPS pico desde 2014. Los altavoces SIP han aplicado el procesamiento de audio Speex para mejorar la calidad del sonido.
Nuestro Altavoces de megafonía IP El códec incluye OPUS, G711U, G711A, G722, GSM, MP1, MP2, MP3, WAV, LPCM s16le. Los diversos códec también garantizan una excelente calidad de sonido.
A la mente Altavoz SIP se puede aplicar a varios casos de aplicación, por ejemplo, escuela, galope comercial, centro de servicio al cliente, hotel, hospital, lugares grandes, etc. Los usuarios pueden conectar los altavoces SIP con IPPBX o el software del sistema PA desarrollado por nuestro equipo de R & D . También puede funcionar con el software Axis a través de RTP Multicasting.
La fuerza del núcleo de Tonmind incluye:
• Más de 10 años de experiencia en audio y video VoIP
• Soporte técnico exclusivo.
• Equipo de atención al cliente bien formado.
• Orientado al cliente.
• Rápida respuesta del mercado.
Etiquetas :