Extensión de nombre de archivo | Contenedor MPEG / 3GPP
Envase de manzana
Flujo de ADTS
|
---|---|
Tipo de medio de Internet | audio / audio aac / audio aacp / audio 3gpp / audio 3gpp2 / audio mp4 / audio mp4a-latm / mpeg4-genérico |
Desarrollado por | Bell, Fraunhofer, Dolby, Sony, Nokia, LG Electronics, NEC, NTT Docomo, Panasonic |
Versión inicial | 1997 ; Hace 24 años ( 1997) |
Tipo de formato | Formato de compresión de audio, compresión con pérdida |
Contenido por | MPEG-4 Parte 14, 3GP y 3G2, formato de archivo multimedia base ISO y formato de intercambio de datos de audio (ADIF) |
Estándar | ISO / IEC 13818-7, ISO / IEC 14496-3 |
La codificación de audio avanzada ( AAC) es un estándar de codificación de audio para la compresión de audio digital con pérdida. Diseñado para ser el sucesor del formato MP3, AAC generalmente logró una calidad de sonido más alta que los codificadores MP3 del siglo XX con la misma tasa de bits.
AAC ha sido estandarizado por ISO e IEC como parte de las especificaciones MPEG-2 y MPEG-4. Parte de AAC, HE-AAC ( "AAC +"), es parte de audio MPEG-4 y se adoptó en radio digitales estándares DAB + y Digital Radio Mondiale, y la televisión móvil estándares DVB-H y ATSC-M / H.
AAC admite la inclusión de 48 canales de audio de ancho de banda completo (hasta 96 kHz) en una transmisión más 16 canales de efectos de baja frecuencia ( LFE, limitado a 120 Hz), hasta 16 canales de "acoplamiento" o de diálogo y hasta 16 transmisiones de datos. La calidad para estéreo es satisfactoria para los requisitos modestos a 96 kbit / s en modo estéreo conjunto ; sin embargo, la transparencia de alta fidelidad exige velocidades de datos de al menos 128 kbit / s ( VBR ). Las pruebas de audio MPEG-4 han demostrado que AAC cumple los requisitos denominados "transparentes" para la UIT a 128 kbit / s para estéreo y 320 kbit / s para audio 5.1. AAC usa solo un algoritmo de transformación de coseno discreto modificado (MDCT), lo que le otorga una mayor eficiencia de compresión que MP3, que usa un algoritmo de codificación híbrido que es parte MDCT y parte FFT.
AAC es el formato de audio estándar o predeterminado para iPhone, iPod, iPad, Nintendo DSi, Nintendo 3DS, Apple Music, iTunes, DivX Plus Web Player, PlayStation 4 y varios teléfonos Nokia Series 40. Es compatible con PlayStation Vita, Wii, Sony Walkman MP3, Android y BlackBerry. AAC también es compatible con los fabricantes de sistemas de audio para automóviles en el tablero. También es uno de los formatos de audio utilizados en Spotify.
La transformada de coseno discreta (DCT), un tipo de codificación de transformada para compresión con pérdida, fue propuesta por Nasir Ahmed en 1972 y desarrollada por Ahmed con T. Natarajan y KR Rao en 1973, publicando sus resultados en 1974. Esto llevó al desarrollo de la transformada de coseno discreta modificada (MDCT), propuesta por JP Princen, AW Johnson y AB Bradley en 1987, siguiendo un trabajo anterior de Princen y Bradley en 1986. El estándar de codificación de audio MP3 introducido en 1994 utilizó un algoritmo de codificación híbrido que es parte de MDCT y parte FFT. AAC utiliza un algoritmo puramente MDCT, lo que le otorga una mayor eficiencia de compresión que MP3.
AAC se desarrolló con la cooperación y las contribuciones de empresas como Bell Labs, Fraunhofer IIS, Dolby Laboratories, LG Electronics, NEC, NTT Docomo, Panasonic, Sony Corporation, ETRI, JVC Kenwood, Philips, Microsoft y NTT. Fue declarado oficialmente estándar internacional por el Moving Picture Experts Group en abril de 1997. Se especifica como Parte 7 del estándar MPEG-2 y Subparte 4 en la Parte 3 del estándar MPEG-4.
En 1997, AAC se introdujo por primera vez como MPEG-2 Parte 7, formalmente conocido como ISO / IEC 13818-7: 1997. Esta parte de MPEG-2 era una parte nueva, ya que MPEG-2 ya incluía MPEG-2 Parte 3, formalmente conocida como ISO / IEC 13818-3: MPEG-2 BC (Compatible con versiones anteriores). Por lo tanto, MPEG-2 Part 7 también se conoce como MPEG-2 NBC (no compatible con versiones anteriores), porque no es compatible con los formatos de audio MPEG-1 ( MP1, MP2 y MP3 ).
MPEG-2 Parte 7 definió tres perfiles: perfil de baja complejidad (AAC-LC / LC-AAC), perfil principal (AAC principal) y perfil de frecuencia de muestreo escalable (AAC-SSR). El perfil AAC-LC consta de un formato base muy parecido al formato de codificación Perceptual Audio Coding (PAC) de ATamp;T, con la adición de modelado de ruido temporal (TNS), la ventana de Kaiser (descrita a continuación), un cuantificador no uniforme y una reelaboración del formato de flujo de bits para manejar hasta 16 canales estéreo, 16 canales mono, 16 canales de efectos de baja frecuencia (LFE) y 16 canales de comentarios en un flujo de bits. El perfil principal agrega un conjunto de predictores recursivos que se calculan en cada toque del banco de filtros. El SSR utiliza un banco de filtros PQMF de 4 bandas, seguido de cuatro bancos de filtros más cortos, para permitir tasas de muestreo escalables.
En 1999, MPEG-2 Part 7 se actualizó e incluyó en la familia de estándares MPEG-4 y se conoció como MPEG-4 Part 3, MPEG-4 Audio o ISO / IEC 14496-3: 1999. Esta actualización incluyó varias mejoras. Una de estas mejoras fue la adición de tipos de objetos de audio que se utilizan para permitir la interoperabilidad con una amplia gama de otros formatos de audio como TwinVQ, CELP, HVXC, interfaz de texto a voz y audio estructurado MPEG-4. Otra adición notable en esta versión del estándar AAC es la sustitución de ruido perceptual (PNS). En ese sentido, los perfiles AAC (perfiles AAC-LC, AAC Main y AAC-SSR) se combinan con la sustitución de ruido de percepción y se definen en el estándar de audio MPEG-4 como tipos de objetos de audio. Los tipos de objetos de audio MPEG-4 se combinan en cuatro perfiles de audio MPEG-4: principal (que incluye la mayoría de los tipos de objetos de audio MPEG-4), escalable (AAC LC, AAC LTP, CELP, HVXC, TwinVQ, síntesis de tabla de ondas, TTSI), Voz (CELP, HVXC, TTSI) y síntesis de baja frecuencia (síntesis de tabla de ondas, TTSI).
El software de referencia para MPEG-4 Parte 3 se especifica en MPEG-4 Parte 5 y los flujos de bits de conformidad se especifican en MPEG-4 Parte 4. MPEG-4 Audio sigue siendo compatible con MPEG-2 Parte 7.
MPEG-4 Audio Version 2 (ISO / IEC 14496-3: 1999 / Amd 1: 2000) definió nuevos tipos de objetos de audio: el tipo de objeto AAC de bajo retardo ( AAC-LD ), el tipo de objeto de codificación aritmética en segmentos de bits (BSAC), codificación de audio paramétrica utilizando versiones armónicas e individuales de líneas más resistentes al ruido y a errores (ER) de los tipos de objetos. También definió cuatro nuevos perfiles de audio: perfil de audio de alta calidad, perfil de audio de bajo retardo, perfil de audio natural y perfil de interconexión de audio móvil.
El perfil HE-AAC (AAC LC con SBR ) y el perfil AAC (AAC LC) se estandarizaron por primera vez en ISO / IEC 14496-3: 2001 / Amd 1: 2003. El perfil HE-AAC v2 (AAC LC con SBR y estéreo paramétrico) se especificó por primera vez en ISO / IEC 14496-3: 2005 / Amd 2: 2006. El tipo de objeto de audio estéreo paramétrico utilizado en HE-AAC v2 se definió por primera vez en ISO / IEC 14496-3: 2001 / Amd 2: 2004.
La versión actual del estándar AAC se define en ISO / IEC 14496-3: 2009.
AAC + v2 también está estandarizado por ETSI ( Instituto Europeo de Normas de Telecomunicaciones ) como TS 102005.
El estándar MPEG-4 Part 3 también contiene otras formas de comprimir sonido. Estos incluyen formatos de compresión sin pérdida, audio sintético y formatos de compresión de baja tasa de bits que se utilizan generalmente para el habla.
Advanced Audio Coding está diseñado para ser el sucesor de MPEG-1 Audio Layer 3, conocido como formato MP3, que fue especificado por ISO / IEC en 11172-3 ( MPEG-1 Audio) y 13818-3 ( MPEG-2 Audio).
Las pruebas a ciegas a finales de la década de 1990 mostraron que AAC demostró una mayor calidad de sonido y transparencia que MP3 para archivos codificados con la misma velocidad de bits.
Las mejoras incluyen:
En general, el formato AAC permite a los desarrolladores más flexibilidad para diseñar códecs que MP3 y corrige muchas de las elecciones de diseño realizadas en la especificación de audio MPEG-1 original. Esta mayor flexibilidad a menudo conduce a estrategias de codificación más concurrentes y, como resultado, a una compresión más eficiente. Esto es especialmente cierto a velocidades de bits muy bajas, donde la codificación estéreo superior, la MDCT pura y los mejores tamaños de ventana de transformación hacen que MP3 no pueda competir.
Si bien el formato MP3 tiene soporte de hardware y software casi universal, principalmente porque MP3 fue el formato de elección durante los primeros años cruciales de intercambio / distribución generalizada de archivos de música a través de Internet, AAC es un fuerte competidor debido a un apoyo inquebrantable de la industria..
AAC es un algoritmo de codificación de audio de banda ancha que explota dos estrategias de codificación principales para reducir drásticamente la cantidad de datos necesarios para representar audio digital de alta calidad:
El proceso de codificación real consta de los siguientes pasos:
El estándar de audio MPEG-4 no define un conjunto único o pequeño de esquemas de compresión altamente eficientes, sino más bien una caja de herramientas compleja para realizar una amplia gama de operaciones, desde codificación de voz de baja tasa de bits hasta codificación de audio de alta calidad y síntesis de música.
Los codificadores AAC pueden cambiar dinámicamente entre un solo bloque MDCT de 1024 puntos de longitud u 8 bloques de 128 puntos (o entre 960 puntos y 120 puntos, respectivamente).
AAC adopta un enfoque modular para la codificación. Dependiendo de la complejidad del flujo de bits a codificar, el rendimiento deseado y la salida aceptable, los implementadores pueden crear perfiles para definir cuál de un conjunto específico de herramientas quieren usar para una aplicación particular.
El estándar MPEG-2 Parte 7 (Codificación de audio avanzada) se publicó por primera vez en 1997 y ofrece tres perfiles predeterminados:
El estándar MPEG-4 Part 3 (MPEG-4 Audio) definió varias herramientas de compresión nuevas (también conocidas como tipos de objetos de audio ) y su uso en perfiles completamente nuevos. AAC no se utiliza en algunos de los perfiles de audio MPEG-4. El perfil MPEG-2 Part 7 AAC LC, el perfil AAC Main y el perfil AAC SSR se combinan con la sustitución de ruido perceptual y se definen en el estándar de audio MPEG-4 como tipos de objetos de audio (bajo el nombre AAC LC, AAC Main y AAC SSR). Estos se combinan con otros tipos de objetos en los perfiles de audio MPEG-4. Aquí hay una lista de algunos perfiles de audio definidos en el estándar MPEG-4:
Artículo principal: MPEG-4 Parte 3: Perfiles de audioUna de las muchas mejoras en MPEG-4 Audio es un tipo de objeto llamado predicción a largo plazo (LTP), que es una mejora del perfil principal que utiliza un predictor directo con menor complejidad computacional.
La aplicación de la protección contra errores permite la corrección de errores hasta cierto punto. Los códigos de corrección de errores se aplican generalmente por igual a toda la carga útil. Sin embargo, dado que diferentes partes de una carga útil AAC muestran una sensibilidad diferente a los errores de transmisión, este no sería un enfoque muy eficiente.
La carga útil de AAC se puede subdividir en partes con diferentes sensibilidades de error.
Se pueden utilizar técnicas de resistencia a errores (ER) para hacer que el esquema de codificación en sí sea más robusto frente a errores.
Para AAC, se desarrollaron y definieron tres métodos personalizados en MPEG-4 Audio
Los estándares de codificación de audio MPEG-4 Low Delay ( AAC-LD ), Enhanced Low Delay (AAC-ELD) y Enhanced Low Delay v2 (AAC-ELDv2) como se define en ISO / IEC 14496-3: 2009 e ISO / IEC 14496 -3: 2009 / Amd 3 están diseñados para combinar las ventajas de la codificación de audio perceptual con el bajo retardo necesario para la comunicación bidireccional. Se derivan en gran medida del formato MPEG-2 Advanced Audio Coding (AAC). La GSMA recomienda AAC-ELD como códec de voz de banda súper ancha en el perfil IMS para el servicio de videoconferencia de alta definición (HDVC).
No se requieren licencias ni pagos para que un usuario transmita o distribuya contenido en formato AAC. Esta sola razón podría haber hecho de AAC un formato más atractivo para distribuir contenido que su predecesor MP3, particularmente para contenido de transmisión (como radio por Internet) dependiendo del caso de uso.
Sin embargo, se requiere una licencia de patente para todos los fabricantes o desarrolladores de códecs AAC. Por esta razón, las implementaciones de software de código abierto y gratuito, como FFmpeg y FAAC, pueden distribuirse solo en forma de código fuente, para evitar la infracción de patentes. (Consulte más abajo en Productos compatibles con AAC, Software).
Los titulares de patentes de AAC incluyen Bell Labs, Dolby, Fraunhofer, LG Electronics, NEC, NTT Docomo, Panasonic, Sony Corporation, ETRI, JVC Kenwood, Philips, Microsoft y NTT.
Se han agregado algunas extensiones al primer estándar AAC (definido en MPEG-2 Parte 7 en 1997):
Además de MP4, 3GP y otros formatos de contenedor basados en el formato de archivo multimedia base ISO para el almacenamiento de archivos, los datos de audio AAC se empaquetaron primero en un archivo para el estándar MPEG-2 usando el Formato de intercambio de datos de audio (ADIF), que consta de un único encabezado seguido de los bloques de datos de audio AAC sin procesar. Sin embargo, si los datos se van a transmitir dentro de un flujo de transporte MPEG-2, se utiliza un formato de sincronización automática llamado flujo de transporte de datos de audio (ADTS), que consta de una serie de cuadros, cada cuadro con un encabezado seguido del AAC. datos de audio. Este archivo y el formato basado en transmisión se definen en MPEG-2 Parte 7, pero MPEG-4 solo los considera informativos, por lo que un decodificador MPEG-4 no necesita admitir ninguno de los formatos. Estos contenedores, así como un flujo AAC sin procesar, pueden tener la extensión de archivo.aac. MPEG-4 Parte 3 también define su propio formato de auto-sincronización llamado Low Overhead Audio Stream (LOAS) que encapsula no solo AAC, sino cualquier esquema de compresión de audio MPEG-4 como TwinVQ y ALS. Este formato es el que se definió para su uso en transmisiones de transporte DVB cuando los codificadores utilizan extensiones SBR o AAC estéreo paramétricas. Sin embargo, está restringido a un solo flujo AAC no multiplexado. Este formato también se conoce como multiplexación de transporte de audio de baja sobrecarga (LATM), que es solo una versión de flujo múltiple intercalado de un LOAS.
En diciembre de 2003, Japón comenzó a transmitir el estándar terrestre DTV ISDB-T que implementa video MPEG-2 y audio MPEG-2 AAC. En abril de 2006 Japón comenzó a transmitir el subprograma móvil ISDB-T, llamado 1seg, que fue la primera implementación de video H.264 / AVC con audio HE-AAC en el servicio de transmisión de HDTV terrestre en el planeta.
En diciembre de 2007, Brasil comenzó a transmitir el estándar DTV terrestre llamado International ISDB-Tb que implementa codificación de video H.264 / AVC con audio AAC-LC en el programa principal (simple o múltiple) y video H.264 / AVC con audio HE-AACv2 en el subprograma móvil 1seg.
El ETSI, el organismo rector de estándares para la suite DVB, admite la codificación de audio AAC, HE-AAC y HE-AAC v2 en aplicaciones DVB desde al menos 2004. Las transmisiones DVB que utilizan la compresión H.264 para video normalmente usan HE-AAC para audio.
En abril de 2003, Apple atrajo la atención general hacia AAC al anunciar que sus productos iTunes e iPod admitirían canciones en formato MPEG-4 AAC (a través de una actualización de firmware para iPods más antiguos). Los clientes pueden descargar música en una forma de AAC restringida por la Administración de Derechos Digitales (DRM) de código cerrado (ver FairPlay ) a través de iTunes Store o crear archivos sin DRM desde sus propios CD usando iTunes. En años posteriores, Apple comenzó a ofrecer videos musicales y películas, que también usan AAC para la codificación de audio.
El 29 de mayo de 2007, Apple comenzó a vender canciones y videos musicales sin DRM de los sellos discográficos participantes. Estos archivos se adhieren principalmente al estándar AAC y se pueden reproducir en muchos productos que no son de Apple, pero incluyen información personalizada de iTunes, como la carátula del álbum y un recibo de compra, a fin de identificar al cliente en caso de que el archivo se filtre en peer-to. -redes de pares. Sin embargo, es posible eliminar estas etiquetas personalizadas para restaurar la interoperabilidad con reproductores que se ajusten estrictamente a la especificación AAC. A partir del 6 de enero de 2009, casi toda la música en la iTunes Store de la región de EE. UU. Se convirtió en libre de DRM, y el resto se convirtió en libre de DRM a fines de marzo de 2009.
iTunes admite una opción de codificación de "Tasa de bits variable" (VBR) que codifica las pistas AAC en un esquema de "Tasa de bits promedio" (ABR). A partir de septiembre de 2009, Apple ha agregado soporte para HE-AAC (que es completamente parte del estándar MP4) solo para transmisiones de radio, no para reproducción de archivos, y iTunes aún carece de soporte para la verdadera codificación VBR. Sin embargo, la API de QuickTime subyacente ofrece un verdadero perfil de codificación VBR.
Durante varios años, muchos teléfonos móviles de fabricantes como Nokia, Motorola, Samsung, Sony Ericsson, BenQ-Siemens y Philips han admitido la reproducción AAC. El primer teléfono de este tipo fue el Nokia 5510 lanzado en 2002, que también reproduce MP3. Sin embargo, este teléfono fue un fracaso comercial y dichos teléfonos con reproductores de música integrados no ganaron popularidad hasta 2005, cuando continuó la tendencia de tener soporte AAC y MP3. La mayoría de los nuevos teléfonos inteligentes y teléfonos con temas musicales admiten la reproducción de estos formatos.
Casi todos los reproductores multimedia informáticos actuales incluyen decodificadores integrados para AAC o pueden utilizar una biblioteca para decodificarlos. En Microsoft Windows, DirectShow se puede usar de esta manera con los filtros correspondientes para habilitar la reproducción AAC en cualquier reproductor basado en DirectShow. Mac OS X admite AAC a través de las bibliotecas QuickTime.
Adobe Flash Player, desde la actualización 3 de la versión 9, también puede reproducir transmisiones AAC. Dado que Flash Player también es un complemento de navegador, también puede reproducir archivos AAC a través de un navegador.
El Rockbox de código abierto del firmware (disponible para varios reproductores portátiles) también ofrece soporte para AAC en diversos grados, dependiendo del modelo de jugador y el perfil AAC.
La compatibilidad con iPod opcional (reproducción de archivos AAC no protegidos) para Xbox 360 está disponible como descarga gratuita desde Xbox Live.
La siguiente es una lista no completa de otras aplicaciones de reproducción de software:
Algunos de estos reproductores (por ejemplo, foobar2000, Winamp y VLC) también admiten la decodificación de ADTS (Audio Data Transport Stream) mediante el protocolo SHOUTcast. Los complementos para Winamp y foobar2000 permiten la creación de dichos flujos.
En mayo de 2006, Nero AG lanzó una herramienta de codificación AAC gratuita, Nero Digital Audio (la parte del códec AAC se ha convertido en Nero AAC Codec ), que es capaz de codificar transmisiones LC-AAC, HE-AAC y HE-AAC v2. La herramienta es solo una herramienta de interfaz de línea de comandos. También se incluye una utilidad separada para decodificar a PCM WAV.
Varias herramientas, incluido el reproductor de audio foobar2000 y MediaCoder, pueden proporcionar una GUI para este codificador.
FAAC y FAAD2 son las siglas de Freeware Advanced Audio Coder y Decoder 2 respectivamente. FAAC admite los tipos de objetos de audio LC, Main y LTP. FAAD2 admite los tipos de objetos de audio LC, Main, LTP, SBR y PS. Aunque FAAD2 es un software gratuito, FAAC no es un software gratuito.
Un codificador / decodificador de código abierto creado por Fraunhofer incluido en Android se ha portado a otras plataformas. Es el codificador AAC recomendado de FFmpeg.
El codificador AAC nativa creada en FFmpeg 's libavcodec, y en forma de horquilla con Libav, se considera experimental y pobres. Se realizó una cantidad significativa de trabajo para la versión 3.0 de FFmpeg (febrero de 2016) para hacer que su versión sea utilizable y competitiva con el resto de codificadores AAC. Libav no ha fusionado este trabajo y continúa usando la versión anterior del codificador AAC. Estos codificadores son de código abierto con licencia LGPL y se pueden construir para cualquier plataforma en la que se puedan construir los marcos FFmpeg o Libav.
Tanto FFmpeg como Libav pueden usar la biblioteca Fraunhofer FDK AAC a través de libfdk-aac, y aunque el codificador nativo FFmpeg se ha vuelto lo suficientemente estable y bueno para el uso común, FDK todavía se considera el codificador de mayor calidad disponible para su uso con FFmpeg. Libav también recomienda usar FDK AAC si está disponible.