![]() | |
![]() | |
Autor (es) original (es) | Richard Stallman |
---|---|
Desarrollador (es) | Proyecto GNU |
Versión inicial | 23 de mayo de 1987 ; Hace 34 años ( 23 de mayo de 1987) |
Lanzamiento estable | 11.2 / 27 de julio de 2021 ; Hace 2 meses ( 07/27/2021) |
Versión de vista previa | 11.2.0-RC / 21 de julio de 2021 ; Hace 2 meses ( 21 de julio de 2021) |
Repositorio | |
Escrito en | C, C ++ |
Sistema operativo | Multiplataforma |
Plataforma | GNU y muchos otros |
Tamaño | ~ 15 millones de LOC |
Escribe | Compilador |
Licencia | GPLv3 + con excepción de biblioteca en tiempo de ejecución de GCC |
Sitio web | gcc.gnu.org |
La colección de compiladores de GNU ( GCC) es un compilador de optimización producida por el Proyecto GNU apoyar diversos lenguajes de programación, arquitecturas de hardware y sistemas operativos. La Free Software Foundation (FSF) distribuye GCC como software libre bajo la Licencia Pública General GNU (GNU GPL). GCC es un componente clave de la cadena de herramientas GNU y el compilador estándar para la mayoría de los proyectos relacionados con GNU y el kernel de Linux. Con aproximadamente 15 millones de líneas de código en 2019, GCC es uno de los programas gratuitos más grandes que existen. Ha jugado un papel importante en el crecimiento del software libre, como herramienta y como ejemplo.
Cuando se publicó por primera vez en 1987 por Richard Stallman, GCC 1.0 fue nombrado el compilador de C de GNU, ya que sólo maneja el lenguaje de programación C. Se amplió para compilar C ++ en diciembre de ese año. Los extremos delanteros se desarrollaron más tarde para Objective-C, Objective-C ++, Fortran, Ada, D y Go, entre otros. Las especificaciones OpenMP y OpenACC también son compatibles con los compiladores C y C ++.
GCC se ha adaptado a más plataformas y arquitecturas de conjuntos de instrucciones que cualquier otro compilador, y se ha implementado ampliamente como herramienta en el desarrollo de software tanto gratuito como propietario. GCC también está disponible para muchos sistemas integrados, incluidos los chips basados en ARM y los basados en Power ISA.
Además de ser el compilador oficial del sistema operativo GNU, GCC ha sido adoptado como el compilador estándar por muchos otros sistemas operativos de computadora modernos similares a Unix, incluidas la mayoría de las distribuciones de Linux. La mayoría de los sistemas operativos de la familia BSD también cambiaron a GCC poco después de su lanzamiento, aunque desde entonces, FreeBSD, OpenBSD y Apple macOS se han trasladado al compilador Clang, en gran parte debido a razones de licencia. GCC también puede compilar código para Windows, Android, iOS, Solaris, HP-UX, AIX y DOS.
A finales de 1983, en un esfuerzo por arrancar el sistema operativo GNU, Richard Stallman le pidió permiso a Andrew S. Tanenbaum, autor del Amsterdam Compiler Kit (también conocido como Free University Compiler Kit) para usar ese software para GNU. Cuando Tanenbaum le advirtió que el compilador no era gratuito y que solo la universidad era gratuita, Stallman decidió trabajar en un compilador diferente. Su plan inicial era reescribir un compilador existente del Laboratorio Nacional Lawrence Livermore de Pastel a C con la ayuda de Len Tower y otros. Stallman escribió una nueva interfaz C para el compilador de Livermore, pero luego se dio cuenta de que requería megabytes de espacio de pila, una imposibilidad en un sistema Unix 68000 con solo 64 KB, y concluyó que tendría que escribir un nuevo compilador desde cero. Ninguno de los códigos del compilador Pastel terminó en GCC, aunque Stallman usó la interfaz C que había escrito.
GCC fue lanzado por primera vez el 22 de marzo de 1987, disponible por FTP del MIT. Stallman figuraba como autor, pero citó a otros por sus contribuciones, incluidos Jack Davidson y Christopher Fraser por la idea de usar RTL como lenguaje intermedio, Paul Rubin por escribir la mayor parte del preprocesador y Leonard Tower por "partes del analizador, RTL generador, definiciones RTL y de la descripción de la máquina Vax ". Descrito como el "primer éxito del software libre" por Peter H. Salus, el compilador GNU llegó justo en el momento en que Sun Microsystems estaba separando sus herramientas de desarrollo de su sistema operativo, vendiéndolas por separado a un precio combinado más alto que el paquete anterior, que llevó a muchos de los usuarios de Sun a comprar o descargar GCC en lugar de las herramientas del proveedor. Si bien Stallman consideraba a GNU Emacs como su proyecto principal, en 1990 GCC admitía trece arquitecturas de computadora, estaba superando a varios compiladores de proveedores y varias empresas lo usaban comercialmente.
Como GCC tenía la licencia GPL, los programadores que deseaban trabajar en otras direcciones, en particular aquellos que escribían interfaces para lenguajes distintos de C, tenían la libertad de desarrollar su propia bifurcación del compilador, siempre que cumplieran los términos de la GPL, incluidos sus requisitos para distribuir el código fuente. codigo. Sin embargo, varias bifurcaciones demostraron ser ineficientes y difíciles de manejar, y la dificultad para lograr que el trabajo fuera aceptado por el proyecto oficial de GCC fue muy frustrante para muchos, ya que el proyecto favorecía la estabilidad sobre las nuevas funciones. La FSF mantuvo un control tan estrecho sobre lo que se agregó a la versión oficial de GCC 2.x (desarrollado desde 1992) que GCC se utilizó como un ejemplo del modelo de desarrollo de la "catedral" en el ensayo de Eric S. Raymond The Cathedral and the Bazar.
En 1997, un grupo de desarrolladores formó el Sistema de compilación GNU Experimental / Enhanced (EGCS) para fusionar varias bifurcaciones experimentales en un solo proyecto. La base de la fusión fue una instantánea de desarrollo de GCC (tomada alrededor de la versión 2.7.2 y luego seguida hasta la versión 2.8.1). Las fusiones incluyeron g77 (Fortran), PGCC ( P5 Pentium optimizado GCC), muchas mejoras de C ++ y muchas arquitecturas nuevas y variantes del sistema operativo.
Si bien ambos proyectos siguieron de cerca los cambios del otro, el desarrollo de EGCS demostró ser considerablemente más vigoroso, tanto que la FSF detuvo oficialmente el desarrollo de su compilador GCC 2.x, bendijo a EGCS como la versión oficial de GCC y nombró al proyecto EGCS como GCC. mantenedores en abril de 1999. Con el lanzamiento de GCC 2.95 en julio de 1999, los dos proyectos volvieron a unirse. Desde entonces, GCC ha sido mantenido por un grupo variado de programadores de todo el mundo bajo la dirección de un comité directivo.
GCC 3 (2002) eliminó un front-end para CHILL debido a la falta de mantenimiento.
Antes de la versión 4.0, el front-end de Fortran g77
solo era compatible con FORTRAN 77, pero luego se abandonó a favor del nuevo front-end de GNU Fortran que es compatible con Fortran 95 y gran parte de Fortran 2003 y Fortran 2008 también.
A partir de la versión 4.8, GCC está implementado en C ++.
El soporte para Cilk Plus existió desde GCC 5 hasta GCC 7.
GCC se ha adaptado a una amplia variedad de arquitecturas de conjuntos de instrucciones y se ha implementado ampliamente como una herramienta en el desarrollo de software tanto gratuito como propietario. GCC también está disponible para muchos sistemas integrados, incluidos los chips Symbian (llamados gcce), basados en ARM y basados en Power ISA. El compilador puede apuntar a una amplia variedad de plataformas, incluidas consolas de videojuegos como PlayStation 2, Cell SPE de PlayStation 3 y Dreamcast. Se ha adaptado a más tipos de procesadores y sistemas operativos que cualquier otro compilador.
A partir de mayo de 2021, la reciente versión 11.1 de GCC incluye interfaces para los lenguajes de programación C ( gcc
), C ++ ( g++
), Objective-C, Fortran ( gfortran
), Ada ( GNAT ), Go ( gccgo
) y D ( gdc
, desde 9.1), con las extensiones de lenguaje paralelo OpenMP y OpenACC son compatibles desde GCC 5.1. Las versiones anteriores a GCC 7 también admitían Java ( gcj
), lo que permitía la compilación de Java en código de máquina nativo.
Con respecto al soporte de versiones de idiomas para C ++ y C, desde GCC 11.1 el destino predeterminado es gnu ++ 17, un superconjunto de C ++ 17, y gnu11, un superconjunto de C11, con soporte estándar estricto también disponible. GCC también proporciona soporte experimental para C ++ 20 y el próximo C ++ 23.
Existen interfaces de terceros para muchos lenguajes, como Pascal ( gpc
), Modula-2, Modula-3, PL / I y VHDL ( GHDL
). Existen algunas ramas experimentales para admitir lenguajes adicionales, como el compilador GCC UPC para Unified Parallel C o Rust.
La interfaz externa de GCC sigue las convenciones de Unix. Los usuarios invocan un programa controlador específico del lenguaje ( gcc
para C, g++
para C ++, etc.), que interpreta los argumentos del comando, llama al compilador real, ejecuta el ensamblador en la salida y luego, opcionalmente, ejecuta el vinculador para producir un binario ejecutable completo.
Cada uno de los compiladores de lenguajes es un programa independiente que lee el código fuente y genera código de máquina. Todos tienen una estructura interna común. Una interfaz por idioma analiza el código fuente en ese idioma y produce un árbol de sintaxis abstracto ("árbol" para abreviar).
Estos se convierten, si es necesario, a la representación de entrada del extremo medio, denominada forma GENÉRICA ; el extremo intermedio luego transforma gradualmente el programa hacia su forma final. Las optimizaciones del compilador y las técnicas de análisis de código estático (como FORTIFY_SOURCE, una directiva del compilador que intenta descubrir algunos desbordamientos de búfer ) se aplican al código. Estos funcionan en múltiples representaciones, principalmente la representación GIMPLE independiente de la arquitectura y la representación RTL dependiente de la arquitectura. Finalmente, el código de máquina se produce utilizando la coincidencia de patrones específicos de la arquitectura, originalmente basada en un algoritmo de Jack Davidson y Chris Fraser.
GCC se escribió principalmente en C, excepto por partes de la interfaz Ada. La distribución incluye las bibliotecas estándar para Ada y C ++ cuyo código está escrito principalmente en esos lenguajes. En algunas plataformas, la distribución también incluye una biblioteca en tiempo de ejecución de bajo nivel, libgcc, escrita en una combinación de C independiente de la máquina y código de máquina específico del procesador, diseñado principalmente para manejar operaciones aritméticas que el procesador de destino no puede realizar directamente.
GCC utiliza muchas herramientas estándar en su construcción, incluidas Perl, Flex, Bison y otras herramientas comunes. Además, actualmente requiere la presencia de tres bibliotecas adicionales para poder compilar: GMP, MPC y MPFR.
En mayo de 2010, el comité directivo de GCC decidió permitir el uso de un compilador de C ++ para compilar GCC. El compilador estaba destinado a estar escrito principalmente en C más un subconjunto de características de C ++. En particular, esto se decidió para que los desarrolladores de GCC pudieran usar los destructores y las características genéricas de C ++.
En agosto de 2012, el comité directivo de GCC anunció que GCC ahora usa C ++ como lenguaje de implementación. Esto significa que para construir GCC a partir de fuentes, se requiere un compilador C ++ que comprenda el estándar ISO / IEC C ++ 03.
El 18 de mayo de 2020, GCC se alejó del estándar ISO / IEC C ++ 03 al estándar ISO / IEC C ++ 11 (es decir, necesario para compilar, arrancar, el compilador en sí; de forma predeterminada, sin embargo, compila versiones posteriores de C ++).
Cada interfaz utiliza un analizador para producir el árbol de sintaxis abstracto de un archivo fuente determinado. Debido a la abstracción del árbol de sintaxis, los archivos fuente de cualquiera de los diferentes lenguajes admitidos pueden ser procesados por el mismo backend. GCC comenzó utilizando analizadores LALR generados con Bison, pero gradualmente cambió a analizadores sintácticos de descenso recursivo escritos a mano para C ++ en 2004, y para C y Objective-C en 2006. A partir de 2021, todas las interfaces utilizan analizadores sintácticos de descenso recursivo escritos a mano..
Hasta GCC 4.0, la representación en árbol del programa no era completamente independiente del procesador al que se dirigía. El significado de un árbol era algo diferente para las diferentes interfaces de lenguaje, y las interfaces podían proporcionar sus propios códigos de árbol. Esto se simplificó con la introducción de GENERIC y GIMPLE, dos nuevas formas de árboles independientes del lenguaje que se introdujeron con la llegada de GCC 4.0. GENERIC es más complejo, basado en la representación intermedia del front-end Java de GCC 3.x. GIMPLE es un GENÉRICO simplificado, en el que varias construcciones se reducen a múltiples instrucciones GIMPLE. Las interfaces de C, C ++ y Java producen GENERIC directamente en la interfaz. En cambio, otras interfaces tienen diferentes representaciones intermedias después de analizarlas y convertirlas en GENERIC.
En cualquier caso, el llamado "gimplifier" convierte esta forma más compleja en la forma GIMPLE basada en SSA más simple que es el lenguaje común para una gran cantidad de optimizaciones globales (alcance de función) independientes del lenguaje y la arquitectura.
GENERIC es un lenguaje de representación intermedio que se utiliza como un "extremo intermedio" al compilar el código fuente en binarios ejecutables. Un subconjunto, llamado GIMPLE, es el objetivo de todas las interfaces de GCC.
La etapa intermedia de GCC hace todo el análisis y la optimización del código, trabajando independientemente tanto del lenguaje compilado como de la arquitectura de destino, comenzando desde la representación GENÉRICA y expandiéndola para registrar el lenguaje de transferencia (RTL). La representación GENÉRICA contiene solo el subconjunto de las construcciones de programación imperativas optimizadas por el extremo medio.
Al transformar el código fuente a GIMPLE, las expresiones complejas se dividen en un código de tres direcciones utilizando variables temporales. Esta representación se inspiró en la representación SIMPLE propuesta en el compilador McCAT por Laurie J. Hendren para simplificar el análisis y la optimización de programas imperativos.
La optimización puede ocurrir durante cualquier fase de la compilación; sin embargo, la mayor parte de las optimizaciones se realizan después del análisis sintáctico y semántico del front-end y antes de la generación de código del back-end; por tanto, un nombre común, aunque algo contradictorio, para esta parte del compilador es el "extremo intermedio".
El conjunto exacto de optimizaciones de GCC varía de una versión a otra a medida que se desarrolla, pero incluye los algoritmos estándar, como optimización de bucle, subprocesos de salto, eliminación de subexpresiones comunes, programación de instrucciones, etc. Las optimizaciones RTL tienen menos importancia con la adición de optimizaciones globales basadas en SSA en árboles GIMPLE, ya que las optimizaciones RTL tienen un alcance mucho más limitado y tienen menos información de alto nivel.
Algunas de estas optimizaciones realizadas en este nivel incluyen la eliminación muertos código, la eliminación de redundancia parcial, de numeración global de valor, escasa propagación constante condicional, y el reemplazo escalar de agregados. También se realizan optimizaciones basadas en la dependencia de matrices, como la vectorización automática y la paralelización automática. También es posible la optimización guiada por perfiles.
El back-end de GCC se especifica en parte mediante macros de preprocesador y funciones específicas de una arquitectura de destino, por ejemplo, para definir su endianidad, tamaño de palabra y convenciones de llamada. La parte frontal del back-end los usa para ayudar a decidir la generación de RTL, por lo que aunque el RTL de GCC es nominalmente independiente del procesador, la secuencia inicial de instrucciones abstractas ya está adaptada al objetivo. En cualquier momento, las instrucciones RTL reales que forman la representación del programa deben cumplir con la descripción de la máquina de la arquitectura de destino.
El archivo de descripción de la máquina contiene patrones RTL, junto con restricciones de operandos y fragmentos de código para generar el ensamblaje final. Las restricciones indican que un patrón RTL particular podría aplicarse solo (por ejemplo) a ciertos registros de hardware, o (por ejemplo) permitir compensaciones de operandos inmediatos de solo un tamaño limitado (por ejemplo, 12, 16, 24,... compensaciones de bits, etc.). Durante la generación de RTL, se comprueban las restricciones para la arquitectura de destino dada. Para emitir un fragmento dado de RTL, debe coincidir con uno (o más) de los patrones RTL en el archivo de descripción de la máquina y satisfacer las restricciones para ese patrón; de lo contrario, sería imposible convertir el RTL final en código de máquina.
Hacia el final de la compilación, el RTL válido se reduce a una forma estricta en la que cada instrucción se refiere a registros de máquina reales y un patrón del archivo de descripción de máquina del objetivo. Formar RTL estricto es una tarea complicada; un paso importante es la asignación de registros, donde se eligen registros de hardware reales para reemplazar los pseudo-registros asignados inicialmente. A esto le sigue una fase de "recarga"; cualquier pseudo-registro que no fue asignado a un registro de hardware real se 'derrama' a la pila, y se genera RTL para realizar este derrame. Del mismo modo, las compensaciones que son demasiado grandes para caber en una instrucción real deben dividirse y reemplazarse por secuencias RTL que obedecerán las restricciones de compensación.
En la fase final, el código de la máquina se construye llamando a un pequeño fragmento de código, asociado con cada patrón, para generar las instrucciones reales a partir del conjunto de instrucciones del objetivo, utilizando los registros finales, compensaciones y direcciones elegidas durante la fase de recarga. El fragmento de generación de ensamblado puede ser solo una cadena, en cuyo caso se realiza una simple sustitución de cadena de los registros, compensaciones y / o direcciones en la cadena. El fragmento de generación de ensamblado también puede ser un bloque corto de código C, que realiza un trabajo adicional, pero finalmente devuelve una cadena que contiene el código de ensamblaje válido.
El proyecto GCC incluye una implementación de la biblioteca estándar de C ++ llamada libstdc ++, licenciada bajo la licencia GPLv3 con una excepción para vincular aplicaciones de código cerrado cuando las fuentes se compilan con GCC. La versión actual es la 11.
Algunas características de GCC incluyen:
-fgnu-tm
.Las familias de procesadores de destino de GCC a partir de la versión 11.1 incluyen:
Los procesadores de destino menos conocidos admitidos en la versión estándar incluyen:
Los procesadores adicionales han sido compatibles con versiones de GCC mantenidas por separado de la versión FSF:
El CGPJ compilador de Java pueden dirigirse a cualquiera de una arquitectura de lenguaje de máquina nativo o la máquina virtual de Java 's Java bytecode. Al redireccionar GCC a una nueva plataforma, a menudo se usa bootstrapping. Motorola 68000, Zilog Z80 y otros procesadores también están incluidos en las versiones de GCC desarrolladas para varias calculadoras gráficas programables de Texas Instruments, Hewlett Packard, Sharp y Casio.
GCC tiene la licencia GNU General Public License versión 3. La excepción de tiempo de ejecución de GCC permite la compilación de programas propietarios (además del software libre) con GCC. Esto no afecta los términos de licencia del código fuente de GCC.
![]() | Wikimedia Commons tiene medios relacionados con GCC. |
![]() | Wikilibros tiene un libro sobre el tema: Componentes internos del compilador GNU C |