Iniciar sesión pag ( C k ∣ X ) ∝ Iniciar sesión ( pag ( C k ) ∏ I = 1 norte pag k I X I ) = Iniciar sesión pag ( C k ) + ∑ I = 1 norte X I ⋅ Iniciar sesión pag k I = B + w k ⊤ X
{\ Displaystyle {\ begin {alineado} \ log p (C_ {k} \ mid \ mathbf {x}) amp; \ varpropto \ log \ left (p (C_ {k}) \ prod _ {i = 1} ^ { n} {p_ {ki}} ^ {x_ {i}} \ right) \\ amp; = \ log p (C_ {k}) + \ sum _ {i = 1} ^ {n} x_ {i} \ cdot \ log p_ {ki} \\ amp; = b + \ mathbf {w} _ {k} ^ {\ top} \ mathbf {x} \ end {alineado}}} donde y. B = Iniciar sesión pag ( C k )
{\ Displaystyle b = \ log p (C_ {k})} w k I = Iniciar sesión pag k I
{\ Displaystyle w_ {ki} = \ log p_ {ki}}
Si una clase y un valor de característica determinados nunca ocurren juntos en los datos de entrenamiento, entonces la estimación de probabilidad basada en la frecuencia será cero, porque la estimación de probabilidad es directamente proporcional al número de ocurrencias del valor de una característica. Esto es problemático porque borrará toda la información en las otras probabilidades cuando se multipliquen. Por lo tanto, a menudo es deseable incorporar una corrección de muestra pequeña, llamada pseudocontento , en todas las estimaciones de probabilidad, de modo que nunca se establezca una probabilidad exactamente igual a cero. Esta forma de regularizar Bayes ingenuo se llama suavizado de Laplace cuando el pseudocontento es uno, y suavizado de Lidstone en el caso general.
Rennie y col. discutir los problemas con el supuesto multinomial en el contexto de la clasificación de documentos y las posibles formas de aliviar esos problemas, incluido el uso de ponderaciones tf-idf en lugar de frecuencias de términos sin procesar y normalización de la longitud del documento, para producir un clasificador Bayes ingenuo que sea competitivo con el vector de soporte Máquinas .
Bernoulli ingenuo Bayes En el modelo de eventos de Bernoulli multivariado, las características son booleanos independientes (variables binarias) que describen las entradas. Al igual que el modelo multinomial, este modelo es popular para tareas de clasificación de documentos, donde se utilizan características de ocurrencia de términos binarios en lugar de frecuencias de términos. Si es un booleano que expresa la ocurrencia o ausencia del i -ésimo término del vocabulario, entonces la probabilidad de que un documento tenga una clase está dada por {\ Displaystyle x_ {i}} {\ Displaystyle C_ {k}}
pag ( X ∣ C k ) = ∏ I = 1 norte pag k I X I ( 1 - pag k I ) ( 1 - X I )
{\ Displaystyle p (\ mathbf {x} \ mid C_ {k}) = \ prod _ {i = 1} ^ {n} p_ {ki} ^ {x_ {i}} (1-p_ {ki}) ^ {(1-x_ {i})}} donde es la probabilidad de que la clase genere el término. Este modelo de evento es especialmente popular para clasificar textos breves. Tiene la ventaja de modelar explícitamente la ausencia de términos. Tenga en cuenta que un clasificador Bayes ingenuo con un modelo de eventos de Bernoulli no es lo mismo que un clasificador NB multinomial con recuentos de frecuencia truncados a uno. {\ Displaystyle p_ {ki}} {\ Displaystyle C_ {k}} {\ Displaystyle x_ {i}}
Estimación de parámetros semi-supervisada Dada una forma de entrenar a un clasificador de Bayes ingenuo a partir de datos etiquetados, es posible construir un algoritmo de entrenamiento semi-supervisado que puede aprender de una combinación de datos etiquetados y no etiquetados ejecutando el algoritmo de aprendizaje supervisado en un bucle:
Dada una colección de muestras de la etiqueta L y las muestras sin etiqueta T, empezar por la formación de un clasificador de Bayes ingenuo en L. {\ Displaystyle D = L \ uplus U} Hasta la convergencia, haga: Predecir las probabilidades de clase para todos los ejemplos x en. {\ Displaystyle P (C \ mid x)} {\ Displaystyle D} Vuelva a entrenar el modelo en función de las probabilidades (no las etiquetas) predichas en el paso anterior. La convergencia se determina en función de la mejora de la probabilidad del modelo, donde denota los parámetros del modelo de Bayes ingenuo. {\ Displaystyle P (D \ mid \ theta)} {\ Displaystyle \ theta}
Este algoritmo de entrenamiento es una instancia de la más general algoritmo de expectativa de maximización (EM): la etapa de predicción dentro del bucle es el E -paso de EM, mientras que la nueva capacitación de Bayes ingenuo es el M -paso. El algoritmo se justifica formalmente asumiendo que los datos son generados por un modelo mixto , y los componentes de este modelo mixto son exactamente las clases del problema de clasificación.
Discusión A pesar del hecho de que los supuestos de independencia de largo alcance son a menudo inexactos, el clasificador ingenuo de Bayes tiene varias propiedades que lo hacen sorprendentemente útil en la práctica. En particular, el desacoplamiento de las distribuciones de características condicionales de clase significa que cada distribución puede estimarse independientemente como una distribución unidimensional. Esto ayuda a aliviar los problemas derivados de la maldición de la dimensionalidad , como la necesidad de conjuntos de datos que escalen exponencialmente con el número de características. Si bien Bayes ingenuo a menudo no produce una buena estimación de las probabilidades de clase correctas, esto puede no ser un requisito para muchas aplicaciones. Por ejemplo, el clasificador Bayes ingenuo hará la clasificación correcta de la regla de decisión MAP siempre que la clase correcta sea más probable que cualquier otra clase. Esto es cierto independientemente de si la estimación de probabilidad es leve o incluso extremadamente inexacta. De esta manera, el clasificador general puede ser lo suficientemente robusto como para ignorar serias deficiencias en su modelo de probabilidad ingenuo subyacente. Otras razones del éxito observado del clasificador de Bayes ingenuo se discuten en la literatura citada a continuación.
Relación con la regresión logística En el caso de entradas discretas (indicadores o características de frecuencia para eventos discretos), los clasificadores de Bayes ingenuos forman un par generativo-discriminativo con clasificadores de regresión logística ( multinomiales ): cada clasificador de Bayes ingenuo puede considerarse una forma de ajustar un modelo de probabilidad que optimiza el probabilidad conjunta, mientras que la regresión logística se ajusta al mismo modelo de probabilidad para optimizar el condicional. {\ Displaystyle p (C, \ mathbf {x})} {\ Displaystyle p (C \ mid \ mathbf {x})}
El vínculo entre los dos puede verse observando que la función de decisión para Bayes ingenuo (en el caso binario) se puede reescribir como "predecir la clase si las probabilidades de exceden las de ". Expresando esto en el espacio de registro da: {\ Displaystyle C_ {1}} {\ Displaystyle p (C_ {1} \ mid \ mathbf {x})} {\ Displaystyle p (C_ {2} \ mid \ mathbf {x})}
Iniciar sesión pag ( C 1 ∣ X ) pag ( C 2 ∣ X ) = Iniciar sesión pag ( C 1 ∣ X ) - Iniciar sesión pag ( C 2 ∣ X ) gt; 0
{\ Displaystyle \ log {\ frac {p (C_ {1} \ mid \ mathbf {x})} {p (C_ {2} \ mid \ mathbf {x})}} = \ log p (C_ {1} \ mid \ mathbf {x}) - \ log p (C_ {2} \ mid \ mathbf {x})gt; 0} El lado izquierdo de esta ecuación es el log-odds, o logit , la cantidad predicha por el modelo lineal que subyace a la regresión logística. Dado que Bayes ingenuo también es un modelo lineal para los dos modelos de eventos "discretos", puede reparametrizarse como una función lineal. Obtener las probabilidades es entonces una cuestión de aplicar la función logística a, o en el caso multiclase, la función softmax . {\ Displaystyle b + \ mathbf {w} ^ {\ top} xgt; 0} {\ Displaystyle b + \ mathbf {w} ^ {\ top} x}
Los clasificadores discriminativos tienen un error asintótico menor que los generativos; sin embargo, la investigación de Ng y Jordan ha demostrado que, en algunos casos prácticos, el Bayes ingenuo puede superar la regresión logística porque alcanza su error asintótico más rápidamente.
Ejemplos de Clasificación de personas Problema: clasifica si una persona determinada es hombre o mujer según las características medidas. Las características incluyen altura, peso y tamaño del pie.
Capacitación Ejemplo de entrenamiento establecido a continuación.
Persona pies de altura) peso libras) tamaño del pie (pulgadas) masculino 6 180 12 masculino 5,92 (5'11 ") 190 11 masculino 5,58 (5'7 ") 170 12 masculino 5,92 (5'11 ") 165 10 mujer 5 100 6 mujer 5,5 (5'6 ") 150 8 mujer 5,42 (5'5 ") 130 7 mujer 5,75 (5'9 ") 150 9
El clasificador creado a partir del conjunto de entrenamiento utilizando un supuesto de distribución gaussiana sería (dadas las varianzas son varianzas muestrales insesgadas):
Persona media (altura) varianza (altura) media (peso) varianza (peso) media (tamaño del pie) varianza (tamaño del pie) masculino 5.855 3,5033 × 10 −2 176.25 1.2292 × 10 2 11.25 9.1667 × 10 −1 mujer 5.4175 9,7225 × 10 −2 132,5 5.5833 × 10 2 7.5 1,6667
El siguiente ejemplo asume clases equiprobables de modo que P (hombre) = P (mujer) = 0.5. Esta distribución de probabilidad previa podría basarse en el conocimiento previo de las frecuencias en la población más grande o en el conjunto de entrenamiento.
Pruebas A continuación se muestra una muestra para ser clasificada como masculina o femenina.
Persona pies de altura) peso libras) tamaño del pie (pulgadas) muestra 6 130 8
Para clasificar la muestra, hay que determinar qué parte posterior es mayor, hombre o mujer. Para la clasificación como masculino, la parte posterior viene dada por
posterior (masculino) = PAG ( masculino ) pag ( altura ∣ masculino ) pag ( peso ∣ masculino ) pag ( el tamaño del pie ∣ masculino ) mi v I D mi norte C mi
{\ Displaystyle {\ text {posterior (masculino)}} = {\ frac {P ({\ text {masculino}}) \, p ({\ text {altura}} \ mid {\ text {masculino}}) \, p ({\ text {peso}} \ mid {\ text {hombre}}) \, p ({\ text {tamaño del pie}} \ mid {\ text {hombre}})} {evidencia}}} Para la clasificación como mujer, la parte posterior viene dada por
posterior (femenino) = PAG ( mujer ) pag ( altura ∣ mujer ) pag ( peso ∣ mujer ) pag ( el tamaño del pie ∣ mujer ) mi v I D mi norte C mi
{\ Displaystyle {\ text {posterior (femenino)}} = {\ frac {P ({\ text {femenino}}) \, p ({\ text {altura}} \ mid {\ text {femenino}}) \, p ({\ text {peso}} \ mid {\ text {mujer}}) \, p ({\ text {tamaño del pie}} \ mid {\ text {mujer}})} {evidencia}}} La evidencia (también denominada constante de normalización) se puede calcular:
evidencia = PAG ( masculino ) pag ( altura ∣ masculino ) pag ( peso ∣ masculino ) pag ( el tamaño del pie ∣ masculino ) + PAG ( mujer ) pag ( altura ∣ mujer ) pag ( peso ∣ mujer ) pag ( el tamaño del pie ∣ mujer )
{\ Displaystyle {\ begin {alineado} {\ text {evidencia}} = P ({\ text {masculino}}) \, p ({\ text {altura}} \ mid {\ text {masculino}}) \, p ({\ text {peso}} \ mid {\ text {hombre}}) \, p ({\ text {tamaño del pie}} \ mid {\ text {hombre}}) \\ + P ({\ text { mujer}}) \, p ({\ text {altura}} \ mid {\ text {mujer}}) \, p ({\ text {peso}} \ mid {\ text {mujer}}) \, p ( {\ text {tamaño del pie}} \ mid {\ text {femenino}}) \ end {alineado}}} Sin embargo, dada la muestra, la evidencia es una constante y, por lo tanto, escala ambas partes posteriores por igual. Por tanto, no afecta a la clasificación y puede ignorarse. Ahora se puede determinar la distribución de probabilidad para el sexo de la muestra:
{\ Displaystyle P ({\ text {masculino}}) = 0.5} pag ( altura ∣ masculino ) = 1 2 π σ 2 Exp ( - ( 6 - μ ) 2 2 σ 2 ) ≈ 1.5789
{\ Displaystyle p ({\ text {altura}} \ mid {\ text {masculino}}) = {\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2}}}} \ exp \ left ( {\ frac {- (6- \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ right) \ approx 1.5789} , donde y son los parámetros de distribución normal que se han determinado previamente a partir del conjunto de entrenamiento. Tenga en cuenta que un valor mayor que 1 está bien aquí: es una densidad de probabilidad en lugar de una probabilidad, porque la altura es una variable continua. {\ Displaystyle \ mu = 5.855} {\ Displaystyle \ sigma ^ {2} = 3.5033 \ cdot 10 ^ {- 2}}
pag ( peso ∣ masculino ) = 1 2 π σ 2 Exp ( - ( 130 - μ ) 2 2 σ 2 ) = 5.9881 ⋅ 10 - 6
{\ Displaystyle p ({\ text {peso}} \ mid {\ text {masculino}}) = {\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2}}}} \ exp \ left ( {\ frac {- (130- \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ right) = 5.9881 \ cdot 10 ^ {- 6}} pag ( el tamaño del pie ∣ masculino ) = 1 2 π σ 2 Exp ( - ( 8 - μ ) 2 2 σ 2 ) = 1.3112 ⋅ 10 - 3
{\ displaystyle p ({\ text {tamaño del pie}} \ mid {\ text {male}}) = {\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2}}}} \ exp \ left ({\ frac {- (8- \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ right) = 1.3112 \ cdot 10 ^ {- 3}} numerador posterior (masculino) = su producto = 6.1984 ⋅ 10 - 9
{\ displaystyle {\ text {numerador posterior (masculino)}} = {\ text {su producto}} = 6.1984 \ cdot 10 ^ {- 9}} {\ displaystyle P ({\ text {femenino}}) = 0.5} pag ( altura ∣ mujer ) = 2.23 ⋅ 10 - 1
{\ displaystyle p ({\ text {altura}} \ mid {\ text {mujer}}) = 2,23 \ cdot 10 ^ {- 1}} pag ( peso ∣ mujer ) = 1.6789 ⋅ 10 - 2
{\ Displaystyle p ({\ text {peso}} \ mid {\ text {femenino}}) = 1.6789 \ cdot 10 ^ {- 2}} pag ( el tamaño del pie ∣ mujer ) = 2.8669 ⋅ 10 - 1
{\ displaystyle p ({\ text {tamaño del pie}} \ mid {\ text {femenino}}) = 2.8669 \ cdot 10 ^ {- 1}} numerador posterior (femenino) = su producto = 5.3778 ⋅ 10 - 4
{\ displaystyle {\ text {numerador posterior (femenino)}} = {\ text {su producto}} = 5.3778 \ cdot 10 ^ {- 4}} Dado que el numerador posterior es mayor en el caso femenino, la predicción es que la muestra es femenina.
Clasificación de documentos Aquí hay un ejemplo trabajado de clasificación bayesiana ingenua para el problema de clasificación de documentos . Considere el problema de la clasificación de los documentos por su contenido, por ejemplo, en el spam y no-spam e-mails . Imagine que los documentos se extraen de una serie de clases de documentos que pueden modelarse como conjuntos de palabras donde la probabilidad (independiente) de que la i-ésima palabra de un documento dado aparezca en un documento de la clase C se pueda escribir como
{\ Displaystyle p (w_ {i} \ mid C) \,} (Para este tratamiento, las cosas se simplifican aún más asumiendo que las palabras se distribuyen aleatoriamente en el documento, es decir, las palabras no dependen de la longitud del documento, la posición dentro del documento en relación con otras palabras u otro contexto del documento.)
Entonces, la probabilidad de que un documento D determinado contenga todas las palabras, dada una clase C, es {\ Displaystyle w_ {i}}
pag ( D ∣ C ) = ∏ I pag ( w I ∣ C )
{\ Displaystyle p (D \ mid C) = \ prod _ {i} p (w_ {i} \ mid C) \,} La pregunta que debe responderse es: "¿cuál es la probabilidad de que un documento D determinado pertenezca a una clase C determinada ?" En otras palabras, ¿qué es ? {\ Displaystyle p (C \ mid D) \,}
Ahora por definición
pag ( D ∣ C ) = pag ( D ∩ C ) pag ( C )
{\ Displaystyle p (D \ mid C) = {p (D \ cap C) \ over p (C)}} y
pag ( C ∣ D ) = pag ( D ∩ C ) pag ( D )
{\ Displaystyle p (C \ mid D) = {p (D \ cap C) \ over p (D)}} El teorema de Bayes los manipula en un enunciado de probabilidad en términos de verosimilitud .
pag ( C ∣ D ) = pag ( C ) pag ( D ∣ C ) pag ( D )
{\ Displaystyle p (C \ mid D) = {\ frac {p (C) \, p (D \ mid C)} {p (D)}}} Suponga por el momento que solo hay dos clases mutuamente excluyentes, S y ¬ S (por ejemplo, spam y no spam), de modo que cada elemento (correo electrónico) está en una u otra;
pag ( D ∣ S ) = ∏ I pag ( w I ∣ S )
{\ Displaystyle p (D \ mid S) = \ prod _ {i} p (w_ {i} \ mid S) \,} y
pag ( D ∣ ¬ S ) = ∏ I pag ( w I ∣ ¬ S )
{\ Displaystyle p (D \ mid \ neg S) = \ prod _ {i} p (w_ {i} \ mid \ neg S) \,} Usando el resultado bayesiano anterior, se puede escribir:
pag ( S ∣ D ) = pag ( S ) pag ( D ) ∏ I pag ( w I ∣ S )
{\ Displaystyle p (S \ mid D) = {p (S) \ over p (D)} \, \ prod _ {i} p (w_ {i} \ mid S)} pag ( ¬ S ∣ D ) = pag ( ¬ S ) pag ( D ) ∏ I pag ( w I ∣ ¬ S )
{\ Displaystyle p (\ neg S \ mid D) = {p (\ neg S) \ over p (D)} \, \ prod _ {i} p (w_ {i} \ mid \ neg S)} Dividiendo uno por otro da:
pag ( S ∣ D ) pag ( ¬ S ∣ D ) = pag ( S ) ∏ I pag ( w I ∣ S ) pag ( ¬ S ) ∏ I pag ( w I ∣ ¬ S )
{\ Displaystyle {p (S \ mid D) \ over p (\ neg S \ mid D)} = {p (S) \, \ prod _ {i} p (w_ {i} \ mid S) \ over p (\ neg S) \, \ prod _ {i} p (w_ {i} \ mid \ neg S)}} Que se puede refactorizar como:
pag ( S ∣ D ) pag ( ¬ S ∣ D ) = pag ( S ) pag ( ¬ S ) ∏ I pag ( w I ∣ S ) pag ( w I ∣ ¬ S )
{\ Displaystyle {p (S \ mid D) \ over p (\ neg S \ mid D)} = {p (S) \ over p (\ neg S)} \, \ prod _ {i} {p (w_ {i} \ mid S) \ over p (w_ {i} \ mid \ neg S)}} Por lo tanto, la razón de probabilidad p ( S | D) / p (¬ S | D) se puede expresar en términos de una serie de razones de verosimilitud . La probabilidad real p ( S | D) se puede calcular fácilmente a partir de log (p ( S | D) / p (¬ S | D)) basándose en la observación de que p ( S | D) + p (¬ S | D) = 1.
Tomando el logaritmo de todas estas razones, se obtiene:
en pag ( S ∣ D ) pag ( ¬ S ∣ D ) = en pag ( S ) pag ( ¬ S ) + ∑ I en pag ( w I ∣ S ) pag ( w I ∣ ¬ S )
{\ Displaystyle \ ln {p (S \ mid D) \ over p (\ neg S \ mid D)} = \ ln {p (S) \ over p (\ neg S)} + \ sum _ {i} \ ln {p (w_ {i} \ mid S) \ over p (w_ {i} \ mid \ neg S)}} (Esta técnica de "relaciones logarítmicas de verosimilitud " es una técnica común en estadística. En el caso de dos alternativas mutuamente excluyentes (como este ejemplo), la conversión de una razón logarítmica de verosimilitud en una probabilidad toma la forma de una curva sigmoidea : consulte logit para obtener más detalles.)
Finalmente, el documento se puede clasificar de la siguiente manera. Es spam si (es decir,), de lo contrario no es spam. pag ( S ∣ D ) gt; pag ( ¬ S ∣ D )
{\ Displaystyle p (S \ mid D)gt; p (\ neg S \ mid D)} en pag ( S ∣ D ) pag ( ¬ S ∣ D ) gt; 0
{\ Displaystyle \ ln {p (S \ mid D) \ over p (\ neg S \ mid D)}gt; 0}
Ver también Referencias Otras lecturas Domingos, Pedro; Pazzani, Michael (1997). "Sobre la optimalidad del clasificador bayesiano simple bajo pérdida cero-uno" . Aprendizaje automático . 29 (2/3): 103–137. doi : 10.1023 / A: 1007413511361 . Webb, GI; Boughton, J.; Wang, Z. (2005). "Bayes no tan ingenuo: agregación de estimadores de dependencia única" . Aprendizaje automático. 58 (1): 5–24. doi : 10.1007 / s10994-005-4258-6 . Mozina, M.; Demsar, J.; Kattan, M.; Zupan, B. (2004). Nomogramas para visualización de clasificador bayesiano ingenuo (PDF). Proc. PKDD-2004. págs. 337–348. Maron, ME (1961). "Indexación automática: una investigación experimental". Revista de la ACM . 8 (3): 404–417. doi : 10.1145 / 321075.321084 . hdl : 2027 / uva.x030748531 . S2CID 6692916 . Minsky, M. (1961). Pasos hacia la inteligencia artificial. Proc. IRA. 49. págs. 8-30. enlaces externos Software
Contactos: mail@wikibrief.org
El contenido está disponible bajo la licencia CC BY-SA 3.0 (a menos que se indique lo contrario).