¿Cuál es la diferencia entre regresión lineal y regresión logística?


Cuando tenemos que predecir el valor de un resultado categórico (o discreto) usamos regresión logística. Creo que usamos regresión lineal para predecir también el valor de un resultado dados los valores de entrada.

Entonces, ¿cuál es la diferencia entre las dos metodologías?

Author: nbro, 2012-08-27

11 answers

  • Salida de regresión lineal como probabilidades

    Es tentador usar la salida de regresión lineal como probabilidades, pero es un error porque la salida puede ser negativa y mayor que 1, mientras que la probabilidad no puede. Como la regresión podría en realidad producir probabilidades que podrían ser menores que 0, o incluso mayores que 1, se introdujo la regresión logística.

    Fuente: http://gerardnico.com/wiki/data_mining/simple_logistic_regression

    introduzca la descripción de la imagen aquí

  • Resultado

    En la regresión lineal, el resultado (variable dependiente) es continuo. Puede tener cualquiera de un número infinito de valores posibles.

    En la regresión logística, el resultado (variable dependiente) tiene solo un número limitado de valores posibles.

  • La variable dependiente

    La regresión logística es se utiliza cuando la variable de respuesta es de naturaleza categórica. Por ejemplo, sí/no, verdadero/falso, rojo/verde/azul, 1st / 2nd / 3rd / 4th, etc.

    La regresión lineal se utiliza cuando la variable de respuesta es continua. Por ejemplo, peso, altura, número de horas, etc.

  • Ecuación

    La regresión lineal da una ecuación que es de la forma Y = mX + C, significa ecuación con grado 1.

    Sin embargo, la regresión logística da una ecuación que es de la forma Y = eX + e X

  • Interpretación del coeficiente

    En la regresión lineal, la interpretación del coeficiente de las variables independientes es bastante directa (es decir, manteniendo todas las demás variables constantes, con un aumento unitario en esta variable, se espera que la variable dependiente aumente/disminuya en xxx).

    Sin embargo, en la regresión logística, depende de la familia (binomio, Poisson, sucesivamente.) y enlace (log, logit, inverse-log, etc.) usted uso, la interpretación es diferente.

  • Técnica de minimización de errores

    La regresión lineal utiliza el método de mínimos cuadrados ordinarios para minimizar la errores y llegar a un mejor ajuste posible, mientras que la regresión logística utiliza el método de máxima verosimilitud para llegar a la solución.

    La regresión lineal generalmente se resuelve minimizando el error de mínimos cuadrados del modelo a los datos, por lo tanto, los errores grandes se penalizan cuadráticamente.

    La regresión logística es todo lo contrario. El uso de la función de pérdida logística hace que los errores grandes se penalicen a una constante asintóticamente.

    Considere la regresión lineal en los resultados categóricos {0, 1} para ver por qué esto es un problema. Si tu modelo predice que el resultado es 38, cuando la verdad es 1, no has perdido nada. Regresión lineal trataría de reducir que 38, logística no (tanto)2.

 138
Author: Sayali Sonawane,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2018-05-07 13:35:32

En la regresión lineal, el resultado (variable dependiente) es continuo. Puede tener cualquiera de un número infinito de valores posibles. En la regresión logística, el resultado (variable dependiente) tiene solo un número limitado de valores posibles.

Por ejemplo, si X contiene el área en pies cuadrados de casas, y Y contiene el precio de venta correspondiente de esas casas, podría usar la regresión lineal para predecir el precio de venta en función del tamaño de la casa. Mientras que el posible precio de venta puede no ser realmente cualquier, hay tantos valores posibles que se elegiría un modelo de regresión lineal.

Si, en cambio, quisieras predecir, basado en el tamaño, si una casa se vendería por más de $200K, usarías regresión logística. Las salidas posibles son Sí, la casa se venderá por más de $200K, o No, la casa no lo hará.

 180
Author: Eric G,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2017-10-16 16:35:01

En pocas palabras, la regresión lineal es un algoritmo de regresión, que genera un posible valor continuo e infinito; la regresión logística se considera un algoritmo clasificador binario, que genera la 'probabilidad' de la entrada perteneciente a una etiqueta (0 o 1).

 4
Author: Jason CHAN,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2017-10-05 03:29:38

La diferencia básica :

La regresión lineal es básicamente un modelo de regresión que significa que su dará una salida no discreta/continua de una función. Así que este enfoque da el valor. Por ejemplo : dado x qué es f (x)

Por ejemplo, dado un conjunto de formación de diferentes factores y el precio de una propiedad después de la formación podemos proporcionar los factores necesarios para determinar cuál será el precio de la propiedad.

La regresión logística es básicamente una clasificación binaria algoritmo que significa que aquí habrá salida valorada discreta para la función . Por ejemplo: para un x dado si f(x)>umbral clasifíquelo como 1 si no clasifíquelo como 0.

Por ejemplo, dado un conjunto de tamaño del tumor cerebral como datos de entrenamiento, podemos usar el tamaño como entrada para determinar si es un tumor benino o maligno. Por lo tanto aquí la salida es discreta 0 o 1.

* aquí la función es básicamente la función de hipótesis

 4
Author: sayantan ghosh,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2018-03-14 05:15:14

Ambos son bastante similares en la resolución de la solución, pero como otros han dicho, uno (Regresión Logística) es para predecir una categoría "ajuste" (Y/N o 1/0), y el otro (Regresión Lineal) es para predecir un valor.

Entonces, si desea predecir si tiene cáncer Y/N (o una probabilidad), use logística. Si quieres saber cuántos años vivirás para - ¡usa la Regresión lineal !

 4
Author: Doug F,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2018-05-04 01:59:00

Solo para añadir las respuestas anteriores.

Regresión lineal

Está destinado a resolver el problema de predecir/estimar el valor de salida para un elemento dado X (digamos f(x)). El resultado de la predicción es una función cotinua donde los valores pueden ser positivos o negativos. En este caso, normalmente tiene un conjunto de datos de entrada con muchos ejemplos y el valor de salida para cada uno de ellos. El objetivo es ser capaz de ajustar un modelo a este conjunto de datos así que usted es capaz de predecir esa salida para nuevos elementos diferentes / nunca vistos. El siguiente es el ejemplo clásico de ajustar una recta a un conjunto de puntos, pero en general la regresión lineal podría usarse para ajustar modelos más complejos (usando grados polinómicos más altos):

introduzca la descripción de la imagen aquí Resolviendo el problema

La regresión lineal se puede resolver de dos maneras diferentes:

  1. Ecuación normal (forma directa de resolver el problema)
  2. Descenso del gradiente (Iterativo approach)

Regresión logística

Está destinado a resolver problemas de clasificación donde dado un elemento tienes que clasificar el mismo en N categorías. Ejemplos típicos son, por ejemplo, dado un correo para clasificarlo como spam o no, o dado un vehículo encontrar a la categoría a la que pertenece (coche, camión, furgoneta, etc..). Eso es básicamente la salida es un conjunto finito de valores de descrete.

Resolver el problema

Regresión Logística los problemas solo se pueden resolver utilizando el descenso de gradiente. La formulación en general es muy similar a la regresión lineal la única diferencia es el uso de diferentes funciones de hipótesis. En regresión lineal la hipótesis tiene la forma:

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 .. 

Donde theta es el modelo que estamos tratando de encajar y [1, x_1, x_2,..] es el vector de entrada. En regresión logística la función de hipótesis es diferente:

g(x) = 1 / (1 + e^-x)

introduzca la descripción de la imagen aquí

Esta función tiene una buena propiedad, básicamente asigna cualquier valor al rango [0,1] que es apropiado para manejar propababilidades durante la classificatin. Por ejemplo, en el caso de una clasificación binaria, g (X) podría interpretarse como la probabilidad de pertenecer a la clase positiva. En este caso normalmente tienes diferentes clases que están separadas con un límite de decisión que básicamente es una curva que decide la separación entre las diferentes clases. A continuación se muestra un ejemplo de conjunto de datos separados en dos clase.

introduzca la descripción de la imagen aquí

 4
Author: rkachach,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2018-07-09 08:06:48

En breve: La regresión lineal da salida continua. es decir, cualquier valor entre un rango de valores. La regresión logística da salida discreta. es decir, Sí / No, tipo de salidas 0/1.

 1
Author: Sudeep K Rana,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2018-05-28 12:48:41
| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |
 1
Author: Symphony,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2018-07-07 18:34:50

No puede estar más de acuerdo con los comentarios anteriores. Por encima de eso, hay algunas diferencias más como

En la Regresión Lineal, se supone que los residuos se distribuyen normalmente. En la Regresión Logística, los residuos deben ser independientes pero no distribuidos normalmente.

La regresión lineal asume que un cambio constante en el valor de la variable explicativa resulta en un cambio constante en la variable de respuesta. Esta suposición no se mantiene si el valor de la variable de respuesta representa una probabilidad (en Regresión Logística)

GLM(Generalized linear models) no asume una relación lineal entre variables dependientes e independientes. Sin embargo, asume una relación lineal entre la función de enlace y las variables independientes en el modelo logit.

 0
Author: Rakend Dubba,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2018-06-07 14:29:59

Para decirlo simplemente, si en el modelo de regresión lineal llegan más casos de prueba que están lejos del umbral(digamos =0.5)para una predicción de y=1 e y=0. Entonces, en ese caso, la hipótesis cambiará y empeorará.Por lo tanto, el modelo de regresión lineal no se utiliza para el problema de clasificación.

Otro problema es que si la clasificación es y=0 e y=1, h (x) puede ser > 1 o

 0
Author: Adarsh Bahadur,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2018-06-26 22:08:55

La regresión logística se utiliza para predecir salidas categóricas como Sí / No, Bajo / Medio / Alto, etc. Tiene básicamente 2 tipos de regresión logística Regresión Logística Binaria (Sí/No, Aprobado/Desaprobado) o Regresión logística multiclase (Bajo/Medio / Alto, dígitos de 0-9, etc.)

Por otro lado, la regresión lineal es si su variable dependiente (y) es continua. y = mx + c es una ecuación de regresión lineal simple (m = pendiente y c es la intersección en y). Regresión multilineal ha más de 1 variable independiente (x1, x2, x3 ... etc)

 0
Author: ketan solanki,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2018-09-16 12:21:40