Regresión Lineal y Logística en el aná

Regresión Lineal y Logística en el Análisis de Datos

La regresión es una técnica estadística que se utiliza para analizar la relación entre dos variables. En la regresión lineal, la variable independiente se utiliza para predecir el valor de la variable dependiente. La regresión logística, por otro lado, se usa cuando la var,iable dependiente es categórica o binaria.

Regresión Lineal

La regresión lineal es una técnica estadística que se utiliza para modelar la relación entre dos variables continuas. Por ejemplo, si queremos predecir el peso de un animal en función de su altura, podemos utilizar la regresión lineal.

El objetivo de la regresión lineal es encontrar una línea recta que mejor ajuste los datos. Esta línea recta se conoce como «línea de regresión». La ecuación de esta línea tiene la siguiente forma:

y = mx + b

Donde y representa la variable dependiente (en este caso, el peso del animal), x representa la variable independiente (en este caso, la altura del animal), m representa la pendiente de la línea y b representa el punto donde intersecta el eje y.

Para calcular los valores de m y b, utilizamos los datos disponibles. Una vez que tenemos estos valores, podemos utilizarlos para hacer predicciones sobre nuevos datos. Por ejemplo, si sabemos que un animal tiene una altura de 1 metro, podemos utilizar nuestra ecuación para predecir su peso.

Ejemplo:

Supongamos que tenemos los siguientes datos:

  • Altura (x): 1, 2, 3, 4, 5
  • Peso (y): 10, 20, 30, 40, 50

Para calcular la línea de regresión, primero tenemos que calcul,ar la media de los valores de x y de y:

  • x̄ = (1 + 2 + 3 + 4 + 5) / 5 = 3
  • ȳ = (10 + 20 + 30 +40+50) /5 =30

Luego podemos utilizar las siguientes fórmulas para calcular m y b:

  • m = Σ((x – x̄)(y – ȳ)) / Σ(x – x̄)^2 = ((1-3)(10-30)+(2-3)(20-30)+(3-3)(30-30)+(4-3)(40-30)+(5-3)(50-30)) / ((1-3)^2+(2-3)^2+(3-3)^2+(4-3)^2+(5-3)^2) =20/10=2
  • b=ȳ – mx̄=30-(2*3)=24.

La ecuación final es:

y = 2x +24.

Ahora podemos utilizar esta ecuación para predecir el peso de un animal con una altura de, por ejemplo, dos metros. Simplemente sustituimos x=2 en la ecuación:

y= (2 *2)+24=28.

Por lo tanto, si un animal tiene una altura de dos metros, podemos predecir que su peso será de 28 kilogramos.

Regresión Logística

La regresión logística es una técnica estadística que se utiliza cuando la variable dependiente es categórica o binaria. Por ejemplo, si queremos predecir si un paciente tendrá cáncer o no en función de sus datos médicos, podemos utilizar la regresión logística.

En la regresión logística, utilizamos una función llamada «función sigmoidea» para modelar la probabilidad de que la variable dependiente sea igual a uno (en lugar de cero). La ecuación de est,a función tiene la siguiente forma:

p = 1 / (1 + e^-(mx+b))

Donde p representa la probabilidad de que la variable dependiente sea igual a uno, m representa la pendiente de la línea y b representa el punto donde intersecta el eje y. La función sigmoidea se ve así:

La idea detrás de esta función es que cuando x tiende a infinito positivo o negativo, p tiende a uno o cero respectivamente. Cuando x es igual a cero, p es igual a 0.5 (el punto medio).

Para calcular los valores de m y b en una regresión logística, utilizamos los mismos métodos que en una regresión lineal. Una vez que tenemos estos valores, podemos utilizarlos para hacer predicciones sobre nuevos datos.

Ejemplo:

Supongamos que tenemos los siguientes datos:

  • Edad (x): 25, 30, 35, 40, 45
  • Cáncer (y): Si, No, No, Si, Si

Para calcular la regresión logística en este caso, primero tenemos que convertir la variable dependiente a una variable numérica. Podemos hacer esto asignando el valor de «1» a «Si» y «0» a «No».

  • x̄ = (25 + 30 + 35 +40+45) /5 =35.

Luego podemos utilizar las siguientes fórmulas para calcular m y b:

  • m = Σ((x – x̄)(y – ȳ)) / Σ(x – x̄)^,2 = ((25-35)(1-0.4)+(30-35)(0-0.4)+(35-35)(0-0.4)+(40-35)(1-0.4)+(45-35)(1-0.4)) / ((25-35)^2+(30-35)^2+(35-35)^2+(40-35)^2+(45-35)^2) =0.52
  • b=ȳ – mx̄=0.4-(0.52*35)= -17.8.

La ecuación final es:

p(y=1|x)= e^(mx+b)/(1+e^(mx+b)).

Ahora podemos utilizar esta ecuación para predecir la probabilidad de que un paciente con una edad de 32 años tenga cáncer. Simplemente sustituimos x=32 en la ecuación:

p(y=1|x=32)= e^(0.52*32-17.8) / (1+e^(0.52*32-17.8)) = 0.23.

Por lo tanto, podemos predecir que un paciente de 32 años tiene una probabilidad del 23% de tener cáncer.

Conclusión

Tanto la regresión lineal como la regresión logística son técnicas útiles para el análisis de datos y la predicción. La regresión lineal se utiliza cuando las variables son continuas, mientras que la regresión logística se utiliza cuando la variable dependiente es categórica o binaria.

Es importante recordar que estas técnicas no pueden predecir el futuro con certeza absoluta, sino que proporcionan estimaciones basadas en los datos disponibles. Por lo tanto, siempre debemos ser cautos al hacer predicciones y tener en cuenta otros factores relevantes.


Publicado

en

por

Etiquetas:

Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *