Comprensión de la desviación estándar en Python y aprendizaje automático

El aprendizaje automático es una piedra angular de la tecnología moderna. Python, con su sintaxis legible y sus amplias bibliotecas, es un lenguaje preferido para el ML. La desviación estándar es una medida estadística clave para comprender la variabilidad de los datos. Este artículo explica la desviación estándar y demuestra cómo calcularla en Python.

¿Qué es la desviación estándar?

La desviación estándar es una medida de qué tan dispersos están los datos respecto a su valor medio. Es la raíz cuadrada de la varianza, que es el promedio de las diferencias al cuadrado respecto a la media. La desviación estándar es una herramienta esencial en estadística y aprendizaje automático, ya que nos ayuda a comprender la distribución de los datos. Es importante distinguir entre la desviación estándar muestral (calculada a partir de un subconjunto de datos) y la desviación estándar poblacional (calculada a partir de todo el conjunto de datos).

Cálculo de la desviación estándar en Python

Python cuenta con un rico conjunto de bibliotecas que facilitan el cálculo de la desviación estándar. La biblioteca statistics proporciona funciones para calcularla, como stdev() para datos muestrales y pstdev() para datos poblacionales. La biblioteca numpy también se utiliza comúnmente para cálculos que involucran la desviación estándar.

Para calcular la desviación estándar en Python, primero debemos importar las bibliotecas necesarias y definir nuestro conjunto de datos:

import statistics and numpy in a Python project

python

import statistics
import numpy as np

data = [10, 20, 30, 40, 50]

Utilizando el módulo statistics, podemos calcular tanto la desviación estándar muestral como la poblacional:

calculate standard deviation of a list of numbers using statistics module in Python

python

sample_std = statistics.stdev(data)
pop_std = statistics.pstdev(data)

print(f"Sample std: {sample_std}")
print(f"Population std: {pop_std}")

Try it Yourself »

De manera similar, numpy proporciona la función std(). Por defecto, calcula la desviación estándar poblacional. Para igualar la desviación estándar muestral, utiliza el parámetro ddof=1:

calculate standard deviation of a list of numbers using numpy module in Python

python

np_pop_std = np.std(data)
np_sample_std = np.std(data, ddof=1)

print(f"Numpy population std: {np_pop_std}")
print(f"Numpy sample std: {np_sample_std}")

Try it Yourself »

Aprendizaje automático y desviación estándar

La desviación estándar es una herramienta importante en el aprendizaje automático. En el aprendizaje supervisado, la desviación estándar puede ayudarnos a comprender la dispersión de la variable objetivo. En el aprendizaje no supervisado, puede ayudarnos a entender la distribución de los datos.

Por ejemplo, consideremos un problema de aprendizaje automático donde queremos predecir el precio de una casa en función de sus características, como el número de dormitorios, baños y metros cuadrados. En este caso, podemos calcular la desviación estándar de la variable de precio para entender su dispersión. Una desviación estándar alta indica que el precio de las casas varía significativamente, mientras que una desviación estándar baja indica que los precios son relativamente estables.

En la práctica, la desviación estándar se utiliza frecuentemente para el escalado de características. El StandardScaler de scikit-learn estandariza las características eliminando la media y escalando a una varianza unitaria (desviación estándar de 1):

Standardize features using scikit-learn

python

from sklearn.preprocessing import StandardScaler
import numpy as np

features = np.array([[1, 2], [3, 4], [5, 6]])
scaler = StandardScaler()
scaled_features = scaler.fit_transform(features)

print(scaled_features)

Conclusión

Python es una herramienta poderosa para el aprendizaje automático, y la desviación estándar es una medida estadística importante que nos ayuda a comprender la distribución de los datos. En este artículo, hemos explorado la desviación estándar en detalle y mostrado cómo calcularla utilizando las bibliotecas statistics y numpy de Python, así como cómo aplicarla en flujos de trabajo de aprendizaje automático con scikit-learn. Esperamos que este artículo te haya ayudado a comprender mejor la desviación estándar en Python y el aprendizaje automático.

Comprensión de la desviación estándar en Python y aprendizaje automático ​

¿Qué es la desviación estándar? ​

Cálculo de la desviación estándar en Python ​

Aprendizaje automático y desviación estándar ​

Conclusión ​

Comprensión de la desviación estándar en Python y aprendizaje automático

¿Qué es la desviación estándar?

Cálculo de la desviación estándar en Python

Aprendizaje automático y desviación estándar

Conclusión