Saltar al contenido

Media, mediana y moda

Introduction

Bienvenido a nuestra guía sobre el uso de la media, la mediana y la moda en el aprendizaje automático con Python. Aprenderás a calcular estas medidas de tendencia central y a aplicarlas para preprocesar datos, lo que puede ayudar a mejorar la precisión de tu modelo.

¿Qué son la media, la mediana y la moda?

La media, la mediana y la moda son medidas de tendencia central en estadística. En el aprendizaje automático con Python, estos conceptos se usan para describir la distribución de los datos en un conjunto de datos. La media es el valor promedio de un conjunto de datos, mientras que la mediana es el valor central cuando los datos se ordenan por magnitud. La moda es el valor que aparece con mayor frecuencia en un conjunto de datos.

Uso de la media, la mediana y la moda en el aprendizaje automático con Python

Ahora que tenemos una comprensión básica de la media, la mediana y la moda, exploremos cómo se pueden usar en el aprendizaje automático con Python. Estas medidas se usan comúnmente para estadísticas descriptivas y para manejar valores faltantes (imputación) antes de introducir los datos en un modelo. En pandas, puedes calcularlas directamente sobre Series y DataFrames, y SimpleImputer de scikit-learn puede aplicarlas durante los flujos de preprocesamiento. Tener en cuenta correctamente estos valores puede mejorar significativamente la precisión del modelo.

Media

La media es una medida útil de tendencia central para datos con distribución normal. Para calcular la media en Python, puedes usar la biblioteca numpy. Aquí tienes un ejemplo:

Encontrar la media de una lista usando numpy

python
import numpy as np

data = [1, 2, 3, 4, 5]
mean = np.mean(data)
print(mean)  # Output: 3.0

Esto mostrará la media de los datos, que es 3.

Mediana

La mediana es una medida útil de tendencia central para datos con distribución no normal. Para calcular la mediana en Python, puedes usar la biblioteca numpy. Aquí tienes un ejemplo:

Encontrar la mediana de una lista usando numpy

python
import numpy as np

data = [1, 2, 3, 4, 5]
median = np.median(data)
print(median)  # Output: 3.0

Esto mostrará la mediana de los datos, que es 3.

Moda

La moda es una medida útil de tendencia central para datos categóricos. Para calcular la moda en Python, puedes usar la biblioteca statistics. Aquí tienes un ejemplo:

Encontrar la moda de una lista usando la biblioteca statistics

python
import statistics

data = ['red', 'blue', 'green', 'red', 'red']
mode = statistics.mode(data)
print(mode)  # Output: 'red'

Esto mostrará la moda de los datos, que es 'red'. Nota: si un conjunto de datos contiene múltiples modas, statistics.mode() lanzará un StatisticsError. Usa statistics.multimode() en su lugar para manejar de forma segura datos multimodales.

Conclusión

La media, la mediana y la moda son esenciales para describir distribuciones de datos en el aprendizaje automático con Python. Usarlas correctamente durante el preprocesamiento ayuda a manejar valores faltantes y valores atípicos, lo que conduce a modelos más precisos. Selecciona siempre la medida que mejor se ajuste a la distribución de tus datos.

¿Te resulta útil?

Vista previa dual-run — compárala con las rutas Symfony en producción.