Saltar al contenido

Visualización de datos con el gráfico de dispersión de Matplotlib en Python

En el núcleo del análisis y la visualización de datos se encuentra la capacidad de comunicar información de manera efectiva para que sea fácilmente comprensible por otros. Una herramienta que hace esto posible es la biblioteca Matplotlib de Python, ampliamente utilizada para crear una variedad de gráficos y diagramas. En particular, el gráfico de dispersión es una forma efectiva de mostrar visualmente las relaciones entre datos. En este artículo, exploraremos cómo crear un gráfico de dispersión en Matplotlib y destacaremos algunas mejores prácticas para utilizar este tipo de gráfico.

Introducción a los gráficos de dispersión

Un gráfico de dispersión es un diagrama que muestra la relación entre dos conjuntos de datos. Cada punto en el gráfico representa una única observación o punto de datos, con una variable trazada en el eje x y la otra en el eje y. Los gráficos de dispersión son útiles para identificar tendencias y correlaciones entre variables, y también pueden ayudar a detectar valores atípicos o puntos de datos inusuales.

Creación de un gráfico de dispersión en Matplotlib

Para crear un gráfico de dispersión en Matplotlib, primero importa la biblioteca y cualquier dependencia necesaria:

python
import matplotlib.pyplot as plt
import numpy as np

A continuación, genera algunos datos de ejemplo para graficar:

python
x = np.random.rand(50)
y = np.random.rand(50)

Finalmente, crea el gráfico de dispersión en sí llamando a la función scatter():

python
plt.scatter(x, y)
plt.show()

Esto generará un gráfico de dispersión básico con puntos de datos aleatorios.

Personalización de gráficos de dispersión

Aunque el gráfico de dispersión básico proporciona una forma sencilla de visualizar datos, a menudo es necesario personalizarlo para transmitir mejor la información que intentamos mostrar. Algunas personalizaciones comunes incluyen:

Cambio del tamaño y color de los marcadores

Por defecto, los marcadores del gráfico de dispersión son pequeños y negros. Sin embargo, podemos cambiar esta configuración para hacer el gráfico más atractivo visualmente y más fácil de interpretar. Por ejemplo, aumenta el tamaño del marcador para que cada punto de datos sea más destacado:

python
plt.scatter(x, y, s=100)

Para resaltar diferentes grupos de datos, cambia el color del marcador:

python
colors = np.random.rand(50)
plt.scatter(x, y, s=100, c=colors, cmap='viridis')

En este caso, generamos un color aleatorio para cada punto de datos y usamos el argumento cmap para especificar el mapa de colores a utilizar.

Agregar etiquetas y títulos

Para ayudar a los lectores a comprender el gráfico, agrega etiquetas a los ejes x e y y un título al gráfico en sí:

python
plt.scatter(x, y, s=100, c=colors, cmap='viridis')
plt.xlabel('X Axis Label')
plt.ylabel('Y Axis Label')
plt.title('Scatter Plot Example')

Uso de ejes logarítmicos

En algunos casos, puede ser necesario utilizar escalas logarítmicas para uno o ambos ejes para mostrar mejor los datos:

python
x = np.logspace(1, 4, 50)
y = np.logspace(1, 4, 50)
plt.scatter(x, y, s=100)
plt.xscale('log')
plt.yscale('log')

En este ejemplo, generamos puntos de datos espaciados logarítmicamente y usamos las funciones xscale e yscale para establecer la escala logarítmica para cada eje.

Ejemplo completo

El siguiente script combina todos los pasos y personalizaciones discutidos anteriormente en un único ejemplo ejecutable:

python
import matplotlib.pyplot as plt
import numpy as np

# Generate sample data
x = np.random.rand(50)
y = np.random.rand(50)
colors = np.random.rand(50)

# Create scatter plot with customizations
plt.scatter(x, y, s=100, c=colors, cmap='viridis')
plt.xlabel('X Axis Label')
plt.ylabel('Y Axis Label')
plt.title('Scatter Plot Example')
plt.show()

Conclusión

Los gráficos de dispersión son una herramienta poderosa para visualizar relaciones entre datos e identificar tendencias y valores atípicos. Con la biblioteca Matplotlib de Python, crear y personalizar gráficos de dispersión es un proceso sencillo que se puede adaptar a una amplia gama de tareas de análisis de datos. Siguiendo las mejores prácticas descritas en este artículo, podrás crear gráficos de dispersión efectivos que comuniquen tus conclusiones sobre los datos de manera clara y precisa.

¿Te resulta útil?

Vista previa dual-run — compárala con las rutas Symfony en producción.