viernes, 8 de diciembre de 2023

Estadística descriptiva con Python

Este un ejemplo simple de estadística descriptiva utilizando las bibliotecas Pandas, NumPy y Matplotlib en Python. En este caso, generaremos algunos datos aleatorios para ilustrar el proceso:

La estadística descriptiva es una rama de la estadística que se enfoca en el análisis y descripción de datos. En Python, existen varias librerías que permiten realizar análisis estadísticos descriptivos, como NumPyPandas y SciPy .

Para calcular medidas descriptivas de tendencia central, como la media, se puede utilizar la función mean() de la librería NumPy Por otro lado, para calcular medidas descriptivas de dispersión, como la varianza y el desvío estándar, se puede utilizar la función var() y std() de la librería NumPy, respectivamente 

Además, Pandas ofrece la función describe() para calcular estadísticas descriptivas como conteo, valores únicos, media, desviación estándar, valor mínimo y máximo, entre otros




import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Crear un conjunto de datos aleatorios
np.random.seed(42)
datos = pd.DataFrame({
    'Edad': np.random.randint(20, 60, 50),
    'Puntuacion': np.random.randint(1, 100, 50)
})

# Mostrar las primeras filas del conjunto de datos
print("Primeras filas del conjunto de datos:")
print(datos.head())

# Resumen estadístico
print("\nResumen estadístico:")
print(datos.describe())

# Visualización de datos
plt.figure(figsize=(10, 5))

# Histograma de la columna 'Edad'
plt.subplot(1, 2, 1)
plt.hist(datos['Edad'], bins=10, color='skyblue', edgecolor='black')
plt.title('Histograma de Edades')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')

# Diagrama de dispersión entre 'Edad' y 'Puntuacion'
plt.subplot(1, 2, 2)
plt.scatter(datos['Edad'], datos['Puntuacion'], color='salmon')
plt.title('Diagrama de Dispersión: Edad vs Puntuación')
plt.xlabel('Edad')
plt.ylabel('Puntuación')

plt.tight_layout()
plt.show()

Este código crea un conjunto de datos aleatorios de edades y puntuaciones y realiza las siguientes acciones:

    1. Muestra las primeras filas del conjunto de datos.
    2. Calcula un resumen estadístico utilizando el método describe() de Pandas.
    3. Visualiza los datos mediante un histograma de las edades y un diagrama de dispersión entre la edad y las puntuaciones.

Asegúrate de tener las bibliotecas Pandas, NumPy y Matplotlib instaladas en tu entorno de Python para ejecutar este código.

Primeras filas del conjunto de datos: Edad Puntuacion 0 58 36 1 48 50 2 34 4 3 27 2 4 40 6 Resumen estadístico: Edad Puntuacion count 50.000000 50.000000 mean 39.040000 48.900000 std 11.347858 30.334361 min 21.000000 1.000000 25% 30.000000 19.500000 50% 40.000000 51.500000 75% 46.750000 77.000000 max 59.000000 95.000000





No hay comentarios:

Publicar un comentario

EVALUACION SUMATIVA PAYTHON ,PANDAS , JUPITER LAB

 ESTE ES UN CODIGO  GENERADO  PARA HACER UNA EVALUACION SUMATIVA   DE ESTUDIANTES  ,DON DE SE AVALUAN DIFERENTES ASPECTOS, DANDONOS COMO RES...