Estadística descriptiva con Python

Este un ejemplo simple de estadística descriptiva utilizando las bibliotecas Pandas, NumPy y Matplotlib en Python. En este caso, generaremos algunos datos aleatorios para ilustrar el proceso:

La estadística descriptiva es una rama de la estadística que se enfoca en el análisis y descripción de datos. En Python, existen varias librerías que permiten realizar análisis estadísticos descriptivos, como NumPy, Pandas y SciPy .

Para calcular medidas descriptivas de tendencia central, como la media, se puede utilizar la función mean() de la librería NumPy . Por otro lado, para calcular medidas descriptivas de dispersión, como la varianza y el desvío estándar, se puede utilizar la función var() y std() de la librería NumPy, respectivamente

Además, Pandas ofrece la función describe() para calcular estadísticas descriptivas como conteo, valores únicos, media, desviación estándar, valor mínimo y máximo, entre otros

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Crear un conjunto de datos aleatorios
np.random.seed(42)
datos = pd.DataFrame({
    'Edad': np.random.randint(20, 60, 50),
    'Puntuacion': np.random.randint(1, 100, 50)
})

# Mostrar las primeras filas del conjunto de datos
print("Primeras filas del conjunto de datos:")
print(datos.head())

# Resumen estadístico
print("\nResumen estadístico:")
print(datos.describe())

# Visualización de datos
plt.figure(figsize=(10, 5))

# Histograma de la columna 'Edad'
plt.subplot(1, 2, 1)
plt.hist(datos['Edad'], bins=10, color='skyblue', edgecolor='black')
plt.title('Histograma de Edades')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')

# Diagrama de dispersión entre 'Edad' y 'Puntuacion'
plt.subplot(1, 2, 2)
plt.scatter(datos['Edad'], datos['Puntuacion'], color='salmon')
plt.title('Diagrama de Dispersión: Edad vs Puntuación')
plt.xlabel('Edad')
plt.ylabel('Puntuación')

plt.tight_layout()
plt.show()

Este código crea un conjunto de datos aleatorios de edades y puntuaciones y realiza las siguientes acciones:

Muestra las primeras filas del conjunto de datos.
Calcula un resumen estadístico utilizando el método describe() de Pandas.
Visualiza los datos mediante un histograma de las edades y un diagrama de dispersión entre la edad y las puntuaciones.

Asegúrate de tener las bibliotecas Pandas, NumPy y Matplotlib instaladas en tu entorno de Python para ejecutar este código.

Primeras filas del conjunto de datos: Edad Puntuacion 0 58 36 1 48 50 2 34 4 3 27 2 4 40 6 Resumen estadístico: Edad Puntuacion count 50.000000 50.000000 mean 39.040000 48.900000 std 11.347858 30.334361 min 21.000000 1.000000 25% 30.000000 19.500000 50% 40.000000 51.500000 75% 46.750000 77.000000 max 59.000000 95.000000

Módulo III: Periodoncia - Análisis de Datos con Python y Asistentes Inteligentes

viernes, 8 de diciembre de 2023

Estadística descriptiva con Python

No hay comentarios:

Publicar un comentario

EVALUACION SUMATIVA PAYTHON ,PANDAS , JUPITER LAB

Denunciar abuso