Ce este metoda describe() din DataFrame pandas?
Funcția Python pandas DataFrame.describe() este utilizată pentru a genera un rezumat statistic al coloanelor numerice dintr-un DataFrame. Acest rezumat include indicatori statistici cheie, precum media, abaterea standard, minimul, maximul și diferite percentile.
Care este sintaxa pentru funcția describe() din pandas?
Sintaxa de bază a describe() pentru DataFrames este simplă. Arată astfel:
DataFrame.describe(percentiles=None, include=None, exclude=None)pythonParametri importanți pentru urșii panda DataFrame.describe()
Folosind următorii parametri, puteți regla ieșirea de describe():
| Parametru | Descriere | Valoare implicită |
|---|---|---|
percentiles
|
Listează percentilele care trebuie incluse în rezumat | [.25, .5, .75]
|
include
|
Specifică tipurile de date care trebuie incluse în descriere; valorile posibile sunt numpy.number, numpy.object, all sau None
|
None
|
exclude
|
Specifică tipurile de date care trebuie excluse din descriere; funcționează ca parametrul include.
|
None
|
Exemple de utilizare a pandas describe()
Dacă aveți nevoie de o prezentare rapidă a indicatorilor statistici cheie ai unui set de date, funcția pandas DataFrame.describe() este extrem de utilă.
Exemplul 1: Rezumat statistic al datelor numerice
În exemplul următor, vom analiza DataFrame df, care conține diferite tipuri de date privind vânzările.
import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
'Product': ['A', 'B', 'C', 'D', 'E'],
'Quantity': [10, 20, 15, 5, 30],
'Price': [100, 150, 200, 80, 120],
'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)pythonAcum, puteți utiliza pandas describe() pentru a obține un rezumat statistic al datelor numerice din coloane:
summary = df.describe()
print(summary)pythonRezultatul funcției pandas DataFrame.describe() este următorul:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000Indicatorii cheie afișați în rezultat sunt:
count: Numărul de intrări non-NaN (Not a Number)mean: Media valorilor (accesibilă și prin DataFrame.mean())std: Abaterea standard a valorilormin,25%,50%,75%,max: Valori minime, percentila 25, mediană (percentila 50), percentila 75 și valori maxime
Exemplul 2: Personalizarea percentilelor
Puteți personaliza percentilele din ieșirea pandas DataFrame.describe() cu parametrul percentiles:
# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)pythonAceastă apelare de funcție furnizează următoarea ieșire:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000În rezultat, sunt incluse 10%, 50% și 90% în loc de percentilele standard din exemplul anterior.