Ce este metoda describe() din DataFrame pandas?

Cuprins

Funcția Python pandas DataFrame.describe() este utilizată pentru a genera un rezumat statistic al coloanelor numerice dintr-un DataFrame. Acest rezumat include indicatori statistici cheie, precum media, abaterea standard, minimul, maximul și diferite percentile.

Care este sintaxa pentru funcția `describe()` din pandas?

Sintaxa de bază a describe() pentru DataFrames este simplă. Arată astfel:

DataFrame.describe(percentiles=None, include=None, exclude=None)

python

Parametri importanți pentru urșii panda `DataFrame.describe()`

Folosind următorii parametri, puteți regla ieșirea de describe():

Parametru	Descriere	Valoare implicită
`percentiles`	Listează percentilele care trebuie incluse în rezumat	`[.25, .5, .75]`
`include`	Specifică tipurile de date care trebuie incluse în descriere; valorile posibile sunt `numpy.number`, `numpy.object`, `all` sau `None`	`None`
`exclude`	Specifică tipurile de date care trebuie excluse din descriere; funcționează ca parametrul `include`.	`None`

Exemple de utilizare a pandas `describe()`

Dacă aveți nevoie de o prezentare rapidă a indicatorilor statistici cheie ai unui set de date, funcția pandas DataFrame.describe() este extrem de utilă.

Exemplul 1: Rezumat statistic al datelor numerice

În exemplul următor, vom analiza DataFrame df, care conține diferite tipuri de date privind vânzările.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)

python

Acum, puteți utiliza pandas describe() pentru a obține un rezumat statistic al datelor numerice din coloane:

summary = df.describe()
print(summary)

python

Rezultatul funcției pandas DataFrame.describe() este următorul:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Indicatorii cheie afișați în rezultat sunt:

count: Numărul de intrări non-NaN (Not a Number)
mean: Media valorilor (accesibilă și prin DataFrame.mean())
std: Abaterea standard a valorilor
min, 25%, 50%, 75%, max: Valori minime, percentila 25, mediană (percentila 50), percentila 75 și valori maxime

Exemplul 2: Personalizarea percentilelor

Puteți personaliza percentilele din ieșirea pandas DataFrame.describe() cu parametrul percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)

python

Această apelare de funcție furnizează următoarea ieșire:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

În rezultat, sunt incluse 10%, 50% și 90% în loc de percentilele standard din exemplul anterior.

Articole corelate

Cum să încărcați fișiere în Python cu pandas read_csv()

Python pandas read_csv() este o funcție puternică pentru accesarea rapidă și eficientă a conținutului fișierelor CSV în Python. Funcția este flexibilă și oferă numeroși parametri, astfel încât să puteți personaliza procesul de încărcare în funcție de nevoile dvs. Înțelegerea…

Citește mai mult

Mr. Kosalshutterstock

Cum se indexează cadrele de date pandas

Indexarea Pandas DataFrame este un instrument puternic pentru gestionarea eficientă și eficace a datelor. Cu ajutorul diverselor metode, puteți viza date specifice și subseturi ale DataFrame-ului dvs. În acest articol, vom explora ce este indexul pandas DataFrame, cum se…

Citește mai mult

BEST-BACKGROUNDSShutterstock

Cum să curățați datele în pandas cu dropna()

Funcția DataFrame.dropna() din pandas este un instrument puternic pentru curățarea seturilor de date. Funcția elimină în mod eficient valorile lipsă și poate fi utilizată cu diversi parametri, permițând programatorilor să specifice diferite cerințe pentru curățarea datelor.…

Citește mai mult

ESB Professionalshutterstock

Cum se utilizează Pandas DataFrame pentru a manipula rapid tabele în Python

Modulul Pandas este unul dintre cele mai puternice instrumente pentru manipularea datelor în Python. Una dintre structurile centrale de date din Pandas este DataFrame. DataFrames poate fi utilizat pentru a manipula eficient date structurate bidimensionale. Vă explicăm structura…

Citește mai mult

BEST-BACKGROUNDSShutterstock

Cum să parcurgeți DataFrames cu pandas iterrows()

Pandas DataFrame.iterrows() este o funcție utilă pentru parcurgerea rândurilor dintr-un DataFrame, în special când trebuie să procesezi datele rând cu rând. Este foarte utilă pentru calcule sau logică condițională. În acest articol, vom discuta despre sintaxa panda iterrows() și…

Citește mai mult

Ce este proprietatea iloc[] din Python pandas?

Când lucrați cu DataFrames în Python pandas, nu toate rândurile sau coloanele unui DataFrame sunt întotdeauna relevante pentru analiza datelor. Proprietatea pandas DataFrame iloc[] este un instrument util pentru selectarea rândurilor sau coloanelor folosind indexurile lor. În…

Citește mai mult

Ce este metoda describe() din DataFrame pandas?

Care este sintaxa pentru funcția describe() din pandas?

Parametri importanți pentru urșii panda DataFrame.describe()

Exemple de utilizare a pandas describe()

Exemplul 1: Rezumat statistic al datelor numerice

Exemplul 2: Personalizarea percentilelor

Care este sintaxa pentru funcția `describe()` din pandas?

Parametri importanți pentru urșii panda `DataFrame.describe()`

Exemple de utilizare a pandas `describe()`