Funcția Python pandas DataFrame.describe() este utilizată pentru a genera un rezumat statistic al coloanelor numerice dintr-un DataFrame. Acest rezumat include indicatori statistici cheie, precum media, abaterea standard, minimul, maximul și diferite percentile.

Care este sintaxa pentru funcția describe() din pandas?

Sintaxa de bază a describe() pentru DataFrames este simplă. Arată astfel:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Parametri importanți pentru urșii panda DataFrame.describe()

Folosind următorii parametri, puteți regla ieșirea de describe():

Parametru Descriere Valoare implicită
percentiles Listează percentilele care trebuie incluse în rezumat [.25, .5, .75]
include Specifică tipurile de date care trebuie incluse în descriere; valorile posibile sunt numpy.number, numpy.object, all sau None None
exclude Specifică tipurile de date care trebuie excluse din descriere; funcționează ca parametrul include. None

Exemple de utilizare a pandas describe()

Dacă aveți nevoie de o prezentare rapidă a indicatorilor statistici cheie ai unui set de date, funcția pandas DataFrame.describe() este extrem de utilă.

Exemplul 1: Rezumat statistic al datelor numerice

În exemplul următor, vom analiza DataFrame df, care conține diferite tipuri de date privind vânzările.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

Acum, puteți utiliza pandas describe() pentru a obține un rezumat statistic al datelor numerice din coloane:

summary = df.describe()
print(summary)
python

Rezultatul funcției pandas DataFrame.describe() este următorul:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Indicatorii cheie afișați în rezultat sunt:

  • count: Numărul de intrări non-NaN (Not a Number)
  • mean: Media valorilor (accesibilă și prin DataFrame.mean())
  • std: Abaterea standard a valorilor
  • min, 25%, 50%, 75%, max: Valori minime, percentila 25, mediană (percentila 50), percentila 75 și valori maxime

Exemplul 2: Personalizarea percentilelor

Puteți personaliza percentilele din ieșirea pandas DataFrame.describe() cu parametrul percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

Această apelare de funcție furnizează următoarea ieșire:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

În rezultat, sunt incluse 10%, 50% și 90% în loc de percentilele standard din exemplul anterior.

Mergi la meniul principal