Funcția DataFrame.mean() din Python pandas este utilizată pentru a calcula mediile pe una sau mai multe axe ale unui DataFrame. Pandas mean() este esențial pentru analizarea datelor numerice. Pe lângă calcularea valorilor medii, oferă și informații despre distribuția datelor.

Care este sintaxa pentru DataFrame.mean()?

Funcția pandas mean() acceptă până la trei parametri și are următoarea sintaxă:

DataFrame.mean(axis=None, skipna=True, numeric_only=None)
python

Ce parametri pot fi utilizați cu pandas Dataframe.mean?

Puteți utiliza diferiți parametri pentru a personaliza modul de funcționare al pandas DataFrame.mean().

Parametru Descriere Valoare implicită
axis Specifică dacă calculul se efectuează pe rânduri (axis=0) sau coloane (axis=1) 0
skipna Dacă este setat la True, valorile NaN vor fi ignorate. True
numeric_only Dacă este setat la True, numai tipurile de date numerice vor fi incluse în calcul. False

Cum se utilizează pandas mean()

Puteți aplica funcția pandas DataFrame.mean() atât coloanelor, cât și rândurilor.

Calcularea valorilor medii pentru coloane

Mai întâi, vom crea un DataFrame pandas cu câteva date numerice:

import pandas as pd
data = {
    'A': [1, 2, 3, 4],
    'B': [4, 5, 6, 7],
    'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)
python

DataFrame-ul rezultat arată astfel:

A  B    C
0  1  4    7
1  2  5    8
2  3  6    9
3  4  7  10

Pentru a calcula media fiecărei coloane, puteți utiliza funcția pandas mean(). În mod implicit, parametrul axis este setat la 0, ceea ce corespunde coloanelor.

column_means = df.mean()
print(column_means)
python

Codul de mai sus calculează media pentru fiecare coloană (A, B și C) prin găsirea sumei elementelor din coloana respectivă și apoi împărțirea acesteia la numărul de elemente din coloană. Rezultatul este următoarea serie pandas:

A    2.5
B    5.5
C    8.5
dtype: float64

Calcularea valorilor medii pentru rânduri

Dacă doriți să aflați media pentru rânduri, setați pur și simplu parametrul axis la 1:

row_means = df.mean(axis=1)
print(row_means)
python

Pandas mean() calculează mediile rândurilor împărțind suma elementelor dintr-un rând la numărul de elemente pe care îl are. Apelarea funcției de mai sus produce următorul rezultat:

0    4.0
1    5.0
2    6.0
3    7.0
dtype: float64

Gestionarea valorilor NaN

În acest exemplu, vom folosi un alt DataFrame, care conține valori NaN:

import pandas as pd
import numpy as np
data = {
    'A': [1, 2, np.nan, 4],
    'B': [4, np.nan, 6, 7],
    'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)
python

Codul de mai sus generează următorul DataFrame:

A    B    C
0  1.0  4.0  7.0
1  2.0  NaN  8.0
2  NaN  6.0  9.0
3  4.0  7.0  NaN

La calcularea mediilor pentru coloane, parametrul skipna determină dacă valorile NaN trebuie incluse sau ignorate. În mod implicit, skipna este setat la True, astfel încât df.mean() ignoră automat valorile NaN. Dacă doriți să includeți valorile NaN, trebuie să adăugați skipna=False ca parametru. Astfel, orice coloană cu cel puțin un NaN va returna NaN ca medie.

mean_with_nan = df.mean() 
print(mean_with_nan)
python

Apelarea df.mean() produce următorul rezultat:

A    2.333333
B    5.666667
C    8.000000
dtype: float64
Mergi la meniul principal