Cum se calculează mediile cu pandas mean()
Funcția DataFrame.mean() din Python pandas este utilizată pentru a calcula mediile pe una sau mai multe axe ale unui DataFrame. Pandas mean() este esențial pentru analizarea datelor numerice. Pe lângă calcularea valorilor medii, oferă și informații despre distribuția datelor.
Care este sintaxa pentru DataFrame.mean()?
Funcția pandas mean() acceptă până la trei parametri și are următoarea sintaxă:
DataFrame.mean(axis=None, skipna=True, numeric_only=None)pythonCe parametri pot fi utilizați cu pandas Dataframe.mean?
Puteți utiliza diferiți parametri pentru a personaliza modul de funcționare al pandas DataFrame.mean().
| Parametru | Descriere | Valoare implicită |
|---|---|---|
axis
|
Specifică dacă calculul se efectuează pe rânduri (axis=0) sau coloane (axis=1)
|
0
|
skipna
|
Dacă este setat la True, valorile NaN vor fi ignorate.
|
True
|
numeric_only
|
Dacă este setat la True, numai tipurile de date numerice vor fi incluse în calcul.
|
False
|
Cum se utilizează pandas mean()
Puteți aplica funcția pandas DataFrame.mean() atât coloanelor, cât și rândurilor.
Calcularea valorilor medii pentru coloane
Mai întâi, vom crea un DataFrame pandas cu câteva date numerice:
import pandas as pd
data = {
'A': [1, 2, 3, 4],
'B': [4, 5, 6, 7],
'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)pythonDataFrame-ul rezultat arată astfel:
A B C
0 1 4 7
1 2 5 8
2 3 6 9
3 4 7 10Pentru a calcula media fiecărei coloane, puteți utiliza funcția pandas mean(). În mod implicit, parametrul axis este setat la 0, ceea ce corespunde coloanelor.
column_means = df.mean()
print(column_means)pythonCodul de mai sus calculează media pentru fiecare coloană (A, B și C) prin găsirea sumei elementelor din coloana respectivă și apoi împărțirea acesteia la numărul de elemente din coloană. Rezultatul este următoarea serie pandas:
A 2.5
B 5.5
C 8.5
dtype: float64Calcularea valorilor medii pentru rânduri
Dacă doriți să aflați media pentru rânduri, setați pur și simplu parametrul axis la 1:
row_means = df.mean(axis=1)
print(row_means)pythonPandas mean() calculează mediile rândurilor împărțind suma elementelor dintr-un rând la numărul de elemente pe care îl are. Apelarea funcției de mai sus produce următorul rezultat:
0 4.0
1 5.0
2 6.0
3 7.0
dtype: float64Gestionarea valorilor NaN
În acest exemplu, vom folosi un alt DataFrame, care conține valori NaN:
import pandas as pd
import numpy as np
data = {
'A': [1, 2, np.nan, 4],
'B': [4, np.nan, 6, 7],
'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)pythonCodul de mai sus generează următorul DataFrame:
A B C
0 1.0 4.0 7.0
1 2.0 NaN 8.0
2 NaN 6.0 9.0
3 4.0 7.0 NaNLa calcularea mediilor pentru coloane, parametrul skipna determină dacă valorile NaN trebuie incluse sau ignorate. În mod implicit, skipna este setat la True, astfel încât df.mean() ignoră automat valorile NaN. Dacă doriți să includeți valorile NaN, trebuie să adăugați skipna=False ca parametru. Astfel, orice coloană cu cel puțin un NaN va returna NaN ca medie.
mean_with_nan = df.mean()
print(mean_with_nan)pythonApelarea df.mean() produce următorul rezultat:
A 2.333333
B 5.666667
C 8.000000
dtype: float64