Cum să identificați valorile lipsă cu funcția pandas isna()
Funcția Python pandas DataFrame.isna() ajută utilizatorii să identifice datele lipsă (NaN sau None) într-un DataFrame. Acest lucru poate fi deosebit de util pentru a vedea dacă datele trebuie curățate înainte de a începe analiza.
Care este sintaxa pentru pandas isna()?
Deoarece pandas isna() nu acceptă parametri, sintaxa sa este destul de simplă:
DataFrame.isna()pythonCum se utilizează funcția pandas isna()
Când isna() este aplicat unui DataFrame, acesta creează un nou DataFrame cu valori booleene. Dacă o valoare din DataFrame-ul original lipsește (de exemplu, marcată cu NaN sau None), isna() va afișa True în locul unde se află valoarea. În caz contrar, funcția va afișa False.
Dacă, pe lângă identificarea NaN sau None de valori, doriți să le și eliminați, consultați funcția pandas dropna(). Dacă nu doriți să eliminați aceste valori, ci să le înlocuiți sistematic, funcția fillna() este un instrument util în acest sens.
Identificarea valorilor lipsă într-un DataFrame
Următorul exemplu utilizează un DataFrame cu date despre diferite persoane, în care lipsesc unele informații.
import pandas as pd
# Create DataFrame example
data = {
'Name': ['Alice', 'Bob', None, 'David'],
'Age': [25, None, 35, 40],
'City': ['Nottingham', 'London', 'Cardiff', None]
}
df = pd.DataFrame(data)
print(df)pythonDataFrame arată astfel:
Name Age City
0 Alice 25.0 Nottingham
1 Bob NaN London
2 None 35.0 Cardiff
3 David 40.0 NoneInformațiile care lipsesc au fost marcate cu None sau NaN. Pentru a vedea exact ce valori lipsesc, puteți apela isna() în DataFrame.
# Applying pandas isna()
missing_values = df.isna()
print(missing_values)pythonApelul funcției returnează un nou DataFrame, în care valorile lipsă din datele originale sunt marcate cu True, iar valorile prezente sunt marcate cu False. Iată rezultatul:
Name Age City
0 False False False
1 False True False
2 True False False
3 False False TrueNumărarea valorilor lipsă pe coloană
De asemenea, poate fi util să știți câte valori lipsesc în fiecare coloană, pentru a vă ajuta să decideți cum să le tratați. Puteți utiliza isna() împreună cu funcția sum() din Python pentru a număra numărul de valori lipsă din fiecare coloană.
# Count missing values per column
missing_count = df.isna().sum()
print(missing_count)pythonAceasta vă arată numărul de valori lipsă din fiecare coloană:
Name 1
Age 1
City 1
dtype: int64