Funcția Python pandas DataFrame.isna() ajută utilizatorii să identifice datele lipsă (NaN sau None) într-un DataFrame. Acest lucru poate fi deosebit de util pentru a vedea dacă datele trebuie curățate înainte de a începe analiza.

Care este sintaxa pentru pandas isna()?

Deoarece pandas isna() nu acceptă parametri, sintaxa sa este destul de simplă:

DataFrame.isna()
python

Cum se utilizează funcția pandas isna()

Când isna() este aplicat unui DataFrame, acesta creează un nou DataFrame cu valori booleene. Dacă o valoare din DataFrame-ul original lipsește (de exemplu, marcată cu NaN sau None), isna() va afișa True în locul unde se află valoarea. În caz contrar, funcția va afișa False.

Notă

Dacă, pe lângă identificarea NaN sau None de valori, doriți să le și eliminați, consultați funcția pandas dropna(). Dacă nu doriți să eliminați aceste valori, ci să le înlocuiți sistematic, funcția fillna() este un instrument util în acest sens.

Identificarea valorilor lipsă într-un DataFrame

Următorul exemplu utilizează un DataFrame cu date despre diferite persoane, în care lipsesc unele informații.

import pandas as pd
# Create DataFrame example
data = {
    'Name': ['Alice', 'Bob', None, 'David'],
    'Age': [25, None, 35, 40],
    'City': ['Nottingham', 'London', 'Cardiff', None]
}
df = pd.DataFrame(data)
print(df)
python

DataFrame arată astfel:

Name   Age         City
0  Alice  25.0     Nottingham
1    Bob   NaN  	London
2   None  35.0      Cardiff
3  David  40.0         None

Informațiile care lipsesc au fost marcate cu None sau NaN. Pentru a vedea exact ce valori lipsesc, puteți apela isna() în DataFrame.

# Applying  pandas isna()
missing_values = df.isna()
print(missing_values)
python

Apelul funcției returnează un nou DataFrame, în care valorile lipsă din datele originale sunt marcate cu True, iar valorile prezente sunt marcate cu False. Iată rezultatul:

Name    Age   City
0  False  False  False
1  False   True  False
2   True  False  False
3  False  False   True

Numărarea valorilor lipsă pe coloană

De asemenea, poate fi util să știți câte valori lipsesc în fiecare coloană, pentru a vă ajuta să decideți cum să le tratați. Puteți utiliza isna() împreună cu funcția sum() din Python pentru a număra numărul de valori lipsă din fiecare coloană.

# Count missing values per column
missing_count = df.isna().sum()
print(missing_count)
python

Aceasta vă arată numărul de valori lipsă din fiecare coloană:

Name     1
Age      1
City     1
dtype: int64
Mergi la meniul principal