Cum să curățați datele în pandas cu dropna()

Cuprins

Funcția Python pandas DataFrame.dropna() este utilizată pentru a elimina toate rândurile sau coloanele care conțin valori lipsă (NaN) dintr-un DataFrame. Acest lucru o face deosebit de importantă pentru pregătirea și curățarea datelor.

Care este sintaxa pentru pandas `dropna()`?

Funcția dropna() acceptă până la cinci parametri. Iată sintaxa acesteia:

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False, ignore_index=False)

python

Parametri importanți pentru `dropna()`

Puteți utiliza parametri pentru a influența comportamentul funcției pandas DataFrame.dropna(). Iată o prezentare generală a celor mai importanți:

Parametru	Descriere	Valoare implicită
`axis`	Determină dacă vor fi eliminate rândurile (0 sau `index`) sau coloanele (1 sau `columns`)	0
`how`	Specifică dacă toate (`all`) sau doar unele (`any`) valori trebuie să fie NaN	`any`
`thresh`	Specifică numărul minim de valori non-NaN pe care un rând sau o coloană trebuie să le aibă pentru a evita eliminarea; nu poate fi combinat cu `how`	opțional
`subset`	Specifică rândurile sau coloanele care trebuie considerate	opțional
`inplace`	Determină dacă operațiunea este efectuată pe DataFrame original.	`False`
`ignore_index`	Dacă `True`, axa rămasă este etichetată de la 0 la n-1	`False`

Cum se utilizează pandas `DataFrame.dropna()`

Pandas dropna() este utilizat pentru curățarea datelor înainte de analizarea acestora. Eliminarea rândurilor sau coloanelor cu valori lipsă ajută la prevenirea erorilor în evaluările statistice. Deoarece valorile lipsă pot duce și la probleme cu vizualizarea datelor, utilizarea funcției este avantajoasă și la crearea de grafice și rapoarte.

Eliminarea rândurilor cu valori lipsă

În exemplul următor, vom analiza un DataFrame care conține valori NaN:

import pandas as pd
import numpy as np
# Creating a DataFrame with sample data
data = {
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [9, 10, 11, 12]
}
df = pd.DataFrame(data)
print(df)

python

DataFrame arată astfel:

A    B   C
0  1.0  5.0   9
1  2.0  NaN  10
2  NaN  NaN  11
3  4.0  8.0  12

Apoi, vom aplica funcția pandas dropna():

## Remove all rows that contain at least one NaN value
df_cleaned = df.dropna()
print(df_cleaned)

python

Executarea codului de mai sus produce următorul rezultat:

A    B  C
0  1.0  5.0  9
3  4.0  8.0 12

Deoarece toate celelalte rânduri conțin valori NaN, rămân doar rândurile zero și trei.

Eliminarea coloanelor cu valori lipsă

În mod similar, puteți elimina coloanele cu valori lipsă setând parametrul axis la 1:

## Remove all columns that contain at least one NaN value
df_cleaned_columns = df.dropna(axis=1)
print(df_cleaned_columns)

python

Coloana C este singura coloană care rămâne, deoarece este singura care nu conține valori NaN:

Utilizarea `thresh`

Dacă doriți să eliminați rândurile care conțin mai puțin de două valori non-NaN, puteți utiliza parametrul thresh:

## Only keeps rows that have 2 or more non-NaN values
df_thresh = df.dropna(thresh=2)
print(df_thresh)

python

Rularea codului produce următorul rezultat:

A    B   C
0  1.0  5.0   9
1  2.0  NaN  10
3  4.0  8.0  12

Rândul 1 nu este eliminat din rezultatul final deoarece conține 2 valori non-NaN (2,0 și 10).

Utilizarea `subset`

Parametrul subset vă permite să specificați coloanele în care programul trebuie să caute valorile lipsă. Numai rândurile care conțin valori lipsă în coloanele specificate vor fi eliminate.

## Removes all rows where column A contains a NaN value
df_subset = df.dropna(subset=['A'])
print(df_subset)

python

Aici, numai al doilea rând este eliminat. Valoarea NaN din primul rând este ignorată datorită parametrului subset, care ia în considerare numai coloana A:

A    B   C
0  1.0  5.0   9
1  2.0  NaN  10
3  4.0  8.0  12

Articole corelate

BEST-BACKGROUNDSShutterstock

Cum să parcurgeți DataFrames cu pandas iterrows()

Pandas DataFrame.iterrows() este o funcție utilă pentru parcurgerea rândurilor dintr-un DataFrame, în special când trebuie să procesezi datele rând cu rând. Este foarte utilă pentru calcule sau logică condițională. În acest articol, vom discuta despre sintaxa panda iterrows() și…

Citește mai mult

Mr. Kosalshutterstock

Cum se indexează cadrele de date pandas

Indexarea Pandas DataFrame este un instrument puternic pentru gestionarea eficientă și eficace a datelor. Cu ajutorul diverselor metode, puteți viza date specifice și subseturi ale DataFrame-ului dvs. În acest articol, vom explora ce este indexul pandas DataFrame, cum se…

Citește mai mult

Mr. Kosalshutterstock

Ce este Python pandas any() și cum funcționează?

În pandas, metoda DataFrame any() este un instrument eficient pentru a verifica rapid dacă există cel puțin o valoare adevărată de-a lungul unei axe a unui DataFrame. Această metodă este deosebit de utilă pentru analiza și validarea datelor. În acest articol, vă vom arăta care…

Citește mai mult

ESB Professionalshutterstock

Cum se utilizează Pandas DataFrame pentru a manipula rapid tabele în Python

Modulul Pandas este unul dintre cele mai puternice instrumente pentru manipularea datelor în Python. Una dintre structurile centrale de date din Pandas este DataFrame. DataFrames poate fi utilizat pentru a manipula eficient date structurate bidimensionale. Vă explicăm structura…

Citește mai mult

Ce este proprietatea iloc[] din Python pandas?

Când lucrați cu DataFrames în Python pandas, nu toate rândurile sau coloanele unui DataFrame sunt întotdeauna relevante pentru analiza datelor. Proprietatea pandas DataFrame iloc[] este un instrument util pentru selectarea rândurilor sau coloanelor folosind indexurile lor. În…

Citește mai mult

REDPIXEL.PLShutterstock

Cum se calculează mediile cu pandas mean()

Funcția pandas `DataFrame.mean()` calculează mediile într-un DataFrame. Poate fi utilizată pentru a găsi valorile medii pentru rânduri sau coloane și oferă flexibilitate în ceea ce privește gestionarea valorilor NaN. În acest articol, vom analiza sintaxa funcției, parametrii pe…

Citește mai mult

Cum să curățați datele în pandas cu dropna()

Care este sintaxa pentru pandas dropna()?

Parametri importanți pentru dropna()

Cum se utilizează pandas DataFrame.dropna()

Eliminarea rândurilor cu valori lipsă

Eliminarea coloanelor cu valori lipsă

Utilizarea thresh

Utilizarea subset

Care este sintaxa pentru pandas `dropna()`?

Parametri importanți pentru `dropna()`

Cum se utilizează pandas `DataFrame.dropna()`

Utilizarea `thresh`

Utilizarea `subset`