Cum să filtrați valorile distincte cu pandas DataFrame[].unique()
În Python pandas, puteți utiliza funcția unique() pentru a identifica valorile unice dintr-o coloană a unui DataFrame. Acest lucru facilitează obținerea unei imagini de ansamblu rapide asupra diferitelor valori din setul de date.
Care este sintaxa pandas DataFrame[].unique()?
Sintaxa de bază pentru utilizarea pandas unique() este simplă. Acest lucru se datorează faptului că funcția nu acceptă niciun parametru:
DataFrame['column_name'].unique()pythonRețineți că unique() poate fi aplicat doar unei singure coloane. Înainte de a apela funcția, trebuie să indicați coloana pe care doriți să o evaluați. Funcția unique() returnează un array numpy care conține toate valorile diferite în ordinea în care apar, cu valorile duplicate din coloană eliminate. Cu toate acestea, nu sortează valorile.
Dacă lucrați cu Python de ceva timp, probabil că sunteți familiarizat cu echivalentul numpy pentru pandas unique(). Din motive de eficiență, versiunea pandas este, în general, preferabilă.
Cum se utilizează pandas DataFrame[].unique()
Pentru a utiliza unique() într-un DataFrame pandas, trebuie mai întâi să specificați coloana pe care doriți să o verificați. În exemplul următor, vom utiliza un DataFrame care conține informații despre vârsta și orașul de reședință al unui grup de persoane.
import pandas as pd
# Create a sample DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
'Age': [24, 27, 22, 32, 29],
'City': ['Newcastle', 'London', 'Newcastle', 'Cardiff', 'London']
}
df = pd.DataFrame(data)
print(df)pythonDataFrame-ul rezultat arată astfel:
Name Age City
0 Alice 24 Newcastle
1 Bob 27 London
2 Charlie 22 Newcastle
3 David 32 Cardiff
4 Edward 29 LondonAcum, să presupunem că vrem să creăm o listă cu toate orașele în care locuiesc persoanele din DataFrame. Putem aplica funcția pandas unique() la coloana care conține orașele.
# Find different cities
unique_cities = df['City'].unique()
print(unique_cities)pythonRezultatul este un tablou numpy care listează fiecare oraș o singură dată, arătând că persoanele din DataFrame provin din trei orașe: Newcastle, Londra și Cardiff.
['Newcastle' 'London' 'Cardiff']