În Python pandas, puteți utiliza funcția unique() pentru a identifica valorile unice dintr-o coloană a unui DataFrame. Acest lucru facilitează obținerea unei imagini de ansamblu rapide asupra diferitelor valori din setul de date.

Care este sintaxa pandas DataFrame[].unique()?

Sintaxa de bază pentru utilizarea pandas unique() este simplă. Acest lucru se datorează faptului că funcția nu acceptă niciun parametru:

DataFrame['column_name'].unique()
python

Rețineți că unique() poate fi aplicat doar unei singure coloane. Înainte de a apela funcția, trebuie să indicați coloana pe care doriți să o evaluați. Funcția unique() returnează un array numpy care conține toate valorile diferite în ordinea în care apar, cu valorile duplicate din coloană eliminate. Cu toate acestea, nu sortează valorile.

Notă

Dacă lucrați cu Python de ceva timp, probabil că sunteți familiarizat cu echivalentul numpy pentru pandas unique(). Din motive de eficiență, versiunea pandas este, în general, preferabilă.

Cum se utilizează pandas DataFrame[].unique()

Pentru a utiliza unique() într-un DataFrame pandas, trebuie mai întâi să specificați coloana pe care doriți să o verificați. În exemplul următor, vom utiliza un DataFrame care conține informații despre vârsta și orașul de reședință al unui grup de persoane.

import pandas as pd
# Create a sample DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['Newcastle', 'London', 'Newcastle', 'Cardiff', 'London']
}
df = pd.DataFrame(data)
print(df)
python

DataFrame-ul rezultat arată astfel:

Name  	Age       City
0    Alice    	24    	Newcastle
1    Bob    	27  		London
2  Charlie    	22    	Newcastle
3    David    	32    	Cardiff
4   Edward    	29  		London

Acum, să presupunem că vrem să creăm o listă cu toate orașele în care locuiesc persoanele din DataFrame. Putem aplica funcția pandas unique() la coloana care conține orașele.

# Find different cities
unique_cities = df['City'].unique()
print(unique_cities)
python

Rezultatul este un tablou numpy care listează fiecare oraș o singură dată, arătând că persoanele din DataFrame provin din trei orașe: Newcastle, Londra și Cardiff.

['Newcastle' 'London' 'Cardiff']
Mergi la meniul principal