Cum să încărcați fișiere în Python cu pandas read_csv()
Python pandas read_csv() este una dintre cele mai utilizate metode pentru citirea fișierelor CSV în pandas și stocarea acestora ca DataFrames. Fișierele CSV (valori separate prin virgulă) sunt un format utilizat pe scară largă pentru stocarea datelor tabelare și sunt acceptate de multe aplicații.
Care este sintaxa pentru Python pandas read_csv()?
pandas.read_csv() creează un DataFrame pandas dintr-un fișier CSV. Sintaxa de bază a funcției arată astfel:
import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)pythonCare sunt cei mai importanți parametri pentru pandas.read_csv()?
pandas.read_csv() poate accepta o mare varietate de parametri. Pentru a simplifica lucrurile, ne vom concentra pe cele mai importante argumente. Iată o prezentare generală a parametrilor cheie pe care îi puteți utiliza pentru a specifica modul în care ar trebui să se comporte funcția:
| Parametru | Semnificație | Valoare implicită |
|---|---|---|
filepath_or_buffer
|
Acesta este un șir Python care reprezintă calea către fișierul CSV sau un buffer de date, cum ar fi o adresă URL. | |
sep
|
Acesta specifică delimitatorul dintre valori. | ,
|
header
|
Indică rândul care trebuie utilizat ca antet. | infer (primul rând)
|
names
|
Dacă header=None este setat, puteți utiliza names pentru a furniza o listă Python cu numele coloanelor.
|
|
index_col
|
Determină coloana care va fi utilizată ca index. | None
|
usecols
|
Acest parametru vă permite să selectați coloanele pe care doriți să le încărcați în DataFrame. | None
|
dtype
|
Specifică tipul de date al coloanelor. | None
|
Puteți găsi o listă completă a parametrilor pentru această funcție în documentația pandas.
Cum să accesați fișierele CSV pas cu pas
Folosind pandas.read_csv(), puteți transfera cu ușurință date din fișiere CSV în Python în doar câțiva pași.
În exemplele următoare, vom lucra cu un fișier CSV structurat astfel:
1,John Avery,35,Nottingham,50000
2,Adelaide Smith,29,London,62000
3,Michael Rivera,41,Cardiff,40000
4,Grace Kim,33,Hull,35000
5,Tyler Johnson,28,Kent,52000Pasul 1: Importați pandas
Mai întâi, importați biblioteca pandas în scriptul Python.
import pandas as pdpythonPasul 2: Încărcați fișierul CSV
Acum, puteți încărca fișierul CSV în Python pandas folosind funcția read_csv(). Trebuie doar să transmiteți calea fișierului către funcție. În codul următor, vom folosi un fișier numit data.csv, care este salvat în același director cu scriptul:
df = pd.read_csv('data.csv')pythonCodul de mai sus stochează fișierul într-un obiect DataFrame (df), cu care vom putea lucra ulterior. Pandas va interpreta automat primul rând ca anteturi de coloane, cu excepția cazului în care specificați altfel.
Pasul 3: Afișarea fișierului CSV
Este o idee bună să aruncați o privire la primele câteva rânduri ale DataFrame pentru a vă asigura că fișierul a fost încărcat corect. Puteți utiliza funcția DataFrame.head() pentru acest lucru. În mod implicit, aceasta afișează primele cinci rânduri ale DataFrame, oferindu-vă o imagine de ansamblu rapidă asupra structurii datelor:
print(df.head())pythonRezultatul arată astfel:
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 52000Pasul 4: Modificați numele coloanelor (opțional)
Dacă fișierul CSV nu are un rând de antet, puteți defini manual numele coloanelor:
df = pd.read_csv('data.csv', header=None, names=['ID', 'Name', 'Age', 'City', 'Salary'])pythonÎn acest exemplu, am denumit coloanele ID, Nume, Vârstă, Oraș și Salariu. Rezultatul arată astfel:
ID Name Age City Salary
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 52000