Cum să încărcați fișiere în Python cu pandas read_csv()

Cuprins

Python pandas read_csv() este una dintre cele mai utilizate metode pentru citirea fișierelor CSV în pandas și stocarea acestora ca DataFrames. Fișierele CSV (valori separate prin virgulă) sunt un format utilizat pe scară largă pentru stocarea datelor tabelare și sunt acceptate de multe aplicații.

Care este sintaxa pentru Python pandas `read_csv()`?

pandas.read_csv() creează un DataFrame pandas dintr-un fișier CSV. Sintaxa de bază a funcției arată astfel:

import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)

python

Care sunt cei mai importanți parametri pentru `pandas.read_csv()`?

pandas.read_csv() poate accepta o mare varietate de parametri. Pentru a simplifica lucrurile, ne vom concentra pe cele mai importante argumente. Iată o prezentare generală a parametrilor cheie pe care îi puteți utiliza pentru a specifica modul în care ar trebui să se comporte funcția:

Parametru	Semnificație	Valoare implicită
`filepath_or_buffer`	Acesta este un șir Python care reprezintă calea către fișierul CSV sau un buffer de date, cum ar fi o adresă URL.
`sep`	Acesta specifică delimitatorul dintre valori.	`,`
`header`	Indică rândul care trebuie utilizat ca antet.	`infer` (primul rând)
`names`	Dacă `header=None` este setat, puteți utiliza `names` pentru a furniza o listă Python cu numele coloanelor.
`index_col`	Determină coloana care va fi utilizată ca index.	`None`
`usecols`	Acest parametru vă permite să selectați coloanele pe care doriți să le încărcați în DataFrame.	`None`
`dtype`	Specifică tipul de date al coloanelor.	`None`

Puteți găsi o listă completă a parametrilor pentru această funcție în documentația pandas.

Cum să accesați fișierele CSV pas cu pas

Folosind pandas.read_csv(), puteți transfera cu ușurință date din fișiere CSV în Python în doar câțiva pași.

În exemplele următoare, vom lucra cu un fișier CSV structurat astfel:

1,John Avery,35,Nottingham,50000
2,Adelaide Smith,29,London,62000
3,Michael Rivera,41,Cardiff,40000
4,Grace Kim,33,Hull,35000
5,Tyler Johnson,28,Kent,52000

Pasul 1: Importați pandas

Mai întâi, importați biblioteca pandas în scriptul Python.

import pandas as pd

python

Pasul 2: Încărcați fișierul CSV

Acum, puteți încărca fișierul CSV în Python pandas folosind funcția read_csv(). Trebuie doar să transmiteți calea fișierului către funcție. În codul următor, vom folosi un fișier numit data.csv, care este salvat în același director cu scriptul:

df = pd.read_csv('data.csv')

python

Codul de mai sus stochează fișierul într-un obiect DataFrame (df), cu care vom putea lucra ulterior. Pandas va interpreta automat primul rând ca anteturi de coloane, cu excepția cazului în care specificați altfel.

Pasul 3: Afișarea fișierului CSV

Este o idee bună să aruncați o privire la primele câteva rânduri ale DataFrame pentru a vă asigura că fișierul a fost încărcat corect. Puteți utiliza funcția DataFrame.head() pentru acest lucru. În mod implicit, aceasta afișează primele cinci rânduri ale DataFrame, oferindu-vă o imagine de ansamblu rapidă asupra structurii datelor:

print(df.head())

python

Rezultatul arată astfel:

0  1        John Avery   35      Nottingham  	50000
1  2    Adelaide Smith   29   	 London 	    62000
2  3   Michael Rivera    41      Cardiff	   	40000
3  4        Grace Kim    33      Hull 		    35000
4  5    Tyler Johnson    28      Kent   		52000

Pasul 4: Modificați numele coloanelor (opțional)

Dacă fișierul CSV nu are un rând de antet, puteți defini manual numele coloanelor:

df = pd.read_csv('data.csv', header=None, names=['ID', 'Name', 'Age', 'City', 'Salary'])

python

În acest exemplu, am denumit coloanele ID, Nume, Vârstă, Oraș și Salariu. Rezultatul arată astfel:

ID                Name    	Age            City    	Salary
0  1          John Avery    	35        Nottingham    50000
1  2     Adelaide Smith    	29    	London        62000
2  3    Michael Rivera    	41        Cardiff    	40000
3  4          Grace Kim    	33        Hull        	35000
4  5     Tyler Johnson    	28        Kent        52000

Articole corelate

BEST-BACKGROUNDSShutterstock

Cum să parcurgeți DataFrames cu pandas iterrows()

Pandas DataFrame.iterrows() este o funcție utilă pentru parcurgerea rândurilor dintr-un DataFrame, în special când trebuie să procesezi datele rând cu rând. Este foarte utilă pentru calcule sau logică condițională. În acest articol, vom discuta despre sintaxa panda iterrows() și…

Citește mai mult

Mr. Kosalshutterstock

Cum se indexează cadrele de date pandas

Indexarea Pandas DataFrame este un instrument puternic pentru gestionarea eficientă și eficace a datelor. Cu ajutorul diverselor metode, puteți viza date specifice și subseturi ale DataFrame-ului dvs. În acest articol, vom explora ce este indexul pandas DataFrame, cum se…

Citește mai mult

BEST-BACKGROUNDSShutterstock

Cum să curățați datele în pandas cu dropna()

Funcția DataFrame.dropna() din pandas este un instrument puternic pentru curățarea seturilor de date. Funcția elimină în mod eficient valorile lipsă și poate fi utilizată cu diversi parametri, permițând programatorilor să specifice diferite cerințe pentru curățarea datelor.…

Citește mai mult

Mr. Kosalshutterstock

Ce este Python pandas any() și cum funcționează?

În pandas, metoda DataFrame any() este un instrument eficient pentru a verifica rapid dacă există cel puțin o valoare adevărată de-a lungul unei axe a unui DataFrame. Această metodă este deosebit de utilă pentru analiza și validarea datelor. În acest articol, vă vom arăta care…

Citește mai mult

ESB Professionalshutterstock

Cum se utilizează Pandas DataFrame pentru a manipula rapid tabele în Python

Modulul Pandas este unul dintre cele mai puternice instrumente pentru manipularea datelor în Python. Una dintre structurile centrale de date din Pandas este DataFrame. DataFrames poate fi utilizat pentru a manipula eficient date structurate bidimensionale. Vă explicăm structura…

Citește mai mult

Ce este proprietatea iloc[] din Python pandas?

Când lucrați cu DataFrames în Python pandas, nu toate rândurile sau coloanele unui DataFrame sunt întotdeauna relevante pentru analiza datelor. Proprietatea pandas DataFrame iloc[] este un instrument util pentru selectarea rândurilor sau coloanelor folosind indexurile lor. În…

Citește mai mult

Cum să încărcați fișiere în Python cu pandas read_csv()

Care este sintaxa pentru Python pandas read_csv()?

Care sunt cei mai importanți parametri pentru pandas.read_csv()?

Cum să accesați fișierele CSV pas cu pas

Pasul 1: Importați pandas

Pasul 2: Încărcați fișierul CSV

Pasul 3: Afișarea fișierului CSV

Pasul 4: Modificați numele coloanelor (opțional)

Care este sintaxa pentru Python pandas `read_csv()`?

Care sunt cei mai importanți parametri pentru `pandas.read_csv()`?