Egyszerű műveletek, maszkolás¶

Kezdjük a szokásos importokkal:

%pylab inline

Populating the interactive namespace from numpy and matplotlib

import pandas as pd

DataFrame létrehozása¶

Beolvasni már tudunk DataFrame-et, mi van, ha saját magunk akarjuk létrehozni?

Legkézenfekvőbb oszlopokból egy szótár segítségével létrehozni, melyben a különböző kulcsokhoz egy-egy lista, illetve tömb tartozik:

df=pd.DataFrame({'random1':random.random(4),
                 'nulla':[0 for i in range(4)]})
df

Indexet is megadhatunk kézzel.

df=pd.DataFrame({'random1':random.random(4),
                 'nulla':[0 for i in range(4)]},
                 index=['a','b','c','d'])
df

Ha sorokból akarjuk létrehozni, akkor a sorok listájából hozhatjuk létre. Az oszlopok neveit a columns argumentumban adhatjuk meg.

sor1=random.random(4) 
sor2=[0 for i in range(4)]

df=pd.DataFrame([sor1,sor2],columns=['a','b','c','d'],
                index=['random','nulla'])
df

2 dimenziós numpy tömbből is létrehozhatjuk.

df=pd.DataFrame(random.random((2,4)),columns=['a','b','c','d'],
               index=['random','random2'])
df

Adatok elérése¶

df=pd.read_csv("data/kisnevsor.csv",index_col=0)

A pandas a DataFrame-ben tárolt értékeket elsősorban a fejléccel és a sorok neveivel teszi elérhetővé.

Már láttuk, ha egy oszlop nevét stringként szögletes zárójelekben írjuk a DataFrame neve mögé, visszakapjuk az oszlopot.

df["Eszter"]

Név
Bálint    2
Csenge    4
István    5
Zita      3
Károly    4
Name: Eszter, dtype: int64

Ha több oszlopot is vissza szeretnénk kapni, akkor azokat egy stringeket tartalmazó listában írjuk a DataFrame mögötti szögletes zárójelbe.

df[["Eszter","Nem","Kor"]]

Láttuk, hogy egy sort a loc konstrukcióval kérhetünk le név szerint.

df.loc['Bálint']

Eszter        2
Orsi          .
Nem         fiú
Kor          20
Dátum     12:31
Name: Bálint, dtype: object

Több sort az oszlopokhoz hasonlóan kérhetünk le.

df.loc[['Bálint','Csenge']]

Aki szeretné ugyanúgy számokkal indexelni a DataFrame-et, mint egy array-t, annak erre az iloc biztosít lehetőséget. Nézzük meg az előző eléréseket iloc-kal!

df.iloc[:,0] # az első (0.) oszlop

Név
Bálint    2
Csenge    4
István    5
Zita      3
Károly    4
Name: Eszter, dtype: int64

df.iloc[0,0]  # az első sor első eleme

2

A numpy tömböknél megismert minden indexelést tudunk itt használni.

df.iloc[::-1,3:5]

Sőt, a DataFrame belsejét átalakíthatjuk numpy array-jé, és alkalmazhatjuk rá a korábban tanult módszereket :-)

df.values

array([[2, '.', 'fiú', 20, '12:31'],
       [4, '4', 'lány', 22, '13:20'],
       [5, '4', 'fiú', 19, '12:35'],
       [3, '5', 'lány', 20, '14:50'],
       [4, '.', 'fiú', 21, '14:55']], dtype=object)

Név szerint lekérdezni az oszlopokat sokkal biztonságosabb, mint ha az oszlop sorszáma szerint kérdeznénk le (mint egy numpy tömbben) hiszen nem keverhetjük össze az indexeket!

Új sor/oszlop hozzáadása, törlés¶

Ha új sort szeretnénk hozzáadni a táblázathoz, akkor a .loc["Új_sor_indexe"] változónak egy, az oszlopok számával megegyező hosszúságú listát kell odaadnunk.

df.loc["Dávid"]=[5,5,"fiú",20,'12:32']
df

Ha új oszlopot, akkor hasonlóan járunk el, de nem szükséges a loc, mert az a sorokat indexeli.

df["Emelt"]=[0,0,1,1,0,0]
df

Ha sort szeretnénk törölni, a drop függvénnyel tehetjük meg. Itt használhatjuk az inplace opciót, ami mindig arra vonatkozik, hogy a függvényünk egy új DataFrame-mel tér-e vissza, vagy felülírja a már meglévőt.

df.drop("Bálint",inplace=True)
df

Ha oszlopot szeretnénk törölni, akkor ugyanígy tehetjük meg, csak más tengely mentén kell törölni. Figyeljük meg, hogy itt az inplace nélkül egy DataFrame-et kapunk visszatérési értékként.

df.drop("Emelt",axis=1)

Az oszlopnevek és a sornevek elérése¶

Írassuk ki a táblázatunk oszlopainak a nevét!

df.columns

Index(['Eszter', 'Orsi', 'Nem', 'Kor', 'Dátum', 'Emelt'], dtype='object')

Írassuk ki a táblázatunk sorainak a nevét!

df.index

Index(['Csenge', 'István', 'Zita', 'Károly', 'Dávid'], dtype='object', name='Név')

Szükség lehet rá, hogy a fenti listákat tényleg Python-féle list-ként kapjuk vissza.

df.columns.tolist()

['Eszter', 'Orsi', 'Nem', 'Kor', 'Dátum', 'Emelt']

list(df.columns)

['Eszter', 'Orsi', 'Nem', 'Kor', 'Dátum', 'Emelt']

Egyszerű műveletek¶

A teljes DataFrame-mel csinálhatunk műveteleket, ha azok értelmesek.

sub_df=df[["Eszter","Kor"]]
sub_df+1

Az oszlopokkal műveleteket végezhetünk, mint a numpy tömbökkel.

(df['Eszter']+2)/3

Név
Csenge    2.000000
István    2.333333
Zita      1.666667
Károly    2.000000
Dávid     2.333333
Name: Eszter, dtype: float64

df['Eszter']/=2
df

df['Eszter']*df['Kor']

Név
Csenge    44.0
István    47.5
Zita      30.0
Károly    42.0
Dávid     50.0
dtype: float64

A stringekkel is!

df['Nem']+'ka'

Név
Csenge    lányka
István     fiúka
Zita      lányka
Károly     fiúka
Dávid      fiúka
Name: Nem, dtype: object

A sorokkal is.

sub_df.loc["Dávid"]+3

Eszter     8
Kor       23
Name: Dávid, dtype: int64

Beépített aggregáló függvények¶

A DataFrame-re is könnyű néhány beépített függvény segítségével különböző aggregált értékeket számolni.

Például álljon itt oszloponként a számok összege:

df.sum()

Eszter                         10.5
Nem               lányfiúlányfiúfiú
Kor                             102
Dátum     13:2012:3514:5014:5512:32
Emelt                             2
dtype: object

Mit tegyünk, ha ezt soronként szeretnénk visszakapni? Változtassuk meg az összegzés "tengelyét" (axis)! Az előző eset ugyanis az alapértelmezett axis=0 volt, ami oszloponként végzi a műveletet. Csak a jegyeket tartalmazó oszlopokat összegezzük.

df[["Eszter","Orsi"]].sum(axis=1)

Név
Csenge    2.0
István    2.5
Zita      1.5
Károly    2.0
Dávid     2.5
dtype: float64

Számoltassuk meg, hány elem van az oszlopokban, illetve a sorokban!

df.count()

Eszter    5
Orsi      5
Nem       5
Kor       5
Dátum     5
Emelt     5
dtype: int64

df.count(axis=1)

Név
Csenge    6
István    6
Zita      6
Károly    6
Dávid     6
dtype: int64

Ezt persze az array-hez hasonlóan is megtehettük volna:

df.shape

(5, 6)

További ötletek beépített függvényekre: mean, median, min, max, std.

Bool indexelés¶

Nagyon gyakran előfordul, hogy a táblázatunkból csak bizonyos feltételeknek megfelelő sorokat szeretnénk látni. Ha a táblázat sorainak számával megegyező hosszú igaz/hamis sorozatot adunk meg a DataFrame mögötti szögletes zárójelben, akkor csak az igaz elemeket fogjuk visszakapni visszatérési értékként.

Először nézzük meg, mi történik, ha megkérdezzük, hogy egy oszlop egyenlő-e egy értékkel:

df

df["Nem"]=="lány"

Név
Csenge     True
István    False
Zita       True
Károly    False
Dávid     False
Name: Nem, dtype: bool

Láttuk, hogy minden sorhoz kaptunk egy igaz/hamis értéket. Most a fenti kifejezést beírjuk a []-be:

df[df["Nem"]=="lány"]

De más feltételt is megadhatunk, például hogy kinek adott Eszter 2-esnél jobb jegyet.

df[df["Eszter"]>2]

Két feltételt összefűzhetünk egymáshoz, ilyenkor a & és a | operátorokat használjuk and és or helyett, mert azok nem tudnak két sorozatot elemenként összehasonlítani. A feltételeket zárójelbe kell tenni, különben hibát kapunk.

Ezek alapján az, akinek Eszter kettesnél jobbat adott, és idősebb 19 évesnél:

df[(df["Eszter"]>2) & (df["Kor"]>19)]

Sorba rendezés¶

Szükségünk lehet arra, hogy a táblázatunkat sorba rendezzük valamelyik oszlop szerint. Ilyenkor a sort_values(by="oszlop_neve") függvényt használjuk, melynek megadhatjuk, hogy növekvő (ascending=True), vagy csökkenő (ascending=False) sorrendben szeretnénk-e a rendezést.

A függvény visszatérési értéke a rendezett táblázat.

df.sort_values(by="Kor",ascending=False)

Sorba rendezhetünk több oszlop szerint is.

df.sort_values(by=["Orsi","Kor"],ascending=True)

Ha azt szeretnénk, hogy az eredeti DataFrame-ben rendezve tárolódjanak el a sorok, be kell kapcsolnunk az inplace=True paramétert, ami felülírja a DataFrame-et a rendezés után.

df.sort_values(by="Kor",ascending=False,inplace=True)

Persze, ezt elérhettük volna szokásos értékadással is.

df=df.sort_values(by="Kor",ascending=False)

Ha a DataFrame indexe szerint szeretnénk sorba rendezni, akkor a sort_index() függvény segít (itt is választhatjuk, hogy helyben szeretnénk-e a rendezést az inplace=True segítségével):

df.sort_index(inplace=True)

df

	nulla	random1
0	0	0.201720
1	0	0.934053
2	0	0.240146
3	0	0.222493

	nulla	random1
a	0	0.918215
b	0	0.230913
c	0	0.161259
d	0	0.982594

	a	b	c	d
random	0.381452	0.794531	0.95669	0.301953
nulla	0.000000	0.000000	0.00000	0.000000

	a	b	c	d
random	0.501972	0.743951	0.311027	0.465086
random2	0.558628	0.424588	0.227572	0.964177

	Eszter	Nem	Kor
Név
Bálint	2	fiú	20
Csenge	4	lány	22
István	5	fiú	19
Zita	3	lány	20
Károly	4	fiú	21

	Kor	Dátum
Név
Károly	21	14:55
Zita	20	14:50
István	19	12:35
Csenge	22	13:20
Bálint	20	12:31

	Eszter	Orsi	Nem	Kor	Dátum	Emelt
Név
Dávid	2.5	5	fiú	20	12:32	0
Károly	2.0	.	fiú	21	14:55	0
István	2.5	4	fiú	19	12:35	1
Csenge	2.0	4	lány	22	13:20	0
Zita	1.5	5	lány	20	14:50	1