Adatbázis-műveletek 1. (groupby)¶

import pandas as pd # szokásos import

Érettségi adatok feldolgozása¶

Az alábbiakban az elmúlt pár év érettségi statisztikai adatait fogjuk megvizsgálni. Ez a példa sok szempontból jól illusztrál olyan problémákat, amelyek valós adatbázis-elemzések kapcsán felmerülhetnek. Ilyen például a hiányzó adatok kezelése, vagy a nem egészen kompatibilis adatbázisok egységes kezelése. Az érettségi adatokat tartalmazó honlap az előzőekben megismert elválasztóval tagolt tagolt csv formátumban teszi elérhetővé, itt az elválasztójel a pontosvessző.

df=pd.read_csv("data/erettsegi.csv.gz",sep=";",index_col=0)
df.head()

Látható, hogy az év, szint megadják, hogy melyik évben, melyik szintű érettségiről van szó. Azt is megállapíthatjuk, hogy ősszel vagy tavasszal (időszak) írta-e a diák az érettségit, az iskolájáról és a képzési típusról is rögzítve van a statisztika. Emellett részletes írásbeli és szóbeli, illetve összpontszám, összesített százalék is szerepel az adatok között.

Érdemes az első néhány sort kiíratni példaként, hogy lássuk, mivel is van dolgunk. Most transzponálva írjuk ki, hogy elférjen a képernyőre.

df.head().T

Groupby, Csoportosítás¶

Csináljunk először egy kisebb táblázatot, hogy jól átlássuk.

subdf=df[['vizsga szintje','vizsgázó képzési típusa','írásbeli pontszám']]
subdf.head()

Egy oszlop értékei szerint csoportosíthatjuk a DataFrame-et, és utána a csoportokon végezhetünk műveleteket.

g=subdf.groupby('vizsga szintje')
g

<pandas.core.groupby.DataFrameGroupBy object at 0x7ff618e8bd30>

Vegyük a csoportok maximumát!

g.max()

Átlagát (figyeljük meg, hogy a numerikus oszlopra csinálta csak meg)!

g.mean()

Kiválaszthatunk egy oszlopot.

g['írásbeli pontszám'].mean()

vizsga szintje
emelt    63.410343
közép    52.651527
Name: írásbeli pontszám, dtype: float64

Ha két szögletes zárójellel választjuk ki, akkor egy oszlopra nem Series, hanem DataFrame lesz az eredmény, és szebben formázódik.

g[['írásbeli pontszám']].mean()

Egyszerre két oszlop szerint is csoportosíthatunk, ilyenkor listát kell a groupby-nak átadnunk. Itt már nem csak az Emelt oszlop, hanem a Nem oszlop is a táblázat indexének a része, ezt hívjuk többszintű indexelésnek.

g=subdf.groupby(['vizsga szintje','vizsgázó képzési típusa'])
g.mean()

Eltekinthetünk attól, hogy a csoportok indexként jelenjenek meg, és oszlopot is kaphatunk belőlük.

g=subdf.groupby(['vizsga szintje','vizsgázó képzési típusa']
           ,as_index=False)
g.mean()

A hierarchikusan indexelt táblázatot az unstack függvénnyel átrendezhetjük, ha úgy használhatóbb.

g=subdf.groupby(['vizsga szintje','vizsgázó képzési típusa'])
g.mean().unstack(level=0)

g.mean().unstack(level=1)

A következőkben felteszünk néhány példakérdést, és megválaszoljuk azt.¶

Melyik évben mennyi volt az emelt szintű érettségik jegyeinek átlaga?

Ehhez először kiválasztjuk az emelt szintű érettségit tartalmazó sorokat,

emelt=df[df["szint"]=="E"]

Azokat év szerint csoportosítjuk.

group=emelt.groupby("év")

Kiválasztjuk az "érdemjegy" oszlopot, amit a végén átlagolunk. A csoportosítás miatt az átlag évenként kerül kiszámításra.

group[["érdemjegy"]].mean()

Egyben:

df[df["szint"]=="E"].groupby("év")[["érdemjegy"]].mean()

Vajon a fiúk vagy a lányok írtak jobb pontszámú középszintű érettségit 2015-ben?

Először logikai indexeléssel kiválasztjuk a 2015-ös középszintű érettségiket tartalmazó sorokat. Több feltételt a sorokra egyszerre az and operátor helyett az & operátorral adhatunk meg, és a feltételeket zárójeleznünk kell, hogy jól olvassa az értelmező.

Ezek után csoportosítunk a vizsgázó neme szerint, majd vesszük az összpontszámok átlagát.

k_2015=df[(df["szint"]=="K") & (df["év"]==2015)]
k_2015.groupby("vizsgázó neme")[["össz pontszám"]].mean()

Számoljuk le, melyik iskolatípusban hány érettségiző jelent meg, illetve nem jelent meg!

Most egyszerre két oszlop szerint is csoportosítottunk, a csoportosítás alapját képező oszlopok nevét listaként kell megadni a groupby-nak. Utána egy tetszőleges oszlopot (pl. év) kiválasztva megszámláltathatjuk csoportonként a sorokat a count-tal.

df.groupby(["vizsgázó képzési típusa",
            "vizsgázó részvétele"])[["év"]].count()

	intézmény megyéje	intézmény városa	vizsgázó évfolyama	vizsgázó képzési típusa	vizsgázó neme	vizsgázó képzési munkarendje	vizsgatárgy neve	vizsga szintje	vizsga fajtája	vizsgamentesség	...	írásbeli pontszám	mérés és tételkifejtés: tartalmi helyesség	mérés és tételkifejtés: felépítés, kifejtés	szóbeli pontszám	év	szint	időszak	egy téma kifejtése kísérlettel vagy méréssel: tartalom	egy téma kifejtése kísérlettel vagy méréssel: felépítés, kifejtés	II. összetett feladatok
0	Budapest	Budapest	12.0	gimnázium	férfi	nappali	fizika	közép	elõrehozott	-	...	NaN	NaN	NaN	NaN	2013	K	tavasz	NaN	NaN	NaN
1	Budapest	Budapest	12.0	gimnázium	nõ	nappali	fizika	közép	elõrehozott	-	...	NaN	NaN	NaN	NaN	2013	K	tavasz	NaN	NaN	NaN
2	Budapest	Budapest	12.0	gimnázium	férfi	nappali	fizika	közép	elõrehozott	-	...	86.0	NaN	NaN	60.0	2013	K	tavasz	55.0	5.0	48.0
3	Budapest	Budapest	13.0	gimnázium	nõ	nappali	fizika	közép	elõrehozott	-	...	23.0	NaN	NaN	38.0	2013	K	tavasz	36.0	2.0	9.0
4	Budapest	Budapest	12.0	gimnázium	férfi	nappali	fizika	közép	elõrehozott	-	...	66.0	NaN	NaN	60.0	2013	K	tavasz	55.0	5.0	42.0

	0	1	2	3	4
intézmény megyéje	Budapest	Budapest	Budapest	Budapest	Budapest
intézmény városa	Budapest	Budapest	Budapest	Budapest	Budapest
vizsgázó évfolyama	12	12	12	13	12
vizsgázó képzési típusa	gimnázium	gimnázium	gimnázium	gimnázium	gimnázium
vizsgázó neme	férfi	nõ	férfi	nõ	férfi
vizsgázó képzési munkarendje	nappali	nappali	nappali	nappali	nappali
vizsgatárgy neve	fizika	fizika	fizika	fizika	fizika
vizsga szintje	közép	közép	közép	közép	közép
vizsga fajtája	elõrehozott	elõrehozott	elõrehozott	elõrehozott	elõrehozott
vizsgamentesség	-	-	-	-	-
vizsga nyelve	magyar	magyar	magyar	magyar	magyar
érdemjegy	1	1	5	3	5
össz százalék	26	19	97	40	84
össz pontszám	40	29	146	61	126
vizsgázó részvétele	nem jelent meg	nem jelent meg	megjelent	megjelent	megjelent
I. feleletválasztós kérdéssor	NaN	NaN	38	14	24
II. esszé: tartalom	NaN	NaN	NaN	NaN	NaN
II. esszé: kifejtés módja	NaN	NaN	NaN	NaN	NaN
III. összetett feladatok	NaN	NaN	NaN	NaN	NaN
írásbeli pontszám	NaN	NaN	86	23	66
mérés és tételkifejtés: tartalmi helyesség	NaN	NaN	NaN	NaN	NaN
mérés és tételkifejtés: felépítés, kifejtés	NaN	NaN	NaN	NaN	NaN
szóbeli pontszám	NaN	NaN	60	38	60
év	2013	2013	2013	2013	2013
szint	K	K	K	K	K
időszak	tavasz	tavasz	tavasz	tavasz	tavasz
egy téma kifejtése kísérlettel vagy méréssel: tartalom	NaN	NaN	55	36	55
egy téma kifejtése kísérlettel vagy méréssel: felépítés, kifejtés	NaN	NaN	5	2	5
II. összetett feladatok	NaN	NaN	48	9	42

	vizsga szintje	vizsgázó képzési típusa	írásbeli pontszám
0	közép	gimnázium	NaN
1	közép	gimnázium	NaN
2	közép	gimnázium	86.0
3	közép	gimnázium	23.0
4	közép	gimnázium	66.0

		írásbeli pontszám
vizsga szintje	vizsgázó képzési típusa
emelt	-	51.651575
	gimnázium	65.804943
	szakközép	53.922330
közép	-	51.004021
	gimnázium	58.023469
	szakközép	40.857205

	vizsga szintje	vizsgázó képzési típusa	írásbeli pontszám
0	emelt	-	51.651575
1	emelt	gimnázium	65.804943
2	emelt	szakközép	53.922330
3	közép	-	51.004021
4	közép	gimnázium	58.023469
5	közép	szakközép	40.857205

	érdemjegy
év
2011	4.125000
2012	4.429338
2013	4.232607
2014	4.404090
2015	4.432165