Felügyelt tanulás módszerei és alkalmazásai

Felügyelt gépi tanulás folyamatának áttekintése

A felügyelt tanulás folyamata: tanítóadatok → modell betanítása → előrejelzés új adatokon. Forrás: Wikimedia Commons, CC BY-SA 4.0.

Mi a felügyelt tanulás?

A felügyelt tanulás (supervised learning) során a modell ismert bemeneti–kimeneti párokat kap tanítóadatként. A cél az a leképezési függvény megközelítése, amely a bemenetek alapján helyesen előrejelzi a kimeneteket ismeretlen adatokon is.

Két fő feladattípus létezik: osztályozás (diszkrét kimenet, pl. spam/nem spam) és regresszió (folytonos kimenet, pl. ingatlanár becslése). A módszerek nagy része mindkét típusra adaptálható.

Lineáris és logisztikus regresszió

A lineáris regresszió a legegyszerűbb felügyelt modell: egy egyenes (vagy hipersík) illeszkedik a tanítópontokra a legkisebb négyzetek módszerével. Magyarázható, gyors, és jó kiindulópontot ad az összetettebb modellek teljesítményének viszonyításához.

A logisztikus regresszió binomiális osztályozásra alkalmas: a sigmoid függvény segítségével a lineáris kombináció kimenetét 0–1 közötti valószínűséggé alakítja.

Logisztikus görbe: sigmoid függvény ábrázolva

A logisztikus (sigmoid) görbe: az x tengelyen a lineáris kombináció értéke, y tengelyen a becsült valószínűség. Forrás: Wikimedia Commons, CC BY-SA 3.0.

Döntési fák

A döntési fa (decision tree) egy faalakú struktúra, amelynek minden belső csomópontja egy adott jellemzőre vonatkozó feltételt tartalmaz. A tanulás során a fa rekurzívan osztja fel az adathalmazt oly módon, hogy minden felosztás maximálisan csökkentse a szennyezetlenségi mértéket (pl. Gini-index, entrópia).

Előnye az értelmezhetőség — a döntési út nyomon követhető, és az üzleti döntéshozók számára is magyarázható. Hátránya a túltanulásra való hajlam; ezt mélyebb fák esetén rendszerint vágással (pruning) kezelik.

                
from sklearn.tree import DecisionTreeClassifier

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(

    X, y, test_size=0.2, random_state=42

)

clf = DecisionTreeClassifier(max_depth=4, random_state=42)

clf.fit(X_train, y_train)

print(clf.score(X_test, y_test))

Véletlen erdő

A véletlen erdő (random forest) egy ensemble módszer: sok döntési fát tanít egyenként véletlenszerűen kiválasztott adatmintákon és jellemzőkészleteken, majd az előrejelzéseket szavazással összesíti. Ez csökkenti a variancia-problémát, amelytől az egyedi fák szenvednek.

A módszer robusztus, minimális hiperparaméter-hangolást igényel, és jól kezeli a vegyes típusú adatokat. A scikit-learn könyvtárban RandomForestClassifier és RandomForestRegressor osztályok formájában érhető el.

Támasztóvektor-gép (SVM)

Az SVM (Support Vector Machine) azt a hipersíkot keresi, amely a két osztály között a legnagyobb margint biztosítja. A kernel-trükk segítségével nemlineáris határok is modellezhetők anélkül, hogy explicit módon magasabb dimenziós térbe kellene vetíteni az adatokat.

Kisebb adathalmazokon, különösen magas dimenziójú terekben (pl. szövegklasszifikáció), az SVM ma is versenyképes pontosságot mutat.

Modellek összehasonlítása

Nincs egyetlen „legjobb" algoritmus — a No Free Lunch tétel kimondja, hogy egyik módszer sem teljesít jobban minden problémán. A kiválasztásnál az adathalmaz mérete, a jellemzők típusa, az értelmezhetőségi igény és a számítási korlátok egyaránt szerepet játszanak.

Kiértékelési metrikák

A modell teljesítményét soha nem szabad a tanítóhalmazon mérni — ez félrevezető képet ad. A szokásos megközelítés:

Osztályozásnál: pontosság (accuracy), precizitás (precision), visszahívás (recall), F1-érték, ROC-AUC.
Regressziónál: MSE (mean squared error), RMSE, MAE, R².
Keresztvalidáció: k-fold keresztvalidáció általánosabb becslést ad, mint egyetlen train-test felosztás.

Hazai felhasználási területek

Magyarországon a felügyelt tanulás módszereit számos területen alkalmazzák. Az OTP Bank és más pénzintézetek hitelkockázat-értékelési és csalásdetekciós rendszereiben statisztikai modellek és ensemble módszerek kombinációja szerepel. A Magyar Telekom karbantartási előrejelzési projektekről adott közre anyagokat, ahol random forest alapú megoldásokat vizsgáltak.

Az egészségügyi adatelemzés területén a Semmelweis Egyetem egyes kutatócsoportjai vizsgálják a klinikai adatokon betanított osztályozási modellek alkalmazhatóságát diagnosztikai támogatásban.

A felügyelt tanulás eredményessége döntően a tanítóadatok minőségétől függ. Egy kiegyensúlyozatlan vagy rosszul annotált adathalmaz még a legjobb algoritmust is alulteljesítővé teszi.

Utoljára frissítve: 2025. május 9. — A tartalom nyilvánosan elérhető forrásokra támaszkodik.