A 20 legjobb AI és gépi tanulási algoritmus, módszer és technika

Amikor gépi tanulási problémákkal kezdtem dolgozni, akkor pánikban érzem magam, melyik algoritmust használjam? Vagy melyiket könnyű alkalmazni? Ha olyan vagy, mint én, akkor ez a cikk segíthet megismerni a mesterséges intelligenciát és a gépi tanulási algoritmusokat, módszereket vagy technikákat bármilyen váratlan vagy akár várható probléma megoldására.

A gépi tanulás olyan hatékony mesterséges intelligencia-technika, amely kifejezett utasítások nélkül képes hatékonyan elvégezni a feladatot. Az ML modell tanulhat adataiból és tapasztalataiból. A gépi tanulási alkalmazások automatikusak, robusztusak és dinamikusak. Számos algoritmust fejlesztenek ki a valós problémák e dinamikus jellegének kezelésére. Nagy általánosságban háromféle gépi tanulási algoritmus létezik, például felügyelt tanulás, felügyelet nélküli tanulás és megerősítő tanulás.

A legjobb AI és gépi tanulási algoritmusok

A megfelelő gépi tanulási technika vagy módszer kiválasztása az egyik fő feladat egy mesterséges intelligencia vagy gépi tanulási projekt kidolgozásához. Mivel számos algoritmus áll rendelkezésre, és mindegyiknek megvan a maga előnye és haszna. Az alábbiakban 20 gépi tanulási algoritmust mesélünk el kezdőknek és szakembereknek egyaránt. Tehát nézzük meg.

1. Naiv Bayes

A Naiv Bayes osztályozó egy valószínűségi osztályozó, amely a Bayes-tételen alapul, feltételezve a jellemzők közötti függetlenséget. Ezek a funkciók alkalmazásonként eltérnek. A kezdők számára ez az egyik kényelmes gépi tanulási módszer.

A Naiv Bayes feltételes valószínűségi modell. Adott egy osztályozandó problémapéldány, amelyet vektor jelent x = (xén … xn) néhány n jellemzőt (független változót) reprezentál, az aktuális példány valószínűségeit minden K potenciális eredményhez hozzárendeli:

A fenti megfogalmazással az a probléma, hogy ha az n jellemzők száma jelentős, vagy ha egy elem nagyszámú értéket vehet fel, akkor egy ilyen modellt valószínûségi táblákra lehet alapozni. Ezért átdolgozzuk a modellt, hogy jobban kezelhető legyen. Bayes tételének felhasználásával a feltételes valószínűség felírható,

Bayesi valószínűségi terminológia használatával a fenti egyenlet a következőképpen írható fel:

Ezt a mesterséges intelligencia algoritmust használják a szöveg osztályozásában, azaz.e., hangulatelemzés, dokumentum-kategorizálás, spamszűrés és hírosztályozás. Ez a gépi tanulási technika jól teljesít, ha a bemeneti adatokat előre meghatározott csoportokba sorolják. Emellett kevesebb adatot igényel, mint a logisztikai regresszió. Különböző területeken teljesít jobban.

2. Támogatja a vektor gépet

A Support Vector Machine (SVM) az egyik legszélesebb körben használt felügyelt gépi tanulási algoritmus a szövegosztályozás területén. Ezt a módszert a regresszióra is használják. Ugyancsak nevezhető Support Vector Networks néven. Cortes & Vapnik fejlesztette ezt a módszert a bináris osztályozáshoz. A felügyelt tanulási modell az a gépi tanulási megközelítés, amely a címkézett képzési adatok kimenetére következtet.

A támasztó vektoros gép egy hipersíkot vagy hipersík-készletet konstruál nagyon magas vagy végtelen dimenziós területen. Kiszámítja a lineáris elválasztási felületet egy adott képzési készlet maximális tartalékával.

A bemeneti vektorok csak egy része befolyásolja a margó megválasztását (az ábrán körözve); az ilyen vektorokat támogató vektoroknak nevezzük. Ha lineáris elválasztó felület nem létezik, például zajos adatok jelenlétében, akkor a laza változóval rendelkező SVM algoritmusok megfelelőek. Ez az osztályozó megpróbálja az adatok terét felosztani lineáris vagy nem lineáris elhatárolásokkal a különböző osztályok között.

Az SVM-et széles körben alkalmazták a minta osztályozási problémáiban és a nemlineáris regresszióban. Ez az egyik legjobb technika az automatikus szöveg-kategorizálás végrehajtására. A legjobb dolog ebben az algoritmusban az, hogy nem tesz határozott feltételezéseket az adatokkal kapcsolatban.

A Vector Vector Machine támogatásának megvalósítása: adattudományi könyvtárak a Python-SciKit Learn, PyML, SVM fájlokban^Szerkezet Python, LIBSVM és adattudományi könyvtárak R-Klarban, e1071.

3. Lineáris regresszió

A lineáris regresszió egy közvetlen megközelítés, amelyet a függő változó és egy vagy több független változó kapcsolatának modellezésére használnak. Ha van egy független változó, akkor egyszerű lineáris regressziónak nevezzük. Ha egynél több független változó áll rendelkezésre, akkor ezt többszörös lineáris regressziónak nevezzük.

Ezt a képletet alkalmazzák a valós értékek, például a lakások árának, a hívások számának és az összes értékesítésnek a folyamatos változók alapján történő becslésére. Itt a független és a függő változók közötti kapcsolatot a legjobb vonal illesztésével állapítják meg. Ezt a legjobban illeszkedő vonalat regressziós egyenesnek nevezik, és lineáris egyenlet képviseli

Y = a * X + b.

itt,

Y - függő változó
a - lejtő
X - független változó
b - lehallgatás

Ez a gépi tanulási módszer könnyen használható. Gyorsan végrehajtja. Ez felhasználható az üzleti életben az eladások előrejelzésére. Használható a kockázatértékelésben is.

4. Logisztikus regresszió

Itt van egy másik gépi tanulási algoritmus - logisztikai regresszió vagy logit regresszió, amelyet diszkrét értékek (bináris értékek, például 0/1, igen / nem, igaz / hamis) becslésére használnak a független változó adott halmaza alapján. Ennek az algoritmusnak az a feladata, hogy előre jelezze az esemény valószínűségét azáltal, hogy adatokat illeszt egy logit függvénybe. Kimeneti értékei 0 és 1 között vannak.

A képlet számos területen alkalmazható, például gépi tanulás, tudományos fegyelem és orvosi területek. Használható az adott betegség előfordulásának veszélyének előrejelzésére a beteg megfigyelt jellemzői alapján. A logisztikai regresszió felhasználható a vevő termékvásárlási vágyának előrejelzésére. Ezt a gépi tanulási technikát alkalmazzák az időjárás-előrejelzésben az eső valószínűségének előrejelzésére.

A logisztikai regresszió három típusra osztható -

Bináris logisztikai regresszió
Több nominális logisztikai regresszió
Rendes logisztikai regresszió

A logisztikai regresszió kevésbé bonyolult. Továbbá robusztus. Nemlineáris hatásokat képes kezelni. Ha azonban az edzés adatai ritkák és nagy dimenziók, akkor ez az ML algoritmus túlterhelhető. Nem tudja megjósolni a folyamatos eredményeket.

5. K-Legközelebbi szomszéd (KNN)

A K-legközelebbi szomszéd (kNN) egy jól ismert statisztikai megközelítés az osztályozáshoz, és az évek során széles körben tanulmányozták, és korán alkalmazták a kategorizálási feladatokra. Nem paraméteres módszertanként működik az osztályozási és regressziós problémákra.

Ez az AI és ML módszer meglehetősen egyszerű. Meghatározza a tesztdokumentum t kategóriáját azon k dokumentumok halmaza alapján, amelyek a távolsághoz, általában euklideszi távolsághoz legközelebb állnak a t-hez. A kNN osztályozóra vonatkozó t tesztdokumentumra adott alapvető döntési szabály:

Ahol y (xi, c) az xi oktatási dokumentum bináris osztályozási függvénye (amely 1-es értéket ad vissza, ha xi-t c-vel vagy 0-val másként jelöljük), ez a szabály t-et jelöl azzal a kategóriával, amelyik a legtöbb szavazatot kapta k-ban legközelebbi környék.

A KNN leképezhető a valós életünkre. Például, ha szeretne megtudni néhány embert, akikről nincs információja, akkor inkább a közeli barátaival, és ezért a körökkel kapcsolatban döntsön, és hozzáférjen az információihoz. Ez az algoritmus számítási szempontból drága.

6. K-jelentése

A k-jelenti a klaszterezés a felügyelet nélküli tanulás egy olyan módszere, amely hozzáférhető a klaszterelemzéshez az adatbányászatban. Ennek az algoritmusnak az a célja, hogy n megfigyelést k csoportokra osztjon, ahol minden megfigyelés a klaszter legközelebbi átlagához tartozik. Ezt az algoritmust a piac szegmentálásában, a számítógépes látásmódban és a csillagászatban használják sok más területen.

7. Döntési fa

A döntési fa olyan döntéstámogató eszköz, amely grafikus ábrázolást használ, azaz.e., faszerű grafikon vagy döntési modell. Általában használják a döntés-elemzésben, és a gépi tanulás népszerű eszköze is. A döntési fákat az operációkutatásban és az operációmenedzsmentben használják.

Folyamatábra-szerű felépítéssel rendelkezik, amelyben minden belső csomópont egy "tesztet" képvisel egy attribútumon, minden elágazás a teszt eredményét képviseli, és minden levélcsomópont egy osztálycímkét képvisel. A gyökértől a levélig vezető utat osztályozási szabályoknak nevezik. Három csomóponttípusból áll:

Döntési csomópontok: jellemzően négyzetek,
Esélycsomópontok: általában körök képviselik,
Végpontok: általában háromszögek.

A döntési fát egyszerűen meg lehet érteni és értelmezni. Fehér dobozos modellt használ. Emellett kombinálható más döntési technikákkal.

8. Véletlen Erdő

A véletlenszerű erdő az együttes tanulás egyik népszerű technikája, amely úgy dönt, hogy sok döntési fát állít össze az edzés idején, és kiadja azt a kategóriát, amely az egyes fák kategóriáinak (besorolása) vagy átlagos előrejelzésének (regressziójának) módja.

Ennek a gépi tanulási algoritmusnak a futása gyors, és képes dolgozni a kiegyensúlyozatlan és hiányzó adatokkal. Amikor azonban regresszióra használtuk, nem tud jósolni az edzésadatok tartományán túl, és lehet, hogy túlterheli az adatokat.

9. KOSÁR

A Classification and Regression Tree (CART) egyfajta döntési fa. A döntési fa rekurzív particionálási megközelítésként működik, és a CART mindegyik bemeneti csomópontot két gyermek csomópontra osztja. A döntési fa minden szintjén az algoritmus azonosít egy feltételt - mely változót és szintet kell használni a bemeneti csomópont két gyermekcsomópontra történő felosztásához.

A CART algoritmus lépései az alábbiak:

Vegye be a bemeneti adatokat
Legjobb Split
Legjobb változó
Bontsa a bemeneti adatokat bal és jobb csomópontokra
Folytassa a 2-4. Lépést
Döntési fa metszése

10. Apriori gépi tanulási algoritmus

Az Apriori algoritmus egy kategorizáló algoritmus. Ezt a gépi tanulási technikát nagy mennyiségű adat rendezésére használják. Használható a kapcsolatok fejlődésének nyomon követésére és a kategóriák felépítésére is. Ez az algoritmus egy felügyelet nélküli tanulási módszer, amely társítási szabályokat generál egy adott adathalmazból.

Az Apriori Machine Learning algoritmus a következőképpen működik:

Ha egy elemkészlet gyakran előfordul, akkor az elemkészlet összes részhalmaza is gyakran előfordul.
Ha egy elemkészlet ritkán fordul elő, akkor az elemkészlet összes szuperhalmaza is ritkán fordul elő.

Ezt az ML algoritmust számos alkalmazásban használják, például a gyógyszer káros mellékhatásainak felderítésére, a piaci kosár elemzésére és az automatikus kiegészítésekre. Egyszerű megvalósítani.

11. Fő komponens elemzés (PCA)

A fő komponens elemzés (PCA) egy felügyelet nélküli algoritmus. Az új jellemzők merőlegesek, vagyis nincsenek összefüggésben. A PCA végrehajtása előtt mindig normalizálnia kell az adatkészletet, mert az átalakítás skálától függ. Ha nem, akkor a leglényegesebb skála jellemzői dominálják az új főkomponenseket.

A PCA sokoldalú technika. Ez az algoritmus egyszerű és egyszerűen megvalósítható. Képfeldolgozásban használható.

12. CatBoost

A CatBoost egy nyílt forrásból származó gépi tanulási algoritmus, amely a Yandex-től származik. A „CatBoost” név két „Kategória” és „Boosting” szóból származik.'Kombinálható mély tanulási keretekkel, azaz.e., A Google TensorFlow és az Apple Core ML. A CatBoost számos adattípussal képes együttműködni több probléma megoldására.

13. 3. iteratív dichotomiser (ID3)

Az Iterative Dichotomiser 3 (ID3) egy döntési fa tanulási algoritmikus szabály, amelyet Ross Quinlan ismertetett, és amelyet egy döntési fa adatkészletből történő rendelkezésre bocsátására használnak. Ez a C4 előfutára.5 algoritmikus program, és a gépi tanulás és a nyelvi kommunikációs folyamatok területén alkalmazzák.

Az ID3 túlteljesítheti az edzés adatait. Ez az algoritmikus szabály nehezebb a folyamatos adatokra. Nem garantálja az optimális megoldást.

14. Hierarchikus klaszterezés

A hierarchikus klaszterezés a klaszterelemzés egyik módja. A hierarchikus fürtözés során az adatok szemléltetésére egy fürtfát (egy dendrogramot) fejlesztenek ki. A hierarchikus fürtözés során minden csoport (csomópont) két vagy több utódcsoporthoz kapcsolódik. A fürtfa minden csomópontja hasonló adatokat tartalmaz. Csomópontok csoportosulnak a grafikonon más hasonló csomópontok mellett.

Algoritmus

Ez a gépi tanulási módszer két modellre bontható - alulról felfelé vagy fentről lefelé:

Alulról felfelé (hierarchikus agglomerációs csoportosulás, HAC)

Ennek a gépi tanulási technikának a kezdetén vegye minden dokumentumot egyetlen fürtként.
Egy új klaszterben egyszerre két elemet egyesített. A kombinációk egyesülésének kalkulatív különbsége van minden beépített pár és ezért az alternatív minták között. Ennek számos lehetősége van. Néhány közülük:

a. Teljes összekapcsolás: A legtávolabbi pár hasonlósága. Az egyik korlátozás az, hogy a kiugró értékek az optimálisnál később okozhatják a szoros csoportok egyesülését.

b. Egycsatlakozós: A legközelebbi pár hasonlósága. Korai összeolvadást okozhat, bár ezek a csoportok egészen különbözőek.

c. Csoport átlaga: hasonlóság a csoportok között.

d. Centroid hasonlóság: minden egyes iteráció egyesíti a klasztereket a legelső hasonló központi ponttal.

Amíg az összes elem nem egyesül egyetlen fürtbe, addig a párosítás folyik.

Felülről lefelé (megosztó csoportosítás)

Az adatok kombinált fürtből indulnak.
A klaszter két különálló részre oszlik, bizonyos fokú hasonlóság szerint.
A fürtök újra és újra ketté oszlanak, amíg a fürtök csak egyetlen adatpontot tartalmaznak.

15. Hát-szaporítás

A back-propagation egy felügyelt tanulási algoritmus. Ez az ML algoritmus az ANN (Artificial Neural Networks) területéről származik. Ez a hálózat egy többrétegű továbbító hálózat. Ennek a technikának az a célja, hogy megtervezzen egy adott funkciót a bemeneti jelek belső súlyának módosításával a kívánt kimeneti jel előállításához. Használható osztályozáshoz és regresszióhoz.

A hátterjedési algoritmusnak van néhány előnye, azaz.e., könnyen kivitelezhető. Az algoritmusban használt matematikai képlet bármely hálózatra alkalmazható. A számítási idő lecsökkenhet, ha a súlyok kicsiek.

A hátterjedési algoritmusnak vannak hátrányai, például érzékeny lehet a zajos adatokra és a kiugró értékekre. Ez egy teljesen mátrix alapú megközelítés. Ezen algoritmus tényleges teljesítménye teljes mértékben a bemeneti adatoktól függ. A kimenet nem numerikus.

16. AdaBoost

Az AdaBoost azt jelenti, hogy az Adaptive Boosting gépi tanulási módszer, amelyet Yoav Freund és Robert Schapire képvisel. Ez egy meta-algoritmus, és integrálható más tanulási algoritmusokkal a teljesítményük javítása érdekében. Ez az algoritmus gyorsan és egyszerűen használható. Nagy adathalmazokkal jól működik.

17. Mély tanulás

A mély tanulás az emberi agy mechanizmusától ihletett technikák összessége. A két elsődleges mély tanulás, i.e., A szöveges osztályozás során a konvolúciós neuronhálózatokat (CNN) és a visszatérő ideghálózatokat (RNN) használják. Az olyan mély tanulási algoritmusokat, mint a Word2Vec vagy a GloVe, szintén alkalmazzák a szavak magas rangú vektoros reprezentációinak megszerzésére és a hagyományos gépi tanulási algoritmusokkal képzett osztályozók pontosságának javítására.

Ehhez a gépi tanulási módszerhez sok képzési mintára van szükség a hagyományos gépi tanulási algoritmusok helyett, i.e., minimum millió címkézett példa. Ezzel szemben a hagyományos gépi tanulási technikák pontosan elérik a küszöböt, ahol minden további képzési minta hozzáadása nem javítja azok pontosságát. A mély tanulási osztályozók több adattal felülmúlják a jobb eredményt.

18. Gradiens Boosting algoritmus

A gradiens növelése gépi tanulási módszer, amelyet osztályozáshoz és regresszióhoz használnak. Ez a prediktív modell kifejlesztésének egyik leghatékonyabb módja. A gradiens növelő algoritmusnak három eleme van:

Veszteség funkció
Gyenge tanuló
Adalék modell

19. Hopfield hálózat

A Hopfield-hálózat egyfajta visszatérő mesterséges neurális hálózat, amelyet John Hopfield adott 1982-ben. Ennek a hálózatnak egy vagy több mintázat tárolása és a teljes minták felidézése a részleges bevitel alapján. A Hopfield-hálózatban az összes csomópont mind bemenet, mind kimenet és teljesen összekapcsolt.

20. C4.5

C4.Az 5 egy döntési fa, amelyet Ross Quinlan talált ki. Ez az ID3 frissített verziója. Ez az algoritmikus program néhány alapesetet ölel fel:

A listában szereplő összes minta hasonló kategóriába tartozik. Létrehoz egy levélcsomópontot a döntési fához, amely azt mondja, hogy döntsön az adott kategóriáról.
Az osztály várható értékének felhasználásával döntési csomópontot hoz létre a fa felett.
A fa értékével a várt érték felhasználásával döntési csomópontot hoz létre.

Gondolatok befejezése

Nagyon fontos, hogy egy hatékony, az adatokon és a tartományon alapuló algoritmust használjon egy hatékony gépi tanulási projekt kidolgozásához. Ezenkívül elengedhetetlen az egyes gépi tanulási algoritmusok közötti kritikus különbség megértése ahhoz, hogy kezeljük azt, amikor kiválasztom, melyiket választom.„Ahogy egy gépi tanulási megközelítésben, egy gép vagy eszköz megtanulta a tanulási algoritmuson keresztül. Meggyőződésem, hogy ez a cikk segít megérteni az algoritmust. Ha bármilyen javaslata vagy kérdése van, kérjük, nyugodtan kérdezzen. Olvass tovább.