A 20 legjobb R gépi tanulási csomag, amelyet most meg kell nézni

Szinte az összes kezdő adatkutatót és a gépi tanulás fejlesztőjét összekeverik a programozási nyelv kiválasztásával kapcsolatban. Mindig megkérdezik, hogy melyik programozási nyelv lesz a legjobb a gépi tanulás és az adattudományi projektjük számára. Vagy megyünk pythonra, R-re vagy MatLabra. Nos, a programozási nyelv kiválasztása a fejlesztők preferenciáitól és a rendszer követelményeitől függ. A többi programozási nyelv mellett az R az egyik legpotenciálisabb és legpompásabb programozási nyelv, amely számos R gépi tanulási csomaggal rendelkezik mind az ML, mind az AI, mind az adattudományi projektekhez.

Ennek eredményeként az ember könnyedén és hatékonyan fejlesztheti projektjét ezen R gépi tanulási csomagok használatával. A Kaggle felmérése szerint az R az egyik legnépszerűbb nyílt forráskódú gépi tanulási nyelv.

A legjobb R gépi tanulási csomagok

Az R egy nyílt forráskódú nyelv, így az emberek a világ bármely pontjáról hozzájárulhatnak. Használhat fekete kódot a kódjában, amelyet valaki más írt. R-ben ezt a fekete dobozt csomagnak nevezik. A csomag nem más, mint egy előre megírt kód, amelyet bárki többször használhat. Az alábbiakban bemutatjuk a legjobb 20 legjobb R gépi tanulási csomagot.

1. HIÁNYJEL

A CARET csomag osztályozásra és regressziós képzésre vonatkozik. A CARET csomag feladata a modell képzésének és előrejelzésének integrálása. Ez az egyik legjobb R csomag a gépi tanuláshoz, valamint az adattudományhoz.

A paraméterek több funkció integrálásával kereshetők egy adott modell teljes teljesítményének kiszámításához a csomag rácskeresési módszerével. Az összes kísérlet sikeres befejezése után a rácskeresés végül megtalálja a legjobb kombinációkat.

A csomag telepítése után a fejlesztő futtathat neveket (getModelInfo ()), hogy lássa a 217 lehetséges funkciót, amelyek csak egy függvényen futtathatók. A prediktív modell felépítéséhez a CARET csomag vonat () függvényt használ. A függvény szintaxisa:

vonat (képlet, adat, módszer)

Dokumentáció

2. randomForest

A RandomForest az egyik legnépszerűbb R csomag a gépi tanuláshoz. Ez az R gépi tanulási csomag felhasználható regressziós és osztályozási feladatok megoldására. Ezenkívül a hiányzó értékek és a kiugró értékek képzésére is használható.

Ezt az R gépi tanulási csomagot általában több döntési fa generálására használják. Alapvetően véletlenszerű mintákat vesz. Ezután megfigyeléseket adunk a döntési fába. Végül a döntési fából származó közös kimenet a végső kimenet. A függvény szintaxisa:

randomForest (képlet =, adatok =)

Dokumentáció

3. e1071

Ez az e1071 az egyik legelterjedtebb gépi tanulási csomag. Ennek a csomagnak a használatával a fejlesztő megvalósíthatja a támogató vektorgépeket (SVM), a legrövidebb út számítást, a zsákos fürtöket, a Naive Bayes osztályozót, a rövid idejű Fourier transzformációt, a fuzzy fürtözést stb.

Például az IRIS adatok esetében az SVM szintaxisa:

svm (Faj ~ Sepal.Hossz + Sepal.Szélesség, adat = írisz)

Dokumentáció

4. Rpart

Az Rpart a rekurzív particionálást és a regressziós edzést jelenti. Ez a gépi tanuláshoz szükséges R csomag mindkét feladatot elvégezheti: osztályozás és regresszió. Kétlépcsős lépésben működik. A kimenet bináris fát modellez. A plot () függvény a kimeneti eredmény ábrázolására szolgál. Van még egy alternatív függvény, a prp () függvény, amely rugalmasabb és erősebb, mint egy alap plot () függvény.

Az rpart () függvény a független és a függő változók közötti kapcsolat létrehozására szolgál. A szintaxis a következő:

rpart (képlet, adatok =, módszer =, kontroll =)

ahol a képlet független és függő változók kombinációja, az adatok az adatkészlet neve, a módszer az objektív, és a vezérlés a rendszer követelménye.

Dokumentáció

5. KernLab

Ha kernel alapú gépi tanulási algoritmusok alapján szeretné fejleszteni a projektjét, akkor ezt az R csomagot használhatja gépi tanuláshoz. Ezt a csomagot SVM-re, kernel-elemzésre, rangsorolási algoritmusra, dot termék primitívekre, Gauss-folyamatra és még sok másra használják. A KernLab-ot széles körben használják SVM-implementációkhoz.

Különféle kernelfunkciók állnak rendelkezésre. Néhány kernelfunkciót itt említünk: polydot (polinom kernel függvény), tanhdot (hiperbolikus tangens kernel funkció), laplacedot (laplacian kernel funkció) stb. Ezeket a funkciókat a mintafelismerési problémák végrehajtására használják. De a felhasználók előre definiált rendszermag-funkciók helyett használhatják kernelfunkcióikat.

Dokumentáció

6. nnet

Ha a mesterséges neuronhálózaton (ANN) keresztül szeretné fejleszteni a gépi tanulási alkalmazását, ez az nnet-csomag segíthet. Ez az egyik legnépszerűbb és legkönnyebben megvalósítható ideghálózati csomag. De ez egy korlátozás, vagyis egyetlen csomópontréteg.

A csomag szintaxisa:

nnet (képlet, adatok, méret)

Dokumentáció

7. dplyr

Az egyik legszélesebb körben használt adatcsomag R csomag. Emellett néhány könnyen használható, gyors és következetes funkciót biztosít az adatkezeléshez. Hadley Wickham ezt az r programozási csomagot írja az adattudomány számára. Ez a csomag az i igekészletből áll.e., mutál (), kijelöl (), szűr (), összefoglal (és) elrendez ().

A csomag telepítéséhez be kell írni ezt a kódot:

telepítés.csomagok („dplyr”)

A csomag betöltéséhez be kell írnia ezt a szintaxist:

könyvtár (dplyr)

Dokumentáció

8. ggplot2

Az egyik legelegánsabb és legesztétikusabb grafikai keretrendszer R csomag az adattudomány számára a ggplot2. A grafika nyelvtanán alapuló grafikák létrehozásának rendszere. Ennek az adattudományi csomagnak a telepítési szintaxisa a következő:

telepítés.csomagok („ggplot2”)

Dokumentáció

9. Wordcloud

Amikor egyetlen kép több ezer szóból áll, akkor Wordcloudnak hívják. Alapvetően ez a szöveges adatok vizualizálása. Ez az R használatú gépi tanulási csomag a szavak reprezentációjának létrehozására szolgál, és a fejlesztő a saját igényei szerint testre szabhatja a Wordcloudot, például véletlenszerűen vagy azonos frekvenciájú szavakat rendezhet együtt, vagy nagy frekvenciájú szavakat a központban stb.

Az R gépi tanulási nyelvben két könyvtár áll rendelkezésre a wordcloud létrehozásához: Wordcloud és Worldcloud2. Itt bemutatjuk a WordCloud2 szintaxisát. A WordCloud2 telepítéséhez írnia kell:

1. igényel (devtools)
2. install_github (“lchiffon / wordcloud2”)

Vagy használhatja közvetlenül:

könyvtár (wordcloud2)

Dokumentáció

10. tidyr

Egy másik széles körben használt r csomag az adattudomány számára a tidyr. Ennek az r programozásnak az adattudomány célja az adatok rendbetétele. Rendben a változó az oszlopba kerül, a megfigyelés a sorba kerül, és az érték a cellában van. Ez a csomag az adatok rendezésének szokásos módját ismerteti.

A telepítéshez ezt a kódrészletet használhatja:

telepítés.csomagok („tidyr”)

A betöltéshez a kód:

könyvtár (tidyr)

Dokumentáció

11. fényes

Az R csomag, a Shiny az egyik adattudományi webalkalmazás-keretrendszer. Segít felépíteni az internetes alkalmazásokat az R-től könnyedén. Vagy a fejlesztő telepítheti a szoftvert az egyes kliens rendszerekre, vagy a fülke otthont ad egy weboldalnak. A fejlesztő irányítópultokat is készíthet, vagy beágyazhatja őket az R Markdown dokumentumokba.

Ezenkívül a Shiny alkalmazások különféle szkriptnyelvekkel bővíthetők, például html widgetekkel, CSS témákkal és JavaScript műveletekkel. Egyszóval azt mondhatjuk, hogy ez a csomag az R számítási erejének és a modern web interaktivitásának kombinációja.

Dokumentáció

12. tm

Mondanom sem kell, hogy a szövegbányászat manapság a gépi tanulás feltörekvő alkalmazása. Ez az R gépi tanulási csomag keretet nyújt a szövegbányászati feladatok megoldásához. Egy szövegbányász alkalmazásban, i.e., hangulatelemzés vagy hírosztályozás, a fejlesztő különféle típusú unalmas munkákat végez, mint például a nem kívánt és lényegtelen szavak eltávolítása, az írásjelek eltávolítása, a leállítási szavak eltávolítása és még sok más.

A tm csomag számos rugalmas funkciót tartalmaz a munka könnyebbé tétele érdekében, mint például az removeNumbers (): számok eltávolítása az adott szöveges dokumentumból, weightTfIdf (): a gyakoriság és az inverz dokumentum gyakorisága kifejezésnél, tm_reduce (): az átalakítások kombinálásához, az RemovePunctuation () távolítsa el az írásjeleket az adott szöveges dokumentumból és még sok minden mást.

Dokumentáció

13. MICE csomag

Az R, MICE gépi tanulási csomag a többváltozós imputációra utal láncolt szekvenciákon keresztül. Szinte állandóan a projektfejlesztő a gépi tanulási adatkészlettel közös problémával szembesül, ami a hiányzó érték. Ez a csomag a hiányzó értékek többféle technikával történő beszámítására használható.

Ez a csomag számos olyan funkciót tartalmaz, mint például a hiányzó adatminták ellenőrzése, az imputált értékek minőségének diagnosztizálása, a teljes adatkészletek elemzése, az imputált adatok különböző formátumokban történő tárolása és exportálása, és még sok más.

Dokumentáció

14. igraph

A hálózati elemző csomag, az igraph, az egyik leghatékonyabb R csomag az adattudomány számára. Erős, hatékony, könnyen használható és hordozható hálózati elemző eszközök gyűjteménye. Ez a csomag szintén nyílt forráskódú és ingyenes. Ezenkívül az igraphn programozható Python, C / C ++ és Mathematica rendszereken.

Ennek a csomagnak számos funkciója van véletlenszerű és szabályos grafikonok létrehozására, egy grafikon megjelenítésére stb. Ezen felül az R csomag használatával nagy grafikonjával is dolgozhat. Van néhány követelmény a csomag használatához: Linuxhoz C és C ++ fordító szükséges.

Ennek az R programozási csomagnak az adattudományra történő telepítése:

telepítés.csomagok („igraph”)

A csomag betöltéséhez be kell írnia:

könyvtár (igraph)

Dokumentáció

15. ROCR

Az adattudomány R csomagját, a ROCR-t használják a pontozási osztályozók teljesítményének vizualizálására. Ez a csomag rugalmas és könnyen használható. Csak három parancsra és az opcionális paraméterek alapértelmezett értékére van szükség. Ez a csomag a határérték-paraméterezett 2D teljesítménygörbék fejlesztésére szolgál. Ebben a csomagban számos olyan funkció létezik, mint a predikció (), amelyek a predikciós objektumok létrehozására szolgálnak, a performance () a teljesítményobjektumok létrehozására stb.

Dokumentáció

16. DataExplorer

A DataExplorer csomag az egyik legkönnyebben használható R csomag az adattudomány számára. Számos adattudományi feladat közül a feltáró adatelemzés (EDA) az egyik. A feltáró adatelemzés során az adatelemzőnek nagyobb figyelmet kell fordítania az adatokra. Nem könnyű feladat manuálisan ellenőrizni vagy kezelni az adatokat, vagy rossz kódolást használni. Az adatok elemzésének automatizálása szükséges.

Ez az R adatcsomag-csomag automatizálja az adatok feltárását. Ez a csomag az egyes változók beolvasására és elemzésére, valamint megjelenítésére szolgál. Akkor hasznos, ha az adatkészlet hatalmas. Tehát az adatelemzés hatékonyan és könnyedén kibontja az adatok rejtett ismereteit.

A csomag a CRAN-ból közvetlenül telepíthető az alábbi kód használatával:

telepítés.csomagok („DataExplorer”)

Az R csomag betöltéséhez be kell írnia:

könyvtár (DataExplorer)

Dokumentáció

17. mlr

Az R gépi tanulás egyik leghihetetlenebb csomagja az mlr csomag. Ez a csomag több gépi tanulási feladat titkosítását jelenti. Ez azt jelenti, hogy több feladatot csak egyetlen csomag használatával hajthat végre, és nem kell három csomagot három különböző feladatra használni.

Az mlr csomag számos osztályozási és regressziós technika interfésze. A technikák magukban foglalják a géppel olvasható paraméterleírásokat, a fürtözést, az általános új mintavételt, a szűrést, a funkciók kibontását és még sok mást. Párhuzamos műveletek is elvégezhetők.

A telepítéshez az alábbi kódot kell használnia:

telepítés.csomagok („mlr”)

A csomag betöltése:

könyvtár (mlr)

Dokumentáció

18. arules

Az arules csomag (Bányászati társulási szabályok és Gyakori tételek) egy széles körben használt R gépi tanulási csomag. A csomag használatával több művelet is elvégezhető. A műveletek az adatok és minták ábrázolása és tranzakcióelemzése, valamint az adatkezelés. Elérhetők az Apriori és az Eclat asszociációs bányászati algoritmusok C megvalósításai is.

Dokumentáció

19. mboost

Egy másik R gépi tanulási csomag az adattudomány számára az mboost. Ez a modellalapú növelő csomag funkcionális gradiens süllyedési algoritmussal rendelkezik az általános kockázati funkciók optimalizálására regressziós fák vagy komponensenként legkisebb négyzetes becslések felhasználásával. Ezenkívül interakciós modellt nyújt a potenciálisan nagydimenziós adatokhoz.

Dokumentáció

20. buli

Egy másik csomag a gépi tanulásban R-vel a party. Ezt a számítási eszköztárat rekurzív particionálásra használják. A gépi tanulási csomag fő funkciója vagy lényege a ctree (). Ez egy széles körben használt funkció, amely csökkenti az edzés és az elfogultság idejét.

A ctree () szintaxisa:

ctree (képlet, adatok)

Dokumentáció

Gondolatok befejezése

Az R olyan kiemelkedő programozási nyelv, amely statisztikai módszereket és grafikonokat használ az adatok feltárásához. Mondanom sem kell, hogy ez a nyelv számos R gépi tanulási csomaggal, hihetetlen RStudio eszközzel és könnyen érthető szintaxissal rendelkezik a fejlett gépi tanulási projektek kidolgozásához. R ml-es kiszerelésben van néhány alapértelmezett érték. Mielőtt alkalmazná a programjára, részletesen ismernie kell a különféle lehetőségeket. Ezeknek a gépi tanulási csomagoknak a felhasználásával bárki létrehozhat egy hatékony gépi tanulási vagy adattudományi modellt. Végül az R egy nyílt forráskódú nyelv, és csomagjai folyamatosan nőnek.

Ha bármilyen javaslata vagy kérdése van, kérjük, hagyjon megjegyzést a megjegyzések részben. Ezt a cikket megoszthatja barátaival és családtagjaival a közösségi médián keresztül is.