Ez a cikk a webhely feltérképezésének néhány módját tárgyalja, ideértve a webes feltérképezéshez szükséges eszközöket és ezen eszközök használatát a különböző funkciókhoz. A cikkben tárgyalt eszközök a következők:
- HTTrack
- Cyotek WebCopy
- Tartalomfogó
- ParseHub
- OutWit Hub
HTTrack
A HTTrack egy ingyenes és nyílt forráskódú szoftver, amelyet adatok letöltésére használnak az internet webhelyeiről. Ez egy könnyen használható szoftver, amelyet Xavier Roche fejlesztett ki. A letöltött adatokat a localhost tárolja ugyanabban a struktúrában, mint az eredeti webhelyen volt. A segédprogram használatának módja a következő:
Először telepítse a HTTrack alkalmazást a számítógépére a következő parancs futtatásával:
[e-mail védett]: ~ $ sudo apt-get install httrackA szoftver telepítése után futtassa a következő parancsot a webhely feltérképezéséhez. A következő példában feltérképezzük linuxhint.com:
[e-mail védett]: ~ $ httrack http: // www.linuxhint.com -o ./A fenti parancs lekéri az összes adatot a webhelyről, és elmenti az aktuális könyvtárba. A következő kép leírja a httrack használatát:
Az ábrából láthatjuk, hogy a webhely adatait lekérte és elmentette az aktuális könyvtárba.
Cyotek WebCopy
A Cyotek WebCopy egy ingyenes internetes bejáró szoftver, amelyet a tartalom másolásához használnak egy webhelyről a helyi hostba. A program futtatása, valamint a webhely linkjének és célmappájának megadása után a teljes webhely átmásolásra kerül a megadott URL-ről és a localhostba kerül. Letöltés Cyotek WebCopy a következő linkről:
https: // www.cyotek.com / cyotek-webcopy / downloads
A telepítést követően a webrobot futtatásakor megjelenik az alábbi képen látható ablak:
Miután megadta a webhely URL-jét, és kijelölte a célmappát a kötelező mezőkben, kattintson a másolás gombra az adatok másolásának megkezdéséhez a webhelyről, az alábbiak szerint:
Az adatok másolása után a webhelyről az alábbiak szerint ellenőrizze, hogy az adatok át lettek-e másolva a célkönyvtárba:
A fenti képen a webhelyről származó összes adatot átmásoltuk és elmentettük a célhelyre.
Tartalomfogó
A Content Grabber egy felhőalapú szoftver, amelyet egy weboldal adatainak kinyerésére használnak. Bármely többszerkezetű webhelyről kinyerhet adatokat. A Content Grabber a következő linkről tölthető le
http: // www.tucows.com / preview / 1601497 / Content-Grabber
A program telepítése és futtatása után megjelenik egy ablak, amelyet a következő ábra mutat:
Írja be annak a webhelynek az URL-jét, amelyről adatokat szeretne kinyerni. Miután megadta a webhely URL-jét, válassza ki a másolni kívánt elemet az alábbiak szerint:
A kívánt elem kiválasztása után kezdje el az adatok másolását a webhelyről. Ennek a következő képnek kell kinéznie:
A webhelyről kinyert adatokat alapértelmezés szerint a következő helyre menti:
C: \ Users \ felhasználónév \ Document \ Content GrabberParseHub
A ParseHub egy ingyenes és könnyen használható internetes bejárási eszköz. Ez a program képes képeket, szöveget és egyéb adatokat másolni egy webhelyről. A ParseHub letöltéséhez kattintson a következő linkre:
https: // www.parsehub.com / quickstart
A ParseHub letöltése és telepítése után futtassa a programot. Megjelenik egy ablak, az alábbiak szerint:
Kattintson az „Új projekt” elemre, írja be az URL-t annak a webhelynek a címsorába, amelyről adatokat szeretne kinyerni, majd nyomja meg az Enter billentyűt. Ezután kattintson a „Projekt indítása erre az URL-re.”
A kívánt oldal kiválasztása után kattintson a bal oldalon az „Adatok beolvasása” elemre a weboldal feltérképezéséhez. A következő ablak jelenik meg:
Kattintson a „Futtatás” gombra, és a program meg fogja kérni a letölteni kívánt adattípust. Válassza ki a kívánt típust, és a program kéri a célmappát. Végül mentse el az adatokat a célkönyvtárba.
OutWit Hub
Az OutWit Hub egy webrobot, amelyet weboldalak adatainak kinyerésére használnak. Ez a program képeket, linkeket, névjegyeket, adatokat és szöveget tud kibontani egy webhelyről. Az egyetlen szükséges lépés a webhely URL-címének megadása és a kivonandó adattípus kiválasztása. Töltse le ezt a szoftvert a következő linkről:
https: // www.túljár vki eszén.com / products / hub /
A program telepítése és futtatása után a következő ablak jelenik meg:
Írja be a webhely URL-jét a fenti képen látható mezőbe, és nyomja meg az Enter billentyűt. Az ablak a weboldalt jeleníti meg, az alábbiak szerint:
A bal oldali panelen válassza ki azt az adattípust, amelyet ki szeretne vonni a webhelyről. A következő kép pontosan szemlélteti ezt a folyamatot:
Most válassza ki a képet, amelyet el akar menteni a localhoston, és kattintson a képen megjelölt export gombra. A program meg fogja kérni a célkönyvtárat, és elmenti az adatokat a könyvtárba.
Következtetés
A webrobotokat az adatok kinyerésére használják a webhelyekről. Ez a cikk néhány internetes bejárási eszközt és azok használatát taglalta. Az egyes webrobotok használatát lépésről lépésre megbeszéltük, szükség esetén ábrákkal. Remélem, hogy miután elolvasta ezt a cikket, könnyen megtalálja ezeket az eszközöket egy webhely feltérképezéséhez.