Semalt: 3 kroky k zoškrabovaniu webovej stránky PHP

Zoškrabanie webu, nazývané aj získavanie webových údajov alebo ich zber, je proces získavania údajov z webovej stránky alebo blogu. Tieto informácie sa potom používajú na nastavenie metaznačiek, meta popisov, kľúčových slov a odkazov na stránky, čím sa zvyšuje jej celkový výkon vo výsledkoch vyhľadávacieho nástroja.
Na zoškrabovanie údajov sa používajú dve hlavné techniky:
- Analýza dokumentov - zahŕňa dokument XML alebo HTML, ktorý sa skonvertuje na súbory DOM (Object Object Model). PHP nám poskytuje skvelé rozšírenie DOM.
- Regulárne výrazy - Je to spôsob zoškrabovania údajov z webových dokumentov vo forme regulárnych výrazov.
Problém so škrabacími údajmi na webovej stránke tretej strany súvisí s jej autorskými právami, pretože nemáte povolenie na použitie týchto údajov. Ale s PHP môžete ľahko zoškrabať údaje bez problémov spojených s autorskými právami alebo nízkou kvalitou. Ako programátor PHP možno budete potrebovať údaje z rôznych webových stránok na účely kódovania. Tu sme vysvetlili, ako efektívne získavať údaje z iných stránok, ale predtým by ste mali mať na pamäti, že na konci získate buď súbory index.php alebo scrape.js.
Kroky 1: Vytvorenie formulára na zadanie adresy URL webových stránok:
Najprv by ste mali vytvoriť formulár v index.php kliknutím na tlačidlo Odoslať a zadaním adresy URL webových stránok na zoškrabanie údajov.
<form method = "post" name = "scrape_form" id = "scrap_form" acti>
Zadajte webovú adresu webovej stránky na zoškrabanie údajov
<input type = "input" name = "website_url" id = "website_url">
<input type = "submit" name = "submit" value = "Submit">
</ Form>
Kroky 2: Vytvorenie funkcie PHP na získanie údajov o webových stránkach:
Druhým krokom je vytvorenie scrapov funkcií PHP v súbore scrape.php, pretože pomôže získať údaje a použiť knižnicu URL. Umožní vám tiež bez problémov komunikovať a komunikovať s rôznymi servermi a protokolmi.
function scrapeSiteData ($ website_url) {
if (! function_exists ('curl_init'))) {
die ('cURL nie je nainštalovaný. Nainštalujte a skúste to znova.');
}

$ curl = curl_init ();
curl_setopt ($ curl, CURLOPT_URL, $ website_url);
curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, true);
$ output = curl_exec ($ curl);
curl_close ($ curl);
návrat $ výstup;
}
Tu vidíme, či bol PHP cURL nainštalovaný správne alebo nie. V oblasti funkcií sa musia použiť tri hlavné cURL a curl_init () pomôže inicializovať relácie, curl_exec () to vykoná a curl_close () pomôže ukončiť spojenie. Premenné ako CURLOPT_URL sa používajú na nastavenie webových adries webových stránok, ktoré musíme zoškrabať. Druhý CURLOPT_RETURNTRANSFER pomôže uložiť zoškriabané stránky v premennej forme namiesto jej predvolenej formy, ktorá nakoniec zobrazí celú webovú stránku.
Kroky 3: zoškrabanie konkrétnych údajov z webovej stránky:
Je čas spracovať funkčnosť súboru PHP a zoškrabať konkrétnu časť webovej stránky. Ak nechcete všetky údaje z konkrétnej adresy URL, mali by ste ich upraviť pomocou premenných CURLOPT_RETURNTRANSFER a zvýrazniť sekcie, ktoré chcete zoškrabať.
if (isset ($ _ POST [ 'submit'])) {
$ html = scrapeWebsiteData ($ _ POST ['website_url']);
$ start_point = strpos ($ html, 'Najnovšie príspevky');
$ end_point = strpos ($ html, '', $ start_point);
$ length = $ end_point- $ start_point;
$ html = subst ($ html, $ start_point, $ length);
echo $ html;
}
Odporúčame vám, aby ste si pred použitím niektorého z týchto kódov alebo zoškrabaním konkrétneho blogu alebo webovej stránky na osobné účely rozvinuli základné znalosti PHP a regulárnych výrazov.