„Semalt“: HTML grandymo vadovas - svarbiausi patarimai

Žiniatinklio turinys dažniausiai yra struktūrizuoto ar HTML formato. Kiekvienas puslapis yra organizuotas unikaliu būdu, atsižvelgiant į turinio rūšį. Jei kas nors nori surinkti informaciją internete, tai yra kiekvieno asmens noras gauti duomenis struktūrizuotai ir gerai organizuotai. Tai padės sutaupyti laiko, reikalingo dokumentui peržiūrėti, analizuoti ir tvarkyti prieš dalijantis juo. Tačiau gauti struktūrizuotą formatą nėra lengva, nes dauguma svetainių nesiūlo šios parinkties, kad žmonės negalėtų išgauti didelių duomenų kiekių. Tačiau kai kurios svetainės teikia API, kurios suteikia žmonėms galimybę greitai ir lengvai gauti informaciją.

Tokiais atvejais neturėsite kito pasirinkimo, kaip tik naudoti programinės įrangos, žinomos kaip grandymas, pagalbą. Tai metodas, kurio metu kompiuterinė programa padeda vartotojams rinkti naudingo formato informaciją ir išsaugo duomenų struktūrą.

Lxml ir užklausa

Tai yra plataus diapazono biblioteka, kuri padeda greitai analizuoti ir vertinti XML ir HTML bei taupo laiką. Tai taip pat naudinga nagrinėjant suklaidintas žymas analizės procese. Atlikdami šią procedūrą, naudojate „Lxml“ užklausas, o ne integruotą „urllib2“, nes ji yra greitesnė, patikimesnė ir lengvai prieinama. Jį lengva įdiegti naudojant „pip install Lxml“ ir „pip“ diegimo užklausas.

Atlikite šiuos veiksmus atlikdami HTML kodą

Pradėkite nuo importavimo - čia jūs importuojate HTML iš Lxml, tada importuojate užklausą. Naudokite užklausą ir suraskite tinklalapį, kuriame yra duomenys, kuriuos norite išgauti, išanalizuokite juos pagal HTML modulį ir išsaugokite analizuotus duomenis medyje.

Turėsite naudoti puslapio turinį, o ne tekstą, nes HTML tikisi gauti įvestį baitais. Medyje, kuriame saugojote analizuotus duomenis, dabar yra HTML dokumentas medžio struktūroje. Medžio struktūrą galite pereiti skirtingais būdais, „XPath“ ir „CSSelect“.

„XPath“ padeda jums nuskaityti informaciją arba ją gauti struktūrizuotu formatu, pavyzdžiui, HTML ar XML. Yra keletas būdų, kaip gauti „XPath“ elementus. Tai apima „Firebug for Firefox“ arba „Chrome Inspector“. Kai naudojate „Chrome“, patikrinti informaciją yra nesunku, nes jums reikia tik „dešiniuoju pelės mygtuku“ spustelėkite elementą, kurį reikia patikrinti, pasirinkite „Patikrinti elementą“, pažymėkite pateiktą kodą, tada dešiniuoju pelės mygtuku spustelėkite ir pasirinkite „copy XPath“. Šis procesas padės jums žinoti, kurie elementai yra jūsų puslapyje, o iš ten lengva sukurti tinkamą „XPath“ užklausą ir teisingai pritaikyti „Lxml XPath“.

Atlikdami šiuos veiksmus užtikrinsite, kad naudodami „Lxml“ ir „Prašymai“ nuskaitydavote visus duomenis, kuriuos norėjote išgauti iš tam tikro interneto. Turėsite informaciją, saugomą dviejų sąrašų atmintyje, ir dabar ji yra paruošta rūšiavimui. Galite jį išanalizuoti naudodamiesi programavimo kalba, pavyzdžiui, „Python“, arba išsaugokite ją ir bendrinkite. Be to, prieš pradėdami dalintis informacija, galbūt norėsite perrašyti ar redaguoti kai kurias informacijos dalis.