Back to Question Center
0

Semalt Ekspertas: "Python" ir "BeautifulSoup". Išvalyti svetaines lengvai

1 answers:

Atliekant duomenų analizę arba mašinų mokymosi projektus, gali tekti ištrinti tinklalapius, norint gauti reikalingi duomenys ir užbaigti savo projektą. Python programavimo kalba turi galingą įrankių ir modulių rinkinį, kuris gali būti naudojamas tam tikslui. Pavyzdžiui, galite naudoti "BeautifulSoup" modulį HTML analizavimui.

Čia mes pažvelgsime į "BeautifulSoup" ir išsiaiškinsime, kodėl šiuo metu jis plačiai naudojamas žiniatinklio šveitimo .

BeautifulSoup savybės

- Jame pateikiami įvairūs metodai, leidžiantys lengviau naršyti, ieškoti ir keisti medžių skaidymą, todėl galite lengvai iškirpti dokumentą ir išgauti viską, ko reikia, nenurodant per daug kodo.

- Jis automatiškai konvertuoja siunčiamus dokumentus į UTF-8 ir gaunamus dokumentus į Unicode. Tai reiškia, kad jums nereikės nerimauti dėl kodavimo, jei dokumente yra nurodyta kodavimo sistema arba "Beautiful Soup" gali automatiškai jį aptikti.

- "BeautifulSoup" laikomas pranašesniu už kitus populiarius "Python" parserius, tokius kaip html5lib ir lxml. Tai leidžia išbandyti įvairias analizavimo strategijas. Tačiau vienas šio modulio trūkumas yra tas, kad jis suteikia daugiau lankstumo greičio sąskaita.

Ką reikia nuskaityti svetainę BeautifulSoup?

Norėdami pradėti dirbti su "BeautifulSoup", turite turėti jūsų "Python" programavimo aplinką (vietinę arba serverinę). "Python" paprastai iš anksto įdiegtas OS X, tačiau jei naudojate "Windows", jums reikės atsisiųsti ir įdiegti kalbą iš oficialios svetainės.

Turėtumėte įdiegti "BeautifulSoup" ir "Requests" modulius.

Galiausiai, žinoma ir patogu dirbti su HTML žymėjimu ir struktūra yra tikrai naudinga, nes jūs dirbate su internetiniais duomenimis.

Importuojamų užklausų ir "BeautifulSoup" bibliotekų

Python programavimo aplinka yra gerai sukonfigūruota, dabar galite sukurti naują failą (pvz., Naudodami nano) su bet kokiu jūsų norimu vardu.

"Requests" biblioteka leidžia naudoti žmonėms nuskaitomą formą HTTP per savo "Python" programas, o "BeautifulSoup" gauna greito greičio matavimą. Galite naudoti importo ataskaitą, kad gautumėte abi bibliotekas.

Kaip surinkti ir analizuoti tinklalapį

Naudoti prašymus. get

, kad surinktumėte tinklalapio, iš kurio norite išgauti duomenis, URL. Tada sukurkite "BeautifulSoup" objektą arba paruošimo medį. Šis objektas priima dokumentą iš "Prašymų" kaip jo argumentus ir tada analizuoja jį. Kai puslapis surenkamas, analizuojamas ir nustatomas kaip "BeautifulSoup" objektas, tuomet galėsite rinkti reikalingus duomenis.

Norimo teksto ištraukimas iš analizuojamo tinklalapio

Kiekvieną kartą, kai norite surinkti žiniatinklio duomenis, turite žinoti, kaip šiuos duomenis apibūdina tinklalapio dokumento objekto modelis (DOM).Savo žiniatinklio naršyklėje dešiniuoju pelės klavišu spustelėkite (jei naudojate "Windows") arba CTRL + spustelėkite (jei naudojate "macOS") viename iš elementų, kurie yra svarbių duomenų dalis. Pvz., Jei norite ištraukti duomenis apie studentų tautybes, spustelėkite vieną iš studento vardų. Pasirodo konteksto meniu, ir per jį pamatysite meniu elementą, panašų į "Tikrinti elementą" ("Firefox") arba "Tikrinti" ("Chrome").Spustelėkite atitinkamą meniu punktą Patikrinti, o naršyklėje bus rodomi žiniatinklio kūrimo įrankiai.

BeautifulSoup yra paprastas, bet galingas HTML analizavimo įrankis, kuris leidžia jums daug lankstumo, kai išvalo svetaines . Naudodamiesi, nepamirškite laikytis bendrų įbrėžimo taisyklių, pvz., Patikrinti svetainės "Taisykles ir nuostatas"; reguliariai persvarstydami svetainę ir atnaujindami kodą pagal svetainės pakeitimus. Turėdami šias žinias apie tinklalapių išvalymą naudodamiesi "Python" ir "BeautifulSoup", dabar galite lengvai gauti norimus žiniatinklio duomenis, reikalingus jūsų projektui Source .

December 22, 2017