Semalt: Scrapáil Gréasáin Le Python

An raibh tú trí cheann de na chuimhneacháin uafásacha sin nuair nach bhfuil Wi-Fi agat. Más ea, ansin thuig tú go díreach cé mhéid den obair a dhéanann tú ar do ríomhaire atá ag brath ar an glan. As an nós lom, gheobhaidh tú tú féin ag seiceáil do ríomhphoist, ag féachaint ar ghrianghraif Instagram do chara chomh maith lena gcuid tweets a léamh.

Ós rud é go mbaineann na próisis ghréasáin leis an oiread sin oibre ríomhaireachta, bheadh sé an-áisiúil dá bhféadfadh do chláir dul ar líne freisin. Is é seo an cás maidir le scríobadh gréasáin . Is éard atá i gceist leis clár a úsáid chun ábhar a íoslódáil agus a phróiseáil ón ngréasán. Mar shampla, úsáideann Google cláir éagsúla scrapála chun leathanaigh ghréasáin a innéacsú dá n-inneall cuardaigh.

Is iomaí bealach is féidir leat sonraí a scrabhadh ón idirlíon. Éilíonn go leor de na modhanna seo go bhfuil roinnt teangacha cláir mar Python agus R. Mar shampla, le Python, is féidir leat úsáid a bhaint as roinnt modúl mar Iarrataí, anraith álainn, Webbrowser, agus Seiléiniam.

Tugann an modúl ‘Iarrataí’ an deis duit comhaid a íoslódáil go héasca ón ngréasán gan a bheith buartha duit féin faoi shaincheisteanna deacra mar fhadhbanna ceangail, earráidí líonra agus comhbhrú sonraí. Ní gá go dtagann sé le Python, agus mar sin beidh ort é a shuiteáil ar dtús.

Forbraíodh an modúl toisc go bhfuil go leor deacrachtaí ag modúl 'urllib2' Python, rud a fhágann go bhfuil sé deacair é a úsáid. Tá sé éasca go leor a shuiteáil i ndáiríre. Níl le déanamh agat ach iarratais ar shuiteáil píopaí a reáchtáil ón líne ordaithe. Ansin ní mór duit tástáil shimplí a dhéanamh chun a chinntiú go bhfuil an modúl suiteáilte i gceart. Chun é sin a dhéanamh, is féidir leat '>>> iarratais ar allmhairí' a chlóscríobh sa bhlaosc idirghníomhach. Mura dtaispeántar teachtaireachtaí earráide, d’éirigh leis an tsuiteáil.

Chun leathanach a íoslódáil, ní mór duit an fheidhm 'requests.get ()' a thionscnamh. Tógann an fheidhm sreang URL le híoslódáil agus ansin seoltar réad 'freagartha' ar ais. Cuimsíonn sé seo an freagra a chuir an freastalaí gréasáin ar ais d’iarratas. Má éiríonn le d’iarratas, sábhálfar an leathanach gréasáin a íoslódáladh mar shreang san athróg téacs réada freagartha.

De ghnáth bíonn tréith cód stádais ag an réad freagartha is féidir leat a úsáid chun a fháil amach ar éirigh le d’íoslódáil. Ar an gcaoi chéanna, is féidir leat an modh 'raise_for_status ()' a ghlaoch ar réad freagartha. Ardaíonn sé seo eisceacht má tharla aon earráidí agus an comhad á íoslódáil. Is bealach iontach é chun a chinntiú go stopann clár má tharlaíonn droch-íoslódáil.

Ón áit seo, féadfaidh tú do chomhad gréasáin íoslódáilte a shábháil ar do thiomáint crua trí na feidhmeanna caighdeánacha, 'oscailte ()' agus 'scríobh ()' a úsáid. D’fhonn ionchódú Unicode an téacs a choinneáil, áfach, beidh ort sonraí dénártha a chur in ionad sonraí téacs.

Chun na sonraí a scríobh chuig comhad, is féidir leat lúb 'for' a úsáid le modh 'iter_content ()'. Tugann an modh seo bolgáin sonraí ar gach atriall tríd an lúb. Tá gach mórchóir i mbeart, agus caithfidh tú a shonrú cé mhéad beart a bheidh i ngach mórchóir. Nuair a bheidh tú déanta ag scríobh, glaoigh ar 'close ()' chun an comhad a dhúnadh, agus tá do phost críochnaithe anois.