首先美女的照片從鎮(zhèn)上爬出來,這樣你就不會說我只是說說而已,不練假動作了!

好了,我們開門見山吧!

需要額外的第三方庫

requestspip install requestspymongopip install pymongo

原則

因為淘大女孩的網(wǎng)站包含AJAX技術(shù),只需要與后臺交換少量數(shù)據(jù)就可以實時更新,這意味著直接抓取網(wǎng)頁源代碼然后分析信息的方式是無痛的,因為網(wǎng)站是動態(tài)連接的,直接抓取源代碼無法獲取淘大女孩的信息。

638855753

對于這類網(wǎng)站,一般有兩種抓取方式:

利用selenium庫模擬瀏覽器的用戶行為,讓服務(wù)器以為真正的用戶在瀏覽網(wǎng)頁,從而獲得完整的網(wǎng)頁源代碼

利用Chrome等瀏覽器自帶的分析工具,監(jiān)控網(wǎng)頁的網(wǎng)絡(luò),分析數(shù)據(jù)交換的API,然后利用API抓取數(shù)據(jù)交換的JSON數(shù)據(jù),從而抓取。

效率方面,第一種方法比較慢,占用系統(tǒng)資源,所以我們用第二種方法來實現(xiàn)。

先寫請求,然后在淘女孩的網(wǎng)站上獲取JSON文件。

向服務(wù)器發(fā)送請求。然后獲取服務(wù)器的JSON數(shù)據(jù),然后對返回的數(shù)據(jù)進(jìn)行處理,再轉(zhuǎn)換成Python字典類型返回。

具體代碼如下:

def getInfo: tao_datas try: r=requests. post except: return None rav_datas = json. loads datas rav_datas returh dat as

返回后,我們連接到MongoDB并保存返回的信息。

def main: client = MongoClientdb =client. TaoBao col = db. TaoLady for pageNun in range: 淘女郎一共有410頁,所以我們抓取從1到第411頁的內(nèi)容。 print datas=getInfo if datas; col.insert_nany if__nane__='__main__'; main

解析返回的信息,然后提取信息中的PICture URL信息,下載后保存在pic文件夾中:

def downPic: client=HongoClient db = client.TaoBao col=db.TaoLady for data in col, find: nane = data url =“http:" + data pie=urlopen vith, open as file: print file.vrite if __nane__='__main__': downPic

好了,爬完了,原圖都超級清晰。但是由于圖片數(shù)量多,我的16G盤幾乎裝不下,這里就不一一展示了。只拍了一些截圖給大家看。

掃碼入群,更多知識等著你去學(xué)習(xí)

聲明:本文在網(wǎng)上組織,版權(quán)歸原作者所有。如有侵權(quán),請聯(lián)系邊肖刪除。

1.《淘女網(wǎng) 30行Python爬蟲代碼爬取淘女郎網(wǎng)美女圖,哇太多了,我U盤要滿了》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點,與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《淘女網(wǎng) 30行Python爬蟲代碼爬取淘女郎網(wǎng)美女圖,哇太多了,我U盤要滿了》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進(jìn)行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。

3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/guonei/1789125.html