基于Python的爬蟲實(shí)戰(zhàn)項(xiàng)目在網(wǎng)絡(luò)上有很多資料,但本節(jié)介紹的爬蟲略有不同。與下載同一個(gè)網(wǎng)頁上的美女照片不同,是使用人工智能過濾漂亮的東西。(阿爾伯特愛因斯坦,美國作家)。

爬蟲咱們慢慢說,篩選的原理很簡單,參考 python實(shí)戰(zhàn)小項(xiàng)目,人臉檢測,讓電腦對你的顏值打分 小節(jié)。

什么是網(wǎng)絡(luò)爬蟲?

網(wǎng)絡(luò)爬蟲也叫網(wǎng)絡(luò)蜘蛛(spider),它的官方定義可以去百科查,這里咱們只通俗的說什么是網(wǎng)絡(luò)爬蟲,可能不準(zhǔn)確,但是相對更好理解,還是舉例說明。

有時(shí)候,你可能從某個(gè)網(wǎng)頁上看到一段信息,覺得非常符合口味,于是動(dòng)手把它存下來了。這個(gè)讀取并且存儲(chǔ)數(shù)據(jù)的過程,和一次網(wǎng)絡(luò)爬蟲爬取是類似的。百度,谷歌等搜索引擎,相信大家都用過,它是怎么實(shí)現(xiàn)搜索功能的呢?

其實(shí)全靠爬蟲。他們的網(wǎng)絡(luò)爬蟲不停的爬取互聯(lián)網(wǎng)的信息并且把認(rèn)為有用的存下來,當(dāng)用戶輸入關(guān)鍵詞搜索時(shí),百度谷歌把關(guān)鍵詞和自己的數(shù)據(jù)庫匹配,把最相關(guān)的網(wǎng)頁展示給用戶,這樣就完成了一次搜索。

咱們再設(shè)想一個(gè)場景:有一天,你可能看到某個(gè)網(wǎng)站上很多信息都很好,一個(gè)一個(gè)網(wǎng)頁的打開并且存儲(chǔ)真是麻煩死了。那么這個(gè)時(shí)候就可以借助網(wǎng)絡(luò)爬蟲,甚至把整個(gè)網(wǎng)站的信息都爬取下來。這也是爬蟲的一個(gè)用途。

python網(wǎng)絡(luò)爬蟲

經(jīng)過上面的解釋,可以知道,網(wǎng)絡(luò)爬蟲的行為和咱們使用瀏覽器的行為很像。那么,這里介紹的python網(wǎng)絡(luò)爬蟲其實(shí)就是模擬瀏覽器的。

上圖是一組圖片,如果咱們想把這些圖片都保存下來,一張一張的保存實(shí)在太費(fèi)事了。好像有迅雷可以下載全部鏈接,但是它會(huì)把不該下載的也下載下來,比如紅框圈中的那個(gè)怪男。

右鍵,查看網(wǎng)頁源代碼:

得到很多很多字符,咱們只關(guān)心圖片鏈接,打開上圖紅框圈中的鏈接,得到圖片如下:

顯然圖片的鏈接在網(wǎng)頁的源代碼中,那么怎么寫這個(gè)python實(shí)戰(zhàn)項(xiàng)目,網(wǎng)絡(luò)爬蟲呢?

python實(shí)戰(zhàn)項(xiàng)目

1. 首先獲取網(wǎng)頁的源代碼

實(shí)際上就是模擬瀏覽器請求那個(gè)圖片網(wǎng)頁的網(wǎng)址。不多說,直接看源碼,很簡單

運(yùn)行后,會(huì)發(fā)現(xiàn)剛才咱們在瀏覽器查看的源代碼被打印出來了。

2. python項(xiàng)目實(shí)戰(zhàn),提取出圖片鏈接

怎么從一大堆字符里提取出關(guān)鍵的美女圖片鏈接呢?答案是使用正則表達(dá)式,關(guān)于正則表達(dá)式,可以參考:

python基礎(chǔ),什么是正則表達(dá)式,正則表達(dá)式的使用

使用正則表達(dá)式的第一步是找出鏈接的規(guī)律,它在哪些位置出現(xiàn)。這里粗略的試一下:

運(yùn)行實(shí)戰(zhàn)項(xiàng)目的 python 網(wǎng)絡(luò)爬蟲腳本,發(fā)現(xiàn)我們成功了,得到了一系列的圖片地址:

3. python實(shí)戰(zhàn)項(xiàng)目,下載圖片

得到了圖片的鏈接后,咱們怎么把它們存下來呢?答案就是,再模擬瀏覽器訪問一次圖片鏈接,然后把獲得的數(shù)據(jù)寫到文件即可。咱們直接上代碼:

在執(zhí)行代碼前,先創(chuàng)建一個(gè)文件夾 pic 用來存圖片,然后執(zhí)行實(shí)戰(zhàn)項(xiàng)目python腳本,得到

成功了!

4. python實(shí)戰(zhàn)項(xiàng)目,篩選圖片

可以看到,雖然圖片被爬取下來了,但并不是完美的,因?yàn)楣帜幸脖幌螺d下來了。怎么篩選呢?實(shí)際上,可以參考我們前面的博客:

python實(shí)戰(zhàn)小項(xiàng)目,人臉檢測,讓電腦對你的顏值打分

咱們只下載 female(女),顏值大于 55 分的,代碼如下:

代碼頭條展示有點(diǎn)亂,可以點(diǎn)擊文章結(jié)尾處的“了解更多”。

運(yùn)行實(shí)戰(zhàn)項(xiàng)目python腳本,得到結(jié)果如下:

可以看出,怪男被剔除了,下載的基本都是顏值較高的美女圖片,這樣我們就完成了實(shí)戰(zhàn)項(xiàng)目,python 人工智能爬蟲 — 選擇性的爬取圖片。

1.《關(guān)于人工美女手機(jī)怎么下載,你需要知道這些python制作爬蟲下載美女圖片,人工智能篩選顏值高的保存下來》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《關(guān)于人工美女手機(jī)怎么下載,你需要知道這些python制作爬蟲下載美女圖片,人工智能篩選顏值高的保存下來》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進(jìn)行證實(shí),對其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。

3.文章轉(zhuǎn)載時(shí)請保留本站內(nèi)容來源地址,http://f99ss.com/gl/3094138.html