百度里的蜘蛛是不是越多越好?其實(shí)不一定。這要看是什么樣的蜘蛛到達(dá)了我們的網(wǎng)站。今天SEO百科帶來(lái)“什么是百度蜘蛛?百度搜索引擎蜘蛛解釋-什么是搜索引擎。希望對(duì)大家有幫助。
2.9.1什么是百度蜘蛛
百度蜘蛛(Baidu spider),全稱應(yīng)該是“百度搜索引擎蜘蛛”,英文是“Baidu Spider”,是百度搜索引擎系統(tǒng)中的自動(dòng)程序,主要負(fù)責(zé)訪問(wèn)和收集互聯(lián)網(wǎng)上的頁(yè)面。以后其他程序會(huì)整理建立索引數(shù)據(jù)庫(kù)。用戶在百度搜索時(shí),會(huì)調(diào)用索引數(shù)據(jù)庫(kù)中的數(shù)據(jù),呈現(xiàn)程序認(rèn)為最合適的排名結(jié)果頁(yè)面。
2.9.2百度蜘蛛的工作原理
1)百度蜘蛛是如何爬行的
百度搜索引擎蜘蛛訪問(wèn)(抓取)網(wǎng)站頁(yè)面的方式與我們通常使用的瀏覽器相同。
一、百度蜘蛛請(qǐng)求
百度搜索引擎蜘蛛發(fā)送頁(yè)面訪問(wèn)請(qǐng)求。
B.服務(wù)器響應(yīng)
服務(wù)器返回HTML代碼。
百度蜘蛛保存代碼
百度搜索引擎蜘蛛將收到的代碼保存到原頁(yè)面數(shù)據(jù)庫(kù)。后期其他程序會(huì)進(jìn)行復(fù)雜的操作,大部分高質(zhì)量的內(nèi)容會(huì)放入索引數(shù)據(jù)庫(kù),部分低質(zhì)量的內(nèi)容會(huì)被忽略。
2)百度蜘蛛是如何工作的
百度搜索引擎蜘蛛為了提高爬行和爬行的效率,使用多個(gè)蜘蛛并行爬行。有兩種策略。
一、深度優(yōu)先
深度優(yōu)先是沿著鏈接爬行,直到前面沒(méi)有其他鏈接,然后返回第一頁(yè),繼續(xù)沿著另一個(gè)鏈接爬行。
b、廣度優(yōu)先
廣度優(yōu)先是指先抓取當(dāng)前頁(yè)面上的所有導(dǎo)出鏈接,再抓取某個(gè)導(dǎo)出鏈接頁(yè)面上的所有鏈接。
3)百度蜘蛛還做了什么
對(duì)網(wǎng)站上復(fù)制內(nèi)容的深度優(yōu)先檢測(cè)
對(duì)于一些權(quán)重較低的網(wǎng)站,如果復(fù)制內(nèi)容過(guò)多,搜索引擎蜘蛛可能不會(huì)繼續(xù)爬行。
不要在地址庫(kù)中抓取和抓取網(wǎng)址
百度搜索引擎建立地址庫(kù)。如果網(wǎng)址已經(jīng)在地址庫(kù)中,百度搜索引擎蜘蛛不會(huì)重復(fù)抓取和爬取。所以百度蜘蛛不會(huì)在發(fā)現(xiàn)鏈接后馬上訪問(wèn),而是先把URL存儲(chǔ)在地址庫(kù)中,然后統(tǒng)一安排抓取。
4)通常,地址庫(kù)的網(wǎng)址有幾個(gè)來(lái)源
一、百度搜索引擎蜘蛛爬行
主要來(lái)源之一。
網(wǎng)站管理員提交的網(wǎng)站地圖
網(wǎng)站管理員通常會(huì)將網(wǎng)站的XML地圖提交給搜索引擎,其中包含網(wǎng)站的所有鏈接。
C.網(wǎng)站管理員提交網(wǎng)站地址
站長(zhǎng)可以提交百度不收錄的網(wǎng)站首頁(yè)或內(nèi)容頁(yè)面。
D.百度工作人員積極進(jìn)入種子網(wǎng)站
百度搜索引擎會(huì)主動(dòng)手動(dòng)輸入更重要更有前景的網(wǎng)站。
2.9.3如何讓百度蜘蛛天天爬
秒包容是每一個(gè)站長(zhǎng)的心愿。在秒內(nèi)做到真的很難,但是現(xiàn)在有了百度熊掌,原創(chuàng)的高質(zhì)量文章幾乎可以在秒內(nèi)收錄,但是官方聲明是一小時(shí)內(nèi)收錄。除了百度熊掌,還有幾個(gè)點(diǎn)可以吸引百度蜘蛛天天爬我們的網(wǎng)站。
1)頁(yè)面更新頻率
網(wǎng)站更新文章的頻率越高越好,前提是保證文章質(zhì)量和原創(chuàng)比例。
2)導(dǎo)入鏈接
網(wǎng)站導(dǎo)入鏈接越多越好,前提是可以使用高質(zhì)量的導(dǎo)入鏈接、朋友鏈、單向外鏈。
3)URL結(jié)構(gòu)
URL結(jié)構(gòu)應(yīng)該是平面的。如果比較淺,錄音效果會(huì)更好。
4)網(wǎng)站權(quán)重
網(wǎng)站權(quán)重越高,蜘蛛訪問(wèn)越頻繁,相輔相成。
5)與主頁(yè)的距離
文章頁(yè)面離首頁(yè)不要太遠(yuǎn),比如3級(jí)。
6)頁(yè)面質(zhì)量
文章質(zhì)量一定要保證,原創(chuàng)和轉(zhuǎn)載的文章都要優(yōu)秀。
2.9.4如何查看百度蜘蛛是否來(lái)過(guò)網(wǎng)站
可以通過(guò)查看網(wǎng)站日志來(lái)分析。Windows服務(wù)器的IIS和Linux服務(wù)器的apache都有記錄網(wǎng)站日志的功能。
2.9.5如何區(qū)分百度蜘蛛
百度官方識(shí)別百度蜘蛛的方法如下。
1)檢查UA
首先,UA是正確的。百度發(fā)布的UAs如下。
移動(dòng)UA:Mozilla/5.0(Linux;u;Android 4 . 2 . 2;zh-cn;)AppleWebKit/534.46 (KHTML,likeGecko)版本/5.1 Mobile Safari/10600.6.3(兼容;baiduspider/2.0;+http://www . Baidu . com/search/spider . html)
PC UA:Mozilla/5.0(兼容;baiduspider/2.0;+http://www . Baidu . com/search/spider . html)
添加渲染UA:
移動(dòng)UA:UA:Mozilla/5.0(iPhone;CPU iPhone OS 9 _ 1 like MAC OS X)apple WebKit/601 . 1 . 46(KHTML,like Gecko)版本/9.0 Mobile/13B143Safari/601.1(兼容;baiduspider-render/2.0;+http://www . Baidu . com/search/spider . html)
PC UA:Mozilla/5.0(兼容;baiduspider-render/2.0;+http://www . Baidu . com/search/spider . html)
2)反向IP查找
通過(guò)dns對(duì)比ip就可以判斷是不是百度蜘蛛,只要不是來(lái)自“. baidu.com”或者“. baidu.jp”,就是假的百度蜘蛛。
2.9.6如何診斷百度蜘蛛能否正常抓取網(wǎng)站內(nèi)容
百度seo教程認(rèn)為很多網(wǎng)站因?yàn)槭褂肑ava代碼或者框架結(jié)構(gòu),百度蜘蛛無(wú)法抓取。這里的診斷也是為了防止蜘蛛來(lái)了網(wǎng)站后因?yàn)椴荒苷Wト《x開(kāi),導(dǎo)致網(wǎng)站收錄不佳,快照不更新等問(wèn)題。
如果診斷結(jié)果有問(wèn)題,需要糾正問(wèn)題,提高與百度蜘蛛的友情。
百度官方在線爬蟲(chóng)診斷工具,選擇網(wǎng)站(首頁(yè)或其他頁(yè)面),選擇PC UA或手機(jī)UA,最后點(diǎn)擊“爬蟲(chóng)”。
稍等片刻,刷新頁(yè)面會(huì)顯示“抓取成功”或失敗。您可以點(diǎn)擊查看“抓取成功或失敗”的詳細(xì)信息。
2.9.7如何通過(guò)百度蜘蛛IP了解網(wǎng)站狀態(tài)?
百度seo教程認(rèn)為以下內(nèi)容僅供參考。
1)爬上你網(wǎng)站的蜘蛛網(wǎng)
60.172.229.61
61.129.45.72
61.135.162.*
2)百度競(jìng)價(jià)蜘蛛
61.135.165.134
117.34.74.66
118.122.188.194
119.63.196.9
125.39.78.185
3)百度統(tǒng)計(jì)的蜘蛛
61.135.186.*
4)百度蜘蛛模仿站長(zhǎng)工具
61.147.98.146
61.188.39.16
113.98.254.245
117.21.220.245
117.28.255.42
5)百度蜘蛛,模仿外部站長(zhǎng)工具。
124.248.34.52
6)114站長(zhǎng)工具箱模仿的百度蜘蛛
119.147.114.213
121.10.141.*
7)百度圖片蜘蛛
123.15.**.**
8)抓取網(wǎng)站內(nèi)頁(yè)包含的權(quán)重較低的非原創(chuàng),需要檢查一段時(shí)間
123.125.71.*
9)站長(zhǎng)工具檢測(cè)導(dǎo)致無(wú)用
125.90.88.*
10)百度調(diào)查期間的蜘蛛或者降權(quán)的蜘蛛
159.226.50.*
180.76.5.*
180.76.5.87
220.181.158.107
11)偽裝百度蜘蛛
180.149.130.*
12)新站、站有異?,F(xiàn)象
183.91.40.144
203.208.60.*
13)不間斷地巡視每一個(gè)路過(guò)的車站。
210.72.225.*
14)沙箱或k站
123.125.68.*
218.30.118.102
220.181.68.*
15)這個(gè)ip爬的文章或者主頁(yè)肯定是24小時(shí)內(nèi)發(fā)布,一夜搶購(gòu)
220.181.108.*
16)百度蜘蛛IP已經(jīng)到了,準(zhǔn)備爬
123.125.66.*
220.181.7.*
17)度過(guò)新站檢查期
121.14.89.*
18)百度抓取首頁(yè)專用IP,網(wǎng)站首頁(yè)快照更新快,一夜更新
220.181.108.95
19)百度權(quán)重IP段,抓取的文章第二天發(fā)布,權(quán)重更高
220.181.108.92
20)綜合權(quán)重IP,抓取文章和首頁(yè),權(quán)重更高
220.181.108.91
220.181.108.75
21)抓取內(nèi)頁(yè),但權(quán)重低
123.125.71.95
123.125.71.97
123.181.108.77
123.125.71.106
22)抓取網(wǎng)站首頁(yè),也屬于權(quán)重段,權(quán)重較高。
220.181.108.89
220.181.108.94
220.181.108.97
220.181.108.80
220.181.108.77
220.181.108.83
220.181.108.86
1.《蜘蛛搜索 百度搜索引擎蜘蛛詳解》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無(wú)關(guān),侵刪請(qǐng)聯(lián)系頁(yè)腳下方聯(lián)系方式。
2.《蜘蛛搜索 百度搜索引擎蜘蛛詳解》僅供讀者參考,本網(wǎng)站未對(duì)該內(nèi)容進(jìn)行證實(shí),對(duì)其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請(qǐng)保留本站內(nèi)容來(lái)源地址,http://f99ss.com/guonei/786297.html