這是一個收集程序,無需登錄即可根據(jù)企業(yè)名稱搜索和抓取企業(yè)頁面數(shù)據(jù)
注意:這是一個比較簡單的爬蟲,基本上只使用代理,不使用其他反爬技術。但是由于爬取的數(shù)據(jù)量較大,適合刷分析技能的熟練度,高手不宜入
Python版本:python2.7
編碼工具:pycharm
數(shù)據(jù)存儲:mysql
爬行動物結(jié)構:寬爬行動物
爬蟲思維:
先獲取需要采集信息的公司:從數(shù)據(jù)庫中獲取獲取字段:etid,etname將獲取的數(shù)據(jù)存儲的狀態(tài)表中從狀態(tài)表中獲取數(shù)據(jù),并更新狀態(tài)表拼接初始URL:將etname和初始url進行拼接,獲得初始網(wǎng)址將初始url放到一個列表中,獲取HTML的時候如何出錯,將出錯的url放到另一個列表中,進行循環(huán)獲取請求解析初始一級頁面:驗證查詢的公司是否正確(??)獲取二級頁面url將二級url放到一個列表中,獲取HTML的時候如何出錯,將出錯的url放到另一個列表中,進行循環(huán)獲取請求解析二級頁面:獲取的信息待定將公司的信息存儲到數(shù)據(jù)庫中:建表存儲信息身為老司機,還是得分享些干貨精品學習資料的,推薦下小編創(chuàng)建的Python學習交流群556370268,送給每一位小伙伴,這里是小白聚集地,每天還會直播和大家交流分享經(jīng)驗哦,歡迎初學和進階中的小伙伴。
表格已創(chuàng)建:
企業(yè)主要信息: et_host_info工商信息: et_busi_info分支機構信息: et_branch_office軟件著作權信息: et_container_copyright_info網(wǎng)站備案信息: et_conrainer_icp_info對外投資信息: et_foreign_investment_info融資信息: et_rongzi_info股東信息: et_stareholder_info商標信息: et_trademark_info微信公眾號信息:et_wechat_list_info狀態(tài)表: et_name_status
看看一些結(jié)果:
1.《天眼查官網(wǎng) 這是一個爬蟲—爬取天眼查網(wǎng)站的企業(yè)信息》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡信息知識,僅代表作者本人觀點,與本網(wǎng)站無關,侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《天眼查官網(wǎng) 這是一個爬蟲—爬取天眼查網(wǎng)站的企業(yè)信息》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉(zhuǎn)載時請保留本站內(nèi)容來源地址,http://f99ss.com/keji/1174255.html