搜索引擎是指通過特定的計算機程序,按照一定的策略,從互聯(lián)網(wǎng)上收集信息,對信息進行組織和處理后,為用戶提供檢索服務,并將用戶檢索到的相關信息顯示給用戶的系統(tǒng)。
搜索引擎工作原理總分為三步爬行和爬行:搜索引擎蜘蛛通過跟蹤鏈接訪問頁面,獲取頁面的HTML代碼并存儲在數(shù)據(jù)庫中。
預處理:索引程序對抓取的頁面數(shù)據(jù)進行文本提取、中文分詞、索引等處理,供排名程序調用。
排名:用戶輸入關鍵點后,排名程序調用索引數(shù)據(jù)庫數(shù)據(jù),計算相關性,然后生成一定格式的搜索結果頁面。
轉到stopword
有些經(jīng)常出現(xiàn)但對內容沒有影響的詞叫stopword。
消除噪聲去噪:根據(jù)HTML標簽將頁面分塊,區(qū)分頁眉、導航體、頁腳、廣告等區(qū)域。網(wǎng)站上大量重復的區(qū)塊往往屬于噪音。去噪后的頁面,剩下的就是頁面的主要內容了。
去重:從頁面的主題內容中選取一些最有代表性的關鍵詞,計算這些關鍵詞的數(shù)字指紋。這里的關鍵詞是經(jīng)過分詞、停用詞去除、去噪后選擇的。
遠期指數(shù)
根據(jù)分詞程序劃分的詞,將頁面轉換成一組關鍵詞,記錄每個關鍵詞在頁面上出現(xiàn)的頻率、頻率、格式和位置。
倒排索引
搜索引擎將從文件到關鍵字的映射轉換為從關鍵字到文件的映射。當用戶搜索關鍵字時,排序程序在倒排索引中定位該關鍵字,并且可以立即找出包含該關鍵字的所有文件
鏈接關系計算
搜索引擎抓取頁面內容后必須提前計算:頁面上哪些鏈接指向其他頁面,每個頁面上哪些導入鏈接,鏈接使用什么描述文本。這些復雜的鏈接指向關系構成了網(wǎng)站和頁面的權重。
特殊文件處理
除了處理HTML文件,搜索引擎通常還可以抓取和索引各種基于文本的文件類型,比如PDF、Word、WPS、XLS、PPT、TXT文件等。但是目前的搜索引擎遠遠沒有讀取圖片、視頻、Flash等非文本內容,無法執(zhí)行腳本內容和程序。
1.《工作搜索 什么是搜索引擎?網(wǎng)絡搜索引擎是怎么工作的?》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡信息知識,僅代表作者本人觀點,與本網(wǎng)站無關,侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《工作搜索 什么是搜索引擎?網(wǎng)絡搜索引擎是怎么工作的?》僅供讀者參考,本網(wǎng)站未對該內容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉載時請保留本站內容來源地址,http://f99ss.com/jiaoyu/1697238.html