當前位置：首頁 > 教育學習

工作搜索什么是搜索引擎？網(wǎng)絡搜索引擎是怎么工作的？

2021-05-21 13:10:51 教育學習

搜索引擎是指通過特定的計算機程序，按照一定的策略，從互聯(lián)網(wǎng)上收集信息，對信息進行組織和處理后，為用戶提供檢索服務，并將用戶檢索到的相關信息顯示給用戶的系統(tǒng)。

搜索引擎工作原理總分為三步

爬行和爬行:搜索引擎蜘蛛通過跟蹤鏈接訪問頁面，獲取頁面的HTML代碼并存儲在數(shù)據(jù)庫中。

預處理:索引程序對抓取的頁面數(shù)據(jù)進行文本提取、中文分詞、索引等處理，供排名程序調用。

排名:用戶輸入關鍵點后，排名程序調用索引數(shù)據(jù)庫數(shù)據(jù)，計算相關性，然后生成一定格式的搜索結果頁面。

轉到stopword

有些經(jīng)常出現(xiàn)但對內容沒有影響的詞叫stopword。

消除噪聲

去噪:根據(jù)HTML標簽將頁面分塊，區(qū)分頁眉、導航體、頁腳、廣告等區(qū)域。網(wǎng)站上大量重復的區(qū)塊往往屬于噪音。去噪后的頁面，剩下的就是頁面的主要內容了。

去重:從頁面的主題內容中選取一些最有代表性的關鍵詞，計算這些關鍵詞的數(shù)字指紋。這里的關鍵詞是經(jīng)過分詞、停用詞去除、去噪后選擇的。

遠期指數(shù)

根據(jù)分詞程序劃分的詞，將頁面轉換成一組關鍵詞，記錄每個關鍵詞在頁面上出現(xiàn)的頻率、頻率、格式和位置。

倒排索引

搜索引擎將從文件到關鍵字的映射轉換為從關鍵字到文件的映射。當用戶搜索關鍵字時，排序程序在倒排索引中定位該關鍵字，并且可以立即找出包含該關鍵字的所有文件

鏈接關系計算

搜索引擎抓取頁面內容后必須提前計算:頁面上哪些鏈接指向其他頁面，每個頁面上哪些導入鏈接，鏈接使用什么描述文本。這些復雜的鏈接指向關系構成了網(wǎng)站和頁面的權重。

特殊文件處理

除了處理HTML文件，搜索引擎通常還可以抓取和索引各種基于文本的文件類型，比如PDF、Word、WPS、XLS、PPT、TXT文件等。但是目前的搜索引擎遠遠沒有讀取圖片、視頻、Flash等非文本內容，無法執(zhí)行腳本內容和程序。

1.《工作搜索什么是搜索引擎？網(wǎng)絡搜索引擎是怎么工作的？》援引自互聯(lián)網(wǎng)，旨在傳遞更多網(wǎng)絡信息知識，僅代表作者本人觀點，與本網(wǎng)站無關，侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《工作搜索什么是搜索引擎？網(wǎng)絡搜索引擎是怎么工作的？》僅供讀者參考，本網(wǎng)站未對該內容進行證實，對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。

3.文章轉載時請保留本站內容來源地址，http://f99ss.com/jiaoyu/1697238.html

丝袜人妻一区二区三区_少妇福利无码视频_亚洲理论片在线观看_一级毛片国产A级片