av日韩亚洲,一本一本a久久,亚洲一区二区三区,亚洲一区二区三区免费视频

對搜索引擎進行分類以及其特點分析

來源:期刊VIP網所屬分類:計算機網絡時間:瀏覽:

  [摘要]基于爬蟲(也叫Spider)的搜索引擎利用一個稱為Spider的程序自動訪問Web站點,提取站點上的網頁,并根據網頁中的鏈接進一步提取其它網頁或轉移到其它站點上。Robot搜集的網頁被加入到搜索引擎的數據庫中供用戶查詢使用。基于Spider的搜索引擎山三個主要部分構成Spider, Index和搜索軟件。

  [關鍵詞]搜索引擎,分類,爬蟲,元搜索引擎

  目前Internet上的搜索引擎按其工作方式主要可分為三種,分別是爬蟲式的搜索引擎(Spider Based Search Engine),目錄搜索引擎(Search Directory)和元搜索引擎(Meta Search Engine)。

  一、爬蟲式的搜索引擎

  爬蟲從一個事先制定好的URLs列表出發,這個列表中的URLs通常是從以往訪問記錄中提取出來的,特別是一些熱門站點和“What's New”網頁,從Usenet等地方檢索得到的URLs也常被用作起始URLs,很多搜索引擎還接受用戶提交的URLs,這些URLs也會被安排在列表中供爬蟲問列表中,如此遞歸地訪問Web。

  爬蟲作為一個程序,可以用C, Perl, Java等語言來編寫,可以運行在Unix, Solaris, Windows, NT, OS2和MAC等平臺上。爬蟲設計是否合理將直接影響它訪問Web的效率,影響搜索數據庫的質量,另外在設計爬蟲時還必須考慮它對網絡和被訪問站點的影響,因為爬蟲一般都運行在速度快,帶寬高的主機上,如果它快速訪問一個速度比較慢的目標站點,就有可能會導致該站點出現阻塞甚至當機。Robot還應遵守一些協議,以便被訪問站點的管理員能夠確定哪些內容能被訪問,哪些不能。Index是一個龐大的數據庫,爬蟲提取的網頁將被放入到Index中以便建立索引,不同的搜索引擎會采取不同方式來建立索引,有的對整個HTML文件的所有單詞都建立索引,有的只分析HTML文件的標題或前幾段內容,還有的能處理HTML文件中的META標記或其它小可見的特殊標記。當用戶查詢一個關鍵詞時,搜索軟件將搜索Index,找出所有與關鍵詞相符合的網頁,有時候這些網頁可能有成千上萬,等級值的用途就是作為一種排序的依據,搜索軟件將按照等級值從高到低的順序把搜索結果送回到用戶的瀏覽器中。

  這類搜索引擎因為依靠程序搜集數據,所以其數據庫相當龐大,搜索的結果查全率較高,但查準率較低。例如著名的搜索引擎Google, Baidu,A1taVista, InfoSeek等。

  二、目錄搜索引擎

  目錄搜索引擎的數據庫是依靠專職編輯或志愿人員建立起來的,這些編輯人員在訪問了某個Web站點后撰寫一段對該站點的描述,并根據站點的內容和性質將其歸為一個預先分好的類別,把站點的URL和描述放在這個類別中,當用戶查詢某個關鍵詞時,搜索軟件只在這些描述中進行搜索。很多目錄也接受用戶提交的網站和描述,當目錄的編輯人員認可該網站及描述后,就會將之添加到合適的類別中。目錄的結構為樹形結構,首頁提供了最基本的幾個大類的入口,用戶可以一級一級地向下訪問,直至找到自己感興趣的類別,另外,用戶也可以利用目錄提供的搜索功能直接查找一個關鍵詞。不過,由于目錄式搜索引擎只在保存了對站點的描述中進行搜索,因此站點本身的動態變化不會反映到搜索結果中來,這也是目錄式搜索引擎與基于Robot的搜索引擎之間的一大區別。

  三、元搜索引擎

  元搜索引擎也叫做Multiple Search Engine,元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,將結果進行相關處理,以整體統一的格式反饋給用戶。它的特點是本身并沒有存放網頁信息的數據庫。嚴格意義上來講,元搜索引擎只能算是一種用戶代理,而不是真正的搜索引擎。多數元搜索引擎在處理其它的搜索引擎返回結果時,只提取出每個搜索引擎的結果中考前的條目,然后將這些條目合并在一起返回給用戶,因此最后結果的數量可能會遠少于直接在一個搜索引擎上進行查找所得到的數量。

  元搜索引擎實現起比較簡單,但是它也有一定的局限性,例如多數元搜索引擎都只能訪問少數幾個搜索引擎,并且通常不支持這些搜索引擎的高級搜索功能,在處理邏輯查詢時也常'常會出現錯誤。著名的元搜索引擎有InfoSpace,Dogpile,Vivisimo等(元搜索引擎列表)。在搜索結果排列方面,有的直接按來源引擎排列搜索結果,如Dogpile,有的則按自定的規則將結果重新排列組合,如Vivisimo。

  在這幾中檢索工具中,目錄式搜索引擎雖有成本高,信息t少的缺點,但它的信息準確這一優點是另二者所無法比擬的,故在一定的領域,一定的時間,它仍會被使用:機器人搜索引擎是當前各種搜索引擎的主流;但隨著網絡信息量的不斷增加,單一的搜索引擎已經難已滿足其要求,結合目錄式搜索引擎,機器人搜索引擎的優勢,以元搜索引擎核心的多層代理搜索引擎是搜索引擎的發展方向。

  搜索引擎技術從出現至今已獲得了飛速的發展,現在的搜索引擎功能越來越強大,提供的服務也越來越全面,它們的目標不僅僅是提供單純的查詢功能,而是把自己發展成為用戶首選的Internet入口站點。目前的搜索引擎主要有以下幾個主要特點:

  1.多樣化和個性化的服務。現在絕大多數搜索引擎都提供多樣化的服務,以吸引更多的用戶,商業搜索引擎尤其注重這一點。以Yahoo為例,用戶可以從它的首頁中查看新聞,金融證券,天氣預報等信息,還可以進行網上購物,拍賣或者使用Email等服務。可以說多樣化和個性化的服務既滿足了用戶更多的需求,也為搜索引擎網站帶來了更多的利潤。

  2.強大的查詢功能。與最早的搜索引擎相比,現在的搜索引擎在查詢功能方面已有了很大的改進。除了簡單的AND,OR和NOT邏輯外,不少搜索引擎還支持相似查詢,例如AltaVista,Lycos等支持短語查詢,AltaVista的高級搜索功能支持NEAR邏輯等。

  3.目錄和基于Robot的搜索引擎相互結合。目錄和基于Robot的搜索引擎都具有自己的特點,在當前的技術條件下,最好的選擇是將兩種技術進行結合,同時為用戶提供這兩種類型的服務。以Yahoo為例,用戶既可以進行分類網站查詢也可以進行全部網頁查詢,這兩種不同的查詢方式很好的滿足了不同用戶的需求。雖然搜索引擎已經為用戶提供了快捷和便利的服務,但是也存在著許多問題和不足。特別是在系統的穩定性,速度,易用性和返回的信息量及相關度方面還與人們的要求存在著一定的差距,搜索引擎技術的發展任重而道遠。

  參考文獻:

  [1]劉建國.搜索引擎概述.北京大學計算機與科學技術,1999,(10):200.

  [2]李曉明,劉建國.搜索引擎技術及趨勢.大學圖書館學報.2000,(16).

主站蜘蛛池模板: 万荣县| 连南| 武夷山市| 筠连县| 武宣县| 马龙县| 西峡县| 中阳县| 抚宁县| 延庆县| 新民市| 剑川县| 绥阳县| 如东县| 黄石市| 宕昌县| 绥阳县| 陇西县| 临泉县| 正安县| 景宁| 勃利县| 鹤壁市| 襄城县| 牡丹江市| 吉水县| 广丰县| 满洲里市| 微博| 建始县| 赤峰市| 宣威市| 云南省| 巫山县| 江西省| 平利县| 樟树市| 金华市| 崇左市| 龙门县| 中阳县|