av日韩亚洲,一本一本a久久,亚洲一区二区三区,亚洲一区二区三区免费视频

幫忙發(fā)表論文搜索引擎日志分析方法技術(shù)應(yīng)用

來源:期刊VIP網(wǎng)所屬分類:計算機網(wǎng)絡(luò)時間:瀏覽:

  論文摘要:文章介紹了“天網(wǎng)”系統(tǒng)中的信息統(tǒng)計子系統(tǒng)。信息統(tǒng)計子系統(tǒng)是為系統(tǒng)管理人員評估系統(tǒng)性能、維護系統(tǒng)效率、更好滿足用戶的查詢要求而設(shè)計實現(xiàn)的。本文給出了信息統(tǒng)計子系統(tǒng)的總體結(jié)構(gòu),并詳細介紹了該子系統(tǒng)的兩個重要部分,數(shù)據(jù)庫信息處理和日志文件信息處理的設(shè)計目標和實現(xiàn)算法,并介紹了如何讓機器自動學習新詞。

  關(guān)鍵詞: 搜索引擎、信息統(tǒng)計、機器學習新詞

  第一章 背景介紹

  §1.1 Internet 和 WWW 的發(fā)展與現(xiàn)狀

  Internet是一個規(guī)模巨大、自治性強、發(fā)展變化快,用戶訪問頻繁的國際互聯(lián)網(wǎng)絡(luò)。

  Internet的前身是60年代末,70年代初美國國防部高級研究計劃署的實驗性網(wǎng)絡(luò)ARPANET。組建ARPANET的最初原因是當時計算機的價格非常昂貴,所以科研工作者們想通過網(wǎng)絡(luò)進行遠程計算。后來,人們才逐漸認識到它作為通訊手段的好處。1983年后,ARPANET中有關(guān)軍事的部分被隔離為MILNET。其后,1986年誕生的美國國家科學基金會NSFNET對Internet的發(fā)展起了劃時代的作用。

  90年代初到現(xiàn)在,是Internet增長最迅速的時期。1993年,Internet的增長速度是341%。截止到1996年7月,Internet已連接了134336個網(wǎng)絡(luò),入網(wǎng)主機1228萬臺,以及數(shù)以億計的用戶。Internet上的信息資源隨著Internet的發(fā)展也呈現(xiàn)出以下特點:

  ? 信息量大而且分散

  ? 自治性強

  ? 信息資源多種多樣

  ? 信息變化快

  ? 不一致和不完整性

  這些特點對網(wǎng)絡(luò)軟件的性能提出了很高的要求。

  World Wide Web(WWW)是全球性的網(wǎng)絡(luò)信息系統(tǒng)。一九八九年,位于瑞士的European Laboratory for Particle Physics(CERN)首先開始了WWW的研究工作。隨后,許多其它的研究機構(gòu)、大學和公司也加入WWW研究者的行列,并相繼開發(fā)出各自的WWW軟件。這些WWW軟件的運行平臺覆蓋了目前主流的計算機硬件和操作系統(tǒng)。在此過程中,WWW也不斷完善和發(fā)展。同時,為了保證不同WWW軟件之間的互操作性,一系列WWW協(xié)議和標準也正在使用和完善之中。

  WWW是基于超文本(Hypertext)和超媒體(Hypermedia)的分布式信息系統(tǒng)。超文本和超媒體是信息的一種組織形式,如圖1.1所示:

  在超文本文件中,包含有許多指針,這些指針被稱為超文本鏈(Hyperlink)。每一個超文本鏈都指向其它的超文本信息。這些超文本信息可能存放在同一臺計算機中,也可能存放在WWW信息系統(tǒng)的其它計算機中。讀者并不關(guān)心這些超文本信息存放在何處,如果他們想了解這些信息,他們就可以通過超文本鏈得到。超媒體是對超文本的擴展。在超媒體系統(tǒng)中,超媒體鏈可以指向任何媒體信息,包括圖象、音頻、視頻等等。超文本和超媒體為用戶進行信息檢索提供了極大的方便。

  §1.2 搜索引擎技術(shù)的發(fā)展與現(xiàn)狀

  隨著WWW的迅速發(fā)展,Internet上出現(xiàn)了WWW信息查詢服務(wù),它們通常被稱作搜索引擎。這些搜索引擎一般是預先由程序自動地在網(wǎng)上遞歸地訪問WWW頁面,將訪問的信息存入數(shù)據(jù)庫。然后將數(shù)據(jù)庫中的信息建立索引,并提供給用戶WWW的查詢界面。搜索引擎根據(jù)用戶的請求查詢數(shù)據(jù)庫,并將結(jié)果按相關(guān)程度排序后輸出給用戶。

  目前的搜索引擎大致可分為三大類:分類編目搜索引擎(Directory Search Engine)、機器人搜索引擎(Robots Search Engine)和元搜索引擎(Meta Search Engine)。分類編目搜索引擎以Yahoo公司的Yahoo!為代表,機器人搜索引擎以Digital的AltaVista、Inktomi公司的HotBot為代表, 元搜索引擎以go2net的MetaCrawler為代表。

  國外搜索引擎起步較早,功能全面,性能良好,但是它們的共同缺點是都不能很好地支持中文信息的發(fā)現(xiàn)和查詢。雖然AltaVista、Yahoo等搜索引擎在1998年上半年宣布支持中文,但在對中文信息的處理上尚存在很多不足,如不能準確切詞,不能在上下文環(huán)境中理解語義等等。

  第二章 系統(tǒng)概述

  §2.1 系統(tǒng)的總體結(jié)構(gòu)

  “天網(wǎng)(WebGather)”中英文搜索引擎系統(tǒng)是為滿足用戶對中國教育科研計算機網(wǎng)(CERNET)及INTERNET上的信息資源的檢索和查找需要而研制開發(fā)的。本系統(tǒng)的研制列入CERNET應(yīng)用系統(tǒng)課題項目,其目標是建立CERNET上能廣泛應(yīng)用的WWW資源索引與查找系統(tǒng)。它符合相關(guān)的INTERNET標準,能夠自動對WWW信息進行定向搜集,同時建立WWW資源索引數(shù)據(jù)庫,以滿足遠程WWW瀏覽器的交互式查詢請求,并將查詢的結(jié)果以HTML文件的形式返回給用戶。

  本系統(tǒng)主要由WWW信息存取和分析子系統(tǒng)、WWW信息收集控制子系統(tǒng)、NEWS收集分析子系統(tǒng)、資源索引數(shù)據(jù)庫、信息檢索子系統(tǒng)、管理和監(jiān)控子系統(tǒng)等幾個部分組成。其總體結(jié)構(gòu)如圖2.1所示。

  §2.2系統(tǒng)技術(shù)特征

  本系統(tǒng)有以下技術(shù)特征:

  1. 信息收集符合Internet的相關(guān)協(xié)議和標準。

  因為本系統(tǒng)收集的主要是Internet上的信息,所以在設(shè)計開發(fā)時把對有 關(guān)協(xié)議和標準的支持作為一個重要的目標。這些協(xié)議和標準包括:HTTP協(xié)議、MIME、HTML語言、WWW Robots標準、NNTP協(xié)議。

  2. 實用、高效的信息分析方法。

  本系統(tǒng)主要根據(jù)HTML中不同的Tag區(qū)分頁面中各個部分信息內(nèi)容在文章中的重要性和所處的位置,并結(jié)合使用中文分詞、詞頻統(tǒng)計和一定的自然語言理解技術(shù),智能化地提取該頁面的關(guān)鍵詞和摘要。

主站蜘蛛池模板: 芷江| 阿坝| 高陵县| 鄢陵县| 庄河市| 河东区| 保靖县| 望城县| 马山县| 文昌市| 漳州市| 漳平市| 百色市| 滁州市| 山东| 封丘县| 叶城县| 福建省| 昭通市| 吉林省| 宜春市| 绥芬河市| 山东省| 甘洛县| 旅游| 揭阳市| 衡山县| 永年县| 青岛市| 叙永县| 永顺县| 石台县| 遵化市| 哈尔滨市| 宁强县| 察哈| 静乐县| 巴彦县| 虞城县| 青田县| 项城市|