- 相關(guān)推薦
網(wǎng)絡(luò)信息資源組織研究進展
【內(nèi)容提要】主要從用于組織網(wǎng)絡(luò)信息資源的搜索引擎、虛擬圖書館、文獻分類法、主題法、窗口方式等方面全面總結(jié)與回顧20世紀90年代以來網(wǎng)絡(luò)信息資源組織的理論與實踐。【摘要題】信息資源建設(shè)
【關(guān)鍵詞】網(wǎng)絡(luò)信息資源組織/網(wǎng)絡(luò)信息資源整序/研究進展
筆者通過普查大量國內(nèi)外期刊論文及有關(guān)出版物、分析相關(guān)網(wǎng)站,進而總結(jié)與回顧20世紀90年代以來網(wǎng)絡(luò)信息資源組織的理論與實踐,以期有助于優(yōu)化其網(wǎng)絡(luò)信息資源組織與揭示方法,促進該領(lǐng)域研究的蓬勃開展。本文著重總結(jié)網(wǎng)絡(luò)信息資源組織的研究進展,有關(guān)其揭示方法將在另文總結(jié)。
1 用于組織網(wǎng)絡(luò)信息的搜索引擎方式
(1)關(guān)于搜索引擎組織方式。
對于搜索引擎而言,網(wǎng)絡(luò)信息組織采用主題樹和數(shù)據(jù)庫兩種方式,也有稱使用語詞組織知識和使用分類法組織知識。所謂主題樹組織方式,就是將信息資源按照某種事先確定的概念體系,分門別類地逐層加以組織,用戶通過瀏覽的方式層層遍歷,直到找到所需的信息線索,再通過信息線索聯(lián)接到相應(yīng)的網(wǎng)絡(luò)信息資源,F(xiàn)有的提供目錄分類式(或稱主題指南、列表瀏覽)查詢功能的搜索引擎就采用這種方法組織信息。而數(shù)據(jù)庫組織方式,就是將所有已獲得的網(wǎng)絡(luò)信息資源以固定的記錄格式存儲,用戶通過關(guān)鍵詞及其組配查詢,就可找到所需要的信息線索(即相關(guān)站點鏈接),并通過信息線索直接連接到相應(yīng)的網(wǎng)絡(luò)信息資源。
。2)關(guān)于搜索引擎的比較研究。
、偎阉饕娴男阅鼙容^研究。早期研究大量集中在概要性介紹方面。殷雪松、徐斌分別介紹了12個大陸地區(qū)的中文搜索引擎網(wǎng)易、天網(wǎng)、華好網(wǎng)景、搜狐、四通方利、常青藤、北極星、悠游、搜索客、司南、我是野虎、若比鄰等,港臺地區(qū)茉莉之窗、哇塞、蕃薯藤等和5個國外的中文搜索引擎Yahoo雅虎中文、AltaVista(中文版)、Globepage(中文版)、華頁指南、中文查尋。
王忠、周士波分別介紹了獨立搜索引擎Altavista、Hotbot、Infoseek、Excite、Webcrawler、元搜索引擎Cyber411、Dogpile、Highway61、InferenceFind、Mamma、Profusion、Savvysearch、All4one和網(wǎng)絡(luò)英文搜索引擎Webcompass、Copernic98,并對6種主要搜索引擎的基本查尋、高級查尋、限定查尋、結(jié)果排序、結(jié)果輸出等檢索性能進行比較分析。
隨著研究的不斷深入,研究重點轉(zhuǎn)入到了搜索引擎性能的比較上。孫麗等選取了北極星、常青藤、搜狐、中經(jīng)網(wǎng)信息導(dǎo)航、網(wǎng)現(xiàn)引擎5個中文搜索引擎,從數(shù)據(jù)庫類型、規(guī)模、庫更新頻率、抓取方式、日抓取頁面數(shù)、抓取深度、<Meta>tag、顯示方式、信息排序依據(jù)、信息描述質(zhì)量、界面友好程度、用戶歡迎程度等分析它們的優(yōu)劣。徐建華等從數(shù)據(jù)庫規(guī)模、信息采集方式、標引內(nèi)容、檢索功能、結(jié)果顯示格式、結(jié)果排序規(guī)則、數(shù)據(jù)庫更新頻率等7個方面對Altavista、Excite、Go、Hotbot、Lycos、Yahoo這6個搜索引擎逐一進行分析。
張燕,惠佳穎就10個檢索提問,從檢索功能(布爾檢索、鄰近檢索、截詞檢索等)、查準率、用戶負擔(dān)、輸出方式對搜索引擎Google和AskJeeves進行詳細比較,測試結(jié)果顯示Google在查準率以及輸出方式上明顯優(yōu)于AskJeeves,在檢索功能及用戶負擔(dān)上兩者各有特色。
、陉P(guān)于搜索引擎的質(zhì)量評價指標。搜索引擎評價指標多種多樣。1973年Lancaster和Fayen提出了6條關(guān)于信息檢索系統(tǒng)效果評價指標:即覆蓋范圍、查全率、查準率、響應(yīng)時間、用戶負擔(dān)及檢索結(jié)果輸出格式。這一評價指標影響甚廣,許多學(xué)者在其基礎(chǔ)上進行細化與擴充,提出搜索引擎質(zhì)量評價標準。
儲荷婷提出5條標準:A.索引構(gòu)成(取決于標引數(shù)量、標引范圍、索引詞抽取法和索引更新頻率);B.檢索功能;C.檢索效果(由查全率、查準率和檢索時間衡量);D.檢索結(jié)果顯示(顯示內(nèi)容、顯示數(shù)量以及是否按相關(guān)性排序);E.用戶所需努力(從用戶界面和幫助介紹材料)。
孫麗等提出的評價體系:A.數(shù)據(jù)庫指標(數(shù)據(jù)庫大小、類型、更新頻率和信息抓取方式等);B.檢索結(jié)果輸出格式;C.檢索性能完善程度(類目檢索、關(guān)鍵詞檢索、短語檢索、截詞檢索、布爾檢索、概念檢索、自然語言檢索、指定字段檢索、包含或排除檢索等);D.響應(yīng)時間;E.查全率;F.查準率;G.用戶負擔(dān)。
曾民族提出評價指標:A.數(shù)據(jù)庫規(guī)模和內(nèi)容(覆蓋范圍、索引組成、更新周期);B.索引方法(自動索引、人工索引、用戶登錄);C.檢索功能(布爾查找、復(fù)雜布爾操作、相鄰或相鄰查詢、截詞查找、字段查找、概念檢索、詞語加權(quán)、詞語限定、中斷退出、上下文關(guān)鍵詞等);D.檢索結(jié)果(相關(guān)性排序、顯示內(nèi)容、輸出數(shù)量選擇、顯示格式選擇);E.用戶界面(幫助文件、數(shù)據(jù)庫和檢索功能說明、查詢舉例);G.查準率及響應(yīng)時間。
曹東等從檢準率和檢全率出發(fā),提出搜索引擎的評價指標:A.收集網(wǎng)絡(luò)站點數(shù)目的廣泛性;B.搜索結(jié)果的滿意度;C.數(shù)據(jù)庫更新的頻度和時效性;D.使用的便利性;E.目錄設(shè)置的合理性和分類的深度及廣度;G.內(nèi)碼轉(zhuǎn)換的準確性。
賀亞鋒就7個有代表性的主題進行測試,提出的評估準則有:A.命中率——查詢主題的網(wǎng)頁反應(yīng);B.檢準率——首10個網(wǎng)頁中切合主題的網(wǎng)頁數(shù)目的比率;C.重復(fù)出現(xiàn)率——首10個網(wǎng)頁中重復(fù)網(wǎng)頁數(shù)目的比率(鏡象點除外);D.不切題比率——相對于檢準率。
尚克聰、楊立英提出的評價指標體系:A.數(shù)據(jù)庫(從收錄范圍的明確性、收錄相關(guān)內(nèi)容的全面性及更新速度評價);B.檢索軟件,從智能化程度(由人—機接口、檢索過程、檢索結(jié)果輸出、檢索結(jié)果的反饋等指標衡量)、提供相關(guān)鏈接的程度、響應(yīng)時間、提供各種檢索途徑;C.檢索效率(綜合使用查準率和查全率考察)。
黃如花提出的評價指標:A.收錄范圍(地域范圍、語言范圍、資源類型范圍、專業(yè)范圍);B.分類(分類方式、分類級次、交叉顯示、類名是否規(guī)范、各類的內(nèi)容說明);C.檢索功能與效果(完善的檢索手段、范圍限制的功能、滿足網(wǎng)上動態(tài)信息檢索的要求、對檢索結(jié)果的處理等,查準率、查全率、搜索條件頻率、響應(yīng)速度);D.結(jié)果處理;E.頁面組織;F.其它功能與服務(wù)。
可見,數(shù)據(jù)庫、檢索功能、查準率、用戶負擔(dān)和檢索結(jié)果輸出方式是目前評價搜索引擎較普遍采用的基本指標。
。3)搜索引擎分類體系研究。
目前,一些大型搜索引擎普遍建立了指南型分類系統(tǒng),對其分類體系進行研究逐步受到重視。陳樹年在《搜索引擎及網(wǎng)絡(luò)信息資源的分類組織》一文論述了綜合性搜索引擎具備的功能;對網(wǎng)絡(luò)信息進行組織使用的語言;網(wǎng)絡(luò)信息的組織模式;
【網(wǎng)絡(luò)信息資源組織研究進展】相關(guān)文章:
網(wǎng)絡(luò)信息資源的組織原則研究--對DC元數(shù)據(jù)的探討03-02
基于Blog的動態(tài)信息資源組織03-18
網(wǎng)絡(luò)信息資源的開發(fā)與利用03-29
淺談網(wǎng)絡(luò)信息資源的整合問題研究03-05
探析網(wǎng)絡(luò)信息資源編目面臨的問題及對策03-27
網(wǎng)絡(luò)信息組織對傳統(tǒng)信息組織的借鑒03-18
網(wǎng)絡(luò)信息組織對傳統(tǒng)信息組織的鑒戒12-07