- 相關(guān)推薦
談?wù)撘姆治龇椒ǖ木W(wǎng)絡(luò)化發(fā)展和應(yīng)用
[論文關(guān)鍵詞]引文分析網(wǎng)絡(luò)信息計量網(wǎng)絡(luò)鏈接分析
[論文摘要]引文分析是傳統(tǒng)文獻(xiàn)計量學(xué)和科學(xué)計量學(xué)的一種獨(dú)特研究方法。主要從網(wǎng)絡(luò)鏈接分析研究、基于網(wǎng)頁鏈接分析的搜索引擎排序算法研制和新型網(wǎng)絡(luò)引文索引工具的編制等方面,分析論述引文分析方法在網(wǎng)絡(luò)下的發(fā)展和應(yīng)用,以期形成對引文分析方法及其價值的合理認(rèn)知和評價。
1、引 言
所謂“引文分析(Citation Analysis)”,是指利用各種和學(xué)的方法,以及比較、歸納、抽象、概括等方法,對學(xué)術(shù)期刊、論文、著者等各種對象的引用與被引用現(xiàn)象進(jìn)行分析研究,以便揭示其數(shù)量分布特征和內(nèi)在關(guān)聯(lián)規(guī)律的一種文獻(xiàn)計量研究方法。
追溯引文分析思想的淵源,最初的相關(guān)活動都出現(xiàn)在領(lǐng)域。特別是1873年美國出版的專供查閱判例的檢索工具——“Shepard’s Citations”,對后來引文分析工具的研制產(chǎn)生了直接而重要的影響。1927年,美國的Gross夫婦對化學(xué)專業(yè)期刊論文的參考文獻(xiàn)進(jìn)行統(tǒng)計分析,得出了化學(xué)方面的核心期刊表,成為文獻(xiàn)工作中的第一次引文分析實(shí)踐。1961年,E,Garfield經(jīng)過多年思考和苦心鉆研,開始編制并出版“Science Citation Index(簡稱SCI)”,為期刊文獻(xiàn)引文分析研究活動的廣泛開展提供了強(qiáng)有力的工具保障和數(shù)據(jù)來源。隨后,Social Science Citation Index(簡稱SSCI)(1973年)、Arts&Humanities Citation Index(簡稱A&HCI)(1978年)、Journal Citation Reports(簡稱JcR)(1975年)、Essential Science Indicators(簡稱ESI)(2001年)等系列工具的不斷問世,更極大地促進(jìn)了引文分析研究活動的大規(guī)模開展。
作為傳統(tǒng)文獻(xiàn)計量學(xué)和科學(xué)計量學(xué)中一種獨(dú)具特色的研究方法,自20世紀(jì)60年代以后,引文分析方法逐漸發(fā)展成熟,并形成比較完備的研究體系,在指標(biāo)設(shè)置、工具開發(fā)和應(yīng)用實(shí)踐等方面也都取得了豐碩成果。1997年,丹麥學(xué)者T.C.Almind和P.Ingwersen首次提出“網(wǎng)絡(luò)信息計量學(xué)(Webometfics)”這一概念。隨后各種面向網(wǎng)絡(luò)信息的計量分析研究活動迅速展開,引文分析的思想和方法在新興的網(wǎng)絡(luò)信息計量學(xué)領(lǐng)域獲得了進(jìn)一步的發(fā)展,并取得了一系列新的理論和應(yīng)用進(jìn)展。本文嘗試從3個不同方面對引文分析方法的網(wǎng)絡(luò)化拓展及應(yīng)用進(jìn)行分析和論述。
2、新研究領(lǐng)域的開拓——網(wǎng)絡(luò)鏈接分析
網(wǎng)絡(luò)鏈接不僅是互聯(lián)網(wǎng)的基本構(gòu)成要素,也是其最顯著的特征。由于網(wǎng)絡(luò)鏈接關(guān)系普遍存在于網(wǎng)站與網(wǎng)站、網(wǎng)站與網(wǎng)頁、網(wǎng)頁與網(wǎng)頁等之間,它們與傳統(tǒng)學(xué)術(shù)期刊文獻(xiàn)之間的引用關(guān)系具有一種天然的相似性,于是,研究人員便從這種天然的相似性出發(fā),將引文分析方法廣泛應(yīng)用在網(wǎng)絡(luò)信息計量研究中,并由此開創(chuàng)、形成了網(wǎng)絡(luò)信息計量學(xué)的一個特色研究領(lǐng)域——網(wǎng)絡(luò)鏈接分析(Web link analysis)。
10年來的研究實(shí)踐證明,在成功借鑒引文分析方法的一系列基本思想、概念、指標(biāo)等基礎(chǔ)上,網(wǎng)絡(luò)鏈接分析已成為促進(jìn)網(wǎng)絡(luò)信息計量學(xué)不斷深入發(fā)展的重要動力。目前,國內(nèi)外大量的網(wǎng)絡(luò)鏈接分析研究活動,都帶有鮮明的“引文分析”烙印。
首先從計量指標(biāo)的設(shè)計和使用上來看。早在1996年,美國員G.Mckieman就根據(jù)引文分析中“citation”概念的含義,提出使用“sition”一詞來描述網(wǎng)站(site)之間相互鏈接的行為,即sitation=citedsites。此后,“sitation”一詞逐漸在研究同行中得到使用。1998年,P.Ingwemen受引文分析中“期刊影響因子”概念的啟發(fā),提出了“網(wǎng)絡(luò)影響因子(Web ImpactFactor)”的概念,用它來分析一定時期內(nèi)某特定網(wǎng)站或網(wǎng)頁的平均鏈接強(qiáng)度,并以此來評價網(wǎng)站在網(wǎng)絡(luò)中的影響力。隨后,以“文獻(xiàn)耦合”、“共引”、“自引”等引文分析的重要概念為基礎(chǔ),“Web coupling”、“Co-sitati-on”、“Co-link”、“Co-authorship”、“Co-usage”、“Self-linking”、“Self-linked”等網(wǎng)絡(luò)計量概念和指標(biāo)也陸續(xù)被提出。
其次從網(wǎng)絡(luò)鏈接分析領(lǐng)域開展的主要研究工作上觀察,“引文分析”的烙印也是清晰可見。目前,網(wǎng)絡(luò)鏈接分析的研究進(jìn)展主要集中在以下幾方面”。:網(wǎng)絡(luò)鏈接分析與引文分析的理論比較;網(wǎng)絡(luò)鏈接目的、類型及其特殊性分析;學(xué)術(shù)性網(wǎng)站與期刊的網(wǎng)絡(luò)影響因子研究;核心網(wǎng)站的測定;網(wǎng)絡(luò)鏈接分析的工具開發(fā);基于網(wǎng)絡(luò)計量的學(xué)術(shù)性機(jī)構(gòu)科研能力評價;搜索引擎檢索質(zhì)量的改進(jìn)①等。從中不難看出,除搜索引擎議題外,其他廣受關(guān)注的網(wǎng)絡(luò)鏈接研究選題與傳統(tǒng)的引文分析研究呈現(xiàn)出了較大的相似性。
應(yīng)該說,傳統(tǒng)的引文分析思想為網(wǎng)絡(luò)環(huán)境下鏈接分析研究工作的開展奠定了必要的學(xué)術(shù)基礎(chǔ),并發(fā)揮了重要的影響力。尤其是把引文聚類分析等方法應(yīng)用到網(wǎng)站或網(wǎng)頁的鏈接分析中,以此觀察Web網(wǎng)頁與網(wǎng)站內(nèi)容之間的關(guān)系,對探討、解決網(wǎng)絡(luò)空間(cyber-space)的知識結(jié)構(gòu)以及識別相關(guān)站點(diǎn)群落等都具有很大的價值。不過,從目前的研究現(xiàn)狀來看,由于傳統(tǒng)引文分析思想的局限性及網(wǎng)絡(luò)鏈接自身的特殊性和復(fù)雜性,網(wǎng)絡(luò)鏈接分析的深入研究還面臨著很多難題。例如,對搜索引擎的過分依賴,缺乏適用的專門工具;由于(動態(tài))網(wǎng)頁開發(fā)不斷增多,鏈接信息的解析與數(shù)據(jù)獲取越來越復(fù)雜;指標(biāo)設(shè)計和研究方法不夠完善,無法完全滿足網(wǎng)絡(luò)信息計量和鏈接分析的需要;研究思路不夠開闊,選題過分局限于教育、科研等學(xué)術(shù)性領(lǐng)域,難以應(yīng)對當(dāng)前網(wǎng)絡(luò)發(fā)展對的全方位影響和滲透局面。
3、基于網(wǎng)頁鏈接分析的搜索排序算法
如果把網(wǎng)絡(luò)鏈接分析看作是引文分析思想在網(wǎng)絡(luò)環(huán)境下的一種理論創(chuàng)新和發(fā)展,那么,已在搜索引擎中得到廣泛使用的各種基于網(wǎng)頁鏈接分析的搜索排序算法的研制,則可以看作是引文分析方法的一種新型網(wǎng)絡(luò)應(yīng)用。
由于網(wǎng)絡(luò)搜索技術(shù)的局限性,搜索結(jié)果排序算法一直是各類搜索引擎關(guān)注的核心問題。受傳統(tǒng)引文分析研究思想的影響和啟發(fā),目前在搜索結(jié)果排序方面已產(chǎn)生了一系列基于網(wǎng)頁鏈接分析的有效而成功的算法,其中尤以搜索引擎Google1998年開發(fā)的PageRank算法最具影響力。
傳統(tǒng)的搜索結(jié)果排序算法主要建立在網(wǎng)頁內(nèi)容與用戶搜索請求相關(guān)性判斷的基礎(chǔ)上,這種方法深受網(wǎng)頁關(guān)鍵詞作弊的危害。作為一種新型的排序算法,PageRank的研制直接受到了傳統(tǒng)文獻(xiàn)計量學(xué)引文分析研究思想的影響和啟發(fā),兩者具有明顯的相似之處。
引文分析研究的基本前提假設(shè)之一是:一篇文獻(xiàn)的學(xué)術(shù)水平、(或質(zhì)量)可由它被其他文獻(xiàn)引用的次數(shù)來評定,被引用的次數(shù)越多,則它的學(xué)術(shù)水平(或質(zhì)量)就越高。于是,PageRank算法將這種思想推廣、應(yīng)用到了網(wǎng)頁鏈接分析中。PageRank的基本算法思想可以概括為以下三點(diǎn):①如果一個頁面被多次引用(或鏈接),那么這個頁面很可能是重要的;②如果一個頁面盡管沒有被多次引用,但卻被一個重要的頁面引用,那么這個頁面很可能是重要的;③一個頁面的重要性被均分,并傳遞到它所引用(或鏈接)的頁面。據(jù)此,對網(wǎng)絡(luò)中每個Web頁面的鏈接狀況進(jìn)行全面分析并賦予它們不同的PageRank值(即重要性值),便可以應(yīng)用于網(wǎng)頁搜索的結(jié)果排序。
由于這種排序思想主要建立在網(wǎng)頁鏈接分析的基礎(chǔ)上,不僅獨(dú)立于網(wǎng)頁的和內(nèi)容,而且不需要人工干預(yù)就能自動發(fā)現(xiàn)Web上的重要資源,因而提供了一種衡量網(wǎng)頁質(zhì)量的有效方法。
PageRank算法的研制和應(yīng)用不僅為Coogle贏得了巨大的成功,而且迅速催生了一系列類似的排序算法,例如用于博客搜索結(jié)果的PeopleRank算法、在網(wǎng)絡(luò)自由分類法使用過程中的UserRank算法、TagRank算法和FolkRank算法等。其中,PeopleRank算法主要基于博客用戶之間的聯(lián)系(具體聯(lián)系方式包括好友鏈接或朋友列表、博文閱讀、回復(fù)與評論等)來自動發(fā)現(xiàn)重要的博客用戶,并依此作為博客搜索結(jié)果排序的一個重要因素;UserRank算法的提出,主要用在基于自由分類法的檢索結(jié)果顯示時,要求按照提出被認(rèn)可標(biāo)簽的數(shù)量多少對用戶進(jìn)行排序;而TagRank算法則是基于UserRank的標(biāo)簽排序;至于FolkRank算法的排序機(jī)制,則又整合了UserRank和TagRank,認(rèn)為由重要用戶標(biāo)注的重要標(biāo)簽下的資源是重要的(且用戶和標(biāo)簽擁有同等地位),并以此作為自由分類法檢索結(jié)果的排序依據(jù)。所有這些衍生的排序算法,其基本思想(或出發(fā)點(diǎn))都與PageRank算法是一致的,只不過應(yīng)用場合不同,鏈接分析的對象也由網(wǎng)頁換成了博客用戶、標(biāo)簽用戶、標(biāo)簽等。
4、網(wǎng)絡(luò)引文索引工具的研制與使用
隨著學(xué)術(shù)研究、信息交流與等活動的日益網(wǎng)絡(luò)化,傳統(tǒng)的引文索引工具已無法適應(yīng)e-Science時代引文分析的研究需求。為此,各種網(wǎng)絡(luò)化引文索引工具的編制逐漸被提到議事日程,并在當(dāng)前的引文分析研究工作中逐步獲得應(yīng)用。
1998年,第一個網(wǎng)絡(luò)引文索引CiteSeer開始研制,并于1999年正式投入使用。2004年,CiteSeer更名為CiteSeer.IST。作為一個主要面向和信息科學(xué)領(lǐng)域?qū)W術(shù)資源的網(wǎng)絡(luò)引文索引與檢索工具,CiteSeer主要基于自動引文索引(Autonomous Citation Indefing,簡稱ACI)技術(shù)編制而成。其主要編制步驟是:①使用多個搜索引擎,基于關(guān)鍵詞對網(wǎng)絡(luò)中的學(xué)術(shù)性文獻(xiàn)資源(主要是PostScript和PDF 2種格式的學(xué)術(shù)論文)進(jìn)行自動搜索和下載,并通過檢查是否存在參考文獻(xiàn)或書目來確認(rèn)其是否為學(xué)術(shù)性文獻(xiàn);如是學(xué)術(shù)性文獻(xiàn),則對其進(jìn)行文本轉(zhuǎn)換和識別,建立全文索引。②從文獻(xiàn)中自動識別、抽取引文信息,包括引文(即上下文)、引文子字段等,特別是對以不同格式標(biāo)注的相同引文進(jìn)行歸類處理。③采用多種文獻(xiàn)相似性測度方法,對相關(guān)文獻(xiàn)和相似文獻(xiàn)進(jìn)行自動識別。在運(yùn)用ACI先進(jìn)技術(shù)的過程中,CiteSeer的編制還充分借鑒、結(jié)合了傳統(tǒng)引文分析研究中對文獻(xiàn)之間引用和被引用關(guān)系的揭示方法,因此在為網(wǎng)絡(luò)用戶提供訪問和檢索使用時,CiteSeer不僅能夠返回一個與檢索請求相匹配的結(jié)果文獻(xiàn)列表,而且對列表文獻(xiàn)中包含的引證與被引證關(guān)系建立了全面的關(guān)聯(lián)鏈接,以方便用戶對檢索結(jié)果以及文獻(xiàn)引用與被引用數(shù)據(jù)的查看和跟蹤。
針對網(wǎng)絡(luò)學(xué)術(shù)論文的特點(diǎn),CiteSeer主要提供以下3項(xiàng)特色的文獻(xiàn)引文服務(wù)功能:①引文上下文(con-text)信息顯示,把文獻(xiàn)中引文出現(xiàn)位置前后的若干詞組或句子以粗體字標(biāo)注出來,使用戶不需閱讀原文就能直接獲知引文被引用的上下文環(huán)境。②相關(guān)文獻(xiàn)揭示,具體包括基于語句分析的相似文獻(xiàn)、基于文本分析的相似文獻(xiàn)、動態(tài)相關(guān)文獻(xiàn)書目(Active Bibliogra.phy)和基于共引關(guān)系的相關(guān)文獻(xiàn)(Related Documentsfrom Co-citation)等不同方式。③引文圖,以圖形方式直觀地顯示文獻(xiàn)被引用的時間分布狀況。
目前,CiteSeer可在線查詢和獲取的學(xué)術(shù)資源數(shù)量已接近100萬。與SCI、SSCI等傳統(tǒng)引文索引數(shù)據(jù)庫相比,CiteSeer在全文可獲得性、全面性、及時性、費(fèi)用等方面都具有明顯優(yōu)勢。例如,一旦有學(xué)術(shù)性文獻(xiàn)在網(wǎng)絡(luò)上出現(xiàn),就能自動進(jìn)行搜索和索引,并把包括預(yù)印本、技術(shù)報告、會議錄等不同類型學(xué)術(shù)文獻(xiàn)的引證關(guān)系考慮進(jìn)來;提供免費(fèi)的網(wǎng)上服務(wù),極大地發(fā)揮了引文索引的文獻(xiàn)檢索和評價功能;一些附加的網(wǎng)絡(luò)服務(wù)(如論文修正(correet)鏈接功能等)可以鏈接到討論區(qū),及時查看相關(guān)的評論、綜述以及新的研究成果等。
除了秉承E,Garfield博士引文分析思想編制的CiteSeer引文索引工具外,2004年由著名搜索引擎Coode推出的學(xué)術(shù)搜索服務(wù)——Coogle Scholar,也成功引入了引文分析方法。其中,它提供的一大功能亮點(diǎn)——引文鏈接服務(wù),就主要建立在引文分析基礎(chǔ)上:通過自動分析和摘錄學(xué)術(shù)文獻(xiàn)的引文信息,并將它們作為搜索結(jié)果的一部分單獨(dú)組織;當(dāng)用戶查看搜索結(jié)果中的相關(guān)文獻(xiàn)記錄時,點(diǎn)擊“Cited by”功能即可搜索到其所有的引用文獻(xiàn)信息,而且這些引用文獻(xiàn)信息不僅來自各種數(shù)據(jù)庫的存儲內(nèi)容,還包含了在圖書和各類非聯(lián)機(jī)出版物中的引用文獻(xiàn)信息。
與傳統(tǒng)的引文索引數(shù)據(jù)庫系統(tǒng)(SCI、SSCI等)相比,Coogle Scholar在多個方面擁有創(chuàng)新性功能。首先,在收錄范圍與文獻(xiàn)類型方面,它不僅收錄普通網(wǎng)頁中的學(xué)術(shù)論文,還廣泛包括來自學(xué)術(shù)出版商、專業(yè)學(xué)會網(wǎng)站、預(yù)印本庫、機(jī)構(gòu)庫等提供的同行評議論文、學(xué)位論文、圖書、預(yù)印本、文摘、技術(shù)報告等多種文獻(xiàn),內(nèi)容覆蓋、學(xué)、學(xué)、計算機(jī)科學(xué)等多個學(xué)術(shù)領(lǐng)域。此外,Open Archives Initiative中OAIster所包含的上百萬篇論文也可通過Google,SiC Scholar進(jìn)行查詢,并可提供CrossRef鏈接服務(wù)。其次,在學(xué)術(shù)文獻(xiàn)引用與被引用關(guān)系的揭示方面,Google Scholar不僅能反映學(xué)術(shù)期刊文獻(xiàn)之間的相互引用關(guān)系,還能廣泛反映學(xué)術(shù)期刊、書籍、預(yù)印本庫、機(jī)構(gòu)庫、各類非聯(lián)機(jī)出版物等多種類型文獻(xiàn)之間的相互引用關(guān)系,使得文獻(xiàn)相互引用關(guān)系網(wǎng)絡(luò)覆蓋的范圍大大拓展。
通過上述對CiteSeer和Google Scholar的分析不難看出,在當(dāng)前的網(wǎng)絡(luò)化數(shù)字科研時代,傳統(tǒng)的引文分析研究工作急需突破和拓展,相應(yīng)地,傳統(tǒng)的引文分析工具也亟待完善。根據(jù)國內(nèi)學(xué)者以Web of Science(SCI、SSCI和A&HCI的集成系統(tǒng))和Google Scholar分別作為引文分析工具進(jìn)行的實(shí)證研究和結(jié)果對照,未來的引文分析研究再單純依賴傳統(tǒng)的Web of Science等工具,將越來越難以獲得全面、真實(shí)的引文數(shù)據(jù),并會導(dǎo)致引文分析結(jié)果的嚴(yán)重偏差。特別是,隨著網(wǎng)絡(luò)環(huán)境下學(xué)術(shù)交流渠道的日益多樣化和開放訪問運(yùn)動的蓬勃發(fā)展,這樣的偏差將會越來越大。因此,可以說,當(dāng)前以CiteSeer和Google Scholar為代表的新型引文分析工具的出現(xiàn),一方面可看作是傳統(tǒng)引文分析思想的網(wǎng)絡(luò)化實(shí)踐與應(yīng)用;另一方面它們也為未來引文分析研究工作的開展提供了新的思路和工具基礎(chǔ)。不過,在目前的狀態(tài)下,不論是CiteSeer還是Google Scholar,要完全取代Web of Science,或者作為一種權(quán)威性的引文分析工具來使用,都還為時尚早。它們面臨的困難或障礙主要有:①收錄范圍不明確;②覆蓋的學(xué)術(shù)資源領(lǐng)域受限;③回溯年代短;④各學(xué)科開放訪問運(yùn)動發(fā)展的不平衡;⑤ACI技術(shù)與網(wǎng)絡(luò)搜索技術(shù)的缺陷等。所有這些困難和問題,都需假以時日不斷克服或予以解決。
5、結(jié)語
本文主要從三個方面分析討論傳統(tǒng)引文分析方法的網(wǎng)絡(luò)化發(fā)展和應(yīng)用。這些發(fā)展和應(yīng)用成果不僅充分體現(xiàn)了引文分析思想的研究價值,也為未來引文分析工作的深入開展提供了新的探索方向和工具基礎(chǔ)。作為一種獨(dú)具特色的研究方法,期望網(wǎng)絡(luò)環(huán)境下的引文分析能夠日益完善,并不斷獲得理論上的創(chuàng)新和應(yīng)用中的突破。
【談?wù)撘姆治龇椒ǖ木W(wǎng)絡(luò)化發(fā)展和應(yīng)用】相關(guān)文章:
論文的引文格式和修正版12-03
氯堿定價方法和價格走勢分析03-19
公司股票估值方法的實(shí)際應(yīng)用分析03-22
談?wù)撲摾w維混凝土的性能及其應(yīng)用03-02
論工業(yè)以太網(wǎng)技術(shù)的應(yīng)用和發(fā)展03-18