日前,一項(xiàng)發(fā)表在《圖書館學(xué)與學(xué)術(shù)交流雜志》上的針對(duì)700多萬份數(shù)字出版物的研究表明,超過200萬篇標(biāo)有數(shù)字對(duì)象標(biāo)識(shí)符(DOI)的學(xué)術(shù)論文未得到妥善歸檔和保存。盡管這項(xiàng)研究被認(rèn)為存在一定局限性,但研究的相關(guān)分析結(jié)果仍然引起了文獻(xiàn)專家的關(guān)注與討論。
如今,學(xué)術(shù)論文的產(chǎn)出數(shù)量大、速度快。上述研究指出,在線保存論文的系統(tǒng)已經(jīng)無法滿足研究產(chǎn)出的增長速度。是否有必要對(duì)所有學(xué)術(shù)論文進(jìn)行歸檔保存?學(xué)術(shù)論文歸檔保存面臨哪些機(jī)遇和挑戰(zhàn)?
交流共享是重要目的
上世紀(jì)八十年代前,紙質(zhì)化保存是學(xué)術(shù)論文歸檔保存的主流形式,主要以期刊為保存單元!凹堎|(zhì)化保存成本很高。購買紙質(zhì)期刊需要成本,存放期刊要占用巨大空間!敝袊嗣翊髮W(xué)信息資源管理學(xué)院教授索傳軍說。
隨著數(shù)字技術(shù)水平提高,學(xué)術(shù)論文數(shù)字化保存逐漸成為主流,在保存單元上也打破期刊限制,將單篇學(xué)術(shù)論文作為基本保存單元。數(shù)字化保存使獲取學(xué)術(shù)論文的便捷性、開放性更高,保存成本更低,同時(shí)解決了存儲(chǔ)面積不足和期刊重復(fù)保存造成資源浪費(fèi)等問題。
“現(xiàn)在有一些機(jī)構(gòu)采用混合存檔,對(duì)大多數(shù)學(xué)術(shù)論文進(jìn)行數(shù)字化保存,對(duì)少量重要期刊和論文仍以紙質(zhì)化形式保存。國家科技圖書文獻(xiàn)中心(NSTL)采用的就是這種方式!彼鱾鬈娊榻B,此外,還有一些機(jī)構(gòu)對(duì)二次文獻(xiàn)或?qū)W術(shù)論文的元數(shù)據(jù)進(jìn)行保存,或是只保存論文的摘要、關(guān)鍵詞等。
在探討對(duì)學(xué)術(shù)論文歸檔保存的必要性之前,需要明確保存論文的目的。索傳軍認(rèn)為,學(xué)術(shù)論文是對(duì)科研結(jié)果的記錄,保存學(xué)術(shù)論文是為了讓后人能夠有效獲取并了解前人的研究成果,保持學(xué)術(shù)研究的傳承性和連貫性。同時(shí),保存學(xué)術(shù)論文也是為了實(shí)現(xiàn)更大范圍的知識(shí)交流與共享,提高科研效率,節(jié)省研究資源和成本。
“在我看來,對(duì)所有學(xué)術(shù)論文進(jìn)行歸檔保存,從理論上來說沒有必要!彼鱾鬈娬J(rèn)為,一方面,根據(jù)文獻(xiàn)計(jì)量學(xué)中經(jīng)典的布拉德福定律,期刊是分層的,學(xué)術(shù)論文也是分層的。一些學(xué)術(shù)論文價(jià)值不高、創(chuàng)新性不強(qiáng)、研究結(jié)論過時(shí),還有些論文甚至可能存在一定重復(fù)或錯(cuò)誤。此類論文沒有必要進(jìn)行保存。另一方面,依據(jù)信息生命周期理論,學(xué)術(shù)論文的學(xué)術(shù)價(jià)值也隨時(shí)間變化。大部分論文生命周期較短,很快就會(huì)因過時(shí)而失去參考價(jià)值。
從國內(nèi)外有關(guān)機(jī)構(gòu)的粗略統(tǒng)計(jì)分析結(jié)果看,60%以上的學(xué)術(shù)論文在發(fā)表后從未被訪問和獲取,即從未參與知識(shí)交流和共享。此外,由于每個(gè)人的時(shí)間和精力有限,論文保存得越多,人們有效獲取信息的效率就越低,知識(shí)交流共享的成本也就越高。
“學(xué)術(shù)論文是為了保存而保存,還是為了滿足當(dāng)下國家重大科學(xué)技術(shù)和經(jīng)濟(jì)發(fā)展需求,以及科研人員對(duì)知識(shí)交流共享的實(shí)際需要而保存?這是一個(gè)本質(zhì)問題。”索傳軍說。
逐步縮小保存單元
數(shù)字化時(shí)代,學(xué)術(shù)論文歸檔保存工作的挑戰(zhàn)和機(jī)遇并存。“我國在算力、云存儲(chǔ)等方面的水平較高,因此技術(shù)問題并非最大挑戰(zhàn)。目前我們面臨的主要問題在于,如何選擇判斷需要?dú)w檔保存的學(xué)術(shù)論文。這不僅缺乏較為統(tǒng)一的選擇判斷標(biāo)準(zhǔn),而且也缺乏較為科學(xué)的評(píng)價(jià)方法!彼鱾鬈娬f。
直至目前,人們?nèi)灾饕罁?jù)學(xué)術(shù)期刊的影響因子大小判斷一本期刊及其刊載論文的重要性或?qū)W術(shù)價(jià)值。從客觀上看,期刊的影響因子并不能代表其刊載論文的學(xué)術(shù)價(jià)值,每種期刊刊載的每篇學(xué)術(shù)論文質(zhì)量和價(jià)值不同。
大多數(shù)情況下,人們并不需要閱讀一篇學(xué)術(shù)論文的完整文本,而是要借鑒和利用論文中有學(xué)術(shù)價(jià)值的內(nèi)容,這些內(nèi)容可以被稱為“知識(shí)元”。索傳軍認(rèn)為,一篇學(xué)術(shù)論文本質(zhì)上是一組知識(shí)元的邏輯組合。論文最有創(chuàng)新價(jià)值的部分,就濃縮在這些知識(shí)元中。知識(shí)元才是人們真正需要的,也是真正需要?dú)w檔保存的。
“數(shù)字化保存單元已經(jīng)從期刊變?yōu)檎撐,下一步能否打破?duì)學(xué)術(shù)論文全文保存的限制,只保存論文的核心知識(shí)元?如果歸檔保存的單元是知識(shí)元,讀者直接獲取的也是知識(shí)元。我們歸檔保存對(duì)象的單元會(huì)更小,成本會(huì)更低,讀者獲取利用效率會(huì)更高!彼鱾鬈娬J(rèn)為,學(xué)術(shù)論文中知識(shí)元的識(shí)別和提取是一大關(guān)鍵挑戰(zhàn)。這不僅是對(duì)相關(guān)技術(shù)的挑戰(zhàn),更是對(duì)學(xué)界和業(yè)界在保存學(xué)術(shù)論文的認(rèn)識(shí)和觀念上的挑戰(zhàn)。
當(dāng)前,國際上一些學(xué)術(shù)期刊雜志社(出版集團(tuán))已經(jīng)進(jìn)行了小范圍嘗試。他們要求作者在投稿時(shí)提供論文所闡述的新觀點(diǎn),即讓作者描述最具價(jià)值的創(chuàng)新知識(shí)元。在索傳軍看來,這種嘗試是有益的,但同時(shí)會(huì)存在主觀性偏強(qiáng)的問題。如有些作者為了發(fā)表文章拔高論文的創(chuàng)新性,或是因個(gè)人的認(rèn)知水平不足而對(duì)創(chuàng)新性的描述過高。
索傳軍認(rèn)為,當(dāng)下數(shù)字技術(shù)的發(fā)展,要求學(xué)術(shù)論文的保存單元不再局限于期刊,“一刀切”的保存策略或許也應(yīng)做出改變!拔覀儗(duì)學(xué)術(shù)論文的數(shù)字化保存,應(yīng)該順應(yīng)時(shí)代發(fā)展,逐步過渡到數(shù)據(jù)化保存階段。這需要將學(xué)術(shù)論文轉(zhuǎn)化成更精細(xì)的數(shù)據(jù),而不是機(jī)械性地把紙質(zhì)論文轉(zhuǎn)化成計(jì)算機(jī)上‘0’和‘1’的符號(hào)!彼f。
在首次全國數(shù)據(jù)工作會(huì)議上,國家數(shù)據(jù)局提出,探索建設(shè)國家級(jí)數(shù)據(jù)標(biāo)注基地。索傳軍說,學(xué)術(shù)論文也是數(shù)據(jù)標(biāo)注的對(duì)象之一。對(duì)學(xué)術(shù)論文內(nèi)容進(jìn)行深入、細(xì)致、準(zhǔn)確標(biāo)注,可以較為精準(zhǔn)地定位、獲取、利用知識(shí)元。
生成式人工智能和大語言模型等新技術(shù)的應(yīng)用有望實(shí)現(xiàn)這一目標(biāo)!皩W(xué)術(shù)論文是針對(duì)研究問題開展的。如果能通過機(jī)器學(xué)習(xí)找到每篇學(xué)術(shù)論文的主要研究問題,就可以對(duì)此進(jìn)行標(biāo)注,進(jìn)而使讀者能通過研究問題來檢索論文。”索傳軍說,這將是一個(gè)長期積累和發(fā)展的過程,必須循序漸進(jìn)地構(gòu)建起不同領(lǐng)域、不同學(xué)科的標(biāo)準(zhǔn)和參照系,利用大語言模型和機(jī)器學(xué)習(xí)等技術(shù),經(jīng)過不斷優(yōu)化迭代,最終使標(biāo)注結(jié)果達(dá)到科學(xué)準(zhǔn)確。