近年來,全球范圍內(nèi)掀起一場新的數(shù)字革命,人類步入大數(shù)據(jù)時代。數(shù)據(jù)正在成為人類社會最重要的資源和資產(chǎn)。大數(shù)據(jù)給人類社會的各個方面都帶來了巨大變化,特別是在科研領域,大數(shù)據(jù)及其分析工具正在成為人類認識世界和改造世界的重要手段。然而,與自然科學領域相比,人文社科領域對數(shù)據(jù)資源的使用相對滯后。此前的社會科學研究雖然使用數(shù)據(jù),但多數(shù)都是小規(guī)模抽樣數(shù)據(jù),而非海量或全量數(shù)據(jù)。隨著社會數(shù)字化轉型不斷深入,數(shù)據(jù)資源在人文社科研究中的地位不斷提升,人文社科研究范式和研究問題發(fā)生變革。如何加強人文社科數(shù)據(jù)資源建設與規(guī)范管理,以適應科研數(shù)字化轉型這一趨勢,成為當下值得研究并解決的一大問題。
人文社科數(shù)據(jù)資源建設勃然興起
與文獻信息一樣,數(shù)據(jù)也是學術研究的基礎性資源。2009年以來,我國人文社科領域數(shù)據(jù)資源建設開始加速。人文社科類基金資助的數(shù)據(jù)資源建設類科研項目也開始直線增長。統(tǒng)計顯示,黨的十八大以來,與數(shù)據(jù)資源建設相關的國家社科基金重點和重大項目數(shù)量有了顯著增長。2017年,國家社科基金重大招標項目中,與數(shù)據(jù)資源建設有關的,數(shù)量更是可觀。這些項目主要集中在語言學、歷史學、文學、圖書情報學等學科,從地域看,主要集中于北京、上海、廣東、江蘇、浙江等地區(qū)。近兩年,在專題數(shù)據(jù)資源快速增長的同時,國內(nèi)實力領先的研究型高校也紛紛開始建設人文社科數(shù)據(jù)中心或數(shù)據(jù)平臺,以支撐人文社科研究范式的創(chuàng)新與轉型,如清華大學中國經(jīng)濟社會數(shù)據(jù)中心、北京大學開放研究數(shù)據(jù)平臺、復旦大學社會科學數(shù)據(jù)平臺等。
蓬勃發(fā)展的人文社科數(shù)據(jù)資源建設,昭示著我國人文社科領域的基礎研究環(huán)境和組織架構都在向數(shù)字化方向轉型,數(shù)據(jù)驅動的研究范式正在人文社科領域悄然興起。伴隨此范式的興起,人文社科領域的開放思維、計算思維、量化思維、協(xié)同思維也更加受到學者重視,由此推動了文學領域的大尺度宏觀研究、歷史領域的長程量化研究、藝術領域的視覺計算研究、文化領域的時空可視化研究等的出現(xiàn)。這些新興的研究課題都離不開強大的專題數(shù)據(jù)庫和計算平臺作保障。人文社科領域的可計算數(shù)據(jù)資源正伴隨數(shù)字人文和計算社會科學的發(fā)展而發(fā)揮著越來越大的學術價值。
諸多不足制約人文社科數(shù)據(jù)資源建設
數(shù)據(jù)庫建設過程不規(guī)范,系統(tǒng)平臺可用性不強。目前,很多人文社科數(shù)據(jù)資源建設都由重大科研項目驅動,有一定的項目實施周期。在現(xiàn)有學術評價體系下,傳統(tǒng)的印刷出版物,如專著和論文,是科研成果的首選形式,所以在項目實施過程中,學術研究是核心,這就導致項目團隊以項目結題為目標,不太重視數(shù)據(jù)庫建設的規(guī)范性和長期性。很多數(shù)據(jù)庫系統(tǒng)選型落后,數(shù)據(jù)服務平臺功能單一,檢索效率低下,不支持機器讀取和原始下載,系統(tǒng)平臺整體上可用性較差,難以滿足項目之外用戶的實用性需求。
數(shù)據(jù)資源質量控制不嚴格,內(nèi)容可信性較弱。與自然科學類數(shù)據(jù)相比,人文社科類數(shù)據(jù)的生命周期較長,史料價值突出,后世使用概率高,所以質量要求更高。然而,由于人文社科領域數(shù)據(jù)來源廣泛,既包括互聯(lián)網(wǎng)上的用戶行為數(shù)據(jù),又包括結構化行業(yè)統(tǒng)計數(shù)據(jù),還有從傳統(tǒng)書報刊中抽取的非結構化文本片段,數(shù)據(jù)模型的差異極大。在數(shù)據(jù)庫設計過程中,由于懂專業(yè)領域又懂數(shù)據(jù)庫設計的復合型人才稀少,很多專題數(shù)據(jù)庫的結構設計相當隨意,結構十分不規(guī)范,常常不合乎數(shù)據(jù)庫設計范式要求。在數(shù)據(jù)庫內(nèi)容采集過程中,往往也缺少質量控制標準和規(guī)范,導致數(shù)據(jù)內(nèi)容的可信性與可靠性得不到保障。
數(shù)據(jù)發(fā)布標準不統(tǒng)一,流通共享成本高。數(shù)據(jù)的自由流通和共建共享是發(fā)揮數(shù)據(jù)資源價值的關鍵。目前,人文社科數(shù)據(jù)資源主要由各領域的學術機構自主分散建設,缺乏像圖書館聯(lián)盟一樣的第三方機構進行技術協(xié)調。建成以后的數(shù)據(jù)庫在互聯(lián)網(wǎng)上也是自由發(fā)布,標準不一,普遍缺乏便于機器讀取和交互操作的數(shù)據(jù)接口。用戶無法查看其詳細的數(shù)據(jù)結構,更無法通過關聯(lián)數(shù)據(jù)的方式相互共享鏈接,由此導致數(shù)據(jù)難以跨域流通和自動匯聚,語義數(shù)據(jù)網(wǎng)絡也無法通過自動勾連的方式構建和使用。
關鍵數(shù)據(jù)資源缺乏界定,數(shù)據(jù)主權難有保障。隨著大數(shù)據(jù)、物聯(lián)網(wǎng)和數(shù)字中國建設的推進,人文社科領域的數(shù)據(jù)資源將逐漸從調查獲取和人為發(fā)布向感知獲取與自動發(fā)布轉換,例如社交媒體數(shù)據(jù)、金融系統(tǒng)數(shù)據(jù)、用戶隱私數(shù)據(jù)、商品流通數(shù)據(jù)等都可以借助網(wǎng)絡媒體系統(tǒng)、電子政務系統(tǒng)、電子商務系統(tǒng),以及日益強大的智慧城市基礎運營設施自動獲取。這些數(shù)據(jù)資源中有些屬于“關鍵數(shù)據(jù)資源”,不僅涉及個人隱私,對于國家數(shù)據(jù)主權和國家總體安全也有潛在影響,不能隨意流通和跨境傳輸。目前,人文社科領域還沒有針對“關鍵數(shù)據(jù)資源”的清晰定義,但其潛在安全問題正隨著數(shù)據(jù)資源的快速增長而浮現(xiàn),有必要未雨綢繆、厘清概念。
提升人文社科數(shù)據(jù)資源管理規(guī)范性的對策建議
發(fā)布數(shù)據(jù)資源建設規(guī)范,指導數(shù)據(jù)資源建設過程。數(shù)據(jù)資源建設類似于軟件開發(fā),過程控制是關鍵。有必要研究并發(fā)布人文社科數(shù)據(jù)資源建設規(guī)范,包括數(shù)據(jù)資源分類與格式規(guī)范、數(shù)據(jù)資源建設機構資質要求、數(shù)據(jù)庫系統(tǒng)選型要求、內(nèi)容維護規(guī)范和網(wǎng)絡發(fā)布標準等內(nèi)容,對人文社科各領域專題數(shù)據(jù)庫和數(shù)據(jù)平臺建設進行全流程指導。
建立數(shù)據(jù)資源評估標準,保障數(shù)據(jù)內(nèi)容質量。對不同領域和不同類型的數(shù)據(jù)資源制定詳細的評估標準,核心是質量評估和價值評估。對不同形式的數(shù)據(jù)資源進行專家與機器相結合的、傳統(tǒng)科學計量與新興網(wǎng)絡計量相結合的評估。將評估結果作為各類數(shù)據(jù)資源建設項目資助、實施和驗收的必要條件,保障人文社科數(shù)據(jù)資源高質量建設與運營。
探索數(shù)據(jù)資源長效維護機制,實現(xiàn)數(shù)據(jù)服務可持續(xù)發(fā)展。鑒于數(shù)據(jù)資源運營的高成本特征,有必要探索建立學術機構與出版機構、圖書館機構、數(shù)據(jù)服務公司聯(lián)合運營與維護的長效合作機制,通過政府資助、商業(yè)銷售、托管服務等多種手段實現(xiàn)人文社科數(shù)據(jù)資源的可持續(xù)發(fā)展與運營,避免數(shù)據(jù)資源因為有建設、無服務而“曇花一現(xiàn)”。
建立數(shù)據(jù)資源管理聯(lián)盟,促進數(shù)據(jù)資源開放共享。參照中國高等教育文獻保障系統(tǒng)(CALIS),建立數(shù)據(jù)資源管理聯(lián)盟。以“智慧數(shù)據(jù)”的理念,開展數(shù)據(jù)模型技術研究、數(shù)據(jù)模型技術應用宣傳和培訓。鼓勵數(shù)據(jù)資源建設主體利用開放關聯(lián)數(shù)據(jù)、知識圖譜、簡單知識組織系統(tǒng)等新興語義技術和標準進行數(shù)據(jù)資源的語義化和關聯(lián)化發(fā)布,整體上提升人文社科數(shù)據(jù)資源的智慧層次和開放共享水平。
設立數(shù)據(jù)資源建設專項基金,加大數(shù)據(jù)資源資助力度。設立國家級、省部級的人文社科數(shù)據(jù)資源建設專項基金,通過穩(wěn)定的項目資金支持,提高人文社科數(shù)據(jù)資源供給水平。在政府相關部門設立專門的全國高校數(shù)據(jù)資源管理辦公室,統(tǒng)籌管理人文社科數(shù)據(jù)資源建設。
建立數(shù)據(jù)匯交制度,構建全國統(tǒng)一的人文社科數(shù)據(jù)資源門戶。將公開發(fā)布的數(shù)據(jù)庫視為一種正式出版物,建立數(shù)據(jù)匯交制度和全國統(tǒng)一的人文社科數(shù)據(jù)資源門戶,定期采集各數(shù)據(jù)庫目錄數(shù)據(jù)或原始數(shù)據(jù),并進行評估和長期保存。開展數(shù)據(jù)資源和數(shù)據(jù)分析工具的應用培訓和宣傳,推動人文社科領域數(shù)據(jù)驅動的研究范式發(fā)展。
建立“關鍵數(shù)據(jù)資源”管控機制,提高數(shù)據(jù)主權意識。參照出版領域的重大選題審批制度,對有重大社會影響的“關鍵數(shù)據(jù)資源”,如哲學、政治、經(jīng)濟、歷史、法律等領域的特定主題數(shù)據(jù)建立分類、公示、審批與審讀制度。對“關鍵數(shù)據(jù)資源”的流通實施白名單管理,嚴格控制“關鍵數(shù)據(jù)資源”的跨境流通,保障我國的數(shù)據(jù)主權安全?!?/p>