久久精品99久久|国产剧情网站91|天天色天天干超碰|婷婷五天月一av|亚州特黄一级片|亚欧超清无码在线|欧美乱码一区二区|男女拍拍免费视频|加勒比亚无码人妻|婷婷五月自拍偷拍

文化畢業(yè)論文

“互聯(lián)網(wǎng)+”時代的古籍數(shù)字化新思路

時間:2024-04-19 10:28:25 賽賽 文化畢業(yè)論文 我要投稿
  • 相關(guān)推薦

“互聯(lián)網(wǎng)+”時代的古籍數(shù)字化新思路

  人類社會已經(jīng)進入一個大數(shù)據(jù)時代,人工智能是大數(shù)據(jù)時代最為重要的技術(shù)樣態(tài),它對人類社會生活的方方面面正在產(chǎn)生深遠的影響,也勢必對包括古籍整理在內(nèi)的國學(xué)研究工作提出許多新的問題。以下是小編整理的“互聯(lián)網(wǎng)+”時代的古籍數(shù)字化新思路,歡迎閱讀。

“互聯(lián)網(wǎng)+”時代的古籍數(shù)字化新思路

  “互聯(lián)網(wǎng)+”時代的古籍數(shù)字化新思路

  問題一:大數(shù)據(jù)時代,人們應(yīng)具有什么樣的大數(shù)據(jù)觀?

  在大數(shù)據(jù)時代,判斷一個人思維能力的重要標準之一是看他有沒有大數(shù)據(jù)觀。大數(shù)據(jù)觀實為一種新的世界觀。在大數(shù)據(jù)時代,首先應(yīng)該轉(zhuǎn)變思維方式,由過去慣常的邏輯思維轉(zhuǎn)換為數(shù)據(jù)思維(當然,這并不意味著邏輯思維的失效,相反,它與演繹思維一起,仍是人類最基本的思維方法)。充分認識到人工智能是大數(shù)據(jù)時代最為重要的技術(shù)樣態(tài)。

  人工智能的發(fā)展不再是簡單模仿人腦的思維,而是通過算法革命,不斷提升大數(shù)據(jù)的收集和處理能力,從而形成類似于人類甚至部分超越人類的認知能力,挑戰(zhàn)人類的認知極限。人工智能的思維方式就是數(shù)據(jù)思維,大數(shù)據(jù)是人工智能的基礎(chǔ);诖髷(shù)據(jù)收集和處理能力的人工智能,代表了一種思維方式的轉(zhuǎn)換,即從邏輯思維轉(zhuǎn)換為數(shù)據(jù)思維,確切地說就是從尋求因果關(guān)系的邏輯思維轉(zhuǎn)換為尋求萬物相關(guān)性的數(shù)據(jù)思維。在這里,萬物相關(guān)性也可表述為萬物互聯(lián)。

  從技術(shù)的角度講,說大數(shù)據(jù)是人工智能的基礎(chǔ)還不夠,還要加上另外一個要素:云計算。人工智能(AI)、大數(shù)據(jù)(Big Data)、云計算(Cloud)三者共同構(gòu)成了一個“ABC新時代”。“ABC新時代”代表新的產(chǎn)業(yè)趨勢和技術(shù)革命,它是繼PC時代、移動互聯(lián)網(wǎng)時代后的又一波新的產(chǎn)業(yè)變革,標志著一個全新的時代已經(jīng)來臨,其對人類社會生活的影響、滲透是深遠的。在古籍整理方面,傳統(tǒng)紙質(zhì)文獻將會被完全數(shù)字化;在古籍研究方面,人們研究所依據(jù)的“底本”將是數(shù)字化的古籍文獻。紙本古籍依舊會長期存在,人們可能在“懷舊”的意義上對其保持一份“親切”或“敬意”。

  對于從事包括古籍整理在內(nèi)的國學(xué)研究者來說,要從對傳統(tǒng)紙質(zhì)文獻整理研究的手工操作轉(zhuǎn)向充分利用古籍數(shù)據(jù)庫的智能操作。因此,未來不懂得如何智能操作古籍數(shù)據(jù)庫的學(xué)者將會落伍,甚至被時代淘汰。就像當下的衣食住行消費,我們?nèi)绻粫\用手機移動支付就會寸步難行一樣。

  問題二:大數(shù)據(jù)時代,古籍數(shù)據(jù)的量化尺度如何把握?

  人們常說,中國的古籍浩如煙海。從量的方面來說,1912年以前產(chǎn)生并留存下來的中國古籍總量有19萬種和20萬種等不同說法。李明杰指出:“據(jù)不完全統(tǒng)計,我國現(xiàn)存古籍仍有約19萬種,其中僅保存在公共圖書館系統(tǒng)的就有2750萬冊,可列入善本的約有250萬冊。”(《中華善本在當代中國的保護與傳播》,載光明網(wǎng)-文藝評論頻道2019-05-15)杜志強指出:“據(jù)《中國古籍總目》,我國古籍存世總量大約20萬種,可謂浩如煙海。其中,善本大約占其三分之一。”(《古籍善本價值重大,中華文明源遠流長》,載光明網(wǎng)-文藝評論頻道2019-06-04)我們就暫時以20萬種作為現(xiàn)存古籍的總量。當然,古籍總量在某種意義上是動態(tài)的,如新出土文獻、海內(nèi)外新發(fā)現(xiàn)的漢文典籍等都可增加古籍的總量,不過,這類文獻的量都不會太大。

  如果從傳統(tǒng)的數(shù)據(jù)量化意識來看,20萬種古籍確實可以說“浩如煙!,但是,在大數(shù)據(jù)時代,20萬種古籍又不能說是“浩如煙海”。在大數(shù)據(jù)視野下,它又可看作是“寥若晨星”,20萬種古籍被完全數(shù)字化的時間指日可待。美國谷歌公司有一個宏偉的野心,它想通過掃描把全世界的圖書數(shù)字化,建立一個包羅一切的數(shù)字圖書館。盡管遇到版權(quán)等方面的障礙,谷歌公司還是只用了9年時間就達到了一個驚人的數(shù)量,到2013年,“谷歌完成了3000多萬本書的數(shù)字化,相當于歷史上出版圖書總數(shù)的1/4”(【美】埃雷茲·艾登,【法】讓-巴蒂斯特·米歇爾著,王彤彤等譯,《可視化未來——數(shù)據(jù)透視下的人文大趨勢》,浙江人民出版社2015年版。下同)。相對于世界上3000萬種圖書來說,20萬種中國古籍可能只是“小菜一碟”。

  客觀地評估,中國古籍的數(shù)字化應(yīng)該說已經(jīng)取得長足的發(fā)展。其中國家圖書館的“中華古籍資源庫”是“中華古籍保護計劃”的重要成果,目前在線發(fā)布的古籍影像資源包括國家圖書館藏善本和普通古籍、法國國家圖書館藏敦煌遺書、天津圖書館藏普通古籍等,資源總量超過3.2萬部,可在國圖官網(wǎng)上直接瀏覽。另外,中華再造善本工程一期、二期都已完成,且制作了數(shù)據(jù)庫,提供全文瀏覽。唐宋編和金元編共影印善本古籍758種。清人陸心源“皕宋樓”以藏200種宋刻本引以為傲,今天我們足不出戶便可閱覽幾百種宋本。不過,如果對標谷歌公司,我們有待完成的工作量還很大。中國古籍整理與研究的當務(wù)之急,是整合海內(nèi)外各種古籍數(shù)據(jù)庫,建立一個由國家和民間、高校和企業(yè)共同參與管理的包含全部20萬種古籍的“古籍數(shù)字圖書館”,以實現(xiàn)古籍整理與研究資源的全面共享。

  大數(shù)據(jù)時代正在重構(gòu)新的文獻統(tǒng)計學(xué)或計量文獻學(xué)。如果能正確把握當下古籍量化的尺度,就不會產(chǎn)生古人經(jīng)常發(fā)出的“望洋興嘆”的感慨,就能完成過去在人工統(tǒng)計時代不可能完成的各種古籍量化工作。

  數(shù)據(jù)思維的前提是數(shù)據(jù)。也就是說,古籍整理與研究的基礎(chǔ)不再僅僅是傳統(tǒng)意義上的資料或文獻,而是數(shù)據(jù),各種大數(shù)據(jù)。所謂“大數(shù)據(jù)”,首先是一個“量級”的概念,大數(shù)據(jù)不是以個、十、百、千為量級,而是以百萬、千萬、上億為量級,單個研究者依靠手工是無法完成這些大數(shù)據(jù)的收集與處理的,必須依靠機器,依靠人工智能。不少信息的統(tǒng)計手段發(fā)生前所未有的變化,必須依靠高科技的技術(shù)手段來分析海量的信息。數(shù)據(jù)思維的數(shù)據(jù)規(guī)模特點,除了量級的變化,還意味著某種龐大數(shù)據(jù)集。正如《可視化未來——數(shù)據(jù)透視下的人文大趨勢》一書中指出的,我們面臨的第一個主要的挑戰(zhàn)是,“大數(shù)據(jù)和數(shù)據(jù)科學(xué)家們之前運用的數(shù)據(jù)在結(jié)構(gòu)上差異很大”,“大數(shù)據(jù)是雜亂的數(shù)據(jù)集”。當我們收集并處理的古典文獻從具體的、單個的文本轉(zhuǎn)化為龐大而雜亂的數(shù)據(jù)集時,就必須運用尋求萬物相關(guān)性的人工智能的數(shù)據(jù)思維方式,而不是簡單地尋求線性的因果關(guān)系的邏輯思維方式。這一點將賦能包括古籍整理在內(nèi)的國學(xué)研究以新的時代特征。

  問題三:大數(shù)據(jù)時代,如何構(gòu)建古籍數(shù)據(jù)和古籍數(shù)據(jù)庫的目錄學(xué)?

  古典文獻學(xué)是一套包含有目錄學(xué)、版本學(xué)和?睂W(xué)等主干性知識的知識譜系,它們在大數(shù)據(jù)時代都面臨著知識結(jié)構(gòu)和研究方式的轉(zhuǎn)型。其中,目錄學(xué)具有優(yōu)先性地位。

  在大數(shù)據(jù)時代,我們需要構(gòu)建新的古籍數(shù)據(jù)和古籍數(shù)據(jù)庫的目錄學(xué)。這種目錄學(xué),首先要對古籍數(shù)據(jù)進行重新分類,我們依照的既不是《漢書·藝文志》那樣的七分法、《隋書·經(jīng)籍志》那樣的四分法,也不是按照針對紙質(zhì)文獻所流行的杜威分類法或中圖法分類體系,甚至也不是按照傳統(tǒng)的科學(xué)數(shù)據(jù)分類,如實驗數(shù)據(jù)與觀察數(shù)據(jù)之類的數(shù)據(jù)分類。

  如何進行古籍數(shù)據(jù)分類?分類方法可以有多種,從層次上可分為表層數(shù)據(jù)與深層數(shù)據(jù);從價值上可分為有用數(shù)據(jù)與垃圾數(shù)據(jù);從可靠性上可分為真實數(shù)據(jù)與虛假數(shù)據(jù);從時間上可分為長期數(shù)據(jù)和短期數(shù)據(jù),等等。

  上海寶藤生物醫(yī)藥公司董事長樓敬偉曾表示,在生物醫(yī)學(xué)數(shù)據(jù)方面,不關(guān)注淺層數(shù)據(jù),如身高、體重、呼吸、心跳等,而關(guān)注基因組數(shù)據(jù)、蛋白質(zhì)組數(shù)據(jù)、代謝組數(shù)據(jù)等深層數(shù)據(jù),關(guān)注這些深層數(shù)據(jù)所反映的人體表征之間的數(shù)據(jù)關(guān)系,關(guān)注人體生物學(xué)的這些表征,和影像學(xué)存在什么關(guān)系。我們在意的是人體的腸道微生態(tài),人體與社會環(huán)境的互動,掌握多緯度的數(shù)據(jù)。我們不能收集一堆垃圾數(shù)據(jù),而要開辟智能醫(yī)療的試驗場。樓敬偉的說法,對于我們重新認識古籍數(shù)據(jù)的分類是有啟發(fā)性的。哪些東西是古籍數(shù)據(jù)中的表層數(shù)據(jù),哪些是古籍數(shù)據(jù)中的深層數(shù)據(jù);哪些是古籍數(shù)據(jù)中的長期數(shù)據(jù),哪些是古籍數(shù)據(jù)中的短期數(shù)據(jù),這些都是需要進一步思考的問題。

  至于古籍數(shù)據(jù)庫的分類,我們曾做過嘗試性工作。我和毛建軍博士主編的《漢語古籍電子文獻知見錄》(世界圖書出版公司2015年版),就是“從古典文獻學(xué)教學(xué)資源利用視野對這些電子文獻進行了科學(xué)分類與導(dǎo)航設(shè)計”。我們改變傳統(tǒng)書目以“經(jīng)、史、子、集”及其下設(shè)各小類進行分類提要的標準,而以古籍電子文獻開發(fā)所在區(qū)域和機構(gòu)個人設(shè)置一、二級目錄進行解題。一級目錄的安排次序為:中國大陸、中國臺灣、中國香港、中國澳門、國外(日本、韓國、美國、歐美、澳洲);二級目錄的安排次序為:圖書館、檔案館等古籍典藏機構(gòu)、高校等研究機構(gòu)、古籍數(shù)字化企業(yè)公司、個人等。其中,中國大陸有古籍電子文獻數(shù)據(jù)庫166種;中國臺灣有古籍電子文獻數(shù)據(jù)庫70種;中國香港有古籍電子文獻數(shù)據(jù)庫9種;中國澳門有古籍電子文獻數(shù)據(jù)庫兩種;國外地區(qū)有古籍電子文獻數(shù)據(jù)庫22種;合作開發(fā)的古籍電子文獻數(shù)據(jù)庫有6種。二級目錄里所列古籍電子文獻數(shù)據(jù)庫共計275種,每種都有展現(xiàn)其研究特色的數(shù)據(jù)庫名稱。

  另外,我們也試圖改變傳統(tǒng)書目對古典文獻的版本分類,將古籍電子文獻分為古籍書目數(shù)據(jù)庫、古漢語電子語料庫、古籍全文數(shù)據(jù)庫、數(shù)字圖書館、古籍電子出版平臺,等等。我們的嘗試一定還存在不少值得改進的地方,所收的古籍電子文獻數(shù)據(jù)庫遠沒有做到“大而全”,還有很大的增補空間。古籍數(shù)據(jù)庫的分類,自然還可以按現(xiàn)代學(xué)科體制來分,分為文、史、哲、政、經(jīng)、法等,數(shù)據(jù)庫所收古籍文獻最好有標點。對于專業(yè)研究人員來說,好的古籍數(shù)據(jù)庫應(yīng)具備兩大特點,一是全(搜集的數(shù)據(jù)越多越好),二是專(就是說,可按學(xué)科分類,也可按文體分類,還可按文獻主題分類,按文獻載體分類),且不需要標點(如果有標點,自然更好)。我本人也一直在準備《漢語古籍電子文獻知見錄》的修訂工作。

  在古籍整理與研究領(lǐng)域,除了基于大數(shù)據(jù)技術(shù)的目錄學(xué)外,還有基于大數(shù)據(jù)技術(shù)的版本學(xué)、?睂W(xué)、辨?zhèn)螌W(xué)、輯佚學(xué)、索引學(xué)等,它們都會包括許多與古典文獻學(xué)完全不同的知識結(jié)構(gòu),需要我們重新加以建構(gòu)。

  問題四:大數(shù)據(jù)時代,我們應(yīng)該培養(yǎng)什么樣的古籍整理與研究人才?

  大數(shù)據(jù)時代,我們迫切需要培養(yǎng)同時具有古典文獻學(xué)基礎(chǔ)、古籍數(shù)據(jù)庫開發(fā)和利用能力的高級人才或復(fù)合型人才。最近,清華大學(xué)人文學(xué)院劉石教授“基于大數(shù)據(jù)技術(shù)的古代文學(xué)經(jīng)典文本分析與研究”課題組因研究需要,面向國內(nèi)外招收博士生(直博生)或招聘博士后若干名。申請者的要求條件之一就是“應(yīng)具有一定的計算機技術(shù)基礎(chǔ),或者具有一定的數(shù)字人文研究經(jīng)驗。入學(xué)或進站后,從事中國古代文學(xué)經(jīng)典文本的數(shù)據(jù)分析與研究”。這種人才培養(yǎng)意識在國內(nèi)學(xué)術(shù)界和高教界開了一個好頭!盎诖髷(shù)據(jù)技術(shù)的古代文學(xué)經(jīng)典文本分析與研究”以及“數(shù)字人文”均屬于人文社會科學(xué)研究的新興領(lǐng)域,它要求學(xué)生在古典文獻學(xué)、數(shù)據(jù)分析和認知哲學(xué)上都有一定基礎(chǔ),而目前能將這幾方面專長結(jié)合起來的人才并不多。大數(shù)據(jù)時代會催生許多新的跨學(xué)科分支。

  事實上,在古籍整理與研究的數(shù)字化推廣領(lǐng)域,已經(jīng)產(chǎn)生一些新型專家,比如“數(shù)字文獻學(xué)家”兼“數(shù)字文獻企業(yè)家”,F(xiàn)在清華大學(xué)人文學(xué)院已經(jīng)在培養(yǎng)自己的“數(shù)字人文學(xué)家”,未來中國可能還會出現(xiàn)“古籍數(shù)據(jù)目錄學(xué)家”“古籍數(shù)據(jù)平臺設(shè)計師”“古籍數(shù)據(jù)統(tǒng)計師”“古籍數(shù)據(jù)分析師”“古漢語語料庫語言學(xué)家”“古籍數(shù)字出版家”,等等。對此,我們沒有理由不伸開雙臂歡迎他們。我們的高等教育機構(gòu)與研究機構(gòu)必須立即行動起來推進有關(guān)的跨學(xué)科人才的培養(yǎng)。作為學(xué)者個人,我們也必須對此進行充分的思想準備、知識儲備與技能訓(xùn)練。

  古籍數(shù)字化研究現(xiàn)狀

  古籍又稱典籍、文獻,是指沒有采用現(xiàn)代印刷技術(shù)來印制的書籍。中華文明五千年從甲骨文、簡牘、卷軸再到線裝,留下了大量寶貴的古籍,作為中華文明文化延續(xù)的印證,古籍整理是非常重要的。

  古籍整理的傳統(tǒng)方法,是通過對古籍進行審校釋(審定、?、注釋)等加工整理后形成新版本,便于現(xiàn)代人進行閱讀。古籍整理的傳統(tǒng)方法主要依賴手工進行,有著操作過程繁雜、效率低的缺點,而且新版本仍然是書本形式,難以再次利用。在計算機技術(shù)出現(xiàn)后,古籍整理有了新的工具和方法,即古籍數(shù)字化技術(shù)。通過利用信息技術(shù)將古籍文獻進行加工和整理,并使其轉(zhuǎn)化為電子數(shù)據(jù),可以通過光盤、網(wǎng)絡(luò)進行保存和傳播,有效解決了傳統(tǒng)古籍整理的缺點。

  中文古籍的數(shù)字化最早是二十世紀七十年代,從計算機技術(shù)發(fā)達的美國開始的。我國在引入相關(guān)技術(shù)后,產(chǎn)生了大批有價值的成果。國家圖書館的“古籍特藏文獻數(shù)字化計劃”,完成了“甲骨文”、“數(shù)字方志”、“碑砧菁華”、“敦煌遺珍”、“西夏碎金”、“永樂大典”等成果。

  互聯(lián)網(wǎng)+古籍數(shù)字化

  “互聯(lián)網(wǎng)+”實際上是互聯(lián)網(wǎng)發(fā)展新形態(tài),通過互聯(lián)網(wǎng)的云計算技術(shù)和大數(shù)據(jù)技術(shù),來組建一個知識社會,進而推動傳統(tǒng)產(chǎn)業(yè)發(fā)展!盎ヂ(lián)網(wǎng)+”所面臨的不光是互聯(lián)網(wǎng)移動,也不是僅僅應(yīng)用于某一個傳統(tǒng)行業(yè),在加入了云計算、大數(shù)據(jù)和知識后,從而造就了創(chuàng)新,進而改變了人們的生產(chǎn)、工作、生活方式;ヂ(lián)網(wǎng)+古籍數(shù)字化工作就是“互聯(lián)網(wǎng)+”浪潮中的一個創(chuàng)新.

  1、用戶參與內(nèi)容制造。與原有的古籍數(shù)字化單向信息發(fā)布的模式不同,新型古籍數(shù)字化平臺的內(nèi)容通常是網(wǎng)絡(luò)用戶發(fā)布的,網(wǎng)絡(luò)用戶不僅僅是知識體系的瀏覽者同時也成為了知識體系的制造者,這也就意味著新型古籍數(shù)字化平臺為用戶提供了更多參與的機會。

  2、全方位交互性。以知識網(wǎng)絡(luò)為架構(gòu)的新古籍數(shù)字化平臺,不僅實現(xiàn)了用戶在發(fā)布內(nèi)容過程中與網(wǎng)絡(luò)服務(wù)器之間交互,而且也實現(xiàn)了同一網(wǎng)站不同用戶之間的交互,所發(fā)布內(nèi)容之間的交互

  3、輕便訪問的網(wǎng)站。早期的古籍數(shù)字化成骨展示平臺是以局域網(wǎng)訪問為目的設(shè)計,即使是在進入全文檢索階段后實現(xiàn)了網(wǎng)絡(luò)化訪問,仍然是重系統(tǒng)輕內(nèi)容的設(shè)計。

【“互聯(lián)網(wǎng)+”時代的古籍數(shù)字化新思路】相關(guān)文章:

數(shù)字化時代與文學(xué)藝術(shù)10-08

互聯(lián)網(wǎng)時代公眾輿論的變化10-05

“互聯(lián)網(wǎng)+”時代產(chǎn)業(yè)轉(zhuǎn)型思維10-26

互聯(lián)網(wǎng)時代心得體會02-24

大數(shù)據(jù)時代下教輔產(chǎn)品策劃的新思路策劃書03-25

互聯(lián)網(wǎng)時代英語作文(通用20篇)07-01

物業(yè)管理在互聯(lián)網(wǎng)時代的變革論文10-11

互聯(lián)網(wǎng)創(chuàng)新引領(lǐng)金融的新時代論文10-13

互聯(lián)網(wǎng)時代民商法的演進性10-08

互聯(lián)網(wǎng)時代戶外媒體的發(fā)展分析10-08