国产成人激情在线_人人干日日干_365porn_在线一区视频_国产高清在线观看_91插插插影院

天天簡(jiǎn)訊:數(shù)字時(shí)代的民族古文字研究

時(shí)間:2023-05-21 06:11:39 來(lái)源: 文匯


中國(guó)是一個(gè)歷史悠久的多民族國(guó)家,很多民族在不同歷史時(shí)期創(chuàng)制并使用自己的民族文字,形成了數(shù)量巨大、內(nèi)容豐富、各具特色的少數(shù)民族古文字文獻(xiàn)。這些文獻(xiàn)是研究相關(guān)民族的語(yǔ)言文字、歷史文化的最重要的一手資料,承載著各民族獨(dú)特的血脈,更可與漢文典籍相互勘正補(bǔ)充,具有特殊的文化和學(xué)術(shù)價(jià)值;它們可以真實(shí)、全面地揭示各民族關(guān)系史,對(duì)增強(qiáng)民族團(tuán)結(jié)、維護(hù)國(guó)家統(tǒng)一、筑牢中華民族文化共同體具有無(wú)可替代的作用。


(資料圖)

從二十世紀(jì)九十年代至本世紀(jì)初的十余年間,這些珍貴的民族古文字文獻(xiàn)經(jīng)歷了一個(gè)發(fā)掘整理的高潮。大量民族古籍獲得搶救,其中一部分得到整理、譯注與出版,主要表現(xiàn)在滿文、藏文、西夏文、蒙古文、彝文、納西東巴文、水文等文獻(xiàn)的整理刊布上。但已搶救資源的現(xiàn)狀并不樂(lè)觀,突出表現(xiàn)在:已搶救資源因缺少專業(yè)整理而在各機(jī)構(gòu)大量閑置;一部分古籍老化、破損嚴(yán)重,缺少保護(hù)和修復(fù)條件;已出版文獻(xiàn)多采取直接影印形式,搶救大于整理。在傳統(tǒng)模式下,民族古文獻(xiàn)的傳承與開發(fā)已面臨困境。

幸運(yùn)的是,經(jīng)過(guò)近二三十年的發(fā)展,運(yùn)用數(shù)字化、智能識(shí)別手段進(jìn)行民族古文字文獻(xiàn)保護(hù)和開發(fā)已成大勢(shì),相比傳統(tǒng)模式取得了諸多進(jìn)展。

已有的民族古文字文獻(xiàn)數(shù)字化和智能化建設(shè)情況,可以從四個(gè)方面加以述評(píng)。

一是民族古文獻(xiàn)原貌保真式數(shù)字存儲(chǔ)。即對(duì)民族古文獻(xiàn)進(jìn)行縮微、電子掃描等數(shù)字化制作、存儲(chǔ),實(shí)現(xiàn)部分民族古文獻(xiàn)原貌的保存,這是當(dāng)前民族古文獻(xiàn)數(shù)字化的主要方式,著重于資源搶救和保護(hù)。

這類成果普遍存在的問(wèn)題是:對(duì)數(shù)字資源缺少系統(tǒng)的整理、校勘與注釋,文獻(xiàn)編目、索引做不到充分匹配,各單位制作的數(shù)字圖像質(zhì)量與整理水平也參差不齊。

二是民族古文字處理系統(tǒng)開發(fā)。包括民族古文字在國(guó)際標(biāo)準(zhǔn)字符集的編碼、字庫(kù)建設(shè)、文字輸入與檢索實(shí)現(xiàn),以及民族古文字排版系統(tǒng)開發(fā)、字形標(biāo)準(zhǔn)化等,這方面的成果極其豐富。

然而,對(duì)于民族古文字處理系統(tǒng)的研發(fā),各家都有自己的解決方案,可以滿足一定范圍的使用,但標(biāo)準(zhǔn)不統(tǒng)一、技術(shù)不兼容,難以通用共享。另外,大多數(shù)文字整理是基于字典、辭書等二手資料,忽略了對(duì)面貌復(fù)雜的一手文獻(xiàn)的精細(xì)化整理,導(dǎo)致文字處理系統(tǒng)不能滿足實(shí)際需要。

三是民族古文獻(xiàn)數(shù)據(jù)庫(kù)建設(shè)。其中可以分成三大類:民族古文獻(xiàn)書目數(shù)據(jù)庫(kù)、圖像數(shù)據(jù)庫(kù)和全文數(shù)據(jù)庫(kù)。各機(jī)構(gòu)基本上都是先對(duì)古文獻(xiàn)進(jìn)行編目、掃描整理原文圖像,然后以書目數(shù)據(jù)庫(kù)與原文圖像相掛接的模式實(shí)現(xiàn)數(shù)字化。已有成果集中在材料大宗的藏文、蒙文、西夏文、東巴文、彝文等民族古文獻(xiàn)數(shù)據(jù)庫(kù)建設(shè)上。也有部分民族古文獻(xiàn)建立了全文數(shù)據(jù)庫(kù),如藏文典籍和滿文檔案。

在數(shù)據(jù)庫(kù)建設(shè)中,普遍存在著著錄標(biāo)準(zhǔn)、書目分類法標(biāo)準(zhǔn)、索引標(biāo)準(zhǔn)不統(tǒng)一的情況;尤其是圖像數(shù)據(jù),存儲(chǔ)格式標(biāo)準(zhǔn)、數(shù)字化影像標(biāo)準(zhǔn)不兼容等技術(shù)問(wèn)題,嚴(yán)重影響資源的檢索利用和共享。此外,各單位資源重復(fù)建設(shè)、彼此不開放,也是亟待解決的問(wèn)題。

四是民族古文字智能識(shí)別研究。目前多種民族古文字都在積極進(jìn)行文字識(shí)別技術(shù)的探討,各家研究最大的關(guān)注點(diǎn),是希望利用圖像識(shí)別技術(shù)實(shí)現(xiàn)民族古文獻(xiàn)從數(shù)字圖像自動(dòng)、批量轉(zhuǎn)換為數(shù)字文本,從而大規(guī)模建設(shè)全文數(shù)據(jù)庫(kù),實(shí)現(xiàn)文獻(xiàn)批量翻譯,滿足共享與開發(fā)需求。比較成功的例子是中國(guó)第一歷史檔案館 2018 年公布的 " 滿文檔案圖像識(shí)別軟件系統(tǒng) ",該系統(tǒng)實(shí)現(xiàn)了手寫體滿文批量識(shí)別。

但目前能夠?qū)崿F(xiàn)規(guī)模化文字圖像識(shí)別的民族古文字極少,文字識(shí)別帶來(lái)的實(shí)際產(chǎn)出也很少。主要問(wèn)題有二:首先,文字識(shí)別的共同思路,是使用計(jì)算機(jī)切分、提取字的特征,使其與機(jī)器中預(yù)先存放的特征集(字庫(kù))進(jìn)行匹配、判別,從而將字圖自動(dòng)轉(zhuǎn)換成文本代碼。這需要有預(yù)先建立的字庫(kù)作為訓(xùn)練樣本和測(cè)試標(biāo)準(zhǔn),但識(shí)別技術(shù)研究者所建立的樣本數(shù)據(jù)庫(kù)容量極小、樣本選擇不科學(xué),相較民族古文獻(xiàn)的實(shí)際復(fù)雜情況和巨大數(shù)量,根本無(wú)法支撐起真實(shí)存在的民族文字材料的識(shí)別。其次,在文字識(shí)別的目標(biāo)上,僅關(guān)注文字釋讀和文獻(xiàn)的批量翻譯,未能充分發(fā)掘文字識(shí)別帶來(lái)的多方面效益。

綜上可見(jiàn),民族古文獻(xiàn)數(shù)字化建設(shè)具備了一定基礎(chǔ),但整體而言操作有欠條理,投入與產(chǎn)出不成比例,迄今還集中在資料的搶救、整理、輸入、排印等初級(jí)層面。如何充分借力數(shù)字化和智能化手段推進(jìn)民族古文字相關(guān)研究,仍舊是一個(gè)嚴(yán)峻的課題。今后的努力方向,至少可以包括以下三個(gè)方面。

首先是統(tǒng)一標(biāo)準(zhǔn),實(shí)現(xiàn)數(shù)字資源共存共享。數(shù)字化建設(shè)在多個(gè)方面需要統(tǒng)一標(biāo)準(zhǔn)。一是文字處理標(biāo)準(zhǔn)的統(tǒng)一。各類民族古文字的字符集,都應(yīng)爭(zhēng)取在國(guó)際字符集標(biāo)準(zhǔn)中編碼,暫時(shí)不能編碼者,應(yīng)盡量使用統(tǒng)一字體,或提供跨字體轉(zhuǎn)換的基礎(chǔ)條件。二是文獻(xiàn)各級(jí)分類標(biāo)準(zhǔn)的統(tǒng)一,包括著錄標(biāo)準(zhǔn)、書目分類法標(biāo)準(zhǔn)、索引標(biāo)準(zhǔn),以及對(duì)文獻(xiàn)內(nèi)部的字詞意義分類、文獻(xiàn)類型分類標(biāo)準(zhǔn)等。三是語(yǔ)料的同義認(rèn)同。不同種類的民族古文字材料,如要實(shí)現(xiàn)各種內(nèi)在關(guān)聯(lián),就要在共同的分類框架下,通過(guò)概念層面的意義分類、語(yǔ)言文字層面的同義系聯(lián),實(shí)現(xiàn)材料的逐級(jí)類聚,使多文種、多類型文獻(xiàn)中的語(yǔ)言文字單位找到彼此的同義對(duì)應(yīng)項(xiàng),從而貫通各類材料,打通數(shù)據(jù)庫(kù)內(nèi)部所有數(shù)據(jù)的關(guān)聯(lián)。四是數(shù)字化處理程度的統(tǒng)一,統(tǒng)一的標(biāo)準(zhǔn)是就高不就低。做到上述標(biāo)準(zhǔn)統(tǒng)一,是實(shí)現(xiàn)資源共享的基礎(chǔ)。

另外,應(yīng)當(dāng)借助文字智能識(shí)別,打通民族古文字的內(nèi)在關(guān)聯(lián)。民族古文字輸入數(shù)據(jù)庫(kù)有兩種形式,一是文字輸入,二是保真的原文圖像輸入。前者借助電腦字符集的編碼,可被計(jì)算機(jī)自動(dòng)識(shí)別;而圖像載體形式的古文字,目前唯有借助圖像識(shí)別技術(shù),才能創(chuàng)建計(jì)算機(jī)可以自動(dòng)識(shí)別的信息碼,打通數(shù)據(jù)庫(kù)全部數(shù)據(jù)鏈,進(jìn)而實(shí)現(xiàn)民族文字內(nèi)部數(shù)字資源的徹底關(guān)聯(lián)。

我們以納西族東巴文為例來(lái)做簡(jiǎn)單說(shuō)明。東巴文中表示 " 杉樹 " 的字,其代表性字形有十來(lái)種,可以分為三組:

第一組:

第二組

第三組

三組字形分別出自白地、麗江和魯?shù)槿齻€(gè)地區(qū)的東巴經(jīng)文,呈現(xiàn)出明顯的地域特征;而每一組中的字形,又出自同一地域的不同書手,呈現(xiàn)出不同的風(fēng)格。在對(duì)上述文獻(xiàn)用字進(jìn)行一字一碼的圖像識(shí)別后,每一個(gè)字形所攜帶的地域特征、書手風(fēng)格、文獻(xiàn)類型、語(yǔ)境、字際關(guān)系等都能夠被計(jì)算機(jī)自動(dòng)處理,則所有字形圖像與其他數(shù)字資料的數(shù)據(jù)關(guān)聯(lián)就能夠被打通,智能處理就具有了無(wú)限空間。如此處,即可借助圖像識(shí)別對(duì)東巴經(jīng)文的地域特征、書手特征進(jìn)行譜系分類研究。反過(guò)來(lái),如果采用以往的識(shí)別思路,最終結(jié)果就是將上述八個(gè)字形歸屬于 " 杉樹 " 這一抽象的文字單位,識(shí)別的意義就只能是局限在經(jīng)文的解讀對(duì)譯上。

再及,智能化的助力,可以推動(dòng)大中華文化視野下的多民族文字綜合研究。我國(guó)的民族古文字,多數(shù)是在以漢字文化為基石的中華民族多元文化融合的歷史環(huán)境中發(fā)生、發(fā)展、演變的。這也就意味著,只有將民族古文字相關(guān)研究置于中華民族多元文化融合之系統(tǒng)中展開,才能揭示其全貌,也才能在彼此觀照中獲得對(duì)自身更深入的理解。

知識(shí)系統(tǒng)的充分系聯(lián)與普及,同樣要仰賴數(shù)字化與智能識(shí)別手段。可舉一例來(lái)說(shuō)明。水書是水族民間選擇時(shí)日、擇吉避兇的查閱用手抄本,其占卜擇日的概念、原理、體系、表達(dá)程式等多數(shù)來(lái)自漢族通書,而漢族通書的源頭,可以上溯到先秦日書,如楚簡(jiǎn)、秦簡(jiǎn)日書。這是縱向的觀察。橫向來(lái)看,漢族通書明清時(shí)期曾在南方少數(shù)民族地區(qū)廣泛傳播,水、侗、彝、布依等多個(gè)民族的古文獻(xiàn)中,都出現(xiàn)通書內(nèi)容,它們都來(lái)自漢文化,并形成了各自的擇吉特點(diǎn)。如果我們按前文所說(shuō),以統(tǒng)一的標(biāo)準(zhǔn)完成了這些古文字材料的意義逐級(jí)分類系聯(lián),并實(shí)現(xiàn)材料的圖像智能識(shí)別,那么就可以通過(guò)其中任何一種材料的圖像識(shí)別,實(shí)現(xiàn)相同義類的多種古文字材料的系聯(lián)呈現(xiàn)。

如水書 " 赤口時(shí) " 篇(圖 1),識(shí)別出對(duì)應(yīng)文字為:" 春三月辰午時(shí),夏三月午時(shí),秋三月戌時(shí),冬三月丑午時(shí)兇,口舌。" 意為:新娘忌在這些時(shí)辰進(jìn)親入宅,犯之則有口舌紛爭(zhēng)。該識(shí)別結(jié)果又可自動(dòng)關(guān)聯(lián)涉及婚嫁宜忌的其他古文字材料,如睡虎地秦簡(jiǎn)甲種日書 96-101 簡(jiǎn)內(nèi)容:" 春三月辰,夏三月未,秋三月戌,冬三月丑……不可以取婦、家(嫁)女…… ";彝文日書《運(yùn)尼司波》(圖 2)內(nèi)容:" 冬三月那一季,屬牛這天不吉 "。這樣,不同民族、不同時(shí)空的擇日條例反映出大體相通的內(nèi)涵——冬季三個(gè)月的丑日婚嫁不吉。這些材料的類比呈現(xiàn),對(duì)于梳理多民族日書的傳承流變,其價(jià)值是不言而喻的。

圖 1 水書 " 赤口時(shí) " 篇

圖 2 彝文日書《運(yùn)尼司波》

* * *

民族古文字研究的數(shù)字化,需要有支持文字識(shí)別的大數(shù)據(jù)平臺(tái)提供后臺(tái)支撐,為機(jī)器學(xué)習(xí)與迭代升級(jí)不斷提供豐富素材;而大數(shù)據(jù)建設(shè)的成果,需借力各種智能化方式,充分開發(fā)利用,才能被全面盤活,二者是相互促進(jìn)、彼此支撐的。在此平臺(tái)之上,中華民族多元文化融合視野下的民族古文字研究,定將得到長(zhǎng)足的發(fā)展。

本文為上海哲社規(guī)劃 " 冷門、絕學(xué)和國(guó)別史等研究專項(xiàng) " 課題 " 水族水書智能識(shí)別系統(tǒng)建設(shè)與研究 "(2019ZJX001)

作者:劉凌、劉志基 華東師范大學(xué)中國(guó)文字研究與應(yīng)用中心

編輯:陳韶旭

關(guān)鍵詞:

網(wǎng)站簡(jiǎn)介 網(wǎng)站團(tuán)隊(duì) 本網(wǎng)動(dòng)態(tài) 友情鏈接 版權(quán)聲明 我要投稿

Copyright? 2014-2020 中原網(wǎng)視臺(tái)(www.b4dc4.cn) All rights reserved.

主站蜘蛛池模板: 真人毛片免费观看视频 | 亚洲av永久无码精品成人 | 久久久久久久国产视频 | 亚洲妇女无套内射精 | 成人性视频免费网站 | 青青热久久国产久精品秒播 | 国产精品久久久久久小说 | 国内精品乱码卡一卡2卡麻豆 | 四虎精品影院 | 国产精品入口免费视频 | 99久久国产综合精品成人影院 | 久久99国产亚洲高清观看韩国 | 天天摸天天操天天爽 | 久久凹凸 | 欧美乱码伦视频免费 | 欧美视频在线视频 | 第九色区 | 色欲麻豆国产福利精品 | 午夜精品久久久久久久99老熟妇 | 中国美女一级毛片 | 国产无夜激无码av毛片 | 国产网红主播无码精品 | 四虎影视成人永久免费观看视频 | 内射后入在线观看一区 | 亚洲av日韩av天堂久久 | aika中文字幕永久在线 | 少妇人妻大乳在线视频 | 人妻体体内射精一区二区 | 国产在线不卡一区二区三区 | 亚洲午夜久久久影院伊人 | 高清二区| 免费人成再在线观看视频 | www.狠狠干 | 成人激情免费视频 | www视频在线观看 | 2021久久精品永久免费 | 91啦在线视频 | 99久久精品免费看国产免费软件 | 国产成人精品无码免费看 | 97久久婷婷五月综合色d啪蜜芽 | 国产 欧美 日产中文 |