东方语言学论坛

首页 » 学术论坛 » 应用语言学 » 典籍数字化 » 漢語言文字典籍資料電子文獻製作格式標準
该用户已被删除 - 2002-12-31 7:57:00
                       漢語言文字典籍資料電子文獻製作格式標準     一、前言     本文件為漢語言文字典籍資料數字化工作協作組製作漢語言文字典籍資料電子文 獻的格式標準。     本標準的製定的目的是規范協作組製作的漢語言文字典籍資料電子文獻的格式, 以便實現資源共享。     本標準要求協作組製作的漢語言文字典籍資料電子文獻忠實保存用作底本的紙質 文獻的內容,並完整地反映紙質文獻的文獻信息,以便可以替代紙質文獻利用電腦進 行閱讀和檢索。     本標準要求協作組製作的漢語言文字典籍資料電子文獻可以方便地再加工為數據 庫或其他產品,用於語言學或其他學科的研究工作。     本標準由漢語言文字典籍資料數字化工作協作組參加單位協商製定。     二、術語     1) 段落:電子文獻顯示的基本單位,以硬回車作爲結束。     2) 注:包括紙質文獻的注(傳、箋、校)和疏(正義、義疏)。     3) 音:對語音的注釋,包括紙質文獻的直音、反切、聲訓等。     三、標準説明     1. 底本     漢語言文字典籍資料電子文獻應選取學術界通用的善本作爲底本,並在“版本説 明”中加以説明。     2. 内容     電子文獻應該具備底本所有的内容,包括序跋、題目、目錄、凡例、圖表等。     3. 格式     漢語言文字典籍資料電子文獻採用純文本格式(.txt)。     4. 版式     漢語言文字典籍資料電子文獻採用右行橫排的版式,並必須反映底本版式的格 式。     5. 段落     漢語言文字典籍資料電子文獻應分段落。段落根據漢語言文字典籍資料紙質文獻 的不同性質劃分,段落的劃分應符合學術界約定俗成的慣例,並方便進行計算機處 理。字書韻書可以以字頭為單位,注和音隨字頭在一個段落。其他古籍一般可以根據 意義單位劃分段落。     6. 注文     各種層次的注文,包括注、疏、音等應跟相應的正文處於同一段落,並跟正文的 字體、字號、行款相同,電子文獻採用標注區別文本的不同層次和不同性質。 注文放在正文末尾或採取夾注方式,應與底本的式樣保持一致。     底本中的雙行小字夾注,一律改爲單行夾注。     底本中注文的各種名稱,包括注、傳、箋、校、正義、疏、義疏、釋文、轉注、 假借、古韻等,應該保留。     7. 文字     無論正文或者注文,字體一律使用宋體,字號一律使用五號。     除了紙質文獻原本使用的簡體字以外,不使用簡化字代替繁體字。假借字不改本 字。原本使用的古字不改為今字。異體字不改為通行字。訛字不改為正字。諱字不改 為本名。     脫文、衍文、倒文,不作改正。     底本缺字或字形漫漶無法辨識,用墨丁■標識,不用方框□。     字樣書或文獻辨形正字時,保留各種特異字形。     8. 外字     超大字符集以外的外字,採用組字表達式表示,並報送協作組,由協作組發布, 以便其他成員統一使用。     組字表達式採用中華電子佛典協會CBETA 電子佛典系列製定的《一般組字式基本 規則 6/8 '98》(但去掉表尚未找到足以表示的特別字根的基本符號 ? ):     組字表達式使用 * / @ - +  五個半角基本符號,及 ( ) [ ] 兩組半角分隔符 號。     組字表達式舉例說明如下:
符號 說明 範例
* 表橫向連接 明=日*月
/ 表縱向連接 音=立/日
@ 表包含 因=囗@大 或 閒=門@月
- 表去掉某部份 青=請-言
- + 表去掉某部份,而改以另一部份代替 閒=間-日+月
( ) 為運算分隔符號 繞=組-且+((土/(土*土))/兀)
[ ] 為文字分隔符號 羅[目*侯]羅母耶輸陀羅比丘尼
    9. 標點
    漢語言文字典籍資料電子文獻提倡進行斷句,施加現代標 點符號。
    標點符號按中華人民共和國國家標準 GB/T 15834《標點 符號用法》(國家技術監督局,1995年)使用,並參考中華書局編輯部《史記點校後 記》的做法,但專名不加專名號,書名號、引號使用橫式標號。
    正文中不使用花括號,花括號用於注文的標注。
    10. 文獻信息
    電子文獻必須採用標注反映底本所有的文獻信息,包括書 名、篇名、卷次、頁 碼。根據底本的性質和工作的需要,還可以標注韻目、部首、韻次、字次、行號等。
    三、標注
    電子文獻必須對文本的不同層次和文獻信息進行標注, 以便在每一條查詢中都能顯示不同層次的性質和文本的文獻信息。
    標注時不能打亂原文,祗在原文上加標注符號。
    1. 正文:
    每個段落前標注“Z”。
    2. 注:
    在前後加花括號“ { } ”。注文原有的“傳、箋、注、 疏、正義、義疏、校、 按”等字樣不省。如底本注疏前有圓圈“ ○ ”,照錄不省。
    3. 音:
    在前後加“Y”。
    4. 頁和欄
    每頁第一個字前加“P”,每欄第一字前加“L”,如果同 時是頁與欄的第一字, 加“PL”。
    5. 標題
    標題前加“B”。 如果有幾級標題,依次標注為B1、B2、 B3……。底本卷次按標 題標注。
    四、樣本
PB1爾雅注疏卷九
晉郭璞注  唐陸德明音義  宋邢昺疏
B2釋木第十四{音義:Y木,之卜反。Y《說文》云:木,冒也,冒地而生也。從 屮,下象其根。《白虎通》云:木之言踊也,陽氣踊躍。疏:《說文》云:木,冒 也,冒地而生,東方之行也。《白虎通》云:木,觸也。陽氣動躍,觸地而出也。種 名雖多,木爲總號,此篇析别,故云釋木也。}
Z槄,山榎。{注:今之山楸。音義:Y槄,地刀反;郭又他皓反。榎,古雅反;Y 舍人本又作檟。Y楸,音秋。Y疏:李巡云:山榎,一名槄。郭云:今之山楸。《秦 風》云:終南何有,有條有梅。陸璣疏云:槄,今山楸也,亦如下田楸耳。皮葉白, 色亦白,材理好,宜爲車板,能濕。又可爲棺木,宜陽。共北山多有之也。}
1
查看完整版本: 漢語言文字典籍資料電子文獻製作格式標準