精選分類 書庫 完本 排行 原創專區
欣可小說 > 純愛耽美 > 重生之乘風而起 > 第1104章 時來天地同運力

重生之乘風而起 第1104章 時來天地同運力

作者:二子從周 分類:純愛耽美 更新時間:2026-03-16 11:51:16

“不過對於構建資訊化字庫來說,讓程式識別字根,會讓我們的效率得到巨大的提高。”

“原來如此。”冷玉龍點頭:“那我們再說回《字海》。”

“漢字有新舊字形之別,因此我們在《字海》,字頭還是采用新字形;而在《印刷通用漢字字形表》以外的字頭,則依該表原則作了整理;”

“那就是相當於製作了一部新的,概括範圍更大的《印刷通用漢字字形表》?”周至問道。

“是的。”韋一心點頭:“不過你們的字根法更加科學,不必用回來。”

冷玉龍也點頭表示認可:“《字海》裏的繁體字字頭後,也附有相應的簡化字,簡化字範圍限於《簡化字總表》之內。”

“《字海》注音用漢語拚音字母,並在其後加註直音,直音以現代讀音為據;”

“多音字讀音按常見音項在前,非常見音項在後的順序排列,無法判斷常見或非常見的字音則按引例時代先後排序。”韋一心補充道:“有異讀的字,則按普通話語音審定委員會審定音來標注。而方言字,則依方言與普通話讀音對應規律或實際讀音來注音。”

“差不多就這些了吧?”冷玉龍問道:“辭書的釋義部分和字碼冇什麽關係了,還用講嗎?”

“講,我也學習學習。”周至聽得美滋滋的,這還是他第一次曉得如何編纂一本《字典》,尤其是釋義部分,和字庫編纂冇有什麽關係,因此興趣更加的濃厚。

冷玉龍對周至的好學精神很滿意,笑道:“釋義的話,我們先解本意,次引申義。”

“對於異體字、簡化字、二簡字、錯訛字,不單獨釋義,也不注音,但雲‘同‘某’’,‘‘某’的簡化字’,‘曾作‘某’的簡化字’,後停用’,‘‘某’的訛字’等,同時,還要以‘見’或‘字見’的方式,指明其出處。”

“字以楷書隸書作成字卡,共收漢語單字85568個。主要收字依據一共有十一個來源。”韋一心如數家珍:

“一是曆代辭書,如《說文》、《玉篇》、《廣韻》、《集韻》、《康熙字典》等書中收錄的漢字。”

“二是曆代辭書未收而見於文獻典籍的漢字。”

“三是國家語言文字工作委員會頒佈的《簡化字總表》中的全部簡化字。”

“四是甲骨文、金文和竹簡、帛書中學術界比較公認的隸定字。”

“五是曆代碑刻中的異體字。當然了,訛字除單體字外,我們一般不收。”

“六是地方文獻和方言辭典中的方言字。”

“七是近現代出現的科技新字。”

“八是當今還在使用的人名和地名用字。”

“九是當今出版物中出現的超出《簡化字總表》範圍之外的類推簡化字。”

“十是七七年中國文字改革委員會公佈的那一版《第二次漢字簡化方案草案》中的漢字。”

“最後就是流行於港、澳、台地區的漢字。在日本、韓國、新加坡等國使用的漢字,本書也酌量收錄。”

冷玉龍補充道:“此外,為了充分反映漢字的實際情況,《中華字海》還酌量收錄了曆代文獻中的新舊筆形與訛字。”

“這一部分的收字標準,我們采用‘單體字從寬,合體字從嚴’的規則。一般單體儘量收錄,合體字儘量不錄。”

“還有最後一部分工作,就是整理過程中的清理。”韋一心說道:“《中華字海》在前任字書未及的異體字與錯訛字方麵,進行了一些清理與合並工作。在釋義當中,儘量將諸多典籍中的釋義和釋疑儘量找齊,合並到一個字的釋義之下。”

“如(木舟)字,《漢語大字典·補遺·木部》:‘(木舟),樹名。’《太平禦覽》卷七百七十引周處《風土記》:預章(木舟)諸木,皆以多曲理盤結為堅勁也。’但是並未注音。”

“而《字海》綜合《漢語大字典》出版後的一些考釋成果釋為:“(木舟),同‘楠’。見《龍龕》。”

“類似這樣的後補考證成果,我們也將之補充進《字海》的(木舟)字釋義之下。”

“加上我們自己未能考訂確實的《補遺》部分,《字海》其實一共收錄了87019個漢字。”

“太了不起了。”周至不禁感慨:“這可不是把我們要乾的活都乾了啊?”

“要點臉。”辜開來不禁翻起了白眼:“什麽叫你要乾的活?”

“兩位師兄的搜字範圍,幾乎已經囊括了我們所能想象的全部啊。”周至樂得都不行了:“還是用楷體建卡,我估計自動程式掃描識別的問題應該不大。”

“那就走吧,先去庫房看看。”冷玉龍比周至還急:“要是合用那就撿大便宜了,咱們可以把《字海》的出版工作儘快提上日程!”

“嗯,等到確定了可行性,我們就去找李國傑教授打擂台!”

“李國傑教授?”韋一心搜尋了一下自己認識的文字學大擘,似乎冇有這麽個人,轉頭問冷玉龍:“冷泉你聽過這人嗎?”

見韋一心誤會,周至方纔笑道:“李國傑教授是曙光超算中心負責人,之前我們想要一點運算資源,國傑教授那叫一個摳門啊……這次我們找上門去,堵著他打擂台!”

北大中文係幾間資料室裏,冷玉龍和韋一心八年多的心血,靜靜地躺在這裏。

整個資料室分作了兩百多個部分,按照《中華字海》的字頭索引方式,分門別類地歸納在檔案櫃裏。

每一個櫃子裏都有幾個紙箱,箱子裏是一個個的檔案袋,裏邊一遝一遝的都是硬紙卡片。

對於翻習慣了字典的人來說,每一張卡片,其實就是字典上關於一個文字的本字及註解區域。

卡片左上角是一個標準的大田字格,文字端正的楷書就寫在那裏,接著是拚音注音,釋義,摘引文獻等等“凡例類目”。

將幾間大屋子的所有資料一頁頁鋪起來,影印縮小,就是一部《中華字海》。

或者說,將未來的一部《中華字海》放大,裁剪開,就是這幾大屋的資料。

“應該冇問題。”周至看著一絲不苟的字卡,不由得大感佩服:“這連標點的大小和寫法,都有規範,每個逗號都幾乎一模一樣啊……”

“這是門裏的老傳統了,逗號需要按照‘日’字格分作上下兩個部分,上部為圓形,圓周與‘日’字格邊框相切,斜弧線那一筆要頭粗尾細,頭部從圓與日字格右切點開始,寬度占圓周八分之一,然後收細畫弧,筆尖到日字格左下結束。”韋一心笑道:“當然是有規矩的。”

“時來天地同運力。”周至都樂壞了:“確認了,一個老師教出來的!瀚文字庫逗號的向量化規則也是這樣!”

目錄
設置
設置
閱讀主題
字體風格
雅黑 宋體 楷書 卡通
字體風格
適中 偏大 超大
儲存設置
恢複默認
手機
手機閱讀
掃碼獲取鏈接,使用瀏覽器打開
書架同步,隨時隨地,手機閱讀
收藏
聽書
聽書
發聲
男聲 女生 逍遙 軟萌
語速
適中 超快
音量
適中
開始播放
推薦
反饋
章節報錯
當前章節
報錯內容
提交