Logo

识典古籍(1)——小试萝卜刀

我现在穿越回中国的古代就是死路一条。

某天我偶然点进了识典古籍

这网站我在小红书早已有所耳闻,通俗地说就是在做古文OCR校对。我思来想去,这活也没有多难,AI OCR后,我再人工确认一遍字和OCR结果差别多大就好了。

一时兴起揽活以前,我轻视至此;而任务开始的时候,轻视的态度消失得一干二净、甚至倒欠40%的自信值,差点要自认为是新世纪最不了解传统文化的蠢货。

揽下的任务是校对 《大清律例会通新纂》的目录

卷七:「戸」和「戶」

《大清律例会通新纂》目录P3

这个字是一个开始。我开始思考一个问题:OCR过程中不应当僭越做简化的。但话虽如此,

这字应该是「哪个」呢

我并没有一丝古代法律用词的知识储备。于是问了GPT“古籍里如何分辨‘戶’和‘戸’?”现在想来我的问法有问题,因为我得到的答案是这两个字的使用场景一致。它说“戶 是先秦至清代主流正字,基本用于描述制度。”戸“则是「戶」的简省写法,不在「经」「典」上使用。

这点说法无法让我信服,只能像什么字选什么字了,

卷二十六:「闘」 和 「鬪」 以及「鬬」

《大清律例会通新纂》目录P7

“鬬”是最旧字,“闘”是最略字,我险险弄懂它们的年代继承关系,就要开始指点他们谁改跳进萝卜坑。

好在是我能看得出来鬥里面的字,选出“鬬”并没有很难,不需要拿这个字去确认是否匹配时代背景————这不是OCR矫正的任务,而更接近于历史分析了。

卷三十五:「斷」和「㫁」

《大清律例会通新纂》目录P8

这个字开始学乖了,尝试去翻其他资料典籍来判断那个字才是正确搭配。但资料充足和结果清晰似乎并没有必然联系—— ——

自诏旨杂治五刑,岁躬断狱以数千计,而好生之德意泯。自刀笔治丝纶,而王言亵,自诛求及琐屑而政体伤。自参罚在… 《南雷集》子刘子行状上,(清) 黄宗羲 著,四部丛刊景无锡孙氏小绿天藏原刊本,第13-16页 —— 斷狱

断狱者多以“知情故纵”及“大不敬”论罪,本争之曰:“律自叛逆数条外,无‘故纵’之文,即‘不敬’情有重轻,岂可槩入重比?” 《明史》明史卷一百五十 列传第三十八“虞谦”,(清) 张廷玉等 著,百衲本,第12-13页 —— 斷狱

汉人多尚经学,服官断狱之事,无一不出于经。 《皇朝经世文编》卷一,(清) 贺长龄 著、(清) 魏源 著,刻本,第37-38页 —— 斷狱

可是扫描图里也算是清晰可辨看得出来是「㫁」。

我陷入了沉默,并向自己重申,OCR不要僭越改变扫描结果,于是选择了「㫁」。

总结

识典古籍对于新手,仅说明需要改正OCR框并修改「错字」;这已经能说明,「识典古籍」上的「古籍整理」是一件门槛足够低的志愿任务,

任务结果已经审核通过了,我再去翻其他新手任务,竟然多是长达30、40页的大任务。再多的内容已成后话。