古籍污损缺字难辨认?这个古籍修复模型可以识别
一部因为年代久远而出现污损、缺字或者难以辨认的古籍,人工智能也能够“无违和识别”。
7月4日,2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC2024)在上海开幕。在展览现场,一款AI古籍修复模型,向公众展示AIGC技术如何数字化修复敦煌遗书章节残损的页面、文字,成为大会展览的一大亮点。
7月4日,2024世界人工智能大会展览现场,AI古籍修复模型向公众展示AIGC技术如何数字化修复敦煌遗书章节残损的页面、文字。受访者供图
“敦煌遗书”是敦煌莫高窟藏经洞出土的公元4至11世纪的古写本及印本的统称,所涉内容广泛,包括宗教文献、四部典籍、官私文书,以及相当数量的非汉文文献等,对历史、宗教、地理、天文、历法具有重要研究价值,被誉为“中国中古时代的百科全书”。晚清时期,藏经洞出土文献文物流散于全世界各地,除中国外,敦煌遗书目前还分藏于英国、法国、俄罗斯、日本等国家的数十家收藏机构中,缺乏一个完整的联合目录,对学术界的体系化研究造成巨大干扰。此外,大量的文献页面存在不同程度的残损,敦煌遗书的保护、传承工作,引发社会关注。
AI古籍修复模型由合合信息旗下扫描全能王携手华南理工大学团队共同打造,将AIGC技术应用于敦煌遗书残卷的数字化修复上。现场展位开放了敦煌遗书合成样本的文字修复体验项目,公众可在不同位置移动扫描样本卷轴,见证AI如何通过字形修补、褪色修复、背景补全等方式,完成古籍的数字化修复。
世界人工智能大会敦煌遗书文字修复效果演示。澎湃新闻记者俞凯图
“你可以看一下,随着我们滑轴的移动,(敦煌遗书)样本卷轴的不同地方是有不同程度的缺损的,然后我们可以点击滑轴上AI古籍修复模型的操作功能按钮,就可以开启修复工作。进行图像处理之后,AI就会识别目前你想要修复的区域并进行自动定位,定位完之后,自动判断这一区域需要修复的缺字或者字迹污损难辨认情况,修复完之后实现1:1的还原。”合合信息展台工作人员说,在修复时,AI古籍修复模型还会自动学习原版古籍的文字、笔画风格(书法字体),以及页面纹理,把缺损的文字按照原来的字体、色彩、背景加以修复还原,且能够做到天衣无缝、看上去没有“违和感”,在最大程度上确保了修复区域的文字风格和背景与原古籍的一致性。
修复前。澎湃新闻记者俞凯图
修复后。澎湃新闻记者俞凯图
澎湃新闻记者看到,大会现场还展示了敦煌遗书系列文献中《汉书·刑法志》节选章节的修复效果。《汉书·刑法志》是研究汉代司法制度和司法实践的重要史实材料,这份曾凋零在千年时光中的残卷,被AI拂去岁月的痕迹,第一次以完整的姿态向关注者们问好。
合合信息携手华南理工大学成立的古籍数字化修复团队成员表示,古籍的数字化修复是一项艰巨、浩大的工程,古籍污损缺字难辨认?这个古籍修复模型可以识别未来也希望能联通更多专业的文献研究机构及技术专家,共同提升数字化修复精度与效率,促进古籍文物的时代价值挖掘与知识发现,推动中国传统文化与现代科技的融合创新。