上传一张甲骨文拓片,智能体就能识别出里面有哪些甲骨文;识别出某个单字后,智能体还会自动查找这个字在哪些甲骨和拓片中出现过...近日,厦门大学与腾讯公司、安阳师范学院联合研发的全球首个甲骨文智能体“殷契行止”正式上线,面向公众免费开放。
在电脑端“甲骨文AI协同平台”上上传一张甲骨文的照片,智能体就能看图识字,还能进一步检索系统知识库中有关这个文字的相关资料以及参考文献;发布一张甲骨文拓本,就可以找出同一片甲骨不同的拓片版本,还能转化为白底黑字的临摹图,方便大家看清笔画细节。这些过去需要花费研究者数年的工作,如今10分钟就能完成。厦门大学人工智能研究院甲骨文研究团队负责人金泰松介绍,甲骨文研究一直面临着“识别难、比对难、共享难”的障碍,这次校企联合研发的“殷契行止”智能体,相当于包办了一部分繁琐复杂的甲骨文识别、文献考究等工作。
厦门大学人工智能研究院甲骨文研究团队负责人 金泰松:比如说我要讲某个(甲骨文)单字它的含义,我们不用先去找单字是什么字,因为我们输入图片,它会自动帮你识别是拓片图还是模板图片,自动去告诉你它的含义。这个字在哪些拓片和模板出现过,最后自动去查这个字典,把它释义呈现给甲骨专家。
甲骨文是迄今为止中国发现年代最早的成熟文字系统,在殷墟考古中,一共出土16万片甲骨文,其中包含的单字超4000多个,但考释出、得到公认的文字约1500个,占比不到三分之一。金泰松介绍,甲骨文拓片大多模糊不清,拓片噪声干扰严重,笔画断裂,比如“庚”字,在不同时期形态各异,有的像铃铛,有的像劳动工具,不仅常规的图像检测方法失效,也给视觉算法带来了极大的挑战,研究团队只能像教孩子识字一样,给智能体投喂了上千个“庚”字拓片。
厦门大学人工智能研究院甲骨文研究团队负责人 金泰松:我们通过人工智能算法,把这些拓片上面单字(形态)比较好的,我们都建了一个智库,有143万个(字形的检测)。去年,我们发布了世界上第一个甲骨文多模态的数据集,它包含了这些拓片摹本、包括它的一些信息,方便甲骨文学者的使用,相当于提供了一个公共的资源,也解决了共享难的问题。
现在,无论是甲骨文专家还是爱好者,都可以免费登录系统上手体验。同时,古文字爱好者们还可以打开微信小程序“了不起的甲骨文”,通过识字卡、知识闯关、甲骨文广播体操等主题游戏,感受古文字的千年底蕴。
厦门大学人工智能研究院硕士研究生 熊中伟:甲骨文这个项目,它的本质其实是做计算机视觉相关的研究,对于我们的专业来说是非常契合的。我们也能对这些算法本身底层的数学实现,做一些更深的理解和分析,在文化传承这方面我们就能够更加感受到传统文化的珍贵,并且用我们自己的力量去对它进行传承和保护。