Page 1 of 1

在应用 AWI 方法之前

Posted: Sat Feb 08, 2025 4:25 am
by Bappy11
图 1:左图:Clusius 数据集的示例图像:约翰内斯·布拉姆巴赫写给卡罗勒斯·克卢修斯的信,日期为 1586 年 8 月 21 日(img-id:896664_CLUY073-001-b,VUL 101)。图片经莱顿大学图书馆数字特藏部许可使用。右图:Schuchardt 数据集的示例图像:阿道夫·扎纳写给雨果·舒哈德的信,日期为 1912 年 2 月 27 日(img-id 12977)。图片经格拉茨大学图书馆特藏部许可使用,雨果·舒哈德遗赠。
图 1:左图:Clusius 数据集的示例图像:约翰内斯·布拉姆巴赫写给卡罗勒斯·克卢修斯的信,日期为 1586 年 8 月 21 日(img-id:896664_CLUY073-001-b,VUL 101)。图片经莱顿大学图书馆数字特藏部许可使用。右图:Schuchardt 数据集的示例图像:阿道夫·扎纳写给雨果·舒哈德的信,日期为 1912 年 2 月 27 日(img-id 12977)。图片经格拉茨大学图书馆特藏部许可使用,雨果·舒哈德遗赠。
2. 方法论首先,必须将页面图像的实际文本区域与包含非文本元素的区域分开。例如,图书馆的扫描协议涉及添加颜色图案和标尺,以便可以重建颜色信息和真实比例。但是,为了进行文档分析,需要删除页面图像的这些部分。此外,文档背景中的伪影(例如折叠或图形插图)与作者识别无关,因为我们只想分析文本。因此,我们首先检测文档图像中的文本区域,如下一节中更详细地描述的那样(图 2)。在第二步中,将文档的颜色(或更准确地说,包含文本的区域的颜色)减少到 1 位,即对文本区域进行二值化(图 3)。结果,脚本的轮廓表示为黑线(图 4)。在第三步中,提取轮廓的特征。背景模型是根据整个数据集(或训练集)的所有特征描述符计算出来的,然后这个模型又被用来计算该集合中每一页的全局图像描述符。请注意,这个过程与音频信号中的说话人识别非常相似。[6]除了背景模型之外,还可以从已知作者的页面计算出单个作者模型。然后,这些模型可用于查询集合,并将正确的作者分配给有问题的文档图像。或者,如果我们有一个作者不详且没有参考模型的大型数据集,我们可以根据页面的相似性对其进行分组(聚类)。

图 2:文本检测掩码(左),与二值化输入图像叠加以生成轮廓(右)。在轮廓处提取局部特征描述符并聚合以形成全局图像描述符。
图 2:文本检测掩码(左),与二值化输入图像叠加以生成轮 奥地利电报数据 廓(右)。在轮廓处提取局部特征描述符并聚合以形成全局图像描述符。
图 3:从 Otsu 方法获得的二值化示例(左)和从 Bradley 方法获得的二值化示例(右)。
图 3:从 Otsu 方法获得的二值化示例(左)和从 Bradley 方法获得的二值化示例(右)。
图 4:使用图像蒙版和二值化结果的轮廓输出。
图 4:使用图像蒙版和二值化结果的轮廓输出。
2.1 文本检测
使用自下而上的方法来分析页面图像,以检测文本区域并将其与任何其他类型的区域(例如图形或噪声)分开。与自上而下的方法相比,这种方法对噪声或预处理不佳的图像表现出更高的鲁棒性。首先,使用局部投影轮廓 (LPP) 将字符分组为二进制图像中的单词。使用基于一阶导数各向异性高斯滤波的粗略文本行估计来解决文本行之间合并的上升部和下降部引起的问题。然后,在滤波后的图像中检测连续的局部最大值,以拆分合并的文本行。经过这些处理阶段后,单词的轮廓就已知了。为了保持处理速度和后续算法的复杂性,最好使用包围矩形而不是轮廓来表示单词。我们引入了轮廓框(见图5),它是通过将线条稳健地拟合到单词的上轮廓和下轮廓来计算的。检测到两条线后,轮廓框被定义为具有两条线的平均角度、线之间的平均距离的高度以及与两条线的最大长度相对应的宽度。Diem 等人的著作[7]中详细介绍了文本检测。为了识别作者,我们使用了文本检测掩码,随后将其扩大(即放大)为 25x25 大小的矩形。