
近年来,几项作品提出了传统的机器学习方法来研究古代文本。这项工作的重点是光学特征识别和视觉分析31,32,33,34,作者识别35,36,37和文本分析38,39,40,41,41,42,43,44,STYLOMERTRICS45和DOMOCEDATION 46。It is only very recently that scholarship has begun to use deep learning and neural networks for optical character recognition47,48,49,50,51,52,53,54,55, text analysis56, machine translation of ancient texts57,58,59, authorship attribution60,61 and deciphering ancient languages62,63, and been applied to study the form and style of epigraphic monuments64.
距伊萨卡(Ithaca)最接近的工作是我们2019年关于古代文本修复的研究:毕曲察(Pythia15)。据我们所知,植物是第一个使用深神经网络的古代文本修复模型,其次是空白的语言模型18,Babylonian65和韩国文本翻译和恢复17,用于语言建模的拉丁语Bert,语言标记,单词sisse sisse sisse sisse disammagiation,word sense disammagiation and Word Sloopality16,以及按周期划分的Cune sablesifor table 66。
据我们所知,伊萨卡是第一个在整体工作流程中应对题材工作流中三个核心任务的模型。它不仅可以推进Pythia设置的先前最新技术,而且还使用深度学习来首次进行地理和年代归因,并以前所未有的规模。伊萨卡(Ithaca)提供了可解释的产出,展示了人类专家与机器学习之间合作的重要性67,这是我们的实验评估的例子。
最重要的是,这项工作表明,如何将人类专家与深度学习架构进行协作解决任务可以超过人类和模型在相同任务上的个人(独立)表现。实际上,最近的医学研究68,69进一步证实了混合体系在解决现实世界问题上的重要性。目前的工作通过使用多个图表和地图可视化所有任务的输出概率分布,并通过显着图来增强其可解释性,从而使人类专家的交互成为可能。我们希望这项工作可以通过使用先进的深度学习体系结构来支持古代历史学家的作品,为数字铭文领域树立新标准。
恢复受损的铭文时,阶级人士猜测基于语法和句法考虑因素以及文本5的重建物理形式,猜测缺失字符的总数。常规上标有无法恢复的猜想缺失的字符,其中一个连字符等于一个缺失的字符。此外,PHI介绍了文本的解释性抄录(包括大写,标点符号,单词划分,下案字母转换)。
因此,从PHI数据集移动,我们基本上扩展了用于过滤前毕曲霉的人类注释的规则集,从而使文本机器可用。我们删除了9,441个重复的文本,并删除了50个字符以下的所有铭文,而在Pythia的数据集中,我们排除了所有具有少于100个字符的文本。为了增加可用文本的数量,我们保留了题词人提出的补充剂(常规在方括号之间添加),并且我们匹配了带有“ - ”符号数量的未修复字符的数量,就像题词人所做的那样(扩展数据图1)。
每个phi铭文都分配给古代地中海世界的一个区域(扩展数据图2),其中包括一个额外的元数据字符串,涉及epigraphers为文本提出的日期(扩展数据图1)。按时间顺序信息以各种格式(历史时代,精确年间)注意到;用几种语言(包括拉丁语);在()之前和之后()共同时代;缺乏标准化符号(“早期”,“上半场”,“第一半”,“开始”,“ beg。”),并且经常使用模糊的措辞(“第7/6 ac。末期”,“ Ca. 100 a。???”,“BEF。64”)。制定了扩展规则集后,我们成功地生成了所有PHI铭文的60%的定义时间间隔,因为其余40%的年代元数据缺失或无法处理。所得的I.Phi数据集包含1.93×比以前的毕曲(Pythia)数据集更多的铭文。数值PHI标识符(PHI ID)以3或4结束的文本分别用作测试和验证集(扩展数据表1)。
对于每个铭文,模型的输入由(1)一个字符嵌入序列(实价载体,每个序列,每个载体代表在铭文的相应位置上发生的字母字符);(2)单词嵌入的一个同样长的序列(实价向量,每个词都代表铭文的相应特征位置的词汇单词;图2);(3)位置嵌入(也代表输入序列的位置)的位置嵌入。在训练伊萨卡(通过反向传播)时,前两种嵌入是随机初始化和学习的。位置嵌入也可以训练,并且每个尺寸的单独的正弦函数初始化,以保持相邻步骤之间的对称距离,并在最大长度上平稳衰减768个字符。我们的词汇包括在i.phi(35,884个单词)中出现超过10次的每个单词,而损坏或“未知”(代表性不足)单词的单词呈现为“ [unk]''符号。字符和单词嵌入的联合用途使伊萨卡的体系结构既可以是角色和上下文 - 捕捉70,71,72。最后,输入序列用句子开始字符填充”<’.
The three input sequences are combined by concatenating the different embeddings per-character position and the resulting sequence is fed through the torso of the model. The architecture of Ithaca’s torso consists of eight stacked transformer decoder blocks, inspired by the large-scale transformer model BigBird73. Every block uses four sparse attention heads (using global, local and random attention mechanisms), which reduce the context-length dependency from quadratic to linear, therefore enabling the model to handle lengthier sequences73 compared with classical transformers. Furthermore, the attention mechanism is ‘multi-head’ (Fig. 2) in the sense that it can learn to consider different types of information extracted from the input. For example, different attention heads may be sensitive to particular character sequences, or more perceptive to certain words and phrases with distinctive morphosyntactic or semantic features. Finally, to overcome problems that hinder the stacking of such complicated blocks, each transformer block uses residual connections and layer normalization (shown as ‘add and normalize’ in Fig. 2).
Ithaca’s torso outputs a sequence whose length is equal to the number of input characters, and each item in this sequence is a 2,048-dimensional embedding vector. Each task head consists of a two-layer feedforward network followed by a softmax function. There are three different task heads, handling region attribution, chronological attribution and restoration respectively. To predict the regions and dates, Ithaca uses the first output embedding (t = 1) and passes it on to the two corresponding heads. This arrangement is similar to that of DocBERT74 and works better than other pooling methods (such as mean- and max-pooling over the output embeddings) in our experimental evaluation. Finally, for the restoration task, Ithaca uses the remaining output embeddings (t >1)由于与输入文本字符有直接对应关系:对于每个缺失的字符位置,躯干的相应输出嵌入被馈送到恢复任务的头部,这可以预测缺失的字符。
i.phi可能是机器可笑的题词文本的第一个多任务数据集,但其大小仍然比现代典型语言数据集小几个数量级。为了避免过度拟合的风险,这在大规模的深神经网络体系结构中很常见,我们应用了下面描述的几种数据增强方法,以人为地增加I.Phi训练集的大小。我们的初步实验评估发现,这些方法对于达到报告的性能至关重要。每当在每个训练时期重新遇到训练铭文时,这些增强方法就会重新应用。
对于每个铭文,我们选择其文本的任意部分,而忽略其余文本。我们首先将段长度在50至768个字符之间进行采样,然后对段的起始索引进行采样。这种方法有助于ITHACA概括和改善部分输入的处理。
强迫模型依靠上下文信息通常会导致预测的改进。为了在我们的模型中实现这一目标,在训练期间,我们通过用“ - ”从几何分布(P = 0.1)取代字符的序列随机隐藏了一半的输入文本。此跨度掩蔽旨在复制从数据集估计的缺失字符的长度上的分布,并将隐藏的地面真实字符作为恢复任务的目标标签。
在培训期间,我们还以20%的概率删除了每个输入文本(在这种情况下不用任何特殊字符替换的任何特殊字符)中删除单词。在这里,目的是再次提高训练数据的可变性,以提高模型在铭文受损的所有可能方式上概括的能力75。
通过在输入文本中随机交换句子,概率为25%,我们为下一句子预测(NSP)75的辅助任务生成多个输入 - 标签对(见下文)。
伊萨卡的源数据集(PHI)是一代学术研究的综合。e epraphers通常会通过诱导过程按时间顺序恢复文本。通过相似之处提出了文本修复,这是由更广泛的历史和语言知识介导的。按时间顺序归因部分是由考古和上下文信息提出的,部分来自文本形式和内容,部分是由文本和物质相似的。伊萨卡列车的文本包括以前的学术修复;记录的日期是考古,历史和文本研究中积累的学术知识和归纳的产物。这可能被认为意味着循环性,但是只有在伊萨卡(Ithaca)在客观数据的世界中运行并旨在提供单一的客观真实解决方案时,这才是正确的。相反,伊萨卡是一种旨在改善和促进学术诱导过程,建模不确定性并提出可能考虑的解决方案的辅助工具。
考虑到文本恢复,伊萨卡避免了“正方形括号的历史”的风险,有76,77,78(假设任何拟议的恢复是基本真理,这意味着公认的共识,而不仅仅是几个假设之一),因为伊萨卡都没有提议的修复是客观地确定的,它们是可以说的,它们是可以用作PLA的一定建议。此外,将现有的学术猜想纳入训练集本身并不构成“来自方括号的历史”的一种形式,因为这些猜想本身是通过归纳过程所实现的合理的修复体,并且被一个或多个专家认为可以接受,并且伊萨卡本身旨在产生这种结果。ITHACA的价值确实是它从最大的证明和可能的文本数据集中学习的能力,从而使归纳推理的基础过程尽可能强大,从而为学者提供了可能的修复。
至于时间顺序归因,伊萨卡列车的数据集建立在过去对多个元素(例如考古出处,材料形式,文本内容和形式)的研究中。伊萨卡又通过密切关注文本来学习。因此,伊萨卡提出的归因在对广泛的文本数据集的归纳研究中及其与更广泛得出的时间顺序数据的相关性。因此,伊萨卡(Ithaca)能够通过将机器学习专门应用于该数据中的文本模式来对这些尝试进行一些改进。因此,在这种情况下,伊萨卡是该学术过程的一部分,而其推理中的循环或多或少比任何其他学者。
对于恢复的任务,我们使用文本掩盖扩展方法来掩盖输入的一部分并产生地面真相。随后,我们使用跨凝结损失来训练伊萨卡以预测缺失的字符。横向渗透损失也用于地理归因,使用区域元数据作为目标标签。我们进一步以10%的系数应用标签平滑,以避免过度拟合,并为历史学家提供预测假设的平滑分布。对于按时间顺序归因的任务,伊萨卡(Ithaca)将所有日期分散在800至800之间,bin尺寸为10年。该范围涵盖了大多数PHI数据集条目,并涵盖了希腊题词的常规日期范围。将处理的地面真实日期间隔离散为均等概率的箱,形成目标概率分布。已经注意到了基于过去的奖学金的不同级别精确度的离散和合并日期范围的局限性79,80 - iThaca训练的数据范围,以及对文本模式的关注越来越多(与以前的段落相比),至少部分地应对这一挑战。然后,我们使用kullback -leibler差异来最大程度地减少目标和预测概率分布之间的差异(图3C)。
最后,为了更好地建模上下文,我们引入了下一个句子预测损失,这是语言建模任务共有的辅助功能81。在培训期间,我们随机洗净输入文本的某些句子,在每个(非最终)句子的末尾(由全站标记,``。')我们预测下一个句子是正确的(有效)还是改组增加的产物。通过将躯干的输出嵌入到完整的停靠点中,我们引入了一个额外的前馈网络,该网络使用二进制跨透明镜来预测下一个句子的有效性。
使用此设置,伊萨卡(Ithaca)在Google Cloud Platform上接受了128个张量处理单元(TPU)V4 POD的培训一周。有效批处理大小为8,192个文本,使用羔羊优化器82来优化ITHACA的参数,学习率为3×10-4。使用贝叶斯优化的超参数搜索,使用以下功能将每个任务的损耗函数合并在一起:
我们不使用单独的蒙版(令牌)语言建模损失,这在训练有素的语言模型时通常使用,因为它与恢复损失非常相似,尽管后者掩盖了字符而不是令牌。
为了获得ITHACA的文本恢复预测,我们选择了一系列缺失字符来预测和使用梁宽度为100的光束搜索。而不是使用标准的顺序梁搜索,而是利用ITHACA的非自动性性nature 83,84,85,并使用非序列。每个光束从预测得分最高的信心86开始,然后迭代地在每个时间步长恢复其确定性最高的字符。我们发现,此版本的Beam搜索在我们的评估指标中的性能要好得多。对于区域归因,输出作为前10个预测的图。对于年代归因,我们可以看到模型在可能的日期箱中的预测分布。最后,为了减少随机段选择的差异,我们重复该过程十次,并在迭代中平均报告结果。
古代文本恢复的评估者是古代历史的两名研究生,拥有7年的历史和语言培训,并专门从事希腊历史和题词文档。因此,可以认为它们比“平均”古代历史学家更有能力,但还不等于(数量很少)该领域的既定专家。学者被允许使用培训设置来搜索文字“相似之处”,并在2小时内平均进行了50个修复体。
尽管伊萨卡确实可以提出更快的恢复假设,并模拟其预测不确定性,但它不能基于历史和物质背景做出选择。因此,实验设置不能被认为是人类历史学家与机器学习之间的直接比较,也不认为评估人员被认为是所有历史学家的代理。取而代之的是,该实验旨在衡量任务的难度和合作人工智能的潜力。
居民通常将希腊命名法作为归因预测的几个要素之一。87。在更广泛的题词工作流程中,我们设计了一个“原子”基线,其中预测仅基于与希腊个人名称相关的元数据。五个注释者搜索了在希腊个人名称(LGPN)的词典中出现的名称,该名称,一个数据库,记录了古代名称的地理和时间顺序分布27,并基于LGPN的发行数据中的归因假设。评估者还分别为地理或年代归因任务提供了铭文的日期或写作地点。
为了评估不同的恢复方法,对于每个铭文,我们都会预测1-10个连续缺失字符的序列。这些长度占i.phi中缺少字符长度分布的83%,并可以与先前的工作和人类基层进行比较。请注意,由于培训期间采用的文本掩盖增强功能,伊萨卡可能会恢复最多一半的输入文本。
尽管要预测的字符数量反映了任务的难度,但是对人类评估的测试集中的恢复序列可能不一定要保持相同的长度分布(因为它们是测试集的子集)。因此,我们选择说明这些长度差异并计算每个恢复的序列长度的平均得分,而不是仅报告整个测试集的平均得分(如先前的工作中所做的那样)。首先,我们为每个长度的所有样本(在1-10个字符之间)计算了一个单独的CER,
如果i是指标函数,LENI表示第i-themple的长度,则N是样本的数量,Predi是第i-thement sample和Targeti的遗漏字符的预测序列,而Targeti则是相应的目标序列。接下来,我们计算所有长度的平均值:
其中l = 10是最大长度。
由于人类注释仅由于时间限制而注释了测试集的一个子集,因此宏观平均分配了所有样本长度的重要性,以独立于数据集统计信息来表示任务的难度,因此可以对方法进行公平的比较。同样,为了准确性,我们首先计算出每个长度的单独精度,然后是平均值:
随着我们的模型在按时间顺序归因任务中输出预测分布,我们引入了一个可解释的度量标准,以测量预测和地面间隔之间几年的距离(图3C)。更具体地说,我们使用预测分布的平均值和目标基地间隔之间的距离度量。后者定义为最低(GTMIN)和年度最高(GTMAX)日期:
最终模型是通过在验证集上存储最佳的模型,该模型通过使用组合度量的组合度量,该指标概括了文本恢复和地理归因的准确性,而年份除以100的距离以使按时间顺序归因以使幅度可比。训练我们的模型所需的广泛计算资源使帕累托边境计算变得不可行。
伊萨卡(Ithaca)的预测比Onomastics基线(144.4岁)中记录的预测更接近地面真相。更具体地说,ITHACA的平均日期预测在地面间隔间隔的28。7年内,中位数仅为3年。结果在扩展数据中详细显示。图3。
为了克服长铭文(> 768个字符)的内存约束和长度限制,可以迭代地应用iThaca以在损坏的铭文中恢复所有缺少的文本。我们在缺少378个字符的铭文IGII²116上尝试了此选项,并使用Rhodes和Osborne出版的权威版本作为地面真相88,将Ithaca的预测与我们先前的Pythia的预测进行了比较。模型的正确修复体以绿色(扩展数据图4)和红色突出显示。在现实世界中,伊萨卡和毕达斯都将提供20个恢复假设的排名。Pythia和Ithaca之间的性能比较是鲜明的(74对45个错误):此外,在恢复为红色的所有情况下,在ITHACA的前20个假设的光束中都存在地面真实序列。
e epigraphers确定了通过检查个人名称,本地或区域性方言品种以及特质词典或铭文样式来编写铭文的原始位置。从这个方法论的前提中移动,并在伊萨卡的地理预测中发现基本模式,我们计算统计数据,以跟踪伊萨卡(Ithaca)区域正确预测的文本中最常出现的单词。因此,对于测试集的每个单词,我们计算平均精度和外观频率。这种可视化旨在评估是否可以与模型的地理归因相关。
具有高预测准确性的文本中出现的最常见单词主要集中在Delphi区域的铭文中,并且与“手术铭文”的题词类型有关(示例扩展数据表2)。古希腊社会在很大程度上依赖于自由的劳动,但是奴隶可以通过称为“武器”的过程释放,该过程已通过铭文89,90进行了公开记录和认证。在Delphi91,92中发现了超过1,000条此类文本约为201至100个。伊萨卡(Ithaca)准确性统计中出现的单词被确定为这些手工发行文本的典型代表,而这些文本又与该区域不同(例如,ἐπίστευσε,ποδμενος,καταδουλουλισμmp.在扩展数据表2中提供。现在,可以将进一步的研究致力于调查与Delphi不同的程式化手续作用。
为了进一步评估iThaca在现实情况下的输出可视化技术的影响,我们还分析了摩尔压缩铭文的地理归因的显着性图。实际上,例如,Delphic铭文BCH 66/67(1942/3)82,9的显着性映射,例如,突出显示在术语文本中通常发现的单词,这些单词也出现在ithaca的单词统计中:这些单词(这些单词(ἐπίστευσε)铭文的地理归因,同时也以典型的奴隶手工铭文背叛了文本的类型(扩展数据图5B)。
在没有文本日期的有用内部证据的情况下(例如,提及已知的历史图93),居民通常会根据文本的内容,字母形式和语法标准得出大约日期。例如,题词中最臭名昭著的方法论辩论之一涉及“三杆sigma”约会惯例,该公约没有雅典公共文件包含三键sigma letter(ϟ),当时可以在446/5年之后进行日期,当时该信被四杆sigma(σ)取代。基于这个时间顺序的基准,一组铭文对古典雅典的政治历史至关重要,并以较早的字母为特色,该铭文的日期为446/5之前。
但是,这种正统的约会系统很快被证明是有问题的:这些法令提出的高约会不同意当代关于雅典帝国主义政策的报道。很少有历史学家对Sigma Criterion29,95的有效性进行了争夺,但在1990年,照片增强和激光扫描证实了一个题词的下行,其题词的下调了三杆Sigma(Egesta sigma(Egesta deme,Ig I3 11),IG I3 11),从458到418 96。背面28,97。
伊萨卡(Ithaca)对这组有争议的铭文的预测与最新的约会突破独立一致(扩展数据图6)。例如,著名的Chalcis法令(IG I3 40;扩展数据图7),该法令记录了Chalcis市宣誓宣誓宣誓效忠于Athens98,并传统上宣誓为446/5 28,它的日期为420,因此归因于420,因此与424/3 ampsssive的约会假设较低。伊萨卡(Ithaca)预测与较低约会假设的最引人注目的例子是克莱尼亚斯(Kleinias)的法令(IG I3 34)100,调节整个雅典帝国的贡品的收集。Sigma约会系统将铭文分配给448/7 28,但学者们最近对这一正统观念提出了质疑,并提出了425/4 101的较早日期。ITHACA的预测与后者完全吻合,将著名法令的日期约为424。
伊萨卡(Ithaca)以惊人的准确性重新定下了许多这些关键铭文(扩展数据表3)。尽管似乎很少,但这种40/30年的年代重组对我们对雅典帝国行为的掌握具有相当大的影响,这使历史学家对古代历史最重要的时期之一有了更深刻的了解28,97。伊萨卡(Ithaca)受到希腊题词文本的最大可用数据集的培训,这一事实使挑战或克服个人偏见或实际上是在现有学术传统中发生的错误,这一事实是有可能的,尽管该数据集最初是基于累积的学术传统的事实。
有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。