麻省理工学院的研究人员阅读神经网络的思想以提高其性能
神经网络通过分析大量培训数据来学习执行计算任务,负责大多数最近的人工智能(AI)突破,包括语音识别和自动翻译系统,但在培训神经网络中,他们的内部设置不断调整其内部设置,即使是他们的创造者也不理解,因此他们通常会像黑人盒子一样被参考。而且,当您将这些神经网络插入从全球银行系统到自动驾驶汽车和医疗保健的所有内容时,使用黑匣子技术,没有人理解其工作方式,适应,发展或学习是一个问题。
在过去的一年中,有许多公司试图开发新技术来帮助他们阅读和理解这些神经网络黑匣子的思想,从创建帮助我们调试的工具到创建工具到创建工具,以帮助我们可视化和解释他们的决策,但是尽管重点仍然是黑暗,不完美的艺术。
现在,尽管麻省理工学院和卡塔尔计算研究所的一组研究人员已经使用了他们所谓的“解释性技术”,最初旨在用于分析经过培训的神经网络进行机器翻译和语音识别,他们发现神经网络忽略了某些信息并优先考虑了其他信息。例如,他们测试的某些系统更多地集中在较低级别的任务上,例如声音识别或“语音”识别的一部分,然后再继续执行更高级别的任务,例如转录或语义解释。但是他们还发现了翻译网络所考虑的信息类型令人惊讶的遗漏,并且能够证明纠正这些遗漏改善了网络的性能,这将来可能会使我们的AI更加透明,同样重要,准确。
“In machine translation, historically, there was sort of a pyramid with different layers,” said Jim Glass, a MIT CSAIL senior research scientist who worked on the project with Yonatan Belinkov, an MIT graduate student, “at the lowest level there was the word, the surface forms, and the top of the pyramid was some kind of inter-lingual representation, and [the networks] had different layers where they were doing syntax, and semantics.这是一个非常抽象的概念,但是这个想法是您在金字塔中走的越高,翻译新语言的越容易,然后您会再次下降。
神经网之所以命名,是因为它们大致近似人脑的结构。通常,它们被排列到层次层中,其中每一层都是由多种简单处理单元,节点组成的,每个节点都连接到上方和下方的层中的多个节点。信息首先被馈送到最低层中,其节点对其进行处理,然后再将其传递到下一个层,然后再处理下来,依此类推,单个层之间的连接都具有不同的“权重”,这确定了任何一个节点的输出对下一个节点的计算表示多少。
在AI的训练阶段,这些权重经过重新调整,在训练网络后,前提是它的创建者可以确定每个节点的重量,而Ergo则确定这些黑匣子如何完成他们的工作。但是,请记住,当今AI的大多数人都有数千甚至数百万个节点,并且之间的连接更多,弄清楚这些算法编码的算法几乎是不可能的。这就是黑匣子问题。
在他们的研究中,团队训练网络,并使用其每个层的输出,响应单个培训示例,使用这些培训来训练另一个神经网络来执行特定的任务,而这项技术使他们弄清楚了每层优化的任务。
在语音识别网络的情况下,Belinkov和Glass使用单个层的输出来训练系统以识别“电话”,这是一种与口语有关的不同语音单元。
例如,“茶”,“树”和“但是”一词中的“ t”声音可能被归类为单独的电话,但是语音识别系统必须使用字母“ t”来抄录所有手机。实际上,贝林科夫和玻璃发现,与更高水平相比,网络的水平较低,在识别手机方面,大概的区别不太重要。
同样,在较早的论文中,去年夏天在计算语言学协会,玻璃,贝林科夫及其QCRI同事的年度会议上发表了表明,机器翻译网络的较低水平尤其擅长识别语音和形态的一部分,例如时态,数字和偶像。但是在新论文中,他们表明,在称为语义标记的东西上,较高的网络级别更好。
正如Belinkov所解释的那样,语音标记的一部分将认识到“自己”是一个代词,但是该代词的含义,语义意义在“她自己买了书”和“她自己买了书”的句子中截然不同,而语义标记者则将不同的标签分配给“自己的机器翻译”的两个实例,可以将其分配给“机器翻译系统”。
他们还发现,最佳性能的机器翻译网络使用所谓的编码模型,因此团队也使用了该技术。在这样的系统中,源语言中的输入通过网络的几层(称为编码器)来产生一个向量,以某种方式代表输入的语义内容。该向量通过网络的几层解码器,以目标语言进行翻译。
尽管编码器和解码器是一起训练的,但可以将它们视为单独的网络,研究人员发现,奇怪的是,编码器的下层擅长区分形态,但是解码器的较高层却没有。因此,Belinkov和QCRI研究人员对网络进行了重新训练,不仅根据翻译的准确性,而且还根据目标语言对形态的分析进行了评分。从本质上讲,他们迫使解码器更好地区分形态。
使用这种技术,他们对网络进行了重新训练,将英语翻译成德语,并发现其准确性提高了3%,尽管这并不是一个很好的改进,但它表明在引擎盖下看着,并且能够阅读神经网络的思想迅速变得不仅会变得远不只是一项练习。