ResNet可能是白痴？DeepMind给神经网络们集体测智商(19) DeepMind给AI出了一套IQ测试题

元目标预测可以分解为对象，属性和关系类型的预测。我们利用这些细粒度预测来询问WReN模型的准确性如何随其对每个属性的预测而独立变化。当形状元目标预测正确

（79.5%）

时，相比预测不正确

(78.2%)

时模型的精度有所提高；同样，当属性元目标预测正确(

49%)

时，相比预测不正确(

62.2%)

时模型的精度有所提高。然而，对于关系属性，正确和不正确的元目标预测之间的差异很大（86.8％对32.1％）。这个结果表明正确预测关系属性对任务成功至关重要。

最后，当模型被训练于不仅预测正确的答案，而且预测答案的“原因”（即考虑解决这个难题的特定关系和属性）时，我们观察到了更好的泛化性能。有趣的是，在neutral split中，模型的准确性与它推断矩阵背后的关系的能力密切相关：当解释正确时，模型在87%的时候能选择到正确的答案；但当它的解释错误时，准确性下降到只有32%。这表明，当模型正确地推断出任务背后的抽象概念时，它们能够获得更好的性能。