ResNet可能是白痴？DeepMind给神经网络们集体测智商(13) DeepMind给AI出了一套IQ测试题

WReN模型

CNN会独立处理每个内容panel并且一个单独的回答会选择一个panel来产生9个

矢量embedding

。然后将这组embedding传递给RN(其输出是单个

sigmoid单元

)，为相关答案选择panel的“得分”进行编程。通过该网络进行8次这样的传递（为简便起见，我们仅描绘2次），每次答案选择一次，就会通过

softmax函数

得分以确定模型的预测答案。

当需要使用属性值在先前看到的属性值之间“内推”（interpolated），以及在不熟悉的组合中应用已知的抽象关系时，模型的泛化效果非常好。但是，同样的网络在“外推”（extrapolation）机制中表现糟糕得多，在这种情况下，测试集中的属性值与训练期间的属性值不在同一范围内。对于在训练中包含深色物体，但测试中包含浅色物体的谜题中就会出现这种情况。当模型被训练来将以前见到的关系（比如形状的数量）应用到一个新的属性（比如形状的大小）时，泛化性能也会更差。