ResNet可能是白痴?DeepMind给神经网络们集体测智商(16)




所有模型在中性分裂(左图)上的的性能,以及根据β= 0的泛化误差排序的泛化机制WReN模型(右图)的泛化性能。

性能最佳的模型是WReN模型。 这种强大的性能可能部分归因于Relation Network模块,它是为了推理对象之间的关系而明确设计的,部分是由于评分结构。 请注意,评分结构不足以解释改进的性能,因为WReN模型基本上优于最佳Wild-ResNet模型,该模型也具有评分结构。



不同问题类型的表现

涉及单个[r,o,a]三元组的问题比涉及多个三元组的问题更容易。 有趣的是,有三个三元组的PGM比四个三元组更难。 虽然有四个三元组的问题显得更为复杂,但是还有更多好的方法可以解决问题。在涉及单个三元组的PGM中,OR(64.7%)被证明是一种比XOR更容易的关系(53.2%)。具有结构涉及线(78.3%)的PGM比涉及形状的那些(46.2%)更容易,涉及形状数(80.1%)比那些涉及形状大小(26.4%)。这表明模型难以辨别细粒度的大小差异,而不是更显着的变化,如线条的缺少或出现,或形状的数量。