1,我没是对每个小的RoW的mask进行预测,如果对于所有的RoW都保持分辨率会极大的消耗计算资源,这种做法来源为DeepMask。同时,FCN确实要在精度上远好于我的这种做法,我最近做一些VOS的算法都是采用FCN的结构。
2. 可以,我们refine那部就只做的一个。mask预测那么多是懒得改代码了,所以直接输出多个。还有一个更重要的问题,如果只预测一个,会对论文来说比较难看,相当于先找了个位置,然后在那个位置预测一下mask,同时产生score+box+mask的立场就不存在了。会比较尴尬。我们deepmask那个代码里面放了这种cascade的版本,也非常简单非常快。
3. refine部分基本不耗费时间。你可以该一下脚本,把refine去掉。时间基本没影响。所以可能我真的需要考虑一下用你说的2来优化一下。 |