对人类来说,识别场景中的物品就像看它们这么简单。但对于人工智能和计算机视觉系统来说,开发出对周围环境的高保真理解需要更多的努力。如果我们具体一点的话,需要大约 800 小时的手动标记训练图片工作。为了帮助机器更好地了解人们的做法,MIT CSAIL 的一组研究人员与康奈尔大学和微软合作开发了
STEGO,
一种以像素为单位识别图像的算法。通常创建计算机视觉(CV)训练数据需要人在图像中的特定对象周围画框——如给坐在草地上的狗画上的框——标记框内有什么东西(“狗”),以便用这些数据训练的 AI 可在草丛中分辨出狗。相反 STEGO(具有基于能量的图片优化的自我监督转换器)使用了名为“语义分割”的技术,该技术将类标签应用于图像中的每个像素,以便 AI 更准确地了解周围的世界。带标签的框中包含对象,也会包含边界内对象周围像素中的其他物体,而语义分割则标记对象的每个像素,但是只标记构成对象的像素——你只得到狗的像素,而不是狗的像素再加上一些草。这相当于机器学习使用 Photoshop 的智能套索和矩形框选工具的差别。这种技术的问题之一是范围。传统的多镜头监督系统通常需要数千张(如果不是数十万张)标记图像训练算法。将这个数字乘以即使构成单张 256x256 图像所需的 65,536 个单独的像素,现在所有这些像素都需要单独标记,所需的工作量很快就会大到不可能。CSAIL团队在新闻稿中写道,“STEGO 会寻找出现在整个数据集中的类似对象。”“然后它会将这些相似的对象联系在一起,在它学习的所有图像中构建一个统一的世界观。”