From:TheVerge;编译:Shelly
理想情况下,为了便于视障群体获取信息、融入对话交流,文件、网络、社交媒体的每份图像信息都应该有相应的替代文本。目前,微软的SeeingAI图像注释软件是视障群体获取信息的重要媒介。在此基础上,微软最近还开发了一种新的图像注释算法ImageCaptioning,有助于全面提升视障人士的对话体验。
今年9月,微软在一篇论文中描述了一种新的图像注释算法ImageCaptioning。微软表示,这款新算法在某些图像注释基准测试(如Nocaps)中,精确度甚至超过了人类。
SeeingAI+ImageCaptioning
如虎添翼!
在图像注释技术开发中,微软早在年就首次发布了强大的“SeeingAI”应用。现如今,当SeeingAI配上新算法ImageCaptioning,简直如虎添翼。
SeeingAI可以通过手机摄像头,使用计算机视觉来为视障人士描绘物体。它能识别家居用品、阅读和扫描文本、描述场景,甚至可以识别朋友;还能用于描述其他应用程序中的图像,比如电子邮件客、社交媒体应用程序以及如WhatsApp之类的聊天软件。
SeeingAI有助于改善视障群体的生活,视障人士只需拿起手机,并把摄像头对准目标对象,即可识别附近的人、文本和其他对象。去年3月,微软在其开发者大会上展示了SeeingAI的原型。从现在开始,SeeingAI应用可以在美国的iOS系统上免费下载。
SeeingAI的demo视频曾显示,当盲人萨科带着Pivothead智能眼镜时,他滑动镜腿后,眼镜就负责拍下眼前看到的景象;而SeeingAI则负责识别出景象,并通过语音告诉萨科眼前是什么。比如,SeeingAI会这样描述它所看到的景象:“一位男人在玩滑板,一个小女孩在公园扔飞盘”。
当萨科与人会谈时,他滑动镜腿拍照,SeeingAI就能根据照片识别出面前坐客的年龄、性别以及情绪,帮助萨科融入到对话当中。当萨科在餐馆点菜时,他拿出下载了SeeingAI的智能手机,在SeeingAI的语音提示帮助下找到菜单。当萨科对着菜单拍照后,SeeingAI就自动读出菜单,帮萨科点餐。
SeeingAI的用户数量还处于保密状态,但AzureAI公司副总裁EricBoyd称,SeeingAI是视障群体中最受欢迎的应用程序之一。在视障群体使用的一个IOS社区AppleVis中,SeeingAI已经连续三年被评选为“最佳APP”或“最佳辅助APP”。
在此基础上,图像注释算法ImageCaptioning的出现将进一步优化SeeingAI,并将很快集成到Word、Outlook和PowerPoint等其他微软产品中,用于创建代替图像的文本。这对帮助视障人士获得图像信息特别重要。
“理想情况下,所有人都应该为文件、网络和社交媒体中的图片添加替代文本,只有这样,才能使盲人能够理解具体内容并参与对话。但是,现在人们并没有做到这一点。所以,我们迫切需要一些应用程序来为图片添加替代文本。”微软公司的软件工程经理SaqibShaikh在新闻发布会上说道,“哎,可惜现状并不尽如人意,只有部分应用程序使用了图像注释算法ImageCaptioning来添加替代文本”
新算法性能是之前的两倍
在NOCAPS测试中超越人类
微软的新图像注释算法ImageCaptioning不仅可以识别对象,而且可以精准地描述对象之间的关系。比如,新算法不仅能解读图片包含的对象,比如,“一个人,一把椅子,一个手风琴”;还能描述这些对象之间是如何交互的,比如,“一个人坐在椅子上,演奏手风琴”。
微软表示,该算法比年以来使用的前图像注释系统还要强大两倍,将大大改善SeeingAI的性能。
今年9月,在一项名为“NOCAPS”的图像注释基准测试上,SeeingAI的新算法获得了有史以来的最高分!
NOCAPS图像注释基准测试包含多段人工翻译的字幕,这些字幕包括从OpenImages数据集提取的约张图像,涵盖各种场景,从运动到度假快照,再到美食摄影诸如此类。
尽管NOCAPS基准测试有其自身的局限性,但依然是图像注释行业中较为权威的计分板。测试中,针对SeeingAI算法能力的考量,是基于算法翻译字幕与人工翻译字幕的匹配情况。
NOCAPS数据集网址:
转载请注明:http://www.0431gb208.com/sjszlfa/2374.html