从阿里云官方获悉,近日,国际权威机器视觉问答榜单VQA Leaderboard出现关键突破,阿里巴巴达摩院以81.26%的准确率创造了新纪录,让AI在“读图会意”上首次超越人类基准。
近10年来,AI技术保持高速发展。然而在视觉问答VQA(Visual Question Answering)这一涉及视觉-文本多模态理解的高阶认知任务上,AI始终未取得超越人类水平的突破。
自然语言技术与计算机视觉交融,是多模态领域重要的前沿研究方向。其中,VQA是AI领域难度最高的挑战之一,对研发通用AI具有重要意义。
据了解,VQA的任务是根据给定图片及自然语言问题,生成正确的自然语言回答。