![MATLAB计算机视觉经典应用](https://wfqqreader-1252317822.image.myqcloud.com/cover/202/43738202/b_43738202.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.4.4 视觉问答
视觉问答(Visual Question Answering)简称VQA,是近年来非常热门的一个方向。一般来说,视觉问答系统需要将图像和问题作为输入,结合这两部分信息,产生一条人类语言作为输出。针对一幅特定的图像,如果想要机器以自然语言处理(NLP)来回答关于该图像的某个特定问题,就需要让机器对图像的内容、问题的含义和意图、相关的常识有一定的理解。就其本性而言,这是一个多学科研究问题。图2-5为视觉问答过程图。
![](https://epubservercos.yuewen.com/C01C09/23020645509749106/epubprivate/OEBPS/Images/42440-00-039-1.jpg?sign=1739280143-cGzwYxWeYj63AXbdznSiPhbhtA2rLzur-0-90cf114347798e9e5495e35d497b564a)
图2-5 视觉问答过程图