多模态机器人是采用跨语义空间的深度学习算法,实现多模态交互(文本、图像、视频、语音),例如医疗影像报告自动生成,舆情报告自动生成,视觉问答机器人(VisualQA)等