跨媒体分析与处理 图片标题生成 图片描述生成 Picture Description Generation 图片描述生成,本质是视觉到语言(Visual-to-Language,即V2L)的问题,解释起来很简单,就是四个字:看图说话。就像老师要求小朋友们在看图说话作业中完成的任务一样,我们也希望算法能够根据图像给出能够描述图像内容的自然语言语句。 一个女运动员在球场上打网球一群年青男人在踢足球三只狗在草地上奔跑一辆粉红色摩托车停在汽车旁边一个孩子拿着一把叉子一个戴红帽子小孩和另一个小孩在说话 生成原理 Generation Principle 应用场景 Application scenario 为海量图片自动生成标题,便于图片查找和检索 快速生成图片新闻稿件