作者 |刘冰一
跨界发表顶会一作是一种怎样的体验?比如,学视觉的跑去搞语音,学语音的跑去搞自然语言处理,学语言处理的跑去搞视觉……
在多模态研究火热的背景下,我们也发现了一位“跨界Boy”:专业学习与研究经历都是NLP相关,却跑到 CVPR 2021 投稿,中了人生中的第一篇顶会一作。一问,才知道:原来他是哈尔滨工业大学的一名本科在读的大四学生!
他叫倪旻恒,来自哈工大计算机科学专业,大二曾加入哈工大社会计算与信息检索研究中心,从事NLP研究;目前在微软亚洲研究院NLC组实习生,从事多模态以及多语言研究。
AI被誉为新一轮技术革命的“头雁”,相关研究保持突飞猛进态势,越来越多的本科生也加入科研大军行列,行者新旧更替是常事。倪旻恒作为新人之一,也坚定地选择了这条路,最终,他的坚守换来了不错的成绩:目前,他已发表了四篇顶会论文(AAAI2020、IJCAI2020、AAAI2021、CVPR2021)。
在他CVPR 2021的一作论文(“M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training”)中,他与合作者共同提出了一个多任务、多语言、多模态预训练模型——M3P,通过多任务学习与权值共享,将多语言预训练与多模态预训练结合到一个统一的框架中。该模型将学习一个通用表示,将出现在不同形式或不同语言中的对象映射到共同语义空间中的向量。
实验评估表明,相比多模态英语预训练的SOTA模型,M3P获得了可比的结果;在非英语多模态任务上特别是低资源场景下,M3P也能获得SOTA结果。
一路走来,倪旻恒的求学经历与计算机学科渊源颇深:他从小学开始接触计算机学科竞赛,在竞赛中屡屡获奖培植信心和兴趣;凭借优秀的竞赛成绩,在高中获得哈工大降分至一本线录取政策的资格。对计算机的热情与实践,使他走上了人工智能的研究道路。
从选择专业、加入实验室做科研,到获得研究成果,倪旻恒的成长环节是自然承接的。从NLP跨界到CV,既是偶然,也是必然。
1
哈工大:科研的起点
1、AI 科技评论:能否谈谈您是怎样和计算机结缘的吗?
我的成长标签一直都有“计算机”相关字眼,从来没有纠结过所有和计算机学科相遇的选择。
我从小就对计算机方面的东西自发地好奇,也经常参加一些计算机竞赛。参与竞赛可能跟区域教育环境有关系,因为我们当地初中、高中都很重视对学生综合素质的培养,鼓励学生参与竞赛提升自己。
其实我的求学经历和计算机学科竞赛密不可分:我初、高中一直在参加全国信息学奥林匹克联赛,高中阶段我的成绩在省内比较突出,就被选定为安徽省省代表队成员去参加全国青少年奥林匹克信息学学科竞赛的决赛,在决赛中的成绩获得了哈工大招生办的认可,拿到了哈工大降分至一本线录取的优惠政策。
在感兴趣的基础上又不断积累知识经验,长此以往就觉得自己在这方面做得还是不错的。
2、AI 科技评论:在您进入哈工大以后,在计算机方面的学习是什么样的状态呢?
哈工大的计算机算是学校的几个王牌专业之一,同学们也都很厉害,大佬很多。转专业时我们学院还吸收了全校各个专业拔尖或者同样对计算机充满热情的同学,同学们本身很优秀还很努力,为争取推免资格大家很早就开始准备,整个学院学习压力非常大。
就我的学习而言,也被“内卷”浪潮裹挟向前,不过这也让我进步很多。总体的步调是什么阶段做什么事,每个阶段对待课业、实验和考试等都有不同的重要性排序,但我会尽量加快速度,不敢磨蹭,因为不知道会不会耽误后面的事情。
我印象中最忙的场景是期末撞上截稿,我就一边忙着赶实验、改论文,一边复习期末考试。截稿耽误不得,因此主要是精力还是花在论文上面。最终期末考试还没有复习,没有办法只能最后一天拼命地看。
3、AI 科技评论:您平时学习任务就很忙碌了,那您是在怎样的机缘之下加入实验室的呢?他们的准入标准高吗?
在我大一的时候,参加了车万翔老师组织的兴趣小组,每期会有师兄去分享一些课程、工作的内容。这个兴趣小组提供一些基础指导,帮助大家过渡到可以做科研的程度。
图注:倪旻恒做“从1+1到人工智能”主题演讲
通过这个兴趣小组以及自己课外的学习,我不仅了解到了深度学习相关的很多知识也找到了机会参与了一些项目,如实验室的LTP语言云平台的维护。一整年锻炼下来,我觉得自己也可以尝试亲身做一些科研工作。然后我就去找到了车万翔老师,车老师很耐心地给予了帮助。车老师带领我进实验室后,还帮我联系了师兄手把手的教我怎样做科研,也是从这开始我有了发表论文相关的认知。
车老师对本科生准入标准比较宽容,本着给更多同学机会的理念指导了很多像我一样对科研有初步兴趣的同学。
从我周围的情况来看,本科生进入实验室是一个普遍的现象。有些同学进实验室科研目标很明确,也有一些同学本着尝试的心态参加,中途发现自己并不适合就退出的,但还是有很多坚持下来并发表论文的。
2
微软亚研:多模态研究启发
4、AI 科技评论:您是怎么想到去微软亚洲研究院实习呢?能否给我们分享下过程和心得。
平时跟老师、前辈门聊天,他们会提供一些建议,鼓励我开放视野、拓展研究方向。早就听说了微软亚洲研究院是一处科研“圣地”,于是我想到了申请去微软亚洲研究所实习。我感觉还是挺顺利的,申请邮件发送了之后很快收到了老师的回复,面试也是非常顺利,很快我就着手准备实习的生活了。
图注:微软亚洲研究院在14层醒目的logo
我是到微软亚研这边才接触到多模态的嘛,前期碰到大大小小的问题。比如NLP与CV研究中存在研究方法的差异,特别是我做的预训练的任务和之前小规模数据上的任务有很大的不同,经常出了问题半天没意识到,等反应过来再去纠正非常影响进度;以及因为一个全新的方向需要大量的调研,之前的很多经验也失去了作用,有时候很头大……最后经过无数次的尝试,才找到了一个令人满意的方法。
哈工大实验室和微软亚洲研究院的两段经历带给我的感受有所不同,这可能和我个人的成长阶段有关系。我的第一篇论文是立波师兄带我写的,其实当时是我科研入门阶段嘛,师兄倾向于手把手地教,卡死的几率会低一些。在微软亚洲研究所,他们提出了一些更高的要求,希望我可以拿出不一样的解决方案。
算是良性循环吧,在科研上稍微取得一点点成绩,其实会给我很多信心继续做这些事。
5、AI 科技评论:关于CVPR21的《M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training》这篇论文,您能谈一谈具体的工作经历吗?
这篇文章我们设计了一个多任务、多语言、多模态的预训练模型。做这个研究的最初想法呢,是基于现在多语言场景非常流行,预训练模型也已经扩展到了多语言单模态场景或者单语言多模态场景中。我们就会思考能否将多语言场景和多模态场景结合在一起,通过多任务学习和权值共享,将多语言-单模态预训练和单语言-多模态预训练结合到一个统一的框架中,让他们可以互相迁移学习到的知识,这样将大为提升一些场合的运作效率。
然而,目前大规模的预训练数据只有单一语言、多模态的数据,或者是多语言、单一模态的数据。这种数据会给我们的预期模型带来一些问题:一是我们怎么让一个模型从这两套数据里面获得信息;第二,即便我们可以从这个单一模型中获取两套独立数据中学习到信息 ,我们只能从单语言多模态当中学习到多模态的信息,或从多语言单模态数据当中学习到多语言的信息,这样就很难建立包含所有语言的语义空间与视觉空间的联系。为了解决这两个挑战,我们设计了M3P预训练模型以及对应的MCT训练目标,使得模型可以更好的学习多语言与多模态的知识。
为了验证M3P的泛化能力,我们针对多语言图文检索(Multilingual Image-text Retrieval)任务对预训练模型进行微调。评估表明,M3P(1)相比于多模态英语预训练的SOTA模型,获得了可比的结果;(2)在非英语多模态任务上特别是低资源场景下,获得了SOTA结果。
当然,在这个过程中也有焦头烂额的时候,但我是非常幸运的,指导我的段楠老师、黄浩洋老师都是善良且温暖的,他们帮我树立了正确的科研态度,推动我在科研的道路上继续前进。另外,我自己在科研这条路上心态一直都很坚定,愿意花费时间精力在科研上,碰到问题会积极地面对和解决。
6、AI 科技评论:就您目前的经验来看,NLP研究和CV研究有些东西是可以互通的吗?
对的,虽然CV和NLP的任务不太一样,但有很多思想还是相似的,并且两者现在很多的工作都基于深度学习,共通的东西也是很多的。现在研究两者结合的 “多模态”也是一个很火的方向,有许多工作将融合了两边的很多的方法,都取得了很好的效果。我们这篇文章就是一个很好的例子,我们将NLP中的多语言问题同多模态问题一起考虑了进来,这也说明了CV和NLP之间联系是可以很紧密的。
3
阶段小结:初衷不改、不惧风浪
7、AI 科技评论:也快进入毕业季了,回顾总结本科这四年的学习生活,您最大的感受是什么?有没有什么建议给师弟师妹们。
是的,毕业氛围还是很浓重的,最近倒是经常参加一些集体活动——和朋友同学一起吃饭、看电影啊之类的。大三之前参与的频率不会那么高,大家聚在一起信马由缰地胡诌海捧,感觉还是挺好的。最大的感受就是很多事情看起来简单但自己亲身尝试之后才能知道其中的困难,但越是困难解决之后的成就感也越大,自己学到的也越多。
至于说给师弟师门们什么建议,肯定是好好学习,多积累科研成果、实习经验,凡事预则立,不预则废嘛;除此之外,事情不要拖,越往后越忙,有什么兴趣爱好大一大二赶紧去体验。
8、AI 科技评论:感觉您的日常全被学习和科研占据,那您日常生活中是一个枯燥的人吗?您是怎么评价自己的呢?
其实我并不是一个很枯燥的“科研僧”,不熟络时可能会觉得我一本正经的,实际上我脾气就很好,喜欢和同学到处浪。日常还算是个比较有趣的人,经常通过体验各种各样的事物让自己保持开心,课业不那么繁忙的时候会和室友打会儿游戏,我喜欢玩地图填色类的游戏,还有刷刷刷的游戏,比如P社家的群星、十字军之王或者一些神奇的单机游戏等。也很喜欢挑战自己,承担一些有难度的任务。
9、AI 科技评论:您未来会继续从事相关的工作吗?能不能分享一下自己的职业规划。
在没有接触科研的时候时,我对研究本身没什么感觉,甚至还觉得做科研是一件很枯燥很无聊的事情。但是接触了以后,我感受到了它别样的魅力。师友们带领我在研究过程中发生了很多有趣的故事,很多我至今都很难忘。我挺愿意继续探索多模态这个方向的,因为感觉这个方向要求研究者对很多不同领域都要有理解,我觉得非常有挑战性。目前我的想法是继续做学术,提高自己对于问题的认识,未来可能会去企业,或者有机会去研究院之类的,但这个东西现在讲不清楚,计划赶不上变化嘛。
图注:哈工大夜景