12月10日,2022中国计算机大会可信隐私计算研讨会上宣布了2022隐私保护计算大赛决赛结果,来自重庆理工大学的李发飞同学一人成团,战胜了帝国理工大学、武汉大学、大连理工大学、英特尔等名校以及顶级科技公司战队,斩获“可信执行环境赛道”冠军。
▲李发飞获2022年隐私保护计算大赛“可信执行环境赛道”冠军/图源 蚂蚁集团
隐私保护计算大赛(WPPCC)是国内首个隐私保护计算专业赛事。为了加强隐私计算在我国高校、科研机构、一线产业之间的交流,2021年,全球知名隐私计算大赛iDASH联合发起人王爽教授联合国内科技人士,将iDASH比赛模式引入中国,创办了隐私保护计算大赛。2022隐私保护计算大赛由总赛和四大专业赛组成,吸引了来自国内外高校、企业、科研单位等100多个战队参与,其中蚂蚁集团主办了专业赛中的“可信执行环境、多方安全计算”赛道。
了解一下“隐私计算”
▲就读于重庆理工大学的李发飞/图源 蚂蚁集团
李发飞2000年出生于重庆市城口县,目前就读于重庆理工大学软件工程专业,正在备考2023年研究生入学考试。得知获奖时,李发飞觉得有点不可思议,毕竟未系统性接受过隐私计算教育,更未想过杀出重围摘取冠军宝座。
隐私计算是近年来兴起的新兴技术领域,交叉融合了密码学、统计学、人工智能、计算机硬件等众多学科,可在不泄露原始数据的前提下,实现数据融合、共享、流通、计算,是数字化时代的关键技术之一。打个比方,A每月赚6500元,B每月赚8000元,第三个人想知道两人谁赚得多,但又不能透露具体的数额。这个时候通过一套加密公式,比如分别加上一个固定数额500元,比较A和B月收入加上500之后的总数,也就是7000元和8500元,这样第三方只知道最后的总额谁更大,但不用知道A和B具体的收入。这个例子中的加密公式就是隐私计算的加密算法,但实际应用中,由于数据量大、数据信息复杂,隐私计算的实现要复杂得多。
李发飞带着试一试的心理报名参赛,开启了一段隐私计算的“技术开箱”之旅。他选择了“可信执行环境赛道‘单细胞基因测序’”的赛题,考察在保护隐私的情况下对单细胞基因数据进行分析处理。
寻找技术开箱钥匙
细胞是生物结构和功能的基本单位,由于单个细胞的基因表达情况与细胞生长、致病机理密切相关,生物医学界兴起了对单个细胞基因的测定,有助于剖析细胞的异质性,提升对疾病的理解,为治疗方案提供理论依据,缩短药物研发周期和降低药物研发成本。
但单细胞基因表达的信息是高维且稀疏的,需要扩充样本量,使用多机构、多平台的大规模数据集进行联合建模分析,提高基因表达数据的能力。基因数据大多存在于不同机构,缺乏关联和交互方式,形成了“数据孤岛”。而直接汇聚使用多家机构的单细胞测序数据进行分析建模,存在着隐私泄露的风险,更不符合法律法规要求。
隐私计算可在保护隐私的情况下对单细胞基因表达数据进行分析处理,帮助实现数据共享的同时保护多方数据安全。在比赛中,李发飞要解答的主要是数据加密计算问题,把经过加工后的单细胞类型数据,通过加密的方式,输送到一个安全的环境,也就是“可信执行环境”中,通过对带有标签的数据进行建模,然后利用该模型对真实的单细胞数据进行预测并输出结果。
李发飞表示,“大学期间学习的计算机基础课程给了很大帮助”。他在基本的数据处理和建模上进展顺利,但因为比赛要求作品需要提供完整的隐私计算服务,李发飞在这个问题上花费了大量的时间。在蚂蚁技术导师的指导下,他利用“可信执行环境”开源操作系统Occlum demo建立运行环境,成功将原有代码模型运行到TEE里面,完整呈现了赛题要求。在性能、准确性、作品完成度方面,均名列前茅。
为科学研究带来一点微小贡献
李发飞今年大四,同班同学和室友大部分都在找工作或者实习。独自留守宿舍的时光被考研学习安排得满满当当,每天上午复习数学,下午复习英语和政治,晚上准备专业课和比赛,基本凌晨1、2点才会睡下。相比于其他战队组团参赛,李发飞的“单人solo”难度和工作量也是倍增的。
李发飞其实并不属于天赋型选手,但李发飞坚持了下来。“整个过程花了很多时间向别人请教、在网络上找资料,利用好身边的工具,一边学习一边探索”。听上去风轻云淡的讲述,实则经历的是一次孤独的上下求索。
“以前刷短视频看到过隐私计算,当时觉得挺高端,新的技术路线挺难的,不适合我就跳过了。”而接触比赛之后,李发飞认为,技术还是挺难,但是如果多花时间学习,也能学会,特别是这种相对来说比较难的领域,非常值得。
谈到如何看待这样的比赛,李发飞认为,对于隐私计算这样“高端”的技术,有机构举办比赛,并且能参加这种比赛也是一次了解技术的过程,通过比赛做出作品,对个人也有很大的帮助。 “技术的发展给很多领域提供了新的解决方法,说不定我们今天做的作品,未来就有机会用得上,为科学创新推动一小步。”
上游新闻记者 杨昕华
编辑:黎磊
责编:刘莹
审核:罗军