2021那些事儿|细数信息技术4大领域
2021年,信息技术发展突飞猛进。人工智能、大数据、开源、虚拟现实(VR)、增强现实(AR)……每个领域的发展几乎都可圈可点。
在人工智能领域,人工智能的语言大模型、图文大模型乃至多模态大模型的基本能力已得到了充分展现。例如,阿里巴巴达摩院公布多模态大模型M6最新进展,参数从万亿跃迁至10万亿;鹏城实验室与百度联合发布全球首个知识增强千亿大模型——鹏城—百度·文心,参数规模达到2600亿。
不仅如此,人工智能与其他科学领域的交叉融合也擦出火花。在《科学》近日公布的2021年度科学突破榜单上,AlphaFold和RoseTTA-fold两种基于人工智能预测蛋白质结构的技术位列榜首。
在人机交互领域,扎克伯格将Facebook公司更名为“Meta”时,特斯拉和SpaceX首席执行官埃隆·马斯克则将注意力放在脑机接口上。马斯克认为脑机接口装置将更有可能改变世界,帮助四肢瘫痪或有身体缺陷的人更好地生活和工作,“复杂的脑机接口装置可以让你完全沉浸在虚拟现实中”。此外,今年5月,斯坦福大学开发出一套皮质内脑机接口系统,可以从运动皮层的神经活动中解码瘫痪患者想象中的手写动作,并将其转换为文本。
在超算领域,最值得一提的是,今年11月,我国超算应用团队凭借“超大规模量子随机电路实时模拟”成果斩获国际高性能计算应用领域的最高奖项“戈登贝尔奖”。
在开源方面,RISC-V开源指令集及其生态快速崛起;由华为公司牵头,中国科学院软件研究所、麒麟软件等参与的openEuler操作系统开源社区业已汇聚了7000名活跃开发者,完成8000多个自主维护的开源软件包,催生了10多家厂商的商业发行版……
回望2021年,信息技术版邀请业内专家梳理上述四个领域的发展脉络,展望未来发展趋势。
作者 张双虎
AlphaFold或是2021年人工智能(AI)领域的“一哥”。
近日,《科学》杂志公布了 2021 年度科学突破榜单,AlphaFold 和 RoseTTA-fold 两种基于人工智能预测蛋白质结构的技术位列榜首。
此前几天,由中国工程院院刊评选的“2021全球十大工程成就(近5年全球实践验证有效、有全球影响力的工程科学和技术重大成果)”中,AlphaGo和AlphaFold亦榜上有名。
在接受《中国科学报》采访时,数位专家回望今年人工智能领域取得的成就时,均谈到了AlphaFold。
“面向科学发现的AlphaFold和中国正在构建的人工智能发展生态不能不说。” 浙江大学人工智能研究所所长吴飞对《中国科学报》说。
中科院自动化研究所模式识别国家重点实验室研究员王金桥则提名“用AI进行新冠诊断”“人工智能与生物、制药、材料等科学融合(AI for Science)”和“三模态大模型紫东太初”。
在医学领域,AI识别咳嗽声早已用于肺炎、哮喘、阿尔茨海默氏症等疾病检测。美国麻省理工学院研究人员研发出可以通过分析咳嗽录音识别新冠患者的AI模型,识别出新冠患者咳嗽的准确率为98.5%,其中识别无症状感染者的准确度高达100%。日前,有报道称该模型已用于识别奥密克戎病毒。
“紫东太初首次实现了图—文—音语义统一表达,兼具跨模态理解和生成能力。” 王金桥说,“目前与新华社***同发布的‘全媒体多模态大模型研发计划’,实现对全媒体数据理解与生成的统一建模,打造全栈国产化媒体人工智能平台,已 探索 性地应用于纺织业和 汽车 行业质检等场景。”
12月7日, 科技 部官网公布3份函件,支持哈尔滨、沈阳、郑州3地建设国家新一代人工智能创新发展试验区。至此,我国已经有18个国家新一代人工智能创新发展试验区,这将引领带动中国人工智能创新发展。
“我国正在推动人工智能生态发展,构建良好生态。”吴飞说,“目前已有15个国家新一代人工智能开发创新平台、18个国家新一代人工智能创新发展试验区、8个人工智能创新应用先导区和高等学校设置的人工智能本科专业和交叉学科等人才培养载体。”
“一是大模型,二是人工智能和基础学科的结合。”孙茂松对《中国科学报》说,“语言大模型、图文大模型乃至多模态大模型的基本能力已得到了充分展现,确定了它作为智能信息处理基础软设施的地位。同时,它并非简单地扩大规模,而是对数字资源整合能力和计算能力都提出了挑战。虽然它的局限性也很明显,但它所表现出的某些‘奇特’性质(如少样本学习、深度双下降、基于提示的任务调整等),使学者产生了超大参数规模或会引发质变的期待,从而为新的突破埋下了伏笔。”
今年,人工智能领域从“大炼模型”走向“炼大模型”阶段,从千亿量级到万亿量级,在大模型领域,似乎没有最大,只有更大。
3月,北京智源人工智能研究院发布我国首个超大规模人工智能模型“悟道1.0”。6月,智源就改写了自己的纪录,发布悟道2.0,参数规模达到1.75万亿;9月,浪潮人工智能研究院推出了中文巨量语言模型——源 1.0,参数量达2457亿;11 月,阿里巴巴达摩院公布多模态大模型 M6 最新进展,参数从万亿跃迁至 10 万亿;12月,鹏城实验室与百度联合发布全球首个知识增强千亿大模型——鹏城—百度·文心,参数规模达到2600亿。
与此相应,最近快手和苏黎世联邦理工学院提出了一个新的推荐系统Persia,最高支持100万亿级参数的模型训练。
另一方面,人工智能在基础学科领域不断攻城略地。
7月,DeepMind公司人工智能程序Alphafold2研究成果又登顶《自然》,在结构生物学研究领域,人工智能或带领生物学、医学和药学挺进新天地;11月,美国南加利福尼亚大学研究人员通过脑机连接设备,让猴子玩 游戏 和跑步机,从而进行神经活动数据研究;12月,DeepMind开发的机器学习框架,已帮助人们发现了纯数学领域的两个新猜想,展示了机器学习支持数学研究的潜力。
“今年人工智能在各行业应用方面也取得不小的成绩。”孙茂松说,“人工智能与基础学科结合已显示出巨大潜力,发表了多篇顶级论文,已展露出某种较强的趋势性,即‘人工智能+基础科学’大有可为。”
作者 张双虎
脑机接口、AR眼镜、智能语音、肌电手环、隔空手势识别……2021年,从基础研究到应用落地,人机交互领域风起云涌。不管是智能 健康 、元宇宙,还是自动驾驶领域的蓬勃发展,似乎都表明,人机交互正站在产业化落地的门口。
“我们研发的高通量超柔性神经电极已通过科研临床伦理审批,即将开展脑机接口人体临床试验。”中科院上海微系统所副所长、传感技术联合国家重点实验室副主任陶虎对《中国科学报》说,“安全稳定地大规模采集人体大脑的神经元信号并进行闭环调控,将实现病人感知和运动功能的修复。”
脑机接口技术给患者带来越来越多的便利。今年5月,斯坦福大学研究人员在《自然》发表封面论文,开发出一套皮质内脑机接口系统,可以从运动皮层的神经活动中解码瘫痪患者想象中的手写动作,并将其转换为文本。借助该系统,受试者(因脊髓损失瘫痪)每分钟可以打出近百个字符,且自动更正后的离线准确率超过了 99%。
不久前,马斯克表示,希望明年能在人类身上使用Neuralink 的微芯片装置。该芯片将用于治疗脊髓损伤、帕金森氏症等脑部疾病和神经系统疾病。目前,相关技术正在等待美国食品药品监督管理局的批准。
“脑机接口领域已经蓄积了相当的技术,有望成为解决大脑疾病的利器。”陶虎说,“大家都在抢占临床应用的先机,明年可能会实现技术落地应用。预计两三年内,国内会出现可媲美马斯克Neuralink的独角兽企业。”
“人机交互将引申出新的万亿级市场。”福州大学特聘教授严群这句判断,也囊括了元宇宙这个巨大的市场。
有人称2021年是“元宇宙元年”,也有人认为这不过是“旧瓶装新酒”。但无论如何,元宇宙已是今年人机交互领域绕不开的话题。
“元宇宙是虚拟现实、增强现实和混合现实的综合,它实际上并非新的东西。”北京邮电大学人机交互与认知工程实验室主任刘伟告诉《中国科学报》,“元宇宙是现实世界和虚拟世界跨越未来的发展方向,但还有些技术问题未能很好地解决。”
在真实世界里,人机交互问题和人机环境系统的混合问题未能很好地解决。真实世界的人机交互中,不管是输入、处理还是输出过程中,客观数据、主观信息和知识依然不能完美融合。
刘伟认为,无论真实世界还是虚拟世界,人类和机器决策都有“快决策”和“慢决策”过程。人类决策有时依靠逻辑决策多些,有时直觉决策多些,这种“混合决策”不断变换,而且很难找到变化规律。这方面的问题机器决策目前还未能解决。
“元宇宙还处在画饼的前期阶段。”刘伟说,“因为它的底层机理没有解决——人在真实世界里未能完美解决人机交互的问题,带到元宇宙里同样不能解决。”
谈到人机交互,刘伟认为第二个不能不说的问题是“复杂领域”。
“今年的诺贝尔物理学奖,也给了复杂系统预测气候变化模型的提出者。”刘伟说,“人机交互也是一个复杂系统,它既包括重复的问题,还包括杂乱的、跨域协同的问题。”
刘伟认为,从智能的角度说,复杂系统包括三个重要组成部分,一是人,二是装备(人造物),三是环境。这其实是多个事物之间相互作用,交织在一起、既纠缠又重叠的“人机环系统”问题。
“在人机交互中,机器强在处理‘复’的问题,人擅长管‘杂’的事——跨域协同、事物间平衡等。因为人们还没找到复杂事物的简单运行规律,所以解决所有智能产品、智能系统问题,要从人、机、环这个系统里找它们的结合、融合和交互点。而且,人要在这个系统中处于主导地位。”
人机交互领域引起刘伟重视的第三个现象,是“人工智能帮数学家发现了一些定律”。“最近,DeepMind研发了一个机器学习框架,能帮助数学家发现新的猜想和定理。”刘伟说,“人工智能是一个基本的数学工具,同时,数学又反映了一些基本规律。如果人工智能可以帮助数学家处理一些数学问题,那么,人们将更好地认识复杂系统的简单规律,人机交互方面就可能会取得新突破。”
作者 张云泉(中国科学院计算技术研究所研究员)
今年是我国超算应用实现丰收的一年。
11月中旬在美国举行的全球超算大会(SC21)上,中国超算应用团队凭借基于一台神威新系统对量子电路开创性的模拟(“超大规模量子随机电路实时模拟”),一举摘得国际上高性能计算应用领域的最高学术奖——“戈登贝尔奖”。
同时,在SC 21大学生超算竞赛总决赛上,清华大学超算团队再次夺得总冠军,实现SC竞赛四连冠。这些大规模应用软件可扩展性和性能调优方面的成绩表明,我国在并行软件方面的发展方兴未艾。
回到超算对产业的驱动来看,我们要重提“算力经济”一词。早在2018年,我们提出“算力经济”概念,认为以超级计算为核心的算力经济将成为衡量一个地方数字经济发展程度的代表性指标和新旧动能转换的主要手段。
综合近几年的发展趋势,我们认为高性能计算当前发展趋势已充分表明,随着超算与云计算、大数据、AI的融合创新,算力已成为当前整个数字信息 社会 发展的关键,算力经济已经登上 历史 舞台。
通过对2021年中国高性能计算机发展现状综合分析,可以总结出当前高性能计算正呈现出以下几个特点。
首先,高性能计算与云计算已经深度结合。高性能计算通常是以MPI、高效通信、异构计算等技术为主,偏向独占式运行,而云计算有弹性部署能力与容错能力,支持虚拟化、资源统一调度和弹性系统配置。
随着技术发展,超级计算与容器云正融合创新,高性能云成为新的产品服务,AWS、阿里云、腾讯、百度以及商业化超算的代表“北龙超云”,都已基于超级计算与云计算技术推出了高性能云服务和产品。
其次,超算应用从过去的高精尖向更广、更宽的方向发展。随着超级计算机的发展,尤其是使用成本的不断下降,其应用领域也从具有国家战略意义的精密研制、信息安全、石油勘探、航空航天和“高冷”的科学计算领域向更广泛的国民经济主战场快速扩张,比如制药、基因测序、动漫渲染、数字电影、数据挖掘、金融分析及互联网服务等,可以说已经深入到国民经济的各行各业。
从近年中国高性能计算百强排行榜(HPC TOP100)来看,超算系统过去主要集中于科学计算、政府、能源、电力、气象等领域,而近5年互联网公司部署的超算系统占据了相当大比例,主要应用为云计算、机器学习、人工智能、大数据分析以及短视频等。这些领域对于计算需求的急剧上升表明,超算正与互联网技术进行融合。
从HPC TOP100榜单的Linpack性能份额看,算力服务以46%的比例占据第一;超算中心占24%,排名第二;人工智能、云计算和短视频分别以9%、5%和4%紧随其后。
可以看出,人工智能占比的持续增加与机器学习等算法和应用的快速崛起,以及大数据中的深度学习算法的广泛应用有很大关系。互联网公司通过深度学习算法重新发现了超级计算机,特别是GPU加速的异构超级计算机的价值,纷纷投入巨资建设新系统。
综合来看,目前的算力服务、超算中心、人工智能、科学计算等领域是高性能计算的主要用户,互联网、大数据,特别是AI领域增长强劲。
再次,国家层面已经制订了战略性的算力布局计划。今年5月,国家发展改革委等四部门联合发布《全国一体化大数据中心协同创新体系算力枢纽实施方案》,提出在京津冀、长三角、粤港澳大湾区、成渝以及贵州、内蒙古、甘肃、宁夏建设全国算力网络国家枢纽节点,启动实施“东数西算”工程,力促把东部的数据送到西部进行存储和计算,同时在西部建立算力节点,改善数字基础设施不平衡的布局,有效优化数据中心的布局结构,实现算力升级,构建国家算力网络体系。
最后,人工智能的算力需求已成为算力发展主要动力。机器学习、深度学习等算法革新和通过物联网、传感器、智能手机、智能设备、互联网技术搜集的大数据,以及由超级计算机、云计算等组成的超级算力,被公认为是人工智能时代的“三驾马车”,***同掀起最新一轮的人工智能革命。
在人工智能蓬勃发展这一背景下,虚拟化云计算向高性能容器云计算演进,大数据与并行计算、机器学习融合创新就成为了产业发展的最新方向。
此外,在智能计算评测方面,我国已经提出了包括AIPerf 500在内的众多基准测试程序,这是对传统Linpack测试标准的有力补充。
这些发展表明超算技术向产业渗透的速度加快,我们已经进入一个依靠算力的人工智能时代,这也是未来发展的必然趋势之一。随着用户对算力需求的不断增长,算力经济必将在未来 社会 发展中占据重要地位。
作者 武延军(中国科学院软件研究所研究员)
开源发展可圈可点并非只是今年的事。最近几年,开源领域发生了很多重要的事情。
例如,RISC-V开源指令集及其生态的快速崛起。这与上世纪90年代初Linux诞生一样。当时,UNIX和Windows是主流,很少有人能够预料到今天以Linux为内核的操作系统已经遍及人们生活的方方面面。
如今,人们每天使用的App,超过80% 概率是运行在以Linux为内核的安卓操作系统上,而且,支撑其业务的后端服务器上运行的操作系统很大概率也是Linux发行版。
所以,今天的RISC-V也同样可能被低估,认为其不成熟,很难与ARM和X86抗衡。但也许未来RISC-V就像Linux一样,最终成为全球范围内的主流指令集生态,产品遍及方方面面。
仅2020年,RISC-V International(RVI,RISC-V基金会迁入瑞士之后的新名称)的会员数增长了133%。其实RVI迁入瑞士这件事情本身也意义重大,是一次开源领域面对大国竞争保持初心不“选边站”的经典案例,值得全球其他开源基金会参考。
在国内,2019年底,华为公司牵头,中国科学院软件研究所、麒麟软件等参与的openEuler操作系统开源社区正式成立。在短短的两年内,社区已经汇聚了7000名活跃开发者,完成8000多个自主维护的开源软件包,催生了10多家厂商的商业发行版。
这是中国基础软件领域第一个真正意义上的“根社区”,虽然与20多年 历史 的Debian、Fedora还有差距,但迈出了重要一步,对学术研究、技术研发、产业创新来说,终于有了国内主导的、可以长期积淀的新平台。
同时,华为在遭遇安卓操作系统GMS(谷歌移动服务)海外断供之后,推出了鸿蒙操作系统HarmonyOS,并在开放原子开源基金会下启动开源项目OpenHarmony。
目前OpenHarmony短时间内已经吸引了国内众多厂商参与,也侧面反映了国内产业界对新一代万物互联操作系统的旺盛需求。尽管其在生态规模和技术完整程度方面与安卓仍有差距,但毕竟迈出了打造自主生态的第一步。
这相当于为源代码合理使用划定了一个边界,即合理使用仅限于接口,一旦深入到接口的实现代码,则需要遵守相关许可。这对开源知识产权的法律界定具有重要参考意义。
今年5月,《2021中国开源发展蓝皮书》重磅发布。它不仅系统梳理了我国开源人才、项目、社区、组织、教育、商业的现状,并给出发展建议,而且为国家政府相关管理部门制定开源政策、布局开源战略提供参考,为科研院所、 科技 企业以及开源从业者提供更多的案例参考和数据支撑。
而不论是开源软件向围绕开放指令集的开源软硬件生态发展,还是开源有严格的法律边界约束,抑或是国内龙头企业正尝试通过开源 探索 解决“卡脖子”问题,且已经取得了一定的效果……众多案例都指向一个方向——开源趋势不可阻挡。因为它源自人类分享知识、协同创造的天性,也是人类文明在数字时代薪火相传的重要模式。
当然,不可否认的是,开源还存在很多问题,例如,开源软件供应链安全的问题。这里的安全既有传统意义上软件质量、安全漏洞的问题,也有开源软件无法得到持续有效维护的问题(如OpenSSL在出现HeartBleed问题时只有两位兼职维护者,log4j出现问题时只有三位兼职维护者),更有大国竞争导致的“断供”问题(如GitHub曾限制伊朗开发者访问)。
随着开源软件向GitHub这类商业平台的集中,这一问题会更加突出,甚至演变为重大风险。开源软件这一本应属于全人类的智慧资产,可能变为实施“长臂管辖”的武器。为了避免这一问题,开源代码托管平台、开源软件构建发布平台等公***基础设施需要“去中心化”。世界需要多个开源软件基础设施,以最大程度消除政治力量对开源社区的威胁。
对于中国来说,随着开源软件成为众多科研、工业等重大基础设施的重要支撑部分,开源软件本身也要有一个基础设施,具备代码托管、编译、构建、测试、发布、运维等功能,保证开源软件供应的安全性和连续性,进而增强各行各业使用开源软件的信心。
未来,核心技术创新与开源贡献引领将成为国内企业发展的新动力,或将我国开源事业推向另一个高潮。