20倍、50倍、100倍、1000倍、3000倍、10000倍...,光芯片在计算方面超越硅芯片的速度与日俱增。
近几十年以来,微电子技术与电子芯片产业遵循着摩尔定律不断发展,随着传统制程工艺逼近极限,电子芯片在进一步提升计算速度和降低功耗方面的技术突破,面临难以解决的瓶颈。
尤其是当前对算力的需求来看,随着AI的爆发,在未来10年中,增长越来越缓慢的电子芯片,难以匹配增长越来越快的数据需求。
然而,从行业现状来看,光芯片仿佛始终是雷声大,雨点小,并未在市面上见到太多应用案例。那么,在强大优势背后,光计算芯片目前发展现状究竟如何?取得了哪些突破和进展,以及还面临哪些棘手的挑战?
实际上,光芯片很早就有,已经很成熟,比如2000年前后的海底光缆,光通讯两端的收发模块都是光子芯片,甚至在上课或开会时用的激光笔,里面也有激光器芯片,也是一种光子芯片。
但这些是不可编程的光学线性计算单元,所以无法运用于计算领域。要想通过光来提升算力,具有实用价值的计算单元就必须具备可编程性。
而针对光计算的研究也很早就开始了,始于20世纪60年代,但受到当时应用范围有限以及电子计算技术快速发展的影响,光计算处理器未能成功迈向商用。
尤其是在当前时代,AI应用正推动对算力的需求,光芯片作为重要的潜在颠覆性技术路径,光计算芯片近年来又重新受到广泛关注。
光芯片的核心是用波导来代替电芯片的铜导线,来做芯片和板卡上的信号传输,其实就是换了一种介质。当光在波导里面传输的时候,波导和波导之间出现光信号干涉,用这个物理过程来模拟线性计算这一类的计算过程,即通过光在传播和相互作用之中的信息变化来进行计算。
与最先进的电子神经网络架构及数字电子系统相比,光子计算架构在速度、带宽和能效上优势突出。因此,光子计算能够有效突破传统电子器件的性能瓶颈,满足高速、低功耗通信和计算的需求。
需要指出的是,光子计算的发展目标不是要取代传统计算机,而是要辅助已有计算技术在基础物理研究、非线性规划、机器学习加速和智能信号处理等应用场景更高效地实现低延迟、大带宽和低能耗。
硅光计算芯片通过在单个芯片上集成多种光子器件实现了更高的集成度,还能兼容现有半导体制造工艺,降低成本,解决后摩尔时代AI硬件的性能需求,突破冯·诺依曼架构的速度和功耗瓶颈。
综合来看,光芯片的优势可以总结为:速度快/低延迟、低能耗、擅长AI矩阵计算等。
速度快/低延迟:光计算芯片最显著的优势是速度快、延迟低,在芯片尺寸的厘米尺度上,这个延迟时间是纳秒级,且这个延迟与矩阵的尺寸几乎无关,在尺寸较大的情况下,光子矩阵计算的延迟优势非常明显。
低能耗:镜片折射本身是不需要能量的,是一个被动过程。在实际应用中,由于要对计算系统编程,其中光信号的产生和接收是需要耗能的。在光学器件和其控制电路被较好地优化前提下,基于相对传统制程的光子计算的能效比,可媲美甚至超越先进制程的数字芯片。
擅长矩阵运算:光波的频率、波长、偏振态和相位等信息可以代表不同数据,且光路在交叉传输时互不干扰,比如两束手电筒的光束交叉时,会穿过对方光束形成X型,并不会互相干扰。这些特性使光子更擅长做矩阵计算,而AI大模型90%的计算任务都是矩阵计算。
光计算芯片可对神经网络训练和推理过程中的大规模矩阵运算、神经元非线性运算进行加速,还可通过对不同神经网络的拓扑结构进行硬件结构映射,来提高芯片的通用性和灵活性。
据了解,在人工神经网络计算加速方面,基于硅光平台的神经网络已取得多项进展。
早在2016年,麻省理工学院(MIT)的光子AI计算研究团队就打造了首个光学计算系统,2017年就以封面文章的形式发表在了顶级期刊Nature Photonics杂志上。
国际著名光学科学家、斯坦福大学终身正教授David Miller, 曾评价称这一系列的研究成果极大地推动了集成光学在未来取代传统电子计算芯片的发展。于是一篇论文在全球范围内启发了许多人投入到光子AI芯片的开发中,可以说是开创了光子AI计算领域发展的先河,受到业内瞩目。
2017年,kaiyun开云平台曦智科技创始人沈亦晨(MIT团队成员之一)等人提出一种基于硅光平台的全光前馈神经网络架构,采用马赫-曾德干涉仪(MZI)进行神经元线性部分的计算,非线性激活函数则通过电域仿真的方法实现。
随着技术不断发展,基于硅光平台的神经网络也逐步走向商业化。例如,美国AI芯片公司Lightmatter推出通用光子AI加速器方案Envise;曦智科技在2019年4月对外宣布开发出了世界第一款光子芯片原型板卡,2021年推出了光子计算处理器PACE。
据悉,PACE把最早4×4的乘法器,提升到了把上万个光器件集成在一块芯片上面,单颗光芯片上的器件集成度提高了3个数量级,系统时钟达1GHz,运行特定循环神经网络速度可达目前高端GPU的数百倍,这是光子计算领域一个长足的进步。
沈亦晨表示,PACE是全球仅有的,第一个示范出光子优势的计算系统,也是已知全球集成度最高的光子芯片,能够展示光子计算在人工智能和深度学习以外的应用案例。如果和英伟达的GPU 3080跑同一个循环神经网络算法,PACE花的时间可以做到GPU的1%以内。
在此之前,华为在2019年公开了一份名为光计算芯片、系统及数据处理技术的发明专利,接着在2021年华为全球分析师大会上表示,到2030年,kaiyun开云平台算力需求将增加100倍,如何打造超级算力将是一个巨大的挑战,未来模拟计算、光子计算面临巨大的应用场景,所以目前华为也在研究模拟计算与光子计算。
近几年来,国内外企业、高校和研究机构也纷纷对此展开研究,取得了一系列成果和突破。
去年10月,清华大学自动化系戴琼海院士、吴嘉敏助理教授与电子工程系方璐副教授、乔飞副研究员联合攻关,提出了一种挣脱摩尔定律的全新计算架构:光电模拟芯片(ACCEL),算力可达到目前高性能商用GPU芯片的3000余倍,能效提升四百万余倍,为超高性能芯片研发开辟全新路径。
据了解,在这枚光电计算芯片中,清华大学攻关团队创造性地提出了光电深度融合的计算框架。从最本质的物理原理出发,结合了基于电磁波空间传播的光计算,与基于基尔霍夫定律的纯模拟电子计算,挣脱传统芯片架构中数据转换速度、精度与功耗相互制约的物理瓶颈,在一枚芯片上突破大规模计算单元集成、高效非线性、高速光电接口三个国际难题。在保证高任务性能的同时,还实现超高的计算能效和计算速度。
实测表现下,ACCEL光电融合芯片的系统级算力较现有的高性能芯片架构提升了数千倍。
在研发团队演示的智能视觉任务和交通场景计算中,光电融合芯片的系统级能效,实测达到了74.8 Peta-OPS/W,是现有高性能芯片的四百万余倍。形象来说,原本供现有芯片工作一小时的电量,可供它工作五百多年。
此外,在超低功耗下运行的ACCEL有助于大幅度改善发热问题,对于芯片的未来设计带来全方位突破,并为超高速物理观测提供算力基础。
更进一步,该芯片光学部分的加工最小线宽仅采用百纳米级,而电路部分仅采用180nm CMOS工艺,已取得比7nm制程的高性能芯片多个数量级的性能提升。同时所使用的材料简单易得,造价仅为后者的几十分之一。
凭借诸多优势,ACCEL未来有望在无人系统、工业检测和 AI 大模型等方面实现应用。目前团队仅研制出特定运算功能的光电融合原理样片,需进一步开展具备通用功能的智能视觉运算芯片研发,以进行大范围应用开云集团(中国)官方网站。
可以预见,随着我国芯片加工技术不断提升,更多新材料的加入,这种颠覆性架构未来的潜力将得到更多释放。
前不久,美国宾夕法尼亚大学工程师也开发了一种新型芯片,它使用光而不是电来执行训练AI所必需的复杂数学运算。
该芯片有可能从根本上加快计算机的处理速度,同时还可降低能源消耗。相关研究发表在《自然·光子学》上。
据介绍,该芯片首次将本杰明·富兰克林奖章获得者纳德·恩赫塔在纳米尺度上操纵材料的开创性研究与硅光子(SiPh)平台结合起来。前者涉及利用光进行数学计算,后者使用的是硅。
光波与物质的相互作用代表着开发计算机的一种可能途径,这种方法不受当今芯片局限性的限制。新型芯片的原理本质上与20世纪60年代计算革命初期芯片的原理相同。
研究人员描述了这种芯片的开发过程,其目标是开发一个执行向量矩阵乘法的平台。向量矩阵乘法是神经网络开发和功能中的核心数学运算,而神经网络是当今支持AI工具的计算机体系结构。
恩赫塔解释说,他们可将硅晶片做得更薄,比如150纳米,并且使用高度不均匀的硅晶片,在无需添加任何其他材料的情况下,这些高度的变化提供了一种控制光在芯片中传播的方法,因为高度的变化可导致光以特定的模式散射,从而允许芯片以光速进行数学计算。但这仅限于特定领域。
除了更快的速度和更少的能耗之外,新型芯片还具有隐私优势。由于许多计算可同时进行,因此无需在计算机的工作内存中存储敏感信息,从而使采用此类技术的未来计算机几乎无法被入侵。
近日,美国宾夕法尼亚大学Vahid Nikkhah,Nader Engheta等学者提出了高效率仿真新方法,逆向设计了大矩阵维度的光学向量-矩阵乘法计算芯片。
传统的逆向设计过程中,光场仿真时间随器件面积指数级增长,这限制了器件的设计面积与矩阵计算维度。
为了解决这个问题,该团队提出一种压缩光场仿线DEIA行业资讯,基于光传播的二维有效折射率近似,能够大幅缩减逆向设计仿真时间,突破传统方法在器件面积上的限制,从而设计大矩阵维度的光学向量-矩阵乘法芯片。
传输即计算,结构即功能的计算架构,有望避免冯·诺依曼计算范式中出现的数据潮汐传输问题。
这种芯片比传统电子处理器的速度快1000倍,且耗能更低,应用范围广泛,涵盖5/6G无线通讯系统、高解析度雷达系统、人工智能、计算机视觉以及图像和视频处理。能实现这种卓越效能,是透过基于薄膜铌酸锂平台的集成微波光子处理引擎,该平台能执行模拟信号的多用途处理及计算工作。
高并行度可谓至关重要。传统的中央处理器CPU,采用的是线性处理的方式,即在单位时间之内执行一次运算。图像处理器GPU则采用并行处理方式,在单位时间之内可以并行处理多次运算开云官方。这也正是GPU被广泛用于人工智能产业的原因。
高并行度,是光的一大优势。同时,由于光具备不同的自由度,因此可被用于提高其处理并行度,比如不同的偏振、不同的空间模式、不同的波长等。
基于超大规模集成硅基光子学的图论光量子计算芯片——博雅一号,发展出了超大规模集成硅基光量子芯片的晶圆级加工和量子调控技术,首次实现了片上多光子高维度量子纠缠态的制备与调控,演示了基于图论的可任意编程玻色取样专用型量子计算。
研究团队利用该光量子芯片,首次实现了多光子且高维度的量子纠缠态的制备、操控、测量和纠缠验证,验证了四光子三维GHZ真纠缠。在图论统一架构下,单一芯片编程实现了多种重要量子纠缠态。多光子高维纠缠可为高维通用型量子计算提供关键资源态。据介绍,基于图论的可编程玻色取样专用型量子计算芯片有望为化学分子模拟、图优化求解、量子辅助机器学习等提供有效解决方案。
光芯片商业化有两大路径:第一种思路是短期内不寻求完全替代电,不改动基础架构,最大化地强调通用性,形成光电混合的新型算力网络;另一种思路是把光芯片模块化,不仅仅追求在计算领域的应用,还追求在片上、片间的传输领域应用,追求光模块的即插即用。
这也不难理解,因为无论是生产商还是客户,最大的诉求之一就是要确保通用性。产品实现开箱即用才能够最大限度降低学习成本,不需要对现在的底层框架进行过多修改,就能够适配到成千上万个应用场景中。所以不动基础架构,而是把线性计算的计算核部分用光来部分替代,形成光电混合的算力网络新形式,是最快的商业化路径。
工艺挑战:由于要用于复杂计算,光器件的数量必然会很多,要达到不错的性能至少需要上万个,这会带来更复杂的结构和更大的尺寸。为了实现可编程,必然要对每个器件进行控制,也会要求高集成度和一些Knowhow积累。这些要求会产生一些工艺上的挑战,同时导致成本很高,以及整体稳定性、生产良率都有挑战,所以必须找到一种低成本、高良率的方法,来控制大量光器件的技术。
温度难题:因为是模拟计算,当整个环境温度对电芯片产生影响的时候,对光信号也会产生扰动,影响计算精度。有一种办法是把整个芯片放在恒温环境下,通过温控电路来实现。但这反过来会牺牲一些光计算的低能耗优势。此外,对于温度控制,还包括芯片内部发热,导致对周边器件的影响问题。
产业链未形成成熟分工:光芯片技术门槛高、产品线难以标准化,生产各工艺综合性更强,相比于大规模集成电路已形成高度的产业链分工,光芯片产业链行业尚未形成成熟的设计-代工-封测产业链。
新蓝海市场亟待开拓:光芯片下游大客户为主,可靠性与交付能力是重要竞争力;光芯片产业参与者众多,中低端领域竞争激烈,高端市场仍是蓝海。在算力基础设施建设海量增长的背景下,光芯片将会迎来巨大的机会。