行业动态
Nature|通用光子人工智能加速!
发布时间: 2025-08-19 来源:陕西省光学学会 浏览次数:164

01工作速览

在过去的十年中,光子学研究探索了加速张量运算,这是人工智能(AI)和深度学习的基础,作为实现更高能效和性能的途径。该领域的主要动机是寻找替代技术,以在后摩尔定律和登纳德缩放时代延续计算进步。尽管取得了这些进展,但没有光子芯片达到实际AI应用所需的精度,演示也仅限于简化的基准任务。

2025年4月9日,在Nature在线发表题为Universal photonic artificial intelligence acceleration的研究论文。该研究介绍了一种光子AI处理器,它能够执行高级AI模型,包括ResNet、BERT,以及DeepMind最初展示的Atari深度强化学习算法。

该处理器在许多工作负载上实现了接近电子的精度,标志着光子计算在与成熟的电子AI加速器竞争中迈出了显著的一步,也是向开发后晶体管计算技术迈出的关键一步。


02匠心独运

随着大语言模型、强化学习和卷积神经网络推动人工智能(AI)模型复杂性的指数级增长,电子计算机如今已从根本上受到摩尔定律和登纳德缩放定律的限制。光子学通过利用光基计算的高带宽、低延迟和能效优势,提供了一种替代方案。近期的发展,包括基于时间-波长交错调制和光电相乘的光子加速器,凸显了光子处理器用于AI的进展。尽管这些系统已经展示了矩阵乘法等基本线性代数运算,但在实现精度、可扩展性、系统集成以及与先进AI架构的兼容性方面仍面临挑战。解决这些挑战对于将光子处理器定位为电子加速器的可行替代品至关重要,其有望在计算速度和能效方面取得显著提升。

此,作者报告了据其所知首个能够执行最新神经网络的光子处理器,包括Transformer、卷积网络分类和分割以及强化学习算法。重要的是,该光子处理器在高级任务上实现了接近32位数字浮点系统的精度,即使在不需要微调和量化感知训练等先进技术的情况下,也验证了其计算完整性。该设计将六颗芯片集成在一个封装内,利用垂直排列的光子张量核心(PTC)与控制芯片之间的高速互连,从而实现了AI计算的高效率和可扩展性。这项工作专注于准确执行最新神经网络,即使存在若干硬件非理想性,该光子处理器也能在78瓦的电功耗和1.6瓦的光功耗下,每秒生成65.5万亿次16位自适应块浮点(ABFP)运算。这项工作代表了光子处理所达到的最高集成水平。

如图1a所示的光子处理器,集成了四个128×128的PTC,这些PTC采用GlobalFoundries的90纳米光子工艺制造。每个PTC的面积为14.00×24.96毫米,包含所有光子组件和模拟混合信号电路,以使其能够运行,但不包括高速模拟-数字转换器(ADC)。该处理器还包含两个数字控制接口(DCI)芯片,采用GlobalFoundries的12纳米工艺制造,每个尺寸为31.4×25.0毫米。高速ADC包含在DCI中。这种创新的封装将六颗芯片组装在一起:两个满视场、250亿晶体管的DCI芯片位于一个有机中介层(54×56毫米)上,其下方有四个PTC芯片。


图1:四核光子处理器。 a. 处理器在16通道PCIe卡上的照片,带有四个PTC,每个PTC都连接着一个12光纤阵列。 b. 封装架构渲染图,展示了集成的散热器、两个12纳米控制芯片(约780平方毫米),它们位于有机基板上,以及背面的四个349平方毫米光子芯片、用于插座接触的底部基板和覆盖四个光子核心的硅散热器。 c. 12纳米数字芯片的平面图,包含输入输出接口、存储器、RISC核心和数据转换器。 d. 光子芯片的平面图,包含权重传输接口、向量单元和权重单元。


图2:处理器功能和执行模型。 a. 光子处理器的方框图,包括PCIe 4.0接口、统一缓冲区、RISC处理器、可编程激活函数和PTC。 b. 软件执行模型。主机处理器通过PCIe与光子处理器通信,发出指令并传输数据。 c. 光子处理器中的数字表示。 d. 增加增益可以使ADC读取较低的位,如图中突出显示的部分,而较高的位可能会饱和。示例显示了总共24位输出(来自7位权重、10位激活以及每个向量元素的128个元素的累加)。MAC表示乘积累加运算。


图3:单元格操作及特性。 a. 一个微型4×4 PTC的PTC架构。 b. 权重单元格包括一个与电阻式差分DAC耦合的差分光电检测单元。示例为3位电路。 c. 向量编码单元格包括一个MZI和温度稳定反馈回路。在晶圆测试中使用光栅耦合器。 d. 光子处理器中向量编码器的测量线性化函数,用作查找表以归一化非线性,其中两个随机选择的向量编码器线性化函数以虚线表示。 e. 光子处理器中4,096个样本单元格的测量权重单元格传递函数,其中两个随机选择的传递函数以点表示。 f. 一组4,096个预期和观测到的MVP之间的归一化误差分布,向量和权重从bfloat16的正态分布中采样。


03卓越性能


图4:在光子处理器上运行的神经网络任务。 a. 用于训练SegNet的Oxford-IIIT Pet48数据集样本以及分割示例,还有处理器的分割结果。b,c, Atari Pacman和DQN Atari Beamrider在光子处理器上运行。d, 光子处理器在执行IMDb情感分析任务的BERT-Tiny时进行的样本情感分析。这些示例展示了模型能够准确地将电影评论分类为积极或消极情感,证明了其在该任务上的熟练程度。e, 光子处理器在执行TinyShakespeare44文本生成任务的NanoGPT时生成的样本剧本。该剧本展示了光子处理器生成类似人类文本的能力,突显了其在生成性语言模型方面的潜力。


参考:

https://doi.org/10.1038/s41586-025-08854-x