在生成式AI与大规模机器学习集群的指数级扩张中,数据中心正面临一场由光互连引发的"能源危机"。当单颗GPU的功耗突破700W,当单机柜功率密度向100kW迈进,光模块——这一曾经被视为"边缘组件"的器件,正成为制约系统能效的关键瓶颈。

传统800G DSP光模块的单端口功耗已达16-18W,其"罪魁祸首"正是内部的数字信号处理(DSP)芯片。随着速率向1.6T甚至更高速率演进,若不改变架构,光模块功耗将突破系统散热极限。

在此背景下,LPO(Linear Pluggable Optics,线性可插拔光学)技术应运而生。其核心创新正是彻底移除链路中的DSP芯片,将信号处理功能迁移至主机侧ASIC的SerDes中,通过"模拟直驱"实现能效比的质的飞跃。

这一看似激进的架构变革,实则是光通信产业在功耗、延迟、成本三重压力下做出的必然选择。本文将深入剖析移除DSP芯片的技术动因、LPO的底层机理,以及这一变革对AI基础设施的深远影响。

为什么需要移除LPO光模块链路中的DSP芯片?

DSP芯片的传统角色与性能代价

信号完整性的守护者


在传统高速光模块(400G/800G)中,DSP芯片承担着四项关键职能:

重定时(Retiming):消除信号在传输过程中的抖动与时钟偏移,确保数据比特的精确对齐。

均衡(Equalization):补偿信道损耗与码间干扰(ISI),包括Tx端的前馈均衡(FFE)与Rx端的判决反馈均衡(DFE)。

前向纠错(FEC):通过Reed-Solomon或LDPC算法降低误码率(BER),支持长距传输的可靠性。

Gearboxing:实现不同电气通道速率(如112G PAM4)与光学通道的映射转换,确保速率适配。

这些功能使DSP光模块具备强大的链路适应能力,支持长达10km的传输距离,并实现多厂商设备的"即插即用"互操作性。

高性能背后的沉重代价


然而,DSP的通用性与高性能以显著的功耗、延迟与成本为代价。

功耗危机:在7nm工艺下的400G光模块中,单颗DSP功耗约4W,占模块总功耗的50%。进入800G时代,DSP功耗攀升至8-10W,模块整体功耗达16-18W。对于拥有10,000个端口的AI训练集群,仅光模块功耗就高达160-180kW,相当于数千台服务器的能耗。

延迟累积:DSP的数字信号处理引入8-10ns的固定延迟。在分布式AI训练的All-Reduce集体通信中,这些延迟在数千个节点间累积,显著拖慢模型训练速度。

成本压力:DSP芯片占光模块BOM成本的20%-40%。在高速率时代,先进制程DSP的价格高企,推高了整体部署成本。

热设计困境:高功耗导致模块工作温度升高,不仅需要复杂的散热设计,还因热应力降低激光器与调制器的长期可靠性。

当网络速率向1.6T演进,若沿用DSP架构,单模块功耗将突破25W,超出典型交换机的面板散热能力(通常限制在15-20W/端口)。此时,移除DSP不再是可选优化,而是架构演进的生存必需。

移除DSP的四大技术动因

功耗革命:数据中心PUE优化的关键


LPO通过移除DSP,可将800G光模块功耗降至5-8W,甚至优化至2-4W,实现30%-50%的能耗降低。

这一降幅在超大规模数据中心中具有战略意义。首先,在集群级节能方面,10,000端口规模下可节省70-90kW电力,相当于数百台GPU服务器的能耗,直接降低PUE(能源使用效率)。其次,低功耗允许更高的端口密度(如单机柜支持更多800G端口),减少冷却系统资本支出(CAPEX)与运营支出(OPEX)。最后,这种能效提升符合全球数据中心"碳中和"目标与绿色计算趋势。

延迟优化:AI训练集群的微秒竞赛


在AI/ML与高性能计算(HPC)场景中,延迟是影响训练效率的关键指标。DSP处理带来的8-10ns延迟,在LPO架构中被压缩至亚3ns级别,降幅超过70%。

对于基于Ring All-Reduce或Tree All-Reduce的分布式训练框架,纳秒级的单跳延迟节省在数千节点规模下累积,可带来显著的训练吞吐量提升。在延迟敏感的高频交易(HFT)与实时推理场景中,LPO的低延迟特性更是不可或缺。

成本重构:供应链复杂度的降低


移除DSP芯片带来直接的材料成本节约。首先是BOM成本降低,节省DSP芯片(占成本20%-40%)及配套电源管理电路。其次是简化供应链,减少对先进制程DSP芯片(通常由Marvell、Broadcom等少数供应商垄断)的依赖。最后是生产良率提升,模块内部元件数量减少,组装与测试流程简化。

据Arista与光迅科技(Accelink)的数据,800G LPO模块可实现约8%(50-60美元/模块)的综合成本降低。

架构简化:向CPO演进的技术铺垫


LPO的"功能迁移"理念——将信号处理从模块移至主机——与更长远的CPO(Co-Packaged Optics,共封装光学)一脉相承。通过LPO验证的线性驱动技术、主机侧SerDes协同设计方法,为最终实现光引擎与交换ASIC的共封装积累了关键技术经验。

LPO的技术机理:从数字处理到模拟直驱

架构路径对比


LPO并非简单"去掉DSP",而是通过系统级功能重构实现性能代偿。

传统DSP架构路径:ASIC SerDes(弱均衡)→ PCB走线 → 光模块DSP(强均衡+重定时+FEC)→ 激光驱动器(LDD)→ 光学通道 → TIA → 限幅放大器(LA)→ DSP(时钟恢复)→ ASIC。

LPO线性直驱路径:ASIC SerDes(强均衡+前向纠错)→ PCB走线 → 线性驱动器(集成CTLE弱均衡)→ 光学通道 → 线性TIA(集成EQ)→ ASIC SerDes(强均衡+DFE)。

在这一架构中,光模块仅保留高线性度的模拟前端。

关键组件功能


Tx端(发送端):高线性激光驱动器,集成连续时间线性均衡(CTLE),直接驱动激光器或调制器。不含重定时电路,完全依赖主机提供的干净时钟。

Rx端(接收端):高线性跨阻放大器(TIA),集成模拟均衡(EQ),无CDR(时钟数据恢复)电路。输出模拟信号直接传递至主机ASIC。

无DSP/CDR:完全依赖主机ASIC的SerDes进行数字信号处理与链路训练,模块仅作为"透明"的模拟通道。

技术前提:CMOS工艺赋能


LPO架构的可行性建立在先进CMOS工艺对SerDes性能的提升上。当交换机ASIC进入5nm/3nm节点,其SerDes的线性度、抗噪能力与均衡能力大幅增强,足以补偿LPO链路中缺失的DSP功能。

在Tx端,主机SerDes需增强前馈均衡(FFE)能力,预补偿PCB走线与光模块的带宽损耗。在Rx端,主机SerDes需支持更复杂的判决反馈均衡(DFE)与连续时间线性均衡(CTLE),以恢复经长距传输衰减的眼图。

此外,通过802.3ck等标准定义的链路训练(Link Training)协议,实现主机与模块间的自适应参数调优,确保链路稳定性。

模拟通道的线性度挑战


LPO模块的核心技术挑战在于维持模拟通道的高线性度,避免信号削波与非线性失真。

线性驱动器需具备高输出摆幅、低谐波失真与宽频带特性,通常采用高性能SiGe BiCMOS或先进CMOS工艺。线性TIA需支持自动增益控制(AGC)与宽动态范围,以应对不同光纤长度的功率变化。无源匹配网络需优化高频信号完整性,减少传输线损耗与反射。

权衡与边界:LPO的能力禁区

传输距离的硬限制


LPO缺乏DSP的色散补偿与强均衡能力,传输距离通常限制在2km以内(理想条件下500m-1km)。主要适用于数据中心机架内(Intra-rack)与机架间(Inter-rack)互联。

对于10km以上的长距传输或DCI(数据中心互连),仍需传统DSP方案。这是因为长距传输中的光纤色散与非线性效应,必须通过DSP的数字信号处理算法进行补偿。

互操作性的妥协


DSP光模块的"即插即用"特性源于其内部完成所有信号恢复,对主机SerDes性能不敏感。而LPO要求主机侧与模块间的高度协同,带来以下挑战:

供应商锁定风险:早期LPO部署通常要求交换机与光模块来自同一生态(如Broadcom芯片配特定LPO模块)。系统误码率(BER)在复杂链路环境下可能劣于DSP方案(典型目标为1E-5至1E-8),需依赖更强的主机FEC(如RS544)补偿。

校准复杂度:需通过LPO MSA(Multi-Source Agreement)定义统一的链路训练与校准规范,实现跨厂商互操作。这需要产业界在电气接口、管理协议上达成广泛共识。

温度敏感性


LPO的模拟电路性能受温度影响显著,需精确的温控与补偿机制。相比之下,DSP的数字算法对温度波动更具鲁棒性。这要求LPO模块在热设计与封装工艺上投入更多工程优化。

产业生态演进:从LPO MSA到规模化部署

标准化进程


为确保LPO的互操作性,产业界正加速标准化。LPO MSA由Arista、Broadcom、Cisco等发起的多源协议,定义电气接口、链路训练协议与热管理规范。IEEE 802.3在800G/1.6T标准中考虑线性直驱接口的兼容性。OIF(Optical Internetworking Forum)制定CEI-112G/224G线性接口规范。

产业链布局


交换机厂商如Arista、NVIDIA(Mellanox)、Cisco等推出支持LPO的交换平台,优化ASIC SerDes的线性驱动能力。光模块厂商中际旭创、Coherent、光迅科技、新易盛等推出800G LPO产品,在头部云厂商数据中心测试。芯片供应商Broadcom、Marvell在保持DSP产品线的同时,开发支持LPO模式的SerDes IP。

应用场景分化


在AI/HPC集群,LPO成为主流选择,用于GPU间的Scale-out网络,利用低功耗与低延迟特性。在传统云数据中心,混合部署成为常态,ToR-Leaf层采用LPO,Leaf-Spine及长距链路保留DSP。未来演进中,LPO作为向CPO过渡的方案,在1.6T时代可能与CPO并存。

未来展望:过渡方案还是终极形态?

技术演进时间线


LPO的崛起并非宣告DSP的终结,而是光互连架构的分化与精细化。

短期内(2024-2027),LPO在800G/1.6T短距场景中快速渗透。据LightCounting预测,超过60%的下一代AI Fabric将采用线性或近线性光学方案。

中期来看,LRO(Linear Receive Optics)作为折中方案(仅移除Rx端DSP,保留Tx端重定时)可能获得应用,平衡功耗与互操作性。

长期而言,随着CPO技术成熟,光引擎与ASIC共封装将最终实现最低的能耗与最高的带宽密度。但LPO在可维护性与灵活性上的优势使其在边缘与中小规模部署中长期存在。

架构革新的范式意义


移除LPO光模块中的DSP芯片,绝非简单的"减法设计",而是光通信架构从"自包含模块"向"系统协同"演进的里程碑。

这一变革揭示了AI算力时代硬件设计的核心逻辑:当单一组件的性能优化遭遇物理极限,通过系统级功能重构与边界重定义,往往能实现突破性的能效提升。

LPO技术的普及,标志着光模块从"哑管道"向"协同计算节点"的转变,也预示着数据中心网络架构向更高密度、更低能耗、更低延迟的持续演进。在通往1.6T乃至3.2T的道路上,DSP与LPO将长期共存,服务于不同距离与性能需求的场景,共同支撑起AI时代的海量数据流动。