共封装光模块 (CPO) 的出现正在逐渐改变数据中心和高性能网络的运行方式。它们解决了几个不可避免的挑战:带宽密度、能耗和未来的可扩展性。CPO 通过将光学和电子元件直接封装在一起,从而提高了互连带宽和能效,同时缩短了电气链路长度。随着数据中心流量的激增,尤其是在人工智能和高性能计算需求日益增长的情况下,这种设计变得越来越重要。

与传统的可插拔光模块相比,CPO 在高数据速率下展现出更大的优势。此前,模块速度的提高不可避免地会导致功耗的增加。然而,CPO 解决方案可以降低功耗——早期测试表明功耗降低了 30% 至 50%。结合芯片级封装 (CoP) 技术和 3D-IC 封装的进步,光学元件与硅晶圆的集成更加紧密,显著降低了信号衰减和能量损失。

随着数据速率突破800G乃至1.6T的门槛,CPO为未来网络提供了清晰的演进路径。随着厂商和机构的参与度不断提升,尤其是在人工智能应用领域的探索不断深入,CPO被广泛预期将在效率和容量方面取得突破,从而推动网络基础设施的重大变革。

什么是共封装光模块 (CPO) 技术?

共封装光模块 (CPO) 采用集成方式,将不同的组件捆绑在一起。通过将光模块和硅芯片集成在同一基板上,CPO 模块可直接应对下一代网络的带宽、功耗和成本挑战。CPO 技术融合了光纤、数字信号处理 (DSP)、专用集成电路 (ASIC) 设计以及先进的封装和测试工艺。CPO 为数据中心在水平和垂直方向上的扩展带来了切实的效益。

传统的可插拔光模块通常使用高功率数字信号处理器 (DSP) 来弥补专用集成电路 (ASIC) 在信号传输过程中的损耗。随着 SerDes 技术发展到 212 Gbps PAM-4 及更高速率,这些损耗会加剧,从而加大对 DSP 的依赖。虽然线性再生光模块 (LRO) 或线性可插拔光模块 (LPO) 试图取代 DSP,但它们仍然容易受到互连损耗的影响。相比之下,共封装光模块 (CPO) 将光模块直接集成到与 ASIC 相同的基板接口上。这可以实现更高的集成度,最大限度地降低传输路径损耗,并将功耗保持在更理想的范围内。

什么是共封装光学器件 (CPO)?技术概述和未来市场趋势

共封装光学元件的优点

在功耗方面,CPO性能已被多个制造商验证。Broadcom和Cisco的早期解决方案显示节电30%至50%,实现互连能源效率低于1 pJ/bit。Ayar实验室在此基础上更进一步,实现了双向16tbps的吞吐量,同时使用不到5 pJ/bit。以下是一些节约能源的关键方法:

无损铜缆布线

传统的可插拔光模块需要信号从 ASIC 芯片通过铜缆链路传输到前面板,这是一个耗时且耗能的过程。CPO 设计将有源器件和光收发器安装在同一基板上,从而消除了主板上铜线走线造成的所有损耗和失真。

减少对 DSP 的依赖

在每通道超过 25G 的架构中,DSP 重定时器几乎是可插拔光模块的必备组件,用于补偿信号损耗和失真。然而,DSP 本身会使系统功耗增加 25% 至 30%。CPO 集成了芯片和光学元件,显著降低了铜线损耗。这使得设计人员可以减少 DSP 的使用,从而节省功耗和成本。

激光器集成方法

激光器的放置有两种方法。常用的方法是使用外部激光器,通过光纤将光输入 CPO,但这通常会造成 30% 至 50% 的光功率损耗。另一种方法是将激光器直接集成到芯片上。如果能够确保热管理和可靠性,这种设计可以提供卓越的耦合效率。

高带宽和低延迟

CPO 在带宽和延迟方面也具有显著优势。消除冗余 DSP 和长铜线,可以实现更直接、更清晰的信号传输。在 CPO 架构中,几乎不存在由 DSP 等额外元件和铜线寄生效应引起的延迟。

共封装光器件的应用

CPO 在网络应用中的应用

CPO 目前主要部署在数据中心的前端网络中,用于连接服务器。其高带宽、低延迟和节能特性使其成为下一代光纤以太网技术中最有前景的解决方案之一,尤其适用于网络级应用。

OIO 与 AI/ML 高性能计算

由于人工智能和机器学习的计算需求,业界正在探索新的架构。由 OIO 驱动的 AI 后端网络被视为支持未来计算集群的关键方向。

传统的 HPC 系统受制于严格的资源分配规则,这些规则限制了数据传输,从而无法充分利用性能。虽然 CPU 和 GPU 的速度不断提升,但 I/O 基础设施却未能跟上步伐。这导致数据传输延迟、计算单元闲置,并降低整体效率。

随着 AI/ML 任务规模的不断扩大,这种矛盾愈演愈烈。解决方案在于能够提供高速、低延迟、无损传输和可扩展性的网络架构——这正是 OIO 应运而生的背景。它被寄予厚望,有望彻底改变现有的性能瓶颈。

HPC 架构的变革

在高性能计算领域,可分解架构正在逐渐取代旧的孤立模型。新方法将计算机的内存、计算和存储部分分离,然后通过先进的 OIO 连接将它们灵活地组合在一起。这使得您可以轻松调整资源的使用方式,这比旧方法更好,因为它更加灵活和高效。

共封装光组件面临的挑战

供应商锁定问题

当交换机和光组件都来自同一供应商时,运营商的选择将非常有限。一旦在特定生态系统中投入大量资金,切换到其他供应商的产品将变得困难。这降低了组件升级或更换的灵活性,并可能导致长期依赖。

维护和可靠性

可插拔光模块的优势在于其高度模块化。这意味着如果某个部件损坏,可以轻松更换。它们还可以与任何制造商的产品互换。但对于CPO来说并非如此。当一个光组件停止工作时,通常需要拆卸整个交换机。这使得更换变得更加困难和昂贵。为了解决这个问题,一些设计将高风险组件(例如激光器)集成到可远程更换的部件中。另一些设计则探索可插拔光连接器,以方便维护。

热挑战

将光子芯片置于电子封装内会增加热干扰的风险。光子芯片中的加热器和激光源会产生热量,而电子芯片的热能则会流向光子部分。结合系统级的冷却设计,热行为变得更加复杂。因此,需要从芯片级到系统级进行全面的热分析。

信号和电源完整性

CPO 系统需要进行全局瞬态仿真,以确保稳定的信号传输和不间断的电源供应。这需要考虑电路和光子电路之间的耦合,同时还要考虑封装阶段各种电气互连引入的寄生效应。

可扩展性和边缘带宽密度

CPO 和 OIO 的一个关键指标是边缘带宽密度,即芯片边缘可以容纳多少根光纤。光纤通常是边缘耦合的。光纤和波导之间的尺寸差异会在扇出方面带来问题。试想一下,在不增加基板尺寸的情况下,将数千根光纤放置在基板上——这几乎总是会碰壁。为了解决这个问题,业界提出了一些方法,例如 V 型槽结构,这种结构将光纤垂直排列,以防止连接时损坏。基于光栅的微透镜等新方法也在积极研究中。

制造和测试挑战

实现实际量产取决于成本和良率。在多供应商供应链场景中,确保一致的质量和稳健的测试流程尤为重要。随着需求增长和资本投入增加,这些要求将持续提升。

塑造CPO未来的市场趋势

在半导体行业,目前流行的一种方法是使用芯片集设计,这与将所有功能集成到单个系统级芯片 (SoC) 中不同。芯片集设计将功能分解成多个独立的小芯片,每个小芯片都可以封装并组合在一起协同工作。这种设计为芯片设计提供了更大的灵活性,并简化了从传统SoC到系统级封装 (SiP) 架构的过渡。芯片集技术或将成为推动CPO技术应用的关键驱动力。它们能够在同一封装内组合不同的技术——例如,将基于成熟CMOS节点构建的光学I/O芯片集与采用尖端工艺制造的ASIC相结合。这种组合可以降低成本、提高良率,并使整个生态系统更具适应性。

同时,3D-IC技术正在为集成密度开辟新的可能性。目前的CPO设计通常将光电芯片并排放置在低损耗基板上;然而,将它们垂直堆叠是下一步的合理选择。 3D-IC CPO 架构能够实现 OIO 和 ASIC 组件的三维集成,提供超低功耗和极高带宽的芯片间链路。这种封装技术能够实现更大、更复杂的设计,但也带来了新的挑战。工程师越来越需要多物理场和电磁仿真来捕捉在较小规模下不会引起关注的新兴效应。

与此同时,可插拔光学器件短期内不会消失。线性驱动可插拔光学器件 (LPO) 正在与 CPO 同步发展,其理念相同,即移除 DSP 以降低功耗。CPO 将光学器件和电子器件缩小到极其紧凑的尺寸,而可插拔光学器件也在不断小型化,以解决其一直以来体积庞大的问题。这两种方法最终可能会相互补充,而不是直接竞争,尤其是在数据中心寻求灵活部署方案的当下。

然而,CPO 要想超越概念验证阶段并获得广泛的市场信任,必须满足几个条件。该行业需要展示一个强大的多供应商商业模式,并切实降低成本和功耗。同样重要的是创建缺失的部分,例如标准化的光接口和可重复使用的IP模块。没有哪家公司能够独自完成这项工作。进步取决于整个供应链的协作——EDA供应商、芯片设计商、系统架构师、封装厂、测试设备供应商和代工厂都必须同步合作。构建这样的生态系统并非易事,但压力也越来越大。随着人工智能和机器学习工作负载将网络和计算需求推向未知领域,竞争已经开始。

资料来源:QSFPTEK