众所周知，摩尔定律即将走到尽头。随着越来越多的晶体管被封装到每个硅芯片上，我们不能再期望处理器能力每两年翻一番。

这对传统 IT 来说很不方便，传统 IT 一直依赖摩尔定律的持续红利。对于人工智能 (AI) 来说，这可能是一场灾难，它正处于大规模扩张的边缘……但这种扩张在很大程度上取决于快速处理。

一家初创公司认为，答案是将传统硅与利用光运行的光子处理器相结合。

人工智能爆炸

LightMatter 首席执行官尼克·哈里斯 (Nick Harris) 表示，人工智能目前正处于快速增长阶段：“人们发现了无法满足的用例。他们会尽可能多地索取，他们会花掉任何钱。谷歌、微软、亚马逊和 Facebook 将为这些东西付出任何代价。”

这是最近的发展。在经历了 1960 年代和 80 年代的激增之后，人工智能研究进展缓慢。然后在 2012 年，由 Alex Krizhevsky 创建的名为 AlexNet 的神经网络赢得了在低成本 GPU 硬件上运行的图像识别竞赛。

这显示了商业可能性，谷歌收购了 Krizhevsky 的公司，投资开始了。

哈里斯说：“在扩展这些东西方面进行了大量投资。” 投资初见成效。“在过去的十年里，人工智能模型的复杂度经历了 3.6 个月的翻倍周期。”

问题是，即使是便宜的通用硅也跟不上。而且，虽然可以在实验室中为 AI 投入额外的时间和资源，但在将其部署到实际应用程序中时，它需要快速的性能。

“人工智能的挑战在于，你可以训练非常大的模型，但如果你想部署它们并让人们与它们互动，那么用户提出查询和获得结果之间的时间非常重要，”哈里斯说。“你需要实时反馈。该领域的最大挑战是构建可以运行这些庞大神经网络的机器，以便您在几毫秒内得到答案。”

硅跟不上

自 1965 年英特尔的戈登·摩尔 (Gordon Moore) 注意到这一趋势以来，几十年来处理器性能每两年翻一番。

这很好，但这种进步速度不足以跟上本世纪新兴的人工智能，Harris 说：“即使你拥有电子产品的最佳案例扩展，你也没有真正为它提供动力。”

更糟糕的是，就在更聪明的人工智能到来的那一刻，硅加速的速度减慢了。

摩尔定律之所以成立，是因为芯片制造商可以每两年将一块硅片上封装的晶体管数量增加一倍。现在，虽然处理器仍在封装更多晶体管，但它们的运行温度更高。

“我们遇到这个热问题的原因是 Dennard Scaling，”Harris 解释道。罗伯特·丹纳德 (Robert Dennard) 发明了 DRAM，并观察到越小的晶体管消耗的能量越少，其面积越大：“大约在 2005 年，它坏了。”

今天的快速处理器使用 300W 和更高功率，而 Harris 说这正朝着 1kW 芯片发展。

“我们仍在每单位面积上获得更多的晶体管。但是你不能真正使用它们，因为冷却解决方案不支持你使用它们。芯片会燃烧。你需要能够开发出每瓦执行更多操作的芯片。”

进入光子学

让芯片变热的是电阻。当电子在电流中流动时，电信号面临阻力。相比之下，光信号不会面临同样的阻力，也不会产生热量——而且光子的传播速度也比其他任何东西都快。

多年来，先进的计算机设计一直试图引入光子学，并使用“电子进行处理，光子进行通信”，用 HPE 科学家 John Sontag 的话来说（HPE 是 Lightmatter 的投资者）。

长途通信使用光纤，这些光纤现在深入数据中心的机架。“有些公司销售 100 Gig 可插拔光学器件，而他们现在才刚刚部署 400 Gig 可插拔光学器件。他们通过光纤每秒发送 400 吉比特的数据，将空间上分离的机架和物品连接在一起。”

最近的发展允许晶体管和光子学在同一个晶圆上合并，即所谓的“共同封装光学”。最初，这被视为一种减小这些光插头尺寸和功耗的方法，将信号作为光带入芯片，而不是在 CMOS 芯片的边界将光信号转换为电信号。

根据路线图，“光学元件越来越接近硅，直到最终，光学元件与处理器和网络芯片进行 3D 堆叠和共同封装，从而以低能耗提供非常高的数据速率。”

英特尔已经展示了一年或更长时间的联合封装光学，Broadcom 已经展示了联合封装的光学开关，Marvell 在 2021 年以 100 亿美元收购了光电子公司 Inphi，但业界对它能否迅速发挥作用持怀疑态度。

Dell'Oro Group 分析师 Sameh Boujelbene 在今年对 SDxCentral 的评论中表示：“现在就制定可在未来几年内进行大规模部署和量产的联合封装光学解决方案还为时过早。”

Harris 评论说，共同封装的光学器件可用于制造用于训练 AI 的高度互连的 GPU 系统，但这仍然需要具有交错光纤“rat’s nest”的计算集群。

“他们计划使用光学器件将服务器内部的处理器连接在一起。当每个芯片都使用光纤连接到每个其他芯片时，会有性能优势，但很难为这些东西提供服务。”

Lightmatter 的方法是将光学元件进一步推入芯片内部，因此所有这些互连都由硅内的可切换光子网络处理，该网络不产生热量，占用的体积极小。

“光纤是宏观的，它在毫米的数量级，”他说。“我们的设备是两微米。”

这可以大大减少所需的硬件，有效地将一个复杂的人工智能训练系统集成到一个芯片上：“如果你打开我们的服务器，里面只有一个芯片。它包含服务器的所有处理器。它们在芯片内部是光学互连的。他们也可以通过光学与其他平台进行通信。”

他继续说道：“最终，这个东西所做的是极端集成，使一切都可以通过光学互连实现，并允许真正荒谬的带宽。”

它是在商业硅晶圆厂提供的标准流程中完成的：“我们使用 GlobalFoundries 制造晶圆，”Harris 说。“我们的晶体管非常接近隔壁邻居，距离光子元件不到 100 纳米。都是一体的。”

他说，使用相同的蚀刻工具制造 CMOS 和光子连接，它们与晶体管处于相同的纳米尺度。

“我们使用所有相同的蚀刻工具。所以都是完全标准的CMOS。我们使用‘绝缘体晶圆上的硅’，用于生产许多电子芯片。”

哈里斯和他的同事在麻省理工学院提出了这个想法，并在 1100 万美元的启动资金的帮助下，自 2018 年以来一直在将其商业化。

走向硅

公司有两种产品。通道是一种互连，它采用传统处理器阵列并将它们连接起来，使用可编程的片上光网络。

“激光器与调制器和晶体管一起集成到平台中，”他说。“如果你用扫描电子显微镜观察这个东西，你可以看到波导——它们相距约两微米，宽几百纳米。”

另一个产品是 Envise，一种通用的云推理加速器，它将计算元素与光子计算核心结合在一起。

这里的承诺是解决人工智能处理速度的问题：“我们的延迟提高了大约 42 倍，因为处理是以光速进行的。当光穿过芯片时，你正在做乘法和加法。

该技术仍处于早期阶段，但哈里斯表示，Lightmatter 拥有“大约五个客户”，都是大型企业。该公司在实验室中拥有硅，并将于 2022 年晚些时候全面上市。

“在 Passage 案例中，我们正在研究芯片之间的通信，而在 Envise 方面，光学处理核心有助于提供通信能量，同时还可以卸载计算机操作，”Harris 说。

哈里斯说，这些产品是“大芯片”。与另一家 AI 芯片初创公司 Cerebras 非常相似，Lightmatter 发现可以在单个晶圆上集成多个内核和网络。

Cerebras 在商业上得到进一步发展，其产品被爱丁堡大学的 EPCC 超级计算中心和生物制药公司 AbbVie 等采用。然而，它不得不创建自己的液体冷却系统来处理片上网络产生的热量。

Lightmatter 的光网络用光子发送信号并且运行温度更低。它也更小一些，但仍然是“几英寸宽”，通道适合一个 8 英寸乘 8 英寸的芯片插座：“这是我一生中见过的最大的芯片插座。”

然而，它确实提供了“荒谬”的带宽：768Tbps。

晶圆尺寸的芯片听起来像是一种负担，因为所有硅晶圆都可能存在小点缺陷，因此大晶圆出现故障的可能性更高。“我们在良率工程方面做了很多工作，”哈里斯说。“但芯片上的晶体管并不多。”

晶体管越少，出现点缺陷的可能性就越小：“我们的密度非常低，因此在制造过程中出现导致晶体管失效的点缺陷的可能性非常低。成品率最终很高，因为它不是一个非常密集的晶体管电路。”

应用

哈里斯说，这方面的第一个应用将是对实时视频进行分析的公司。这些可能包括安全公司，但也包括使用摄像头监控生产线以发现零件何时存在缺陷的公司。

它还可能对语音分析和其他 AI 应用有用：“它是全面的。”

有一个共同因素——客户对谷歌首创的“变形金刚”型神经网络感兴趣，并希望以更低的成本实施它们

“第一个应用程序主要是试图解决每次推理的美元成本。如果你是一名在谷歌云上工作的产品人员，有很多你想部署的 AI 模型，但你负担不起，因为每次推理的成本没有意义。”

这一切都会奏效吗？一个积极的迹象是加入公司的工程师的才能。

Richard Ho 是谷歌定制 AI 芯片系列 Tensor Processing Unit (TPU) 的领导者之一，他于 8 月加入 LightMatter，之前是英特尔 AI 集团数据中心工程副总裁 Ritesh Jain。5 月，它聘请了 Apple 财务总监 Jessie Zhang 担任财务副总裁。

光子计算的前景可能是光明的。

来源：半导体行业观察