• 元宇宙:本站分享元宇宙相关资讯,资讯仅代表作者观点与平台立场无关,仅供参考.
  • 元宇宙
  • AI
  • AI资讯
  • 英伟达NVIDIA面临的挑战与机遇:保持全球领先地位的关键

英伟达NVIDIA面临的挑战与机遇:保持全球领先地位的关键

  • 2023年6月09日 11:12

英伟达(NVIDIA)作为全球领先的半导体公司,以其在人工智能和图形处理领域的创新技术而闻名。然而,近年来,英伟达面临着来自竞争对手和市场变化的巨大压力。本文将探讨英伟达在软件基础设施、市场竞争和估值等方面所面临的挑战,并分析其应对之策。同时,我们将审视英伟达在这个充满变数和机遇的领域中的角色和前景。让我们一起深入了解英伟达所面临的挑战与机遇,以及其如何保持领先地位。



一、英伟达乘着AI浪潮成为赢家

英伟达(NVIDIA)是一家主要生产图形处理单元(GPU)的公司,而如今,GPU在巨大工作量的浮点数学运算方面表现出色。虽然早期主要用于支持计算机上配备高帧率和高分辨率显示器的图形处理,但英伟达在2005年左右意识到GPU在其他实际应用场景中的潜力。从那时起,他们开始致力于研发,将GPU应用于图形处理以外的工作负载。

2012年,英伟达的努力开始见到回报。全球首个高质量图像识别人工智能(AI)模型——AlexNet,就是建立在英伟达的GPU加软件之上,并在ImageNet比赛中一举击败其他竞争对手。从那时起,除了谷歌之外,英伟达的软硬件组合就成为所有从事AI研究的公司的默认选择。

之后,英伟达将GPU的研发分为两个方向:一是PC端和加密貨幣work设备,二是数据中心GPU。PC端的GPU产品相对昂贵,最高售价可达1600美元左右;而数据中心GPU的价格更加夸张,高达1万到1.5万美元,甚至有旗舰单卡售价4万美元的情况出现。英伟达的数据中心GPU拥有约75%的毛利率,在硬件领域几乎是前所未有的。

然而,这种实质性垄断地位是该公司在AI软硬件领域取得成功后的自然结果。自2012年以来,英伟达的GPU和软件使得AI模型的体量呈指数级增长。

在2012年之前的几年里,模型的体量大致按照摩尔定律每两年增加一倍。但从2012年开始,每个技术公司都开始使用英伟达的GPU进行机器学习研究,模型的体量增长速度也开始加快,每3到4个月就翻一番。这样的增长速度一直持续到ChatGPT模型的出现。其中最著名的模型之一是AlphaGo,它在围棋比赛中表现出色,几乎碾压人类选手。直到2021年,当时最大的AI模型也只能玩一些游戏而已。

模型的大小很重要,因为在生产环境中构建和运行这些模型的成本随着模型体量的增加呈指数级增长。例如,GPT-4的体量是其前身GPT-3.5的3到6倍。然而,OpenAI为GPT-4 API提出的订阅费却高出15到60倍。此外,需要强调的是,OpenAI开放的并不是GPT-4的最佳版本。托管OpenAI大语言模型的微软Azure无法提供足够的GPU来支持这项业务,因此大部分有限资金的客户暂时无法使用最强大的语言模型。此外,GPU供应短缺也阻碍了其他各种服务的实施。

举个简单的例子,让ChatGPT为即将召开的美联储会议写一首诗,输入3个提示词,让它输出一首28行的诗。看看在OpenAI API上执行这样一个简单任务需要花费多少钱。

价格之所以大幅上涨,原因在于英伟达数据中心GPU的供应紧缺。由于资源有限,目前GPT-4 32k服务仍无法全面推出。

虽然在研究阶段,大语言模型已经确立了体量越大成本越高的趋势,但在生产层面上,大规模推理带来了更加夸张的资源需求和设施开销。突然之间,AI技术的经济逻辑发生了变化。过去十年间,每个人都在使用英伟达的软硬件进行模型研究,所以现在大部分收入都被英伟达赚走了。

多年来,随着收入迅速增长,微软在智能云领域建立了强大的市场影响力。然而,当被迫大量采购GPU来支持ChatGPT的生产应用时,好日子终于宣告结束。微软的云运营利润率连续四个季度下降,这主要是因为英伟达数据中心GPU高达75%的毛利率。

面对英伟达DGX H100这样的AI服务器,我们会发现其中的利润分配极其不均衡。

作为AI服务器领域的主要力量,英伟达DGX H100总销售额的约90%都进入了芯片巨头的口袋。这还没有算上英伟达认证授权设备的费用。

如果有人想构建自己的高性能服务器,可以选择避免使用英伟达认证,采用廉价CPU,或者减少内存/存储空间来降低成本。当然,也可以避免使用英伟达的网络DPU,转而选择更便宜的硬件,如博通或Mellanox(这些与英伟达有一定关联)。然而,这可能会导致性能瓶颈。无论如何节约成本,无法回避的是需要使用8个H100 GPU和负责GPU互连的4个NVSwitch,这些硬件本身就要花费近18万美元。

的确,英伟达赚取了大部分的利润。他们花了近20年的时间为2023年的AI大爆发积蓄力量。尽管巨额利润使英伟达成为市场上众矢之的,但他们捍卫着AI硬件主导地位的护城河在于他们拥有唯一完整的软硬件组合,而且这套组合自2012年以来一直是研究人员们依赖的默认选项。随着我们将这些超大体量模型投入生产,每家参与的厂商都陷入了困境。

那么,业界有哪些应对措施呢?目前主要有以下三点:

1.硬件:采用"AI加速器"等替代性硬件,以较低的成本执行相同的工作。
2.模型体量:在最近的研究中,研究人们还在努力在更小的模型上实现更好的效果,从而显著降低对GPU算力的需求。通过优化算法和模型结构,研究人员致力于在减少参数数量的同时提高模型的性能和效果。这种方法被广泛应用于轻量级模型和移动设备上,以满足资源受限的环境需求。
3.软件:将训练和推理负载从硬件上剥离出来,以减少对英伟达的依赖。通过使用分布式计算和云计算等技术,可以将工作负载分配到多个计算资源上,从而提高整体的计算效率和资源利用率。此外,也有一些开源软件框架和库,如TensorFlow和PyTorch,提供了跨不同硬件平台的通用接口,使开发者能够更灵活地选择硬件设备。


二、AI 加速器:颠覆游戏规则的暗渡陈仓之策

AI 加速器是一种由多种不同硬件组成的松散结合体。这项技术起源于2015年,当时谷歌的AI训练需求已经超过了英伟达GPU的供应能力。为此,谷歌在同年首次公布了供内部使用的张量处理单元(TPU)。目前,TPU 2、3和4版已经在Google Cloud上开放租用,相较于云GPU,在执行相同工作负载时能够节约40%到50%的成本。

这些加速器采用了多种设计方式,但其底层技术逻辑是相同的——通过使用计算成本较低的整数运算来模拟成本极高的浮点运算。尽管这可能会导致数学精度的降低,但大量研究表明,除了科学应用之外,大多数AI模型并不需要英伟达GPU所提供的极高精度。

这就像是在偷偷作弊,但效果似乎相当不错。现在,我们已经看到了AMD/Xilinx、高通和英特尔等厂商推出了自己的AI加速器,再加上Google Cloud的原生TPU。另据报道,微软也计划为Azure开发加速器,可能会与AMD合作来分担OpenAI的工作负载。

然而,在迈出这一步时需要小心谨慎。一方面,各厂商希望逐渐从英伟达手中夺回业务利润;另一方面,在可预见的未来,这些厂商仍然需要大量采购英伟达GPU。只有那些能够巧妙应对这种微妙局面的人才能始终保持主动地位。


三、小型化的趋势:AI模型的新转变

近年来,AI模型的体量呈现快速膨胀的趋势,每3到4个月就翻一番。这个趋势并非秘密,人们早已感受到了这一新的发展方向。然而,在商业环境中,追求模型越大越好已经失去了意义,相反,“小即是美”成为了AI时代的新主题。

这个转变的起点可以追溯到ChatGPT模型的发布。在此之前,许多公司都在进行自然语言处理的研究,但ChatGPT的问世如同一记耳光,向全世界展示了什么是更大更好,什么是引领时代。这也引发了一股恐慌情绪的蔓延。

去年,Stability AI开源了稳定扩散图像生成模型,受到了广泛关注。许多厂商纷纷决定开源自家的模型,希望在社区的支持下取得更大的进步。Facebook就是其中之一,他们开源了自家的LLaMA语言模型,其参数规模高达650亿,约为GPT-3的三分之一,比GPT-4小9到18倍。此后,斯坦福大学的研究人员开发出了Alpaca版本,可以在几乎所有硬件上运行。

拥有关注和热度,社区开源开发的速度往往惊人。如今,已经有大量应用程序构建在Alpaca和其他开源模型之上。人们在努力提升模型性能的同时,也在寻求控制模型参数体量的方法。

最重要的是,这些模型开始在消费级硬件上运行,包括个人电脑甚至智能手机。而且它们完全免费。因此,基础模型的分界线不再是企业,而是商业与开源两个阵营。

谷歌也意识到了这个趋势。在最新的I/O大会上,他们公布了一套比前代更小但性能更强的语言模型。

·LaMDA(2021年):参数多达1370亿
·PaLM(2022年):参数多达5400亿
·PaLM 2(2023年):根据未经证实的内部消息,参数多达3400亿,基本符合谷歌所说的“明显更小”的说法。这是我所知的AI模型首次向小型化转变,其中最小的PaLM 2模型甚至可以在个人电脑或智能手机上运行。

尽管GPT-4仍然是目前最优秀和最强大的语言模型,但它也是体量最大、运行成本最高的选择。这对英伟达公司来说是有利的,但同时也激发了业界对于构建高性能小型模型的热情。谷歌已经迈出了第一步,开源贡献者也在不断微调自己的领域模型,主要以LLaMA/Alpaca为基础。

随着越来越多的工作负载在消费级硬件上运行,英伟达也必须接受市场对GPU算力依赖度日益降低的现实。这意味着AI模型不再需要依赖巨大的GPU资源,而是更加注重在小型设备上的高效运行。这一趋势对于推动AI技术的普及和应用带来了巨大的潜力,同时也促使厂商们加快创新步伐,开发出性能强大且适应各种设备的小型化模型。


四、软件:构建稳固的护城河

软件护城河:英伟达的核心优势与挑战
英伟达作为AI软件领域的领导者,其真正的核心优势不仅仅在于硬件,而是在于经过近20年研究的软件技术。然而,软件基础设施的碎片化和缺乏完善性一直是非英伟达阵营面临的问题。现在,一家名为Modular的公司正在挑战英伟达的技术护城河。他们采用了类似于LLVM的模块化设计,旨在构建一个统一、稳定的软件生产环境,为AI应用提供强大的推理引擎。这一举措对英伟达而言堪称釜底抽薪,因为软件的稳定性和完备性是构建护城河的关键要素。


五、英伟达的反击之战

英伟达的战略反击:面对普通硬件的挑战
英伟达正面临来自全球各方的竞争压力,不仅来自其直接客户,还来自客户的客户。然而,英伟达坚持一种不断进取的态度,始终保持居安思危的信念。然而,真正的竞争对手往往并非巨大而明显的,而是那些无处不在、价格更低、性能较差的普通硬件。回顾IBM与英特尔的竞争,我们可以看到即使市场领导者也可能因为忽视这些细小挑战而失去优势。英伟达需要采取行动,拿出自己的AI加速器来保护自己的市场地位,即使这可能会削弱利润和增长空间。否则,其他竞争对手将填补这个空白。


六、英伟达的估值与风险

英伟达的估值与未来挑战:纵览技术市场的不确定性
英伟达的市场估值一直备受关注。尽管最乐观的情况下,英伟达的市值可能相当于50年的经营收益,但这种理想情况只存在于理论模型中。英伟达与1999年至2000年的思科有着相似之处,都是成为新一波技术的领先供应商。然而,思科在当时面临着激烈竞争,并在2000年达到了高市盈率。现在,英伟达面临着类似的挑战,尽管其市盈率已经达到了204倍。过去十年,英伟达是回报率最高的科技股之一,但历史上的案例表明,市场形势可能在短时间内发生剧变。因此,英伟达需要应对以下五个风险来支持其市场估值的持续增长:

加密貨幣work收入无法恢复:这一点尚未在估值中得到体现,但可能发生的可能性较高,应该考虑在估值结果中。

1.AI投资泡沫:虽然可能性较低,但将其作为一个风险因素计入估值是必要的。

2.英伟达在AI硬件领域的主导地位受到颠覆:这可能迫使英伟达压缩现有的毛利率,从长远来看,这种风险可能在2025年、2030年或者2035年发生。

3.经济衰退的可能性:年底或明年初可能出现经济衰退的几率较高,估计约为50%。

4.摩尔定律的瓶颈:摩尔定律可能再次遭遇瓶颈,进一步提升性能的成本会更高。在过去,英伟达表现出强大的增长势头,但目前高达50倍的市盈率仍令人难以理解。

尽管英伟达面临着诸多挑战和风险,但其在人工智能和硬件领域的强大实力和技术护城河仍使其在市场上处于领先地位。无论未来会带来什么变化,英伟达都将继续努力应对挑战,保持创新和竞争力。作为观察者和参与者,我们将持续关注这个引人注目的商业竞争,并期待着看到未来的发展和结果。在技术的推动下,世界将继续迎来新的变革和机遇。

Copyright © 2021.Company 元宇宙YITB.COM All rights reserved.元宇宙YITB.COM