DeepSeek令人惊讶的是廉价的AI聊天机器人挑战行业巨头。 DeepSeek的AI自我引入“问任何东西,得到令人惊讶的答案”的自我吸引已成为主要的市场竞争对手,甚至导致NVIDIA的股价大幅下降。它的成功源于创新技术和实质性(尽管未公开)投资的独特组合。
图像:ensigame.com
关键技术进步包括:
- 多语预测(MTP):同时预测多个单词,提高准确性和效率。
- 专家的混合物(MOE):使用256个神经网络,每个令牌激活8个,加速培训并提高性能。
- 多头潜在注意力(MLA):反复从文本片段中提取关键信息,从而最大程度地减少了忽略关键细节的风险。
DeepSeek最初声称使用2048 GPU的DeepSeek V3型号仅获得600万美元的培训成本。然而,半分析显示出更广泛的基础设施,包括大约50,000个NVIDIA HOPPER GPU(包括H800,H100和H20单位),分布在多个数据中心。该基础设施的总服务器投资约为16亿美元,运营费用估计为9.44亿美元。
图像:ensigame.com
中国对冲基金High-Flyer的子公司DeepSeek拥有其数据中心,提供了对优化和更快的创新实施的控制。它的自筹资金地位增强了敏捷性。该公司吸引了顶尖人才,一些研究人员每年收入超过130万美元,主要来自中国大学。
最初的600万美元数字可能只反映了培训前的GPU成本,不包括研究,改进,数据处理和整体基础设施费用。 DeepSeek的总AI开发投资超过5亿美元。与更大的官僚竞争者相比,它的简化结构允许有效的创新。
图像:ensigame.com
尽管DeepSeek的成功展示了一家资金充足的独立AI公司的竞争潜力,但“革命预算”主张却具有误导性。他们的成功归因于大量投资,技术突破和强大的团队。但是,即使有了这些巨大的支出,DeepSeek的成本仍然比竞争对手低得多。例如,DeepSeek的R1型号的培训成本为500万美元,而Chatgpt4的1亿美元。
图像:ensigame.com