沈向洋：大模型对算力需求每年增长四倍以上，合成数据催生百亿创业风口|界面新闻 · 科技

您现在的位置：首页收录信息沈向洋：大模型对算力需求每年增长四倍以上，合成数据催生百亿创业风口|界面新闻 · 科技

沈向洋：大模型对算力需求每年增长四倍以上，合成数据催生百亿创业风口|界面新闻 · 科技

任婉凝 2024-11-25 收录信息 4 次浏览 0个评论

界面新闻记者 | 陈振芳
界面新闻编辑 | 文姝琪

“从长远的角度来看，人类社会发展每次巨大跃迁都是由技术创新带来的。工业时代的全球GDP年均增速约为1%-2% ，信息时代增速为3%-4%，人工智能时代，这个数字会是多少？”

11月22日，IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋在2024 IDEA大会上表达了上述观点。他强调，随着AI的各项能力逼近、甚至超越人类，AI治理已成亟待全球共同面对的议题。

当天，粤港澳大湾区数字经济研究院（下称IDEA研究院）发布DINO-X目标检测视觉大模型，该模型作为GroundingDINO系列升级之作，在多项能力上得到提升。

推荐阅读：

澳门开奖结果开奖记录表本,最新杂志解释落实_安卓版

在检测能力上，无需用户提示即可检测万物，无论是常见物体还是罕见的长尾物体（出现频率低但种类繁多的物体）都能精准识别并给出类别。

得益于超1亿高质量样本的大规模数据集多样化训练，DINO-X对未知场景和新物体适应性强，泛化能力出色，在实际应用场景中更具灵活性。

在探讨AI发展脉络时，沈向洋提及算力、算法与数据层面变化。算力上，摩尔定律指出每18个月算力需求增长一倍，而当下大模型对算力需求每年增长四倍以上，过去十年英伟达市值大幅攀升300倍与算力需求剧增紧密相关，十年间算力需求增长约100万倍。

算法层面，2017年Transformer架构面世后，AI、深度学习、大模型多沿此路线发展，OpenAI的O1系列带来算法突破思路，改变过往单纯预训练预测“下一个token ”模式，融入类似人思考、推理的后训练、后推理过程。

数据方面，“缺数据”已经成为大模型行业内的共识之一。随着GPT系列发展，数据需求激增。沈向洋透露，距离GPT3面世已经过去三年，当时OpenAI用了2T数据，1万亿Token 。GPT4用了12T数据，训练用了20T数据，“事实上，互联网上洗干净的数据大概是20万亿。”

沈向洋认为，GPT5预计需200T数据规模，合成数据可以给大模型提供更为丰富的训练材料，还有望催生未来百亿美金级别的创业机遇。

“互联网上已经找不到那么多的数据，未来需要更多高质量的合成数据训练未来的模型。 ”他举例称，1万亿的数据约等于500万本书，20万张高清照片，抑或500万篇论文。人类历史上的书籍大概是21亿Tokens ，微博有38亿Tokens，Facebook大概拥有140TTokens的数据。

当下互联网数据存量告急，社交媒体数据质量欠佳，合成数据受重视，且私域数据利用存在安全孤岛问题。对此，IDEA研究院通过IDEADataMaker用加密方式利用私域数据生成新语料、语境图谱。

你可能想看：

商业头条No.49 | 大模型抵达“分水岭”|界面新闻 · 科技

搜狐订阅:7777788888新版跑狗管家婆永利-腾讯再开源两款最新大模型，开闭源之争又起波澜|界面新闻 · 科技

合成生物第一股成功上市，从科研走向产业还有多远？|界面新闻

马上消金CTO蒋宁：金融大模型向智能体、轻量化、全价值链创新演进|界面新闻

AI潮涌，深圳南山如何领跑？|界面新闻

亚马逊在大模型上还有更大野心|界面新闻 · 科技

大模型商业化难题待解，帮企业提升数据质量会是一个新方向吗？|界面新闻 · 科技

连拿两个算力大单，与中兴通讯达成合作，平治信息今年业绩能扭亏吗？|界面新闻 · 证券

百度Q3财报：模型日调用量增长30倍超级有用的AI正兑换价值|界面新闻

李彦宏坚称不做视频生成模型，中国版Sora到底值不值得做？|界面新闻 · 科技

转载请注明来自六河月刊网，本文标题：《沈向洋：大模型对算力需求每年增长四倍以上，合成数据催生百亿创业风口|界面新闻 · 科技》

任婉凝 6篇文章站点微博

每一天，每一秒，你所做的决定都会改变你的人生！

发表评论取消回复

评论列表（暂无评论，4人围观）参与讨论

还没有评论，来说两句吧...

Top

网站统计代码