GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了|天天动态
时间:2023-06-22 20:27:08来源:机器之心Pro

机器之心报道

编辑:吴昕

George Hotz:除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些‍「不那么酷」的东西。

「GPT-4 的参数量高达 100 万亿。」相信很多人还记得这个年初刷屏的「重磅」消息和一张被病毒式传播的图表。


(资料图片)

不过很快,OpenAI 的 CEO Sam Altman 就出来辟谣,证实这是一条假消息,并表示,「关于 GPT-4 的谣言都很荒谬。我甚至不知道这从何而起。」

实际上,许多人相信并传播这样的谣言是因为近年来 AI 社区不断在增加 AI 模型的参数规模。谷歌在 2021 年 1 月发布的 Switch Transformer 就把 AI 大模型参数量拉高到了 1.6 万亿。在此之后,很多机构也陆续推出了自己的万亿参数大模型。据此,人们有充分的理由相信,GPT-4 将是一个万亿参数的巨量模型,100 万亿参数也不是不可能。

虽然 Sam Altman 的辟谣帮我们去掉了一个错误答案,但他背后的 OpenAI 团队一直对 GPT-4 的真实参数量守口如瓶,就连 GPT-4 的官方技术报告也没透露任何信息。

直到最近,这个谜团疑似被「天才黑客」乔治・霍兹(George Hotz)捅破了。

乔治・霍兹因 17 岁破解 iPhone、21 岁攻陷索尼 PS3 而闻名,目前是一家研发自动驾驶辅助系统的公司(comma.ai)的老板。

最近,他接受了一家名为 Latent Space 的 AI 技术播客的采访。在采访中,他谈到了 GPT-4,称 GPT-4 其实是一个混合模型。具体来说,它采用了由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。

在这段播客播出之后,PyTorch 创建者 Soumith Chintala 表示自己似乎听过同样的「传闻」,很多人可能也听过,但只有 George Hotz 在公开场合将其说了出来。

「混合模型是你在无计可施的时候才会考虑的选项,」George Hotz 调侃说,「混合模型的出现是因为无法让模型的参数规模超过 2200 亿。他们希望模型变得更好,但如果仅仅是训练时间更长,效果已经递减。因此,他们采用了八个专家模型来提高性能。」至于这个混合模型是以什么形式工作的,George Hotz 并没有详细说明。

为什么 OpenAI 对此讳莫如深呢?George Hotz 认为,除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西,不想让别人知道「只要花 8 倍的钱你也能得到这个模型」。

对于未来的趋势,他认为,人们会训练规模较小的模型,并通过长时间的微调和发现各种技巧来提升性能。他提到,与过去相比,训练效果已经明显提升,尽管计算资源没有变化,这表明训练方法的改进起到了很大作用。

目前,George Hotz 关于 GPT-4 的「爆料」已经在推特上得到了广泛传播。

有人从中得到了灵感,声称要训练一个 LLaMA 集合来对抗 GPT-4。

还有人说,如果真的像 George Hotz 说的那样,GPT-4 是一个由 8 个 2200 亿参数的专家模型组合的混合模型,那很难想象背后的推理成本有多高。

需要指出的是,由于 George Hotz 并未提及消息来源,我们目前无法判断以上论断是否正确。有更多线索的读者欢迎在评论区留言。

标签:

  • 上一篇文章: 3岁宝宝的教育重点_3岁宝宝的教育
  • 下一篇文章: 最后一页
  • 最新
  • GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了|天天动态

    在采访中,他谈到了GPT-4,称GPT-4其实是一个混合模型。具体来说,它采

  • 3岁宝宝的教育重点_3岁宝宝的教育

    1、对3岁的孩子教育有两招:2、和孩子一起玩3、给孩子讲故事4、和孩子

  • 9名责任人被控制!银川烧烤店爆炸事故最新进展

    记者从宁夏回族自治区党委获悉,目前,公安部门已依法对银川烧烤店爆炸

  • 重庆市基础设施重大项目强力推进 增幅高于全国

    日前,重庆市发展改革委发布信息称,今年1—5月,全市基础设施投资同比

  • 西方制裁背景下,俄罗斯接下来靠什么赚钱?俄媒提出5个来钱渠道_世界快播

    西方制裁背景下,俄罗斯接下来靠什么赚钱?俄媒提出5个来钱渠道,普京,

  • 蒸碗肉的家常做法_甜饭蒸碗的做法-环球新动态

    1、1准备好南瓜150克、桂圆5个、红枣6个2桂圆剥壳和红枣放在温水里浸泡

  • 焦点快看:华工科技今日跌停 三机构净卖出2.58亿元

    【华工科技今日跌停三机构净卖出2 58亿元】华工科技今日跌停,成交额47

  • 【全球时快讯】任汇川获批出任三星财险董事长

    北京商报讯(记者陈婷婷李秀梅)6月21日,上海银保监局发布关于三星财

  • 热点在线丨“2023年高考网上咨询周”活动即将举行 将提供文字问答和视频直播

    6月20日消息,据媒体报道,2023年高考网上咨询周活动将于6月22日至2

  • 播报:微软:即使收购动视暴雪 Game Pass也不会涨价

    自6年前上线以来,Game Pass一直是微软总体游戏战略的重要支撑点。

  • 当前速看:自愿离职的还可以领补偿金吗?被辞退还傻乎乎填了离职证明?

    自愿离职的还可以领补偿金吗?劳动者自己辞职不能领到补偿金。但是

  • 环球即时:贸易赤字的定义是什么?贸易赤字的利弊分析

    贸易赤字的定义是什么?贸易逆差亦称贸易入超。各国家或地区在一定时

  • 新研究认为地球形成可能只需几百万年-每日短讯

    一个欧洲科研团队日前发表论文说,地球这样的岩质行星可能只需要几百万

  • 美芯片巨头逾43亿元投资西安, 影响几何?自曝风险敞口

    今年5月美光公司在华网络安全审查未获通过,6月16日美光公布将加码对美

  • 40多岁女子接种9至30岁hpv疫苗,涉事机构:是我们打错了 每日关注

    长沙市民陈女士向《我要找律师》反映,今年3月,她在湖南湘江新区学士

  • 全球快资讯:波轮洗衣机怎么拆开清洗 波轮洗衣机怎么拆开清洗内胆

    1、切断电源!洗衣机就在原地拆卸,因为后面还需要用到电源和排水。用螺

  • 旅游
    • 华扬联众:去年多项业务毛利率转负,4亿预付款项至今下落不明

    • 龙哥重生闯异界,你们想知道他是如何复活?

    • 天天热讯:单车恋人歌词_单车恋人歌词是怎样的

    • 焦点简讯:北京市率先将辅助生殖纳入基本医保 上市公司回应积极影响