您的位置:首页资讯软件新闻 → 性能超越LLaMA2-7B!AI模型JetMoE-8B训练成本不到10万美元

性能超越LLaMA2-7B!AI模型JetMoE-8B训练成本不到10万美元

时间:2024/4/17 12:20:10来源:www.pc6.com作者:清晨我要评论(0)

JetMoE-8B由24个块组成,每个块包含两个MoE层:注意力头混合(MoA)和MLP专家混合(MoE)。每个MoA和MoE层有8个专家,并且每个输入令牌激活2个专家。这种独特的设计使得在不牺牲性能的情况下显著降低了计算成本。

值得一提的是,尽管JetMoE-8B的总参数量达到80亿,但由于其特殊的架构设计,每个输入令牌仅激活约22亿参数,从而大大减少了总体的计算需求。

此外,JetMoE-8B的训练完全依赖于公开数据,并且整个训练过程,包括代码,都是完全开源的,这无疑为AI领域的研究和应用提供了极大的便利。

在与Open LLM排行榜相同的评估方法下,JetMoE-8B的性能表现优于LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B,这一结果无疑是对其高效性能的最好证明。

与此同时,与具有类似训练和推理计算的模型(如Gemma-2B)相比,JetMoE-8B展示了更优异的表现。这不仅证明了其在性能上的优势,也展示了其在成本效益上的显著优势。


相关视频

    没有数据

相关阅读 Grok-1.5 Vision Preview官网体验入口 X.AI多模态AI模型详细介绍报告称:OpenAI和Meta即将发布具有人类推理能力的AI模型Gemini 1.5 Pro API怎么申请注册使用?Gemini 1.5 Pro AI模型官网苹果新AI模型研究Ferret-UI:或将提升Siri,读懂屏幕内容美国新法案要AI公司透露用于训练AI模型受版权保护的作品​Nightshade:使AI模型在未经许可的情况下无法训练图片新版对抗AI抓取工具Glaze 2发布,保护艺术家作品免受未经授权的ASora平替?2分钟超长AI视频模型StreamingT2V免费开源 试玩地址公

文章评论
发表评论

热门文章 滴滴和优步合并了吗 优​思源黑体:改变锤子手机发布会看点预TK域名免费注册及解析

最新文章 性能超越LLaMA2-7B!AOpenAI竞争对手Mistra 免费AI音乐生成工具Sonauto 几秒钟生成完整Suno音乐生成器官网体验入口 AI音乐创作神器Pile-T5官网体验入口 AI编程代码生成辅助工SuperMemory官网体验入口 AI知识管理信息整

人气排行 2020年放假安排时间表全年图 2020年法定节假2021年放假安排时间表全年图 2021年法定节假微信公众号怎么申请 微信公众号申请要钱吗zune怎么用?zune使用攻略!2014台式机装机配置推荐snmp协议在windows下的安装与配置微信朋友圈三天可见怎么破解 朋友圈仅展示三2016猴年邮票多少钱一套 2016猴年邮票价格表