奇客Solidot | Meta 公布革命性可扩展模型架构 Megabyte

Meta 公司的 AI 研究人员在预印本平台 arXiv 上发表论文《MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers》,提出了一种革命性的可扩展模型架构 Megabyte。今天的高性能生成式 AI 模型如 OpenAI 的 GPT-4,都是基于 Google 研究人员在 2017 年提出的 Transformer 架构。Meta 的研究人员认为 Transformer 架构可能达到了其阈值,它有两大设计缺陷:🔊,随着输入输出长度的增加,自我关注显著扩大。Transformer 语言模型需要注意所有单词,当需要处理的单词量数以千计,计算非常密集。第二,前馈神经网络存在扩展性难题。Megabyte 模型提出了一种不同的架构,它将输入输出序列分割为“补丁(patches)”而不是个别的令牌(tokens)。在每个补丁中,局域 AI 生成结果,全局模型管理协调所有补丁的🔊终输出,从而解决了扩展性问题。Megabyte 能并行进行计算,相比下传统 Transformers 是串行计算。测试显示,有 15 亿参数的 Megabyte 模型比有 3.5 亿参数的 Transformers 模型生成序列快 40%。Megabyte 模型能支持🔊多 120 万个令牌,相比下 GPT-4 是 3.2 万个令牌,Anthropic 的 Claude 是 10 万个令牌。

https://arxiv.org/abs/2305.07185
https://www.artisana.ai/articles/meta-ai-unleashes-megabyte-a-revolutionary-scalable-model-architecture

微信关注

服务器吧 原创文章,发布者:服务器租用,如若转载请注明出处:https://www.fuwuqizuyong.cc/zhujiba/10396.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023年5月25日 下午2:39
下一篇 2023年5月25日 下午4:41

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

0311-8343-7686

在线咨询:点击这里给我发消息

邮件:564999054@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

微信客服
微信客服
分享本页
返回顶部
CTRL+D 快速收藏本站   便宜云服务器:传送门

Warning: error_log(/www/wwwroot/www.fuwuqizuyong.cc/wp-content/plugins/spider-analyser/#log/log-0122.txt): failed to open stream: No such file or directory in /www/wwwroot/www.fuwuqizuyong.cc/wp-content/plugins/spider-analyser/spider.class.php on line 2900