微型语言模型的时代来临

学习英语对人类而言并非易事,但计算机学习英语的方法十分简单:将互联网上收集的海量文本输入到名叫神经网络的数学模型中。这是 OpenAI ChatGPT 等生成式 AI 模型背后的工作原理。但这种方法的缺点也十分明显:训练成本昂贵且耗费大量时间。大语言模型的黑箱也让人难以理解其内部工作以及为什么会失败。面对困难,部分研究人员选择了在小型数据集上训练小型模型,然后研究其行为。微软研究人员🔊近在预印本平台 arxiv.org 上发表论文,介绍了一种训练微型语言模型的新方法:用儿童故事培养它们。 ChatGPT 使用的 GPT-3.5 模型有近 2000 亿个参数,需要至少 1000 个 GPU 训练数周时间。只有少数公司能获得必要的资源。但微软研究人员的研究表明,规模仅为🔊先进大语言模型数千分之一的微型语言模型在这种方法训练下能很快学会讲述一致且语法正确的故事。这项研究结果或能为新研究指明方向。

微信关注

服务器吧 原创文章,发布者:服务器租用,如若转载请注明出处:https://www.fuwuqizuyong.cc/zhujiba/11619.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023年10月9日 下午2:01
下一篇 2023年10月9日 下午10:10

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我们

0311-8343-7686

在线咨询:点击这里给我发消息

邮件:564999054@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

微信客服
微信客服
分享本页
返回顶部
CTRL+D 快速收藏本站   便宜云服务器:传送门

Warning: error_log(/www/wwwroot/www.fuwuqizuyong.cc/wp-content/plugins/spider-analyser/#log/log-0514.txt): failed to open stream: No such file or directory in /www/wwwroot/www.fuwuqizuyong.cc/wp-content/plugins/spider-analyser/spider.class.php on line 2900