谷歌NLP新模型突破BERT限制
最近,谷歌又发布了另一款NLP机型,这个名字也叫"大鸟"!这只大鸟的特点是什么?在一次长时间的文字任务中,它的表现优于伯特?
谷歌最近推出了另一个引人注目的模式:Bigbird。
所有以前的刷牙伯特及其衍生版本的罗伯塔等,都是建立在变压器的基础上的。
这些模型的核心竞争力是完全关注机制,但这种机制会产生序列长度的二次依赖关系,如果输入令牌太长,它将支持内存,而在长文本摘要和其他任务中,伯特512令牌似乎有点牵强。
二级抚养限制Bert
在Bert中,令牌的长度一般设置为512,这对于普通的NLP任务来说已经足够了,但如果您想要挖掘整篇文章或一本书,即长文本任务,则令牌的长度有点短。如果将令牌的长度更改为1024,所需的计算量将是原始任务的4倍,这对内存非常有害。
如果你能降低这个n^2的复杂性,你就可以在不爆炸内存的情况下实现一种长距离的上下文注意力机制,这就是BigBird必须做的事情。
谷歌团队解决这个问题的方法是引入一种新的稀疏注意力机制:Bigbird。
谷歌大鸟:稀疏的注意力机制
与传统的完全注意机制相比,Bigbird变得更加稀疏。作为一种较长的序列,转换器Bigbird不仅可以关注更长的上下文信息,而且还可以将计算的二次依赖性降低到线性。
让我们来看看Bigbird是如何建造的。
图(A)显示r≤2的随机注意机制,图(B)显示w≤3的局部注意机制,图(C)显示g≤2的全局注意机制,图(D)是这三者的Bigbird模型。
图中的空白部分表示,只有在没有被注意到的情况下,颜色部分才会引起注意,这有点像有选择地丢弃辍学。
如果音符的部分减少了,性能也会降低,那么让我们来看一下实验结果。
实验:三种注意机制的结合是最好的。
只有随机的注意机制,局部的注意机制,或者两者的融合,三者的结合效果并不好。
Global+R+W更接近Bert基础、MLM任务,而不是Bert基础、班组和MNLI任务,但考虑到内存中节省了大量资源,它具有实用价值。
使用基本模型,对下列四项问答任务进行了测试:HotpotQA、NaturalQA、TriviaQA和WikiHop。结果表明,Bigbird的表现优于Roberta和Longver。
从长远来看,Bigbird在Arxiv、PubMed、Big专利权方面也表现出了良好的潜力,并取得了最好的效果。
使用这些数据集,因为它们都是长文档,所以通过输入512多个令牌,比较长文本的特征提取功能和模型的总体性能比较容易。
Reddit上的一些网友质疑Bigbird是另一种"龙鸟",没有必要的创新。
一些网友说,最近爆发的GPT-3也使用了稀疏的注意机制,但由于OpenAI块已经很长时间没有更新,所以不知道两者之间是否存在内在的相似性。
谷歌发表的一些研究以前已经提出过,但只有当谷歌发布时,它才能得到广泛的关注,而进入大工厂发表论文的可能性仍然很高。
期待大鸟给NLP任务带来新的惊喜!

- 新迪天工®CAD V2023 R1 版本发布!4个超实用的增强功能请拿好
- 这一次,送上东方祝福 | JULEEJULEE茱俪「东方系列」珠宝相片盒发布
- 艺卓发布新一代24.1"USB-C连接的sRGB色彩管理显示器CS2400R
- NBA篮球盛宴震撼来袭,青瞳视觉为咪咕虚拟直播提供全流程服务助力打CALL!
- 美的工业技术旗下MOTINOVA亮相 EUROBIKE 2023
- GERM钛杯上新,国内首款金色钛杯太绝了
- 芭比控必入!送礼物首选GERM联名杯
- 在视爵,见视界!ISLE2025亮点抢先看
- 无界生态,无限可能丨2025沃棣家居招商会圆满举行
- 连连国际与JCtrans达成战略合作 携手共绘全球物流行业新蓝图
- “新春火锅局”成过年聚餐新选择,新一年季季红!
- 海尔全屋家居斩获 “2024 中国家居冠军榜创新风尚奖”,领航行业创新发展
- 邦邦汽服招贤纳士 职等你来
- 微短剧+赋能千行百业,麦芽传媒以百亿级曝光助力品牌“种草”增效
- 2025年元宵节:劲牌养生一号成酒桌新宠,品质与消费者需求共塑养生酒市场增长
- 第十三届金融界“金智奖”:连连数字荣获“数字金融优秀实践案例”奖
- Partyhouse派对屋影K音响,解锁孩子学习潜能的新钥匙
- 李锦记携手新浪广东打造#湾区幸福年#,百年责任心传递幸福中国味
- 安世亚太牵头的工业数字孪生团标正式出版发行
- 脱颖而出!Style3D入选2024浙江省“人工智能服务商”
- IPB 粉体展观众预登记正式开启,精彩即将登场!
- RCC瑞达恒2025年建筑行业中国十大承建单位评选,榜单发布
- 中国首家健身器材公司接入DeepSeek丨舒华体育打造新一代“AI健身助手”
- 探索制造无限可能,贸泽电子将首秀SPS广州国际智能制造展
- 文化交融,首都相连