Remove ads
將序列映射到序列的機器學習模型 来自维基百科,自由的百科全书
Seq2seq(Sequence to sequence)模型,是将序列(Sequence)映射到序列的神经网络机器学习模型。这个模型最初设计用于改进机器翻译技术,可容许机器通过此模型发现及学习将一种语言的语句(词语序列)映射到另一种语言的对应语句上。[1]除此之外,Seq2Seq也能广泛地应用到各种不同的技术上,如聊天机器人、Inbox by Gmail等,但需要有配对好的文本集才能训练出对应的模型。[2]
在2019年, Facebook宣布其用于求解微分方程。 相比 Mathematica,MATLAB 和 Maple等商业解决方案,该算法能够更快更精准的解决复杂方程。首先,方程被解析为树形结构来避免书写方式带来的偏差。 之后应用一个LSTM神经网络,基于标准模式识别来处理方程树。[5]
在2020年,谷歌发布了Meena,一个在341GB数据集上训练的26亿参数的seq2seq聊天机器人。谷歌称,该聊天机器人的模型容量比OpenAI的GPT-2多出1.7倍.[6]
Seq2seq将输入序列转换为输出序列。它通过利用循环神经网络(递归神经网络)或更常用的LSTM GRU网络来避免梯度消失问题。当前项的内容总来源于前一步的输出。Seq2seq主要由一个编码器和一个解码器组成。 编码器将输入转换为一个隐藏状态向量,其中包含输入项的内容。 解码器进行相反的过程,将向量转换成输出序列,并使用前一步的输出作为下一步的输入。[4]
优化包括:[4]
采用类似的算法的软件包括OpenNMT(Torch),Neural Monkey(TensorFlow)和NEMATUS(Theano)。[2]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.