2020 年了,深度学习接下来到底该怎么走?
|
什么时候集中注意力?该图改源自Jay Alammar关于神经机器翻译的文章(https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/)。编码器的输出是三个隐藏状态向量,在输出翻译文本时,两个解码状态(时间步长4和5)通过注意力机制(A4和A5)选择了这三个隐藏状态向量的不同比例求和。 注意力机制在前面所述“在抽象空间中预测”的方法中起着关键作用,用于在大量表示(构成无意识空间的表示)中选择需要注意的方面以帮助有意识的任务解决。因果推理,规划或寻找最佳解决方案的图搜索都可以作为时间上的序列处理任务,在每个时间步中,都需要用注意力机制来选择合适的(源于无意识状态集的)隐藏状态子集。 将噪声注入到图遍历的(用到注意力机制的)下一步选择中,这为解决方案的搜索(类似于 RL 中的蒙特卡洛树搜索)开辟了需要探索的方向。更重要的是,可以像 DL 1.0 在翻译任务中所采取的做法,对序列处理任务合适的注意力掩码(根据感官空间表示的函数动态计算)能通过学习得到。 (编辑:PHP编程网 - 湛江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

