jjzjj

Autoregressive

全部标签

AIGC实战——自回归模型(Autoregressive Model)

AIGC实战——自回归模型0.前言1.长短期记忆网络基本原理2.Recipes数据集3.处理文本数据3.1文本与图像数据处理的差异3.2文本数据处理步骤4.构建LSTM模型4.1模型架构4.2LSTM计算流程4.3训练LSTM5.LSTM模型分析小结系列链接0.前言自回归模型(AutoregressiveModel)通过将生成问题视为一个序列过程来简化生成模型。自回归模型将预测条件建立在序列中的先前值上,而不是一个以随机潜变量为条件。因此,自回归模型尝试对数据生成分布进行显式建模,而不是尝试近似数据分布。在本节中,将介绍一类经典的自回归模型,长短期记忆网络(LongShort-TermMemo

[论文笔记]Glancing Transformer for Non-Autoregressive Neural Machine Translation

引言这是论文GlancingTransformerforNon-AutoregressiveNeuralMachineTranslation的笔记。传统的非自回归文本生成速度较慢,因为需要给定之前的token来预测下一个token。但自回归模型虽然效率高,但性能没那么好。这篇论文提出了GlancingTransformer,可以只需要一次解码,并行地文本生成。并且效率不输于Transformer这种自回归方法。简介Transformer变成了最广泛使用的机器翻译架构。尽管它的表现很好,但Transformer的解码是低效的因为它采用序列自回归因子分解来建模概率,见下图1a。最近关于非自回归Tr

论文笔记Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting

论文针对多元概率时间序列预测(multivariateprobabilistictimeseriesforecasting)任务,提出了TimeGrad模型。有开源的代码:PytorchTS概率预测如下图所示,对未来的预测带有概率:TimeGrad模型基于DiffusionProbabilisticModel,DiffusionProbabilisticModel这里不再介绍,需要学习的请参见博客DenoisingDiffusionProbabilisticModels简介在了解DiffusionProbabilisticModel的基础上,这篇文章的方法非常简单。方法将多变量时间序列表示为x

【学习】自注意力机制的改进方法、non-autoregressive sequence generation、point network

机器学习一、如何让自注意机制更有效?1、localattention/truncatedattention2、strideattention3、globalattention4、datadrivingclusteringlearnablepatternsofsinkhornsortingnetwork减少key的数量注意机制attentionmechanismsynthesizer二、non-autoregressivesequencegeneration非自回归序列生成conditionalsequencegeneration条件序列生成问题1、fertility2、sequence-lev

【学习】自注意力机制的改进方法、non-autoregressive sequence generation、point network

机器学习一、如何让自注意机制更有效?1、localattention/truncatedattention2、strideattention3、globalattention4、datadrivingclusteringlearnablepatternsofsinkhornsortingnetwork减少key的数量注意机制attentionmechanismsynthesizer二、non-autoregressivesequencegeneration非自回归序列生成conditionalsequencegeneration条件序列生成问题1、fertility2、sequence-lev