Extraction

《An End-to-end Model for Entity-level Relation Extraction using Multi-instance Learning》阅读笔记

代码原文地址预备知识：1.什么是MIL？多示例学习（MIL）是一种机器学习的方法，它的特点是每个训练数据不是一个单独的实例，而是一个包含多个实例的集合（称为包）。每个包有一个标签，但是包中的实例没有标签。MIL的目的是根据包的标签来学习实例的特征和分类规则，或者根据实例的特征来预测包的标签。MIL的应用场景包括药物活性预测、图像分类、文本分类、关系抽取等。MIL的挑战在于如何处理实例之间的相关性、标签的不确定性和数据的不平衡性。MIL的常用算法有基于贝叶斯、KNN、决策树、规则归纳、神经网络等的方法，以及基于注意力机制、自编码器、变分推断等的方法。 2.什么是基于跨度（span）的命名实体

《Span-Based Joint Entity and Relation Extraction with Transformer Pre-Training》阅读笔记

代码原文地址预备知识：1.什么是束搜索算法（beam search）?beam search是一种用于许多自然语言处理和语音识别模型的算法，作为最终决策层，用于在给定目标变量(如最大概率或下一个输出字符)的情况下选择最佳输出。 2.什么是条件随机场（ConditionalRandomField，CRF）？CRF是一类统计建模方法，通常应用于模式识别和机器学习，并用于结构化预测。分类器预测单个样本的标签时不考虑“邻近”样本，而CRF可以考虑上下文。 3.ELMo模型是如何工作的?与Glove和Word2Vec不同，ELMo使用包含该单词的完整句子来表示单词的嵌入。因此，ELMo嵌入能够捕获句

Pre-Training Transformer section span 实体读书区

《RAPL: A Relation-Aware Prototype Learning Approach for Few-Shot Document-Level Relation Extraction》阅读笔记

代码原文地址预备知识：1.什么是元学习（MetaLearning）？元学习或者叫做“学会学习”（Learningtolearn），它是要“学会如何学习”，即利用以往的知识经验来指导新任务的学习，具有学会学习的能力。由于元学习可帮助模型在少量样本下快速学习，从元学习的使用角度看，人们也称之为少次学习（Few-ShotLearning）。 2.什么是基于度量的元学习（Metric-based meta-learning）？基于度量的元学习将相似性学习和元学习相结合，学习训练过的相似任务的经验，从而加快新任务的完成。Guo等人将注意机制与集成学习方法相结合，形成了基于度量的元学习模型。标记文档

Relation Document-Level section 3038153 img 读书区

[论文笔记-11]Dual-Channel Span for Aspect Sentiment Triplet Extraction

题目、作者：Abstract1.方面情感三元组提取(ASTE)是方面级情感分析的任务之一，目标是抽取(方面项，意见项，情感极性)三元组2.最近的研究表明片段级方法在ASTE任务上很有效，然而本文认为基于片段的方法可能会由于需要考虑的片段太大而产生过大的噪声(因为以往传统的基于片段的方法都是枚举一个句子中的所有片段，这样不止会引入过大的噪声，同时也会带来较大的计算成本)3.实验证明了本文提出方法的有效性和优越性1Introduction首先介绍一下ASTE，如上图所示，ASTE的任务就是抽取给定句子中的方面词、意见词、情感极性三元组。句子“我的蔬菜烩饭烧焦了，而且完全浸泡在烧焦的味道中”，AST

Dual-Channel Extraction 片段 xff0c xff0 论文阅读人工智能深度学习自然语言处理 python

《RAPL: A Relation-Aware Prototype Learning Approach for Few-Shot Document-Level Relation Extraction》阅读笔记

代码原文地址预备知识：1.什么是元学习（MetaLearning）？元学习或者叫做“学会学习”（Learningtolearn），它是要“学会如何学习”，即利用以往的知识经验来指导新任务的学习，具有学会学习的能力。由于元学习可帮助模型在少量样本下快速学习，从元学习的使用角度看，人们也称之为少次学习（Few-ShotLearning）。 2.什么是基于度量的元学习（Metric-based meta-learning）？基于度量的元学习将相似性学习和元学习相结合，学习训练过的相似任务的经验，从而加快新任务的完成。Guo等人将注意机制与集成学习方法相结合，形成了基于度量的元学习模型。标记文档

Relation Document-Level section 3038153 img 读书区

《RAPL: A Relation-Aware Prototype Learning Approach for Few-Shot Document-Level Relation Extraction》阅读笔记

代码原文地址预备知识：1.什么是元学习（MetaLearning）？元学习或者叫做“学会学习”（Learningtolearn），它是要“学会如何学习”，即利用以往的知识经验来指导新任务的学习，具有学会学习的能力。由于元学习可帮助模型在少量样本下快速学习，从元学习的使用角度看，人们也称之为少次学习（Few-ShotLearning）。 2.什么是基于度量的元学习（Metric-based meta-learning）？基于度量的元学习将相似性学习和元学习相结合，学习训练过的相似任务的经验，从而加快新任务的完成。Guo等人将注意机制与集成学习方法相结合，形成了基于度量的元学习模型。标记文档

Relation Document-Level section 3038153 img 其他分类

【读点论文】PICK Processing Key Information Extraction from Documents...实体关系抽取，从图像数据抽取具有自然语义信息的结构化数据

PICK:ProcessingKeyInformationExtractionfromDocumentsusingImprovedGraphLearning-ConvolutionalNetworks研究问题定义关键信息抽取(KeyInformationExtraction,KIE)指的是是从文本或者图像中，抽取出关键的信息。针对文档图像的关键信息抽取任务作为OCR的下游任务，存在非常多的实际应用场景，如表单识别、车票信息抽取、身份证信息抽取等。然而，使用人力从这些文档图像中提取或者收集关键信息耗时费力，怎样自动化融合图像中的视觉、布局、文字等特征并完成关键信息抽取是一个价值与挑战并存的问题。

抽取数据 span class style 人工智能 OCR 图卷积

《An End-to-end Model for Entity-level Relation Extraction using Multi-instance Learning》阅读笔记

代码原文地址预备知识：1.什么是MIL？多示例学习（MIL）是一种机器学习的方法，它的特点是每个训练数据不是一个单独的实例，而是一个包含多个实例的集合（称为包）。每个包有一个标签，但是包中的实例没有标签。MIL的目的是根据包的标签来学习实例的特征和分类规则，或者根据实例的特征来预测包的标签。MIL的应用场景包括药物活性预测、图像分类、文本分类、关系抽取等。MIL的挑战在于如何处理实例之间的相关性、标签的不确定性和数据的不平衡性。MIL的常用算法有基于贝叶斯、KNN、决策树、规则归纳、神经网络等的方法，以及基于注意力机制、自编码器、变分推断等的方法。 2.什么是基于跨度（span）的命名实体

Multi-instance Entity-level section 3038153 span 读书区

《An End-to-end Model for Entity-level Relation Extraction using Multi-instance Learning》阅读笔记

代码原文地址预备知识：1.什么是MIL？多示例学习（MIL）是一种机器学习的方法，它的特点是每个训练数据不是一个单独的实例，而是一个包含多个实例的集合（称为包）。每个包有一个标签，但是包中的实例没有标签。MIL的目的是根据包的标签来学习实例的特征和分类规则，或者根据实例的特征来预测包的标签。MIL的应用场景包括药物活性预测、图像分类、文本分类、关系抽取等。MIL的挑战在于如何处理实例之间的相关性、标签的不确定性和数据的不平衡性。MIL的常用算法有基于贝叶斯、KNN、决策树、规则归纳、神经网络等的方法，以及基于注意力机制、自编码器、变分推断等的方法。 2.什么是基于跨度（span）的命名实体

Multi-instance Entity-level section 3038153 span 其他分类

《A Novel Table-to-Graph Generation Approach for Document-Level Joint Entity and Relation Extraction》阅读笔记

代码原文地址文档级关系抽取（DocRE）的目的是从文档中提取实体之间的关系，这对于知识图谱构建等应用非常重要。然而，现有的方法通常需要预先识别出文档中的实体及其提及，这与实际应用场景不一致。为了解决这个问题，本文提出了一种新颖的表格到图生成模型（TAG），它能够在文档级别上同时抽取实体和关系。TAG的核心思想是在提及之间构建一个潜在的图，其中不同类型的边反映了不同的任务信息，然后利用关系图卷积网络（RGCN）对图进行信息传播。此外，为了减少错误传播的影响，本文在解码阶段采用了层次聚类算法，将任务信息从提及层反向传递到实体层。在DocRED数据集上的实验结果表明，TAG显著优于以前的方法，达

Document-Level Table-to-Graph section 3038153 img 其他分类