jjzjj

Q-Learning

全部标签

M3AE: Multimodal Representation Learning for Brain Tumor Segmentation with Missing Modalities

 摘要 提出SimCLR,用于视觉表征的对比学习,简化了最近提出的对比自监督学习算法,为了理解是什么使对比预测任务能够学习有用的表示,系统研究了提出框架的主要组成部分,发现:(1)数据增强的组成在定义有效的预测任务中起着关键的作用(2)在表示和对比损失之间引入一个可学习的非线性变换,大大提高了已学习表示的质量(3)与监督学习相比,对比学习受益于更大的批量规模和更多的训练步骤SimCLR学习的自监督表示训练的线性分类器达到了76.5%的top-1精度,比之前的技术水平提高了7%,与监督ResNet-50的性能相匹配。  方法对比学习框架  随机采样一个minibatch的数据(N个样本),定义生

【自监督论文阅读笔记】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

Abstract:        本文推出了EVA,这是一个以视觉为中心的基础模型,旨在仅使用可公开访问的数据来探索大规模视觉表示的局限性。EVA是一种经过预训练的普通ViT,用于重建以可见图像块为条件的屏蔽掉的图像-文本对齐(image-textaligned)的视觉特征。通过这个前置任务,我们可以有效地将EVA扩展到10亿个参数,并在图像识别、视频动作识别、目标检测、实例分割和语义分割等广泛的代表性视觉下游任务上创造新记录,而无需大量监督训练。        此外,我们观察到缩放EVA的量变导致迁移学习性能的质变,这在其他模型中是不存在的。例如,EVA在具有挑战性的大词汇量实例分割任务中取

TartanVO: A Generalizable Learning-based VO 论文阅读

论文信息题目:TartanVO:AGeneralizableLearning-basedVO作者:WenshanWang,YaoyuHu来源:CoRL时间:2021代码地址:https://github.com/castacks/tartanvoAbstract我们提出了第一个基于学习的视觉里程计(VO)模型,该模型可推广到多个数据集和现实场景,并且在具有挑战性的场景中优于基于几何的方法。我们通过利用SLAM数据集TartanAir来实现这一目标,该数据集在具有挑战性的环境中提供了大量多样化的合成数据。此外,为了使我们的VO模型能够跨数据集泛化,我们提出了一个大规模损失函数,并将相机内在参数合

SpringBoot-Learning系列之Kafka整合

SpringBoot-Learning系列之Kafka整合本系列是一个独立的SpringBoot学习系列,本着WhatWhyHow的思想去整合Java开发领域各种组件。消息系统主要应用场景流量消峰(秒杀抢购)、应用解耦(核心业务与非核心业务之间的解耦)异步处理、顺序处理实时数据传输管道异构语言架构系统之间的通信如C语言的CS客户端的HIS系统与java语言开发的互联网在线诊疗系统的交互Kafka是什么kafka是一个消息队列产品,基于Topicpartitions的设计,能达到非常高的消息发送处理性能。是java领域常用的消息队列。核心概念:生产者(Producer)生产者应用向主题队列中投送

CVPR2021论文:Learning to Cartoonize Using Whitebox Cartoo

作者:禅与计算机程序设计艺术1.简介2020年以来,在CVPR(计算机视觉及PatternRecognition)国际会议上,一直保持了高水准的成果发布,其中经典且代表性的论文包括“ImageStyleTransferusingConvolutionalNeuralNetworks”、“CycleGAN:UnpairedImage-to-ImageTranslationusingCycle-ConsistentAdversarialNetworks”等。2021年的CVPR会议在会中也不乏令人激动的成果发布,比如2021年CVPR上的最佳论文奖——SRFlow:Super-Resolution

好文推荐 A transformer-based representation-learning model with unified processing of multimodal input

论文地址:https://www.nature.com/articles/s41551-023-01045-x代码地址:https://github.com/RL4M/IRENE基于Transformer的表示学习模型,作为临床诊断辅助工具,以统一的方式处理多模态输入。将图像与文字转化为visualtokens和texttokens,通过一个双向的跨模态注意力机制块共同学习不同信息间的整体特征和其关联性来做出决策。第一个以统一方式使用人工智能处理多模态信息,在临床上辅助医生进行决策诊断。为后续医学领域人工智能处理多模态信息提供一种新的思路。Data胸腔医学中,除了胸部X射线,医生还需要考虑患者

【论文阅读】【剪枝】Learning Efficient Convolutional Networks through Network Slimming

摘要             深度卷积神经网络(CNN)在许多实际应用中的部署在很大程度上受到其高计算成本的阻碍。在本文中,我们提出了一种新的神经网络学习方案,以同时1)减小模型大小;2)减少运行时内存占用;以及3)在不损害精度的情况下减少计算操作的数量。这是通过以简单但有效的方式在网络中实施通道级稀疏性来实现的。与许多现有方法不同,所提出的方法直接适用于现代CNN架构,为训练过程引入了最小开销,并且不需要用于生成模型的专用软件/硬件加速器。我们称我们的方法为网络瘦身,它将宽网络和大网络作为输入模型,但在训练过程中,不重要的通道会被自动识别并在之后进行修剪,从而生成具有相当精度的瘦而紧凑的模型

论文阅读:Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

前言要弄清MAML怎么做,为什么这么做,就要看懂这两张图。先说MAML**在做什么?**它是打着Mate-Learing的旗号干的是few-shotmulti-taskLearning的事情。具体而言就是想训练一个模型能够使用很少的新样本,快速适应新的任务。定义问题我们定义一个模型fff,输入xxx输出aaa。-定义每一个Task-TTT包含一个损失函数LLL,一个原始观察q(x1)q(x_1)q(x1​),一个状态转移分布q(x1∣xt,at)q(x_1|x_t,a_t)q(x1​∣xt​,at​)以及集长度HHH。在监督任务中H=1(也就是说当前的a只和当前的x有关)。元学习方法介绍元学习

论文阅读:DIN-SQL: Decomposed In-Context Learning of Text-to-SQL withSelf-Correction

NL2SQL是将自然语言转化为SQL的任务,该任务隶属于NLP的子任务,NL2SQL在AIGC时代之前,以seq2seq、BERT等系列的模型在NL2SQL的主流数据集上取得了不错的效果,2022年底,ChatGPT爆火,凭借LLM强大的逻辑推理、上下文学习、情景联系等特点,按理说LLM应该可以超过seq2seq、BERT等系列的模型,但是使用少样本、零样本提示方法用LLM解决NL2SQL问题效果却比不上之前的模型。今天分享的这篇来自NLP顶级会议的论文解决了这个问题:如何改进Prompt让LLM超越之前的方法,并让LLM在Spider数据集上霸榜。论文原文链接:[2304.11015]DIN

【论文笔记】Guided Skill Learning and Abstraction for Long-Horizon Manipulation

【论文笔记】GuidedSkillLearningandAbstractionforLong-HorizonManipulation更多笔记(在耕):这里文章目录【论文笔记】GuidedSkillLearningandAbstractionforLong-HorizonManipulationAbstractI.INTRODUCTIONII.RELATEDWORKTAMPandLearningforTAMP.CurriculumforRL.StateandActionAbstractions.HierarchicalModelinginRobotLearning.III.METHODA.Bac