Q-Learning

对于《Robust Blockchained Federated Learning with Model Validation and PoS Inspired Consensus》的讨论

对于《RobustBlockchainedFederatedLearningwithModelValidationandProof-of-StakeInspiredConsensus》的讨论文章概述本文主要是根据GoogleFL和VanillaFL为基础进行创新的，发表于2021年。其中VanillaFL是Google公司于2017年写的一篇论文《Communication-EfficientLearningofDeepNetworksfromDecentralizedData》中提到的方法，也是全球第一个提出联邦学习的论文。GoogleFL也是Google公司于2017年写的一篇论文《Fed

[Machine learning][Part4] 多维矩阵下的梯度下降线性预测模型的实现

目录模型初始化信息：模型实现：多变量损失函数：多变量梯度下降实现：多变量梯度实现：多变量梯度下降实现：之前部分实现的梯度下降线性预测模型中的trainingexample只有一个特征属性：房屋面积，这显然是不符合实际情况的，这里增加特征属性的数量再实现一次梯度下降线性预测模型。这里回顾一下梯度下降线性模型的实现方法：实现线性模型：f=w*x+b，模型参数w,b待定寻找最优的w,b组合：（1）引入衡量模型优劣的costfunction：J(w,b) ——损失函数或者代价函数（2）损失函数值最小的时候，模型最接近实际情况：通过梯度下降法来寻找最优w,b组合模型初始化信息

Play from pixels by deep reinforcement learning

作者：禅与计算机程序设计艺术1.简介在游戏领域，经典的机器学习算法模型通常依赖于监督学习方法进行训练，这种方式需要人们预先标记好游戏中所有状态和对应的动作，然后通过这些标记数据对机器学习模型进行训练，得到可以应用到新的游戏场景中的策略。然而，在现实世界中，游戏往往缺乏足够的数据标记供机器学习模型学习，如何利用无标签数据进行游戏策略的训练就成为一个重要课题。近年来，由于游戏中更多的自主性和多样性，越来越多的人开始关注并尝试用机器学习的方式来进行游戏行动决策。其中，深度强化学习(DeepReinforcementLearning,DRL)是一种基于价值网络的模型，其能够从原始像素图像中直接学习游戏

Deep Learning：工业自动化和生产效率的变革者

DeepLearning将改变工业。机器将能够完成那些需要人类智慧的工作。伴随着企业流程数字化和数据收集的发展，DeepLearning 的应用也将增加，使人类和机器之间的合作更加高效。这将彻底改变自动化和生产，实现更高效且更正确的决策流程以及更高的生产力，同时显著降低开发成本。在我们的播客“SICKnificant”中，我们与数字服务和解决方案战略产品经理ChristophEichhorn博士探讨了DeepLearning如何帮助人们完成繁琐的任务以及提高流程质量。ChristophEichhorn博士，SICK数字服务和解决方案的战略产品经理近年来，DeepLearning作为人工智能和

分层强化学习综述论文阅读 Hierarchical Reinforcement Learning: A Comprehensive Survey

分层强化学习综述论文阅读HierarchicalReinforcementLearning:AComprehensiveSurvey摘要一、介绍二、基础知识回顾2.1强化学习2.2分层强化学习2.2.1子任务符号2.2.2基于半马尔可夫决策过程的HRL符号2.3通用项定义三、分层强化学习方法3.1学习分层策略(LHP)3.1.1封建分层方法（基于goal）3.1.2策略树方法（基于option）3.2同时子任务发现+分层策略学习3.2.1统一策略树方法3.2.2封建方法的统一学习3.3独立子任务发现3.3.1子目标发现3.3.2不同技能发现3.4迁移分层强化学习3.4.1迁移+子任务策略蒸馏3

分享一个项目：`learning_go_plan9_assembly`，学习 golang plan9 汇编

作者:张富春(ahfuzhang)，转载时请注明作者和引用链接，谢谢！cnblogs博客zhihuGithub公众号:一本正经的瞎扯近期在学习golangplan9汇编，总算基本做到了手写汇编，并整理了很多笔记。plan9汇编的资料少，难学，难用。可能也有想学习汇编的人会遇到与我一样的问题。于是把笔记进行了整理，分享到了github:https://github.com/ahfuzhang/learning_go_plan9_assembly笔记的地址在：https://github.com/ahfuzhang/learning_go_plan9_assembly/blob/main/note

使用Panda-Gym的机器臂模拟进行Deep Q-learning强化学习

强化学习(RL)是一种机器学习方法，它允许代理通过试错来学习如何在环境中表现。行为主体因采取行动导致预期结果而获得奖励，因采取行动导致预期结果而受到惩罚。随着时间的推移，代理学会采取行动，使其预期回报最大化。RL代理通常使用马尔可夫决策过程(MDP)进行训练，马尔可夫决策过程是为顺序决策问题建模的数学框架。MDP由四个部分组成:状态:环境的可能状态的集合。动作:代理可以采取的一组动作。转换函数:在给定当前状态和动作的情况下，预测转换到新状态的概率的函数。奖励函数:为每次转换分配奖励给代理的函数。代理的目标是学习策略函数，将状态映射到动作。通过策略函数来最大化代理随着时间的预期回报。DeepQ-

ChatGPT基础知识系列之零样本学习( Zero-Short learning)

ChatGPT基础知识系列之零次学习(Zero-Shortlearning)顾名思义，在训练分类器的时候可以不需要A类物体样本就能在测试时识别A类物体，咋一看，很玄乎，其实并没有。在具体解释思路之前，先回顾一下大家比较熟悉的word2vec，就是把单词变成一个向量（语义向量），就可以数字化送进神经网络了。意思相近的单词的语义向量也会比较相似。零样本学习Zero-ShotLearning，简称ZSL，是由Lampert等人在2009年提出的。他们提供了一个AnimalswithAttributes数据集以及经典的基于属性的学习算法，开启了这一机器学习新方法。从原理上来说，ZSL就是让计算机模拟人

论文阅读：Heterogeneous Graph Contrastive Learning for Recommendation（WSDM ’23）

论文链接Motivation：在推荐系统中，图神经网络在建模图结构数据上已经变成一个强有力的工具。但是现实生活的推荐语义通常涉及异质关系（像用户的社交关系，物品知识关系的依赖），这些都包含丰富的语义信息去提升表征能力的学习。同时，对比自监督学习在推荐系统中也取得了巨大进步。鉴于此，本文提出异质图对比学习[HeterogeneousGraphContrastiveLearning(HGCL)],它利用在不同角度的对比学习知识迁移把异质关系融合到用户-物品的交互建模中。由于用户和物品的异质关系对用户-物品交互的影响是不同的，所以在HGCL中关于自适应对比增强设计了元网络来做个性化知识转换。本文所面

机器学习在网络安全领域的应用 Demystifying Cybersecurity with Machine Learning

作者：禅与计算机程序设计艺术1.简介什么是机器学习（MachineLearning）？又是如何应用在网络安全领域呢？本文将详细阐述其定义、分类及历史沿革，同时介绍一些机器学习的基本概念和技术，帮助企业界更好地理解和掌握机器学习在网络安全领域的应用。通过相关案例实践，全面理解机器学习技术，能够更好的保障公司网络安全。2.基础知识2.1.什么是机器学习？机器学习(ML)是一类人工智能的研究方法，它可以让计算机从数据中自动学习并进一步改善性能。在过去几十年里，机器学习技术已经应用在了各个领域，包括图像识别、语音识别、自然语言处理、推荐系统、生物信息学等等。2006年，美国斯坦福大学的AndrewNg