大数据项目组-月度考核汇报0102

延锋L 2023-07-14 原文

01-2023年02月-月度考核汇报

2月份完成项目情况

MySQL数据同步到ElasticSearch任务进展（Windows系统）：

通过logstash加载mysql.conf配置文件的方式实现了

在MySQL数据库进行增改后于一分钟内将数据状态同步至ES中。

2月份学习情况

本月主要学习了以下内容：

① ElasticSearch ：索引库维护、集群、 Postman 工具的使用、 Java 客户端操作索引库、 SpringData 操作 ES 集群

② Springboot+ElasticSearch 构建博客检索系统， logstash 与 kibana 的安装及使用。

③ Hadoop ： MapReduce 、 HDFS 、 Hive 、 FineBI 实现可视化报表。

3月份学习计划

本月计划学习以下内容：

① 主要学习内容

① Logstash 实现 MySQL 与 ES 的数据同步，在 MySQL 数据库中进行增删改操作后，数据状态能够及时反馈至 ES 中；

② Logstash 获取 es 日志文件后，将数据以 json 格式输出到 es 中进行存放；

③ SpringData 操作 ElasticSearch ；

④ 在 linux 上部署 es 。

② 次要学习内容

① Apache Spark ，大数据快速计算引擎；

② SVN 、 Git 、 Docker ，项目版本管理工具、项目打包。

老师点评

无！

02-2023年03月-月度考核汇报

项目完成情况

Linux服务器中MySQL数据库数据同步ElasticSearch

① 安装线上运行版本的软件： jdk11 、 elk-8.5.1(es 、 logstash 、 kibana ) 、 node.js-14.21.3 、 esHead 插件；

② 连接线上测试数据库进行测试： 通过 logstash 加载配置文件的方式，将 MySQL 数据同步到 es 中，并在 kibana 中进行查看到了数据增改的同步效果；

③ 拍摄虚拟机快照保存虚拟机状态 ；

④ 详细记录 elk 安装过程及启动步骤 。

投入实际生产时可通过scp命令将本地生产环境拷贝至实际开发环境，为后续生产环境作准备。

本月学习内容

① Git

① Git 简介及安装使用； Git 连接远程仓库； Git 分支；

② Linux

① Windows 安装 Ubuntu 版本 Linux 系统；

② 复习 Linux 常用命令；

③ 复习 Linux 用户和权限知识点；

④ 复习 Linux 实用操作；

⑤ Linux 系统软件安装。

③ Hadoop

① Hadoop 集群搭建， scp 命令、集群常用脚本。

② Hadoop-HDFS ，客户端 API 。

③ Hadoop-MapReduce ， MR 序列化。

④ Hadoop-Yarn ，生产环境核心参数配置、配置多队列的容量调度器。

⑤ Hadoop- 生产调优手册， HDFS 集群压测。

① Git

① Git 简介及安装使用： 安装 Git 与 TortoiseGit ，测试本地仓库中文件的增删改；

② Git 连接远程仓库： GitHub 远程仓库、本地仓库推送至远程、克隆远程仓库；

③ Git 分支： 使用 Idea 使用 Idea 将工程添加到本地仓库、使用 Idea 克隆仓库并同步代码、在 Idea 中使用 git 的分支。

② Linux

① Windows 安装 Ubuntu 版本 Linux 系统： 对比 Ubuntu 与 Cent OS 的差异；

② 复习 Linux 常用命令： ls 、 cd 、 pwd 、 mkdir 、 touch 、 cat 、 more 、 cp 、 mv 、 rm 、 which 、 find 、 grep 、 wc 、 echo 、 tail 、 vim 、 su 、 sudo 、 groupadd 、 useradd 、 usermod 、 userdel 、 getent 、 chmod 、 chown ；

③ 复习 Linux 用户和权限知识点： su 、 sudo 、 groupadd 、 useradd 、 usermod 、 userdel 、 getent 、 chmod 、 chown ；

④ 复习 Linux 实用操作： 软件安装方式、 systemctl 、端口、进程管理、环境变量；

⑤ Linux 系统软件安装： MySQL 、 Tomcat 、 Nginx 、 RabbitMQ 、 Redis 、 ElasticSearch 。

③ Hadoop

        ① Hadoop 集群搭建， scp 命令、集群常用脚本 ( xsync 文件分发、集群启停脚本、查看三台服务器 Java 进程脚本 ) 。

        ② Hadoop-HDFS ， shell 操作、客户端API( API创建文件夹： URI、Configuration、FileSystem )、core-site.xml 、 hdfs-site.xml 、 yarn-site.xml 、 mapred-site.xml 。

        ③ Hadoop-MapReduce ， MR 序列化 (Mapper 、 Reducer 和Driver)、在实体类中实现序列化和反序列化方法、数据压缩。

        ④ Hadoop-Yarn ，查看日志及节点状态、生产环境核心参数配置、配置多队列的容量调度器。

        ⑤ Hadoop- 生产调优手册， HDFS 核心参数、 HDFS 集群压测、 HDFS 多目录。

下月学习计划

01、Hadoop
①复习hadoop中的重要知识点，重点复习HDFS、MapReduce、Yarn的使用。
②阅读书籍《 Hadoop权威指南_第四版_中文版》，以便对hadoop有更深的理解。

02、Spark（重点学习内容）
Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。学习spark教程，重点掌握以下内容：
①Spark Core：最基础与最核心的功能
②Spark SQL：操作结构化数据的组件。
③Spark Streaming：实时数据进行流式计算的组件。
④Spark Mllib：机器学习算法库。
⑤Spark GraphX：Spark 面向图计算提供的框架与算法库。

03、Flink（次要学习内容）
Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行状态计算。
①flink部署及架构；
②Data Stream API；
③flink处理函数。

04、kafka（次要学习内容）
Kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。
①生产者消费者模式实现；
②外部系统集成；
③生产调优方法。

老师点评

zyh老师：不局限于结构化数据，尝试流式数据等各种数据的同步。

hj老师：学习Flink cdc。

基于 Flink SQL CDC 的实时数据同步方案-阿里云开发者社区

大数汇报 span style color 大数据 hadoop elasticSearch 数据同步数据存储

有关大数据项目组-月度考核汇报0102的更多相关文章

ruby - 如何在 buildr 项目中使用 Ruby 代码？ - 2
如何在buildr项目中使用Ruby？我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序，我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/)，但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻，因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby-on-rails - 项目升级后 Pow 不会更改 ruby 版本 - 2
我在我的Rails项目中使用Pow和powifygem。现在我尝试升级我的ruby版本(从1.9.3到2.0.0，我使用RVM)当我切换ruby版本、安装所有gem依赖项时，我通过运行railss并访问localhost:3000确保该应用程序正常运行以前，我通过使用pow访问http://my_app.dev来浏览我的应用程序。升级后，由于错误Bundler::RubyVersionMismatch:YourRubyversionis1.9.3,butyourGemfilespecified2.0.0，此url不起作用我尝试过的:重新创建pow应用程序重启pow服务器更新战俘
ruby-on-rails - 新 Rails 项目 : 'bundle install' can't install rails in gemfile - 2
我已经像这样安装了一个新的Rails项目:$railsnewsite它执行并到达:bundleinstall但是当它似乎尝试安装依赖项时我得到了这个错误Gem::Ext::BuildError:ERROR:Failedtobuildgemnativeextension./System/Library/Frameworks/Ruby.framework/Versions/2.0/usr/bin/rubyextconf.rbcheckingforlibkern/OSAtomic.h...yescreatingMakefilemake"DESTDIR="cleanmake"DESTDIR="
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
Ruby 从大范围中获取第 n 个项目 - 2
假设我有这个范围:("aaaaa".."zzzzz")如何在不事先/每次生成整个项目的情况下从范围中获取第N个项目？最佳答案一种快速简便的方法:("aaaaa".."zzzzz").first(42).last#==>"aaabp"如果出于某种原因你不得不一遍又一遍地这样做，或者如果你需要避免为前N个元素构建中间数组，你可以这样写:moduleEnumerabledefskip(n)returnto_enum:skip,nunlessblock_given?each_with_indexdo|item,index|yieldit
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2
本教程将在Unity3D中混合Optitrack与数据手套的数据流，在人体运动的基础上，添加双手手指部分的运动。双手手背的角度仍由Optitrack提供，数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照：https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming，开始向Unity3D广播数据；MotionVenus中设置->选项选择Unit
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co

大数据项目组-月度考核汇报0102

01-2023年02月-月度考核汇报

2月份完成项目情况

2月份学习情况

3月份学习计划

老师点评

02-2023年03月-月度考核汇报

项目完成情况

本月学习内容

下月学习计划

老师点评

有关大数据项目组-月度考核汇报0102的更多相关文章

随机推荐