jjzjj

数栈V6.0全新产品矩阵发布,数据底座 EasyMR 焕新升级

4月20日,袋鼠云成功举行了以“数实融合,韧性生长”为主题的2023春季生长大会。会上,袋鼠云自主研发的一站式大数据基础软件——数栈V6.0产品矩阵全新发布。对旗下大数据基础平台、大数据开发与治理、数据智能分析与洞察三大模块的全线产品进行全新升级,并重点发布了企业级数据计算与存储平台——自研大数据引擎EasyMR。今年的集体学习会议上强调:“要打好科技仪器设备、操作系统和基础软件国产化攻坚战,提升国产化替代水平和应用规模,争取早日实现用我国自主的研究平台、仪器设备来解决重大基础研究问题。”袋鼠云作为国内领先的数字化基础软件与应用服务商,自始自终坚持自主创新,专注大数据基础软件研发,利用先进技术

EasyMR:为 AI 未来赋能,打造弹性大数据引擎的革命

如果要评一个2023科技圈的热搜榜,那么以人工智能聊天机器人ChatGPT为代表的AI大模型绝对会霸榜整个2023。ChatGPT于2022年11月30日发布。产品发布5日,注册用户数就超过100万。推出仅两个月后,它在2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。而此前,火爆全球的短视频社交平台TikTok达到1亿用户则用了9个月。大数据搭“台”AI唱“戏”ChatGPT的横空出世掀起一波席卷全球的大模型浪潮,各大互联网巨头纷纷发布了发布了自己的大模型产品,例如微软的Copilot、谷歌的Gemini、阿里的通义千问、百度的文心一言等等。各种强劲的需求瞬

EasyMR:为 AI 未来赋能,打造弹性大数据引擎的革命

如果要评一个2023科技圈的热搜榜,那么以人工智能聊天机器人ChatGPT为代表的AI大模型绝对会霸榜整个2023。ChatGPT于2022年11月30日发布。产品发布5日,注册用户数就超过100万。推出仅两个月后,它在2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。而此前,火爆全球的短视频社交平台TikTok达到1亿用户则用了9个月。大数据搭“台”AI唱“戏”ChatGPT的横空出世掀起一波席卷全球的大模型浪潮,各大互联网巨头纷纷发布了发布了自己的大模型产品,例如微软的Copilot、谷歌的Gemini、阿里的通义千问、百度的文心一言等等。各种强劲的需求瞬

干货|EasyMR 基于 Kubernetes 应用的监控实践

在之前的内容中,我们深入探讨了EasyMR如何利用Kubernetes进行部署。大家已经了解到,在EasyMR的整体架构中,我们使用Prometheus进行节点和服务监控数据的采集、查询和存储。同时,Grafana作为强大的可视化工具,将Prometheus中的监控数据以多样化的方式展示出来。在本文中,我们将详细探讨在EasyMR中如何动态采集Kubernetes应用监控数据。传统采集方案的痛点在主机模式下,EasyMR使用Prometheus监控的配置主要依赖于static_configs和file_sd_configs。因为在这种部署方案下,节点与应用的稳定性较高,涉及到的变更与不确定性较

干货|EasyMR 基于 Kubernetes 应用的监控实践

在之前的内容中,我们深入探讨了EasyMR如何利用Kubernetes进行部署。大家已经了解到,在EasyMR的整体架构中,我们使用Prometheus进行节点和服务监控数据的采集、查询和存储。同时,Grafana作为强大的可视化工具,将Prometheus中的监控数据以多样化的方式展示出来。在本文中,我们将详细探讨在EasyMR中如何动态采集Kubernetes应用监控数据。传统采集方案的痛点在主机模式下,EasyMR使用Prometheus监控的配置主要依赖于static_configs和file_sd_configs。因为在这种部署方案下,节点与应用的稳定性较高,涉及到的变更与不确定性较

利用 Kubernetes 降本增效?EasyMR 基于 Kubernetes 部署的探索实践

Kubernetes是用于编排容器化应用程序的云原生系统。最初由Google创建,如今由CloudNativeComputingFoundation(CNCF)维护更新。Kubernetes是市面上最受欢迎的集群管理解决方案之一。它自动化容器化应用程序的部署、扩展和管理,允许管理和协调跨多个主机的容器集群,提供容错性和可伸缩性等服务。简单点说,如果你的应用程序可以容器化(例如,借助Docker),那么绝对应该使用Kubernetes来运行和管理这些应用程序。在k8s的支持下,可以大大提高本地或云托管基础架构的利用率,所有计算资源都可以在多个应用程序之间动态而合理地共享。Kubernetes负责

灵活、可用、高扩展,EasyMR 带来全新 Yarn 的队列管理功能及可视化配置

YARN(YetAnotherResourceNegotiator)是Hadoop生态系统中的资源调度器,主要用于资源管理和作业调度。YARN自身具备队列管理功能,通过对YARN资源队列进行配置和管理,实现集群资源的分配,以满足不同应用和用户的需求。YARN的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。在大数据环境下,企业通常会有多个应用程序同时运行,这些应用程序可能具有不同的资源需求和优先级。为了合理分配和管理资源,避免资源争夺和冲突,需要对资源进行划分和调度。本文将为大家介绍各类资源划分和队列管理方式,以及EasyMR新上线的YARN的队列管理功能,如何通过可视化界面管

大数据计算引擎 EasyMR 如何简单高效管理 Yarn 资源队列

设想一下,作为一个开发人员,你现在所在的公司有一套线上的Hadoop集群。A部门经常做一些定时的BI报表,B部门则经常使用软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景,这个时候到底应该如何分配资源满足这两个任务呢?是先执行A的任务,再执行B的任务,还是同时跑两个?如果你存在上述的困惑,可以多了解一些Yarn的资源调度器。Yarn的三种调度器从Hadoop2开始,官方把资源管理单独剥离出来,主要是为了考虑后期作为一个公共的资源管理平台,任何满足规则的计算引擎都可以在它上面执行。Yarn作为一款Hadoop集群的资源共享,不仅可以跑MapReduce,还可以跑Spark,Flink。在

高性能、高扩展、高稳定:解读 EasyMR 大数据组件自定义可扩展能力

随着互联网技术的不断发展以及大数据时代的兴起,企业对于数据分析和洞察的需求日益增长。大多数企业都积累了大量的数据,需要从这些数据中快速灵活地提取有价值的信息,以便为用户提供更好的服务或者帮助企业做出更明智的决策。然而在不同的数据场景中,企业往往会选择不同的大数据组件来满足其业务需求,每个组件都有自己的实现机制和特性,下面为大家介绍一些常见的大数据组件。常见的大数据组件分布式存储组件·Hadoop分布式文件系统(HDFS):用于存储大规模数据集的分布式文件系统·Cassandra:具有高度可扩展性和高可用性的分布式数据库系统·HBase:基于Hadoop的分布式数据库,用于实时读写大规模数据分布

EasyMR 安全架构揭秘:如何管理 Hadoop 数据安全

2017年,美国信用评级机构Equifax遭受黑客攻击,导致1.4亿个人的敏感信息泄露;2020年,发生了SolarWinds公司的软件供应链遭受恶意代码攻击事件,涉及多个行业和国家;2022年,网信办依据《数据安全法》等法律法规,对滴滴公司开出人民币80.26亿元的巨额罚款,对互联网企业敲响数据安全警钟。近年来,数据安全正在快速成为当今信息化时代一个备受关注的话题。在数字化快速发展的今天,各个领域都离不开数据的支撑,而数据安全问题也随之成为了一项重要的任务。企业、政府、学术机构等各种组织和个人都需要保护自己的数据免于泄露、丢失、篡改或被滥用等风险。Hadoop作为进入大数据领域的必备技术,由