企业和组织被大数据淹没着,他们在努力地管理数量不断增长、种类越来越多的数据,通过组织和分析这些数据,获得有价值的洞察力,从而赢得竞争优势。今年,企业和组织试图利用数据和数据分析获得可见性,帮助他们驾驭快速变化的业务环境。下面就来看看这10家在2022年引起我们关注的具有突破性技术的大数据技术初创公司,其中包括了很多在数据库管理、数据转换、数据质量、数据集成和数据分析领域提供领先软件和服务的公司。
首席执行官:Elliot Shmukler总部:美国加利福尼亚州帕洛阿尔托Anomalo开发了下一代数据质量管理平台,旨在帮助企业和组织在潜在数据质量问题给运营流程、数据分析任务或业务模型中造成问题之前发现这些问题。Anomalo的平台可以监控企业数据,自动检测数据问题并确定根本原因,这让数据管理团队在数据投入生产之前就解决了数据质量问题。该平台通过机器学习以最少的人工输入快速评估各种数据集。Anomalo公司是由首席执行官Elliot Shmukler和首席技术官Jeremy Stanley于2018年创立的,他们曾在Instacart从事数据质量方面的工作。Anomalo于2021年10月正式对外发布,在由Norwest Venture Partners领投的A轮融资中获得3300万美元。今年10月Anomalo表示,在过去的一年中,公司的客户数量和收入都实现了强劲的增长。
首席执行官:Adrian Mitchell总部:英国布里斯托尔Brijj成立于 2021 年,开发的基于云的数据项目协作和工作流管理系统,可供数据管理和数据分析团队使用。当今有很多组织的数据项目是使用电子邮件、电子表格、日常协作工具(如Slack和Teams)、传统项目管理软件、甚至是专用工具来管理软件开发项目的。Brijj的平台专为数据专业人员、数据团队和数据消费者设计,平台对数据项目的所有阶段进行系统化和自动化,从最初的数据问题或任务,一直到项目结果和结果交付。
首席执行官:Dan DeMers总部:多伦多Cinchy开发的“数据件”技术可以提供对企业应用中组织数据的可见性,并将其连接到所谓的“通用数据网络”中,从而找出数据碎片化和数据孤岛的根本原因。据Cinchy称,Cinchy的技术无需针对每个应用管理和维护数据,并且跨所有应用自动进行数据控制,为用户提供了查看和更新数据的直接授权访问权限,并支持跨应用共享数据,而无需点对点的集成或者是数据拷贝。Cinchy成立于2017年,在10月的B轮融资中获得了1450万美元。
首席执行官:Armon Petrossian总部:美国旧金山Coalesce开发了专为大规模数据转换工作负载而构建的下一代数据转换自动化平台。数据转换任务通常是数据分析和其他数据密集型任务的瓶颈。Coalesce的平台旨在支持大型数据仓库,例如在Snowflake数据云上运行数据仓库,具有自动数据转换功能、灵活的代码和直观的用户界面。Coalesce成立于2020年,于今年1月走出隐身模式,在种子轮融资中获得592万美元,随后在9月由Emergence Capital领投的A轮融资中获得了2600万美元。
首席执行官:Yury Selivanov总部:美国旧金山EdgeDB提供了一种开源的图形关系数据库,其目标是重新定义传统的关系型数据库软件。EdgeDB公司首席执行官Selivanov指出,当今那些广泛使用的关系数据库的核心技术还是在20世纪90年代发明的。EdgeDB数据库不是表和关系数据模型,而是结合了图形数据库技术,使用节点和关系来管理数据,更好地表示数据之间的关系。EdgeDB还开发了一种与其数据库配合使用的新的查询语言。EdgeDB的目标受众是那些开发可运行在数据库上的应用的开发人员。EdgeDB成立于2019 年,在今年2月推出了数据库产品1.0版本,随后在7月推出了EdgeDB 2.0版本。11月,EdgeDB在由Nava Ventures和Accel领投的A轮融资中获得1500万美元。
首席执行官:Khawaja Shams总部:美国西雅图Momento本月刚刚推出了Momento Serverless Cache,可以优化和加速在AWS或者Google Cloud Platform上运行的任何数据库。缓存是通过更快地交付常用数据或者频繁使用的数据来加快数据库响应时间的。但Momento公司的创始人称,如今的缓存技术并不是为现代云堆栈设计的,Momento高度可用的Momento缓存技术每秒可处理数百万笔交易,并作为后端即服务平台运行,无需管理基础设施。Momento公司是由首席执行官Shams和首席技术官 Daniela Miao共同创立的,他们曾在AWS公司,并且是亚马逊专有NoSQL数据库服务AWS DynamoDB背后的工程负责人。Momento已经在由Bain Capital Ventures领投的种子轮融资中获得1500万美元的资金。
首席执行官:Nikita Shamgunov总部:美国旧金山Neon提供了基于开源Postgres数据库的完全托管的、无服务器的、云原生的数据库服务。Neon的目标是向Postgres应用开发人员提供数据库服务:Neon架构将存储和计算分开,提供可以改善开发者体验并降低成本的功能。Neon是由自称为“Postgres黑客”的Heikki Linnakangas和Stas Kelvich于2021年3月创立的。今年7月,Neon在GGV Capital领投的A-1轮融资中获得了3000万美元,融资总额达到5430万美元。
首席执行官:Andy Pavlo总部:匹兹堡OtterTune提供数据库调整、优化和配置服务,该服务使用人工智能和机器学习来自动执行通常由手动执行的数据库维护和管理任务。OtterTune的服务可以收集有关数据库底层硬件、配置和操作指标的数据,并使用机器学习来优化100多个配置设置以提高数据库性能。目前该服务适用于MySQL和PostgreSQL数据库,最近增加了Amazon Aurora和Amazon RDS数据库的支持。OtterTune是由卡内基梅隆大学的数据库管理和机器学习研究人员于2020年创立的,其技术也是他们当时的工作成果。今年5月,OtterTune在Intel Capital和Race Capital领投的A轮融资中获得了1200万美元。
首席执行官:Kishore Gopalakrishna总部:美国加州山景城StarTree基于Apache Pinot开发了一个基于云的实时数据分析平台,Apache Pinot是一种开源的实时分布式OLAP数据存储。StarTree的技术可以从SQL数据库以及批处理和流数据源中收集数据,并针对一系列任务执行实时分析,包括个性化、面向用户的分析、临时分析、业务指标和异常检测。StarTree是由Apache Pinot的原始创建者在2018年创立的,在2021年初正式发布。今年8月,StarTree在由GGV Capital领投的B轮融资中获得了4700万美元。
首席执行官:Josh Patterson总部:美国旧金山Voltron Data提供了围绕Apache Arrow的技术和支持服务,Apache Arrow是一种开源的、独立于语言的框架,用于开发数据分析应用,这些应用以列式内存格式处理平面和分层数据。截至今年年初,Apache Arrow的每月装机量达到了5100万次,该公司专注于处理和分析由大型应用和物联网网络生成的数据。Voltron Data成立于2021年,今年2月正式发布,在由Walden Catalyst领投的A轮融资中获得了8800万美元,加上先前种子轮融资中获得的2200万美元,总融资金额达到了1.1亿美元。Voltron Data的首个商用产品是在今年3月推出的企业订阅产品。 3月26日,映宇宙(HK:03700,即“映客”)发布截至2022年12月31日的2022年度业绩财务报告。财报显示,映宇宙2022年的总营收为63.19亿元,较2021年同期的91.76亿元下降31.1%。2022年,映宇宙的经营亏损为4698.7万元,2021年同期则为净利润4.57亿元;期内亏损(净亏损)为1.68亿元,2021年同期的净利润为4.33亿元;非国际财务报告准则经调整净利润为3.88亿元,2021年同期为4.82亿元,同比下降19.6%。 映宇宙在财报中表示,收入减少主要是由于行业竞争加剧,该集团对旗下产品采取更为谨慎的运营策略以应对市场变化。不过,映宇宙的毛利率则有所提升
如果使用Marshal.dump写入文件,我有一个Ruby散列达到大约10兆字节。gzip压缩后约为500KB。在ruby中迭代和改变这个散列是非常快的(几分之一毫秒)。即使复制它也非常快。问题是我需要在RubyonRails进程之间共享此散列中的数据。为了使用Rails缓存(file_store或memcached)执行此操作,我需要先Marshal.dump文件,但这会在序列化文件时产生1000毫秒的延迟,在序列化文件时产生400毫秒的延迟。理想情况下,我希望能够在100毫秒内从每个进程保存和加载此哈希。一个想法是生成一个新的Ruby进程来保存这个散列,该散列为其他进程提供AP
文章目录概述背景为何要存算分离优势**应用场景**存算分离产品技术流派华为JuiceFSHashDataXSKY概述背景Hadoop一出生就是奔存算一体设计,当时设计思想就是存储不动而计算(code也即是代码程序)动,负责调度Yarn会把计算任务尽量发到要处理数据所在的实例上,这也是与传统集中式存储最大的不同。为何当时Hadoop设计存算一体的耦合?要知道2006年服务器带宽只有100Mb/s~1Gb/s,但是HDD也即是磁盘吞吐量有50MB/s,这样带宽远远不够传输数据,网络瓶颈尤为明显,无奈之举只好把计算任务发到数据所在的位置。众观历史常言道天下分久必合合久必分,随着云计算技术的发展,数据
目录:一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类SQL查询功能,用于查询的SQL语句会被转化为MapReduce作业,然后提交到Hadoop上运行。特点:简单、容易上手(提供了类似sql的查询语言hql),使得精通sql但是不了解Java编程的人也能很好地进行大数据分析;灵活性高,可以自定义用户函数(UDF)和
如何用IDEA2022创建并初始化一个SpringBoot项目?目录如何用IDEA2022创建并初始化一个SpringBoot项目?0. 环境说明1. 创建SpringBoot项目 2.编写初始化代码0. 环境说明IDEA2022.3.1JDK1.8SpringBoot1. 创建SpringBoot项目 打开IDEA,选择NewProject创建项目。 填写项目名称、项目构建方式、jdk版本,按需要修改项目文件路径等信息。 选择springboot版本以及需要的包,此处只选择了springweb。 此处需特别注意,若你使用的是jdk1
2022年伊始,默安科技联合数世咨询举办以“软件供应链安全的时与势”为主题的访谈活动,由数世咨询创始人李少鹏主持,邀请贝壳安全研发负责人李文鹏、北京邮电大学副教授张文博、默安科技副总裁沈锡镛三位行业大咖做客网安小酒馆,从产业、企业、学术的不同维度,共同探讨软件供应链安全建设的新思路,为业界呈现了一场开年网安盛宴。随着全球软件供应链安全事件频发,软件供应链安全逐渐成为业界关注焦点,也成为影响国家重要信息系统安全与关键信息基础设施安全的重要因素,以及网络安全保障体系和能力建设的重要环节。嘉宾们围绕软件供应链安全发展的主要驱动力、关基行业中的实施现状和落地难点、产学研成果转化、软件供应链安全的重要性
我有一个客户列表,但在右栏的过滤器部分,我得到一个这样的列表#在选择菜单中。如何改为显示Customer的company_name属性? 最佳答案 明白了,谢谢!filter:customer,:collection=>proc{(Customer.all).map{|c|[c.company_name,c.id]}} 关于ruby-on-rails-Rails3和ActiveAdmin。过滤器显示对象而不是公司名称,我们在StackOverflow上找到一个类似的问题:
我有以下场景:我需要在一个非常大的集合中找出唯一的ID列表。例如,我有6000个id数组(关注者列表),每个数组的大小范围在1到25000(他们的关注者列表)之间。我想获得所有这些ID数组中的唯一ID列表(关注者的唯一关注者)。完成后,我需要减去另一个ID列表(另一个人的关注者列表)并获得最终计数。最后一组唯一ID增长到大约60,000,000条记录。在ruby中,将数组添加到大数组时,它开始变得非常慢,大约几百万。添加到集合中一开始需要0.1秒,然后增长到200万时需要超过4秒(离我需要去的地方不远)。我用java编写了一个测试程序,它在不到一分钟的时间内完成了整个过程。也许我在
文章目录问题B:芝华士威士忌和他的小猫咪们代码&注释问题C:愿我的弹雨能熄灭你们的痛苦代码注释问题D:猜糖果游戏代码注释问题E:有趣的次方代码注释问题F:这是一个简单题代码&注释问题G:打印矩阵代码注释问题H:scz的简单考验代码注释问题I:完美区间代码&注释问题J:是狂热的小迷妹一枚吖~代码&注释2022年10月23日周赛ZZULIOJ问题B:芝华士威士忌和他的小猫咪们时间限制:1Sec内存限制:128MB题目描述芝华士威士忌很喜欢带着他的猫咪们一块跑着玩。但是小猫咪们很懒,只有在离他y米以内才愿意和他一块跑。这天他在坐标为x的位置,他想和他的猫咪们一块跑着玩。有n个小猫咪,第i个小猫咪在坐
代码请进行一定修改后使用,本代码保证100%通过率,本题目提供了java、python、c++三种代码。复盘思路在文章的最后题目描述祖国西北部有一片大片荒地,其中零星的分布着一些湖泊,保护区,矿区;整体上常年光照良好,但是也有一些地区光照不太好。某电力公司希望在这里建设多个光伏电站,生产清洁能源对每平方公里的土地进行了发电评估,其中不能建设的区域发电量为0kw,可以发电的区域根据光照,地形等给出了每平方公里年发电量x千瓦。我们希望能够找到其中集中的矩形区域建设电站,能够获得良好的收益。输入描述第一行输入为调研的地区长,宽,以及准备建设的电站【长宽相等,为正方形】的边长最低要求的发电量之后每行为