php - 时间序列数据的 Cassandra 分区键

coder 2024-04-24 原文

我正在测试 Cassandra 作为时间序列数据库。

我创建的数据模型如下:

CREATE KEYSPACE sm WITH replication = {
  'class': 'SimpleStrategy',
  'replication_factor': 1
};

USE sm;

CREATE TABLE newdata (timestamp timestamp,
  deviceid int, tagid int,
  decvalue decimal,
  alphavalue text,
  PRIMARY KEY (deviceid,tagid,timestamp));

在主键中，我将 deviceid 设置为分区键，这意味着所有具有相同设备 id 的数据都将写入一个节点(它是指一台机器还是一个分区。每个分区最多可以有 20 亿行)如果我在同一个节点内查询数据，检索会很快，我说的对吗？我是 Cassandra 的新手，对分区键和集群键有点困惑。

我的大部分查询如下:

选择已知 deviceid 和 tagid 的最新时间戳
选择已知deviceid和tagid以及时间戳的decvalue
选择已知 deviceid 和 tagid 的 alphavalue 和时间戳
select * of know deviceid and tagid with time range
选择带时间范围的已知设备ID的*

我将有大约 2000 个 deviceid，每个 deviceid 将有 60 个 tagid/value 对。我不确定它是否会是一大排deviceid, timestamp, tagid/value, tagid/value....

最佳答案

I’m new to Cassandra and a bit confused about the partition key and clustering key.

听起来您了解分区键，所以我只想补充一点，您的分区键可以帮助 Cassandra 确定在集群中的哪个位置(哪个 token 范围)存储您的数据。每个节点负责几个主要 token 范围(假设 vnodes)。当您的数据写入数据分区时，它会按您的集群键排序。这也是它在磁盘上的存储方式，因此请记住，您的集群键决定了数据在磁盘上的存储顺序。

Each partition can have max 2 billion rows

这不完全正确。每个分区最多可支持 20 亿个单元。单元格本质上是列名称/值对。你的集群键自己加起来就是一个单元格。因此，通过计算您为每个 CQL 行存储的列值来计算您的单元格，如果您使用聚类列，则再添加一个。

根据您的宽行结构，您可能会有远少于 20 亿行的限制。此外，这只是存储限制。即使您设法在单个分区中存储 100 万个 CQL 行，查询该分区也会返回如此多的数据，以至于它会变得笨拙并且可能会超时。

if I query data within the same node, the retrieval will be fast, am I correct?

它至少比命中多个节点的多键查询要快。但它是否“快”取决于其他因素，例如行的宽度，以及执行删除和就地更新等操作的频率。

Most of my query will be as below:

select lastest timestamp of know deviceid and tagid
Select decvalue of known deviceid and tagid and timestamp
Select alphavalue of known deviceid and tagid and timestamp
select * of know deviceid and tagid with time range
select * of known deviceid with time range

您当前的数据模型可以支持所有这些查询，但最后一个除外。为了对 timestamp 执行范围查询，您需要将数据复制到一个新表中，并构建一个 PRIMARY KEY 来支持该查询模式。这称为“基于查询的建模”。我会像这样构建一个查询表:

CREATE TABLE newdata_by_deviceid_and_time (
  timestamp timestamp,
  deviceid int,
  tagid int,
  decvalue decimal,
  alphavalue text,
  PRIMARY KEY (deviceid,timestamp));

该表可以支持对 timestamp 的范围查询，同时对 deviceid 进行分区。

但我看到的这两种模型中的任何一个的最大问题是“无限制的行增长”。基本上，随着您为设备收集越来越多的值，您将接近每个分区 20 亿个单元的限制(并且在此之前事情可能会变得缓慢)。您需要做的是使用一种称为“时间分桶”的建模技术。

例如，我会说我确定按月分桶将使我很好地保持在 20 亿个单元格限制之下并且允许我需要的日期范围类型的灵 active 。如果是这样，我将添加一个额外的分区键 monthbucket，我的(新)表将如下所示:

CREATE TABLE newdata_by_deviceid_and_time (
  timestamp timestamp,
  deviceid int,
  tagid int,
  decvalue decimal,
  alphavalue text,
  monthbucket text,
  PRIMARY KEY ((deviceid,monthbucket),timestamp));

现在，当我想查询特定设备和日期范围内的数据时，我还会指定 monthbucket:

SELECT * FROM newdata_by_deviceid_and_time
WHERE deviceid='AA23' AND monthbucket='201603'
AND timestamp >= '2016-03-01 00:00:00-0500'
AND timestamp < '2016-03-16 00:00:00-0500';

请记住，monthbucket 只是一个示例。对于您来说，使用季度甚至年份可能更有意义(假设您在一年中没有为每个 deviceid 存储太多值)。

关于php - 时间序列数据的 Cassandra 分区键，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36048660/

有关php - 时间序列数据的 Cassandra 分区键的更多相关文章

ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
Ruby rpartition 与分区？ - 2
rpartition和partition有什么区别？我已经阅读了文档，但我认为它们是一样的。只是那些出现在后来的ruby版本中吗？最佳答案以下示例将有助于识别差异:"abccba".partition("b")#=>["a","b","ccba"]"abccba".rpartition("b")#=>["abcc","b","a"]所以区别在于rpartition搜索最右边的匹配项，而不是最左边的匹配项。关于Rubyrpartition与分区？，我们在StackOverflow
ruby-on-rails - Ruby 检查日期时间是否为 iso8601 并保存 - 2
我需要检查DateTime是否采用有效的ISO8601格式。喜欢:#iso8601?我检查了ruby是否有特定方法，但没有找到。目前我正在使用date.iso8601==date来检查这个。有什么好的方法吗？编辑解释我的环境，并改变问题的范围。因此，我的项目将使用jsapiFullCalendar，这就是我需要iso8601字符串格式的原因。我想知道更好或正确的方法是什么，以正确的格式将日期保存在数据库中，或者让ActiveRecord完成它们的工作并在我需要时间信息时对其进行操作。最佳答案我不太明白你的问题。我假设您想检查
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby-on-rails - 将 Ruby 中的日期/时间格式化为 YYYY-MM-DD HH :MM:SS - 2
这个问题在这里已经有了答案:Railsformattingdate(4个答案)关闭4年前。我想格式化Time.Now函数以显示YYYY-MM-DDHH:MM:SS而不是:“2018-03-0909:47:19+0000”该函数需要放在时间中.现在功能。require‘roo’require‘roo-xls’require‘byebug’file_name=ARGV.first||“Template.xlsx”excel_file=Roo::Spreadsheet.open(“./#{file_name}“,extension::xlsx)xml=Nokogiri::XML::Build
ruby - 查找字符串中的内容类型(数字、日期、时间、字符串等) - 2
我正在尝试解析一个CSV文件并使用SQL命令自动为其创建一个表。CSV中的第一行给出了列标题。但我需要推断每个列的类型。Ruby中是否有任何函数可以找到每个字段中内容的类型。例如，CSV行:"12012","Test","1233.22","12:21:22","10/10/2009"应该产生像这样的类型['integer','string','float','time','date']谢谢! 最佳答案 require'time'defto_something(str)if(num=Integer(str)rescueFloat(s
ruby - 是否有用于序列化和反序列化各种格式的对象层次结构的模式？ - 2
给定一个复杂的对象层次结构，幸运的是它不包含循环引用，我如何实现支持各种格式的序列化？我不是来讨论实际实现的。相反，我正在寻找可能会派上用场的设计模式提示。更准确地说:我正在使用Ruby，我想解析XML和JSON数据以构建复杂的对象层次结构。此外，应该可以将该层次结构序列化为JSON、XML和可能的HTML。我可以为此使用Builder模式吗？在任何提到的情况下，我都有某种结构化数据-无论是在内存中还是文本中-我想用它来构建其他东西。我认为将序列化逻辑与实际业务逻辑分开会很好，这样我以后就可以轻松支持多种XML格式。最佳答案我最
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2
本教程将在Unity3D中混合Optitrack与数据手套的数据流，在人体运动的基础上，添加双手手指部分的运动。双手手背的角度仍由Optitrack提供，数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照：https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming，开始向Unity3D广播数据；MotionVenus中设置->选项选择Unit

php - 时间序列数据的 Cassandra 分区键

有关php - 时间序列数据的 Cassandra 分区键的更多相关文章

随机推荐