jjzjj

timeSeries1

全部标签

hadoop - Hbase 与 Cassandra : Which is better for a timeseries data storage?

我使用我的API日志提取如下信息:这段时间内我的API有多少用户?或者在这段时间里,什么类型的服务被调用最多?我提取的几乎所有信息都取决于时间戳。实际上,我使用MongoDB并将时间戳添加为索引(对于80GB,索引大小为12GB)。有人向我推荐迁移到cassandra或Hbase。我想知道哪个更适合我的用例:时间序列数据分析。需要良好的写入和读取性能。可以使用hadoop进行数据分析。感谢您分享您的观点或经验。 最佳答案 Cassandra的优势:Cassandra通常表现出更好的性能(尽管两者都非常出色)。从操作的角度来看,Cas

Mongodb--如何查找重叠区间的记录?

我在Mongodb集合中有将近7000万条记录,其字段(以及其他字段)如下start:13653506610,finish:13653506650(值是Unix纪元秒,如果重要的话)。对于从集合开始到集合结束的每30秒间隔,我想查找并聚合重叠间隔的记录,包括每个重叠的时间。问题是如何最好地做到这一点?我创建了一个表格的索引db.coll.ensureIndex({start:1,finish:1})但即使有了这个索引,形式的查询也是如此db.coll.find({start:{$lt:13653506630},finish:{$gte:13653506600}})需要两分钟。必须有更好

python - Pandas TimeSeries 到 MongoDB

我有一个通用的pandasTimeSeries,我想将其存储在MongoDB中。对象ts看起来像这样:>ts2013-01-0100:00:00456.8529852013-01-0101:00:00656.0155322013-01-0102:00:00893.159043...2013-12-3121:00:001116.5264712013-12-3122:00:001124.9036002013-12-3123:00:001065.315890Freq:H,Length:8760,dtype:float64我想将其转换为一组JSON文档,其中一个文档是一行,以将其存储在Mong

python - Pandas TimeSeries 重采样产生 NaN

我正在对PandasTimeSeries进行重采样。时间序列由二进制值(它是一个分类变量)组成,没有缺失值,但在重新采样后出现NaN。这怎么可能?我不能在这里发布任何示例数据,因为它是敏感信息,但我按如下方式创建和重新采样该系列:series=pd.Series(data,ts)series_rs=series.resample('60T',how='mean') 最佳答案 upsampling转换为固定时间间隔,因此如果没有样本,您将得到NaN。您可以通过fill_method='bfill'或正向填充缺失值-fill_metho

python - Bokeh 中的 TimeSeries 使用带索引的数据框

我正在尝试使用Bokeh绘制一个Pandas数据框,其中包含一个包含年份和一个数字的DateTime列。如果DateTime指定为x,则行为是预期的(x轴中的年份)。但是,如果我使用set_index将DateTime列转换为数据帧的索引,然后仅在TimeSeries中指定y我在x轴上得到以毫秒为单位的时间。一个最小的例子importpandasaspdimportnumpyasnpfrombokeh.chartsimportTimeSeries,output_file,showoutput_file('fig.html')test=pd.DataFrame({'datetime':p

python Pandas : drop rows of a timeserie based on time range

我有以下时间序列:start=pd.to_datetime('2016-1-1')end=pd.to_datetime('2016-1-15')rng=pd.date_range(start,end,freq='2h')df=pd.DataFrame({'timestamp':rng,'values':np.random.randint(0,100,len(rng))})df=df.set_index(['timestamp'])我想删除这两个时间戳之间的行:start_remove=pd.to_datetime('2016-1-4')end_remove=pd.to_datetime

python - 使用 pandas TimeSeries 创建热图

我需要使用PandasDataFrameTimeSeries列(df_all.ts)作为我的X轴来创建MatplotLib热图(pcolormesh)。如何将PandasTimeSeries列转换为可在np.meshgrid(x,y)函数中用作X轴的内容以创建热图?解决方法是使用与pandas列中相同的参数创建Matplotlibdrange,但有没有简单的方法?x=pd.date_range(df_all.ts.min(),df_all.ts.max(),freq='H')xt=mdates.drange(df_all.ts.min(),df_all.ts.max(),dt.time

【时间序列】Transformer for TimeSeries时序预测算法详解

一、介绍1.1背景2017年,Google的一篇 AttentionIsAllYouNeed 为我们带来了Transformer,其在NLP领域的重大成功展示了它对时序数据的强大建模能力,自然有人想要把Transformer应用到时序数据预测上。在Transformer的基础上构建时序预测能力可以突破以往的诸多限制,最明显的一个增益点是,TransformerforTS可以基于Multi-headAttention结构具备同时建模长期和短期时序特征的能力。本文将要介绍的一个充分利用了Transformer的优势,并在Transformer的基础上改进了Attention的计算方式以适应时序数据

python - 重新采样具有特定开始时间的每小时 TimeSeries

我想从某个小时开始以每天(正好24小时)的频率重新采样TimeSeries。喜欢:index=date_range(datetime(2012,1,1,17),freq='H',periods=60)ts=Series(data=[1]*60,index=index)ts.resample(rule='D',how='sum',closed='left',label='left')我得到的结果:2012-01-0172012-01-02242012-01-03242012-01-045Freq:D我希望的结果:2012-01-0117:00:00242012-01-0217:00:00

python - 重新采样具有特定开始时间的每小时 TimeSeries

我想从某个小时开始以每天(正好24小时)的频率重新采样TimeSeries。喜欢:index=date_range(datetime(2012,1,1,17),freq='H',periods=60)ts=Series(data=[1]*60,index=index)ts.resample(rule='D',how='sum',closed='left',label='left')我得到的结果:2012-01-0172012-01-02242012-01-03242012-01-045Freq:D我希望的结果:2012-01-0117:00:00242012-01-0217:00:00
12