jjzjj

hdfstore

全部标签

hadoop - 使用 Hadoop 存储股市报价数据

我在学习Hadoop及其相关的各种项目时很开心,目前我正在考虑构建一个系统来存储大量市场报价数据的2种不同策略,我才刚刚开始使用Hadoop/HDSF和HBase,但希望有人可以帮助我种下系统种子,以后使用这些技术时我就不必将其丢弃。下面是我的系统和要求的概述,以及一些查询和数据使用用例,最后是我目前从我阅读的少量文档中考虑的最佳方法。这是一个开放式问题,我很乐意喜欢任何有见地的答案并接受最好的答案,请随时对以下任何或所有要点发表评论。-邓肯克雷布斯系统要求-能够利用数据存储对系统进行历史回溯测试、历史数据制图和future数据挖掘。一旦存储,数据将始终是只读的,快速数据访问是需要的,

python - HDFStore 附加错误 - "Cannot serialize the column"

我有一个数据框,df:datetimebidaskbidvolumeaskvolume02007-03-3021:00:00.3320001.96821.967840.8尝试将其附加到新的数据存储。数据存储不存在,因此我使用以下内容创建和附加数据;store=pd.HDFStore(storePath,mode='w')store.append('data',df)store.close()我收到此错误:在store.append行。TypeError:Cannotserializethecolumn[bid]becauseitsdatacontentsare[floating]obj

python - 当字符串列内容比已有内容长时,HDFStore.append(string, DataFrame) 失败

我有一个通过HDFStore存储的PandasDataFrame,它主要存储有关我正在执行的测试运行的摘要行。每行中的几个字段包含可变长度的描述性字符串。当我进行测试运行时,我创建了一个新的DataFrame,其中只有一行:defexport_as_df(self):returnpd.DataFrame(data=[self._to_dict()],index=[datetime.datetime.now()])然后调用HDFStore.append(string,DataFrame)将新行添加到现有的DataFrame。除了其中一个字符串列的内容大于已经存在的最长实例之外,这工作正常

python - 从 pandas.HDFStore 表中选择列

如何从pandasHDFStore中检索特定列?我经常处理非常大的数据集,这些数据集太大而无法在内存中进行操作。我想迭代地读取csv文件,将每个block附加到HDFStore对象中,然后处理数据的子集。我已经阅读了一个简单的csv文件并将其加载到HDFStore中,代码如下:tmp=pd.HDFStore('test.h5')chunker=pd.read_csv('cars.csv',iterator=True,chunksize=10,names=['make','model','drop'])tmp.append('df',pd.concat([chunkforchunkinc

python - 从 pandas.HDFStore 表中选择列

如何从pandasHDFStore中检索特定列?我经常处理非常大的数据集,这些数据集太大而无法在内存中进行操作。我想迭代地读取csv文件,将每个block附加到HDFStore对象中,然后处理数据的子集。我已经阅读了一个简单的csv文件并将其加载到HDFStore中,代码如下:tmp=pd.HDFStore('test.h5')chunker=pd.read_csv('cars.csv',iterator=True,chunksize=10,names=['make','model','drop'])tmp.append('df',pd.concat([chunkforchunkinc

python - pandas HDFStore - 如何重新打开?

我使用以下方法创建了一个文件:store=pd.HDFStore('/home/.../data.h5')并使用以下方法存储了一些表:store['firstSet']=df1store.close()我关闭了python并在一个新的环境中重新打开。如何重新打开此文件?我去的时候:store=pd.HDFStore('/home/.../data.h5')我收到以下错误。Traceback(mostrecentcalllast):File"",line1,inFile"/misc/apps/linux/python-2.6.1/lib/python2.6/site-packages/p

python - pandas HDFStore - 如何重新打开?

我使用以下方法创建了一个文件:store=pd.HDFStore('/home/.../data.h5')并使用以下方法存储了一些表:store['firstSet']=df1store.close()我关闭了python并在一个新的环境中重新打开。如何重新打开此文件?我去的时候:store=pd.HDFStore('/home/.../data.h5')我收到以下错误。Traceback(mostrecentcalllast):File"",line1,inFile"/misc/apps/linux/python-2.6.1/lib/python2.6/site-packages/p

python - Pandas "Group By"查询 HDFStore 中的大数据?

HDFStore中有大约700万行,有60多列。数据超出了我的内存。我希望根据“A”列的值将数据聚合成组。pandas的文档splitting/aggregating/combining假设我已经将所有数据都保存在DataFrame中,但是我无法将整个存储区读入内存中的DataFrame。在HDFStore中对数据进行分组的正确方法是什么? 最佳答案 这是一个完整的例子。importnumpyasnpimportpandasaspdimportosfname='groupby.h5'#createaframedf=pd.DataFr

python - Pandas "Group By"查询 HDFStore 中的大数据?

HDFStore中有大约700万行,有60多列。数据超出了我的内存。我希望根据“A”列的值将数据聚合成组。pandas的文档splitting/aggregating/combining假设我已经将所有数据都保存在DataFrame中,但是我无法将整个存储区读入内存中的DataFrame。在HDFStore中对数据进行分组的正确方法是什么? 最佳答案 这是一个完整的例子。importnumpyasnpimportpandasaspdimportosfname='groupby.h5'#createaframedf=pd.DataFr

python - ImportError HDFStore 需要 PyTables 没有名为表的模块

importpandasaspddfs=pd.HDFStore('xxxxx.h5')抛出此错误:"ImportError:HDFStorerequiresPyTables,"Nomodulenamedtables"导入问题"我尝试安装需要Cython的PyTables。我安装了Cython0.21,但它抛出一个错误,指出Cython应该大于0.13这是我得到的日志:"..ERROR::YouneedCython0.13orgreatertocompilePyTables!----------------------------------------Cleaningup...Comm
12