hdfstore_JJZJJ

hadoop - 使用 Hadoop 存储股市报价数据

我在学习Hadoop及其相关的各种项目时很开心，目前我正在考虑构建一个系统来存储大量市场报价数据的2种不同策略，我才刚刚开始使用Hadoop/HDSF和HBase，但希望有人可以帮助我种下系统种子，以后使用这些技术时我就不必将其丢弃。下面是我的系统和要求的概述，以及一些查询和数据使用用例，最后是我目前从我阅读的少量文档中考虑的最佳方法。这是一个开放式问题，我很乐意喜欢任何有见地的答案并接受最好的答案，请随时对以下任何或所有要点发表评论。-邓肯克雷布斯系统要求-能够利用数据存储对系统进行历史回溯测试、历史数据制图和future数据挖掘。一旦存储，数据将始终是只读的，快速数据访问是需要的，

python - HDFStore 附加错误 - "Cannot serialize the column"

我有一个数据框，df:datetimebidaskbidvolumeaskvolume02007-03-3021:00:00.3320001.96821.967840.8尝试将其附加到新的数据存储。数据存储不存在，因此我使用以下内容创建和附加数据；store=pd.HDFStore(storePath,mode='w')store.append('data',df)store.close()我收到此错误:在store.append行。TypeError:Cannotserializethecolumn[bid]becauseitsdatacontentsare[floating]obj

amp serialize code section pre python pandas

python - 当字符串列内容比已有内容长时，HDFStore.append(string, DataFrame) 失败

我有一个通过HDFStore存储的PandasDataFrame，它主要存储有关我正在执行的测试运行的摘要行。每行中的几个字段包含可变长度的描述性字符串。当我进行测试运行时，我创建了一个新的DataFrame，其中只有一行:defexport_as_df(self):returnpd.DataFrame(data=[self._to_dict()],index=[datetime.datetime.now()])然后调用HDFStore.append(string,DataFrame)将新行添加到现有的DataFrame。除了其中一个字符串列的内容大于已经存在的最长实例之外，这工作正常

长时串列 pandas itemsize min_itemsize python dataframe hdf5 pytables

python - 从 pandas.HDFStore 表中选择列

如何从pandasHDFStore中检索特定列？我经常处理非常大的数据集，这些数据集太大而无法在内存中进行操作。我想迭代地读取csv文件，将每个block附加到HDFStore对象中，然后处理数据的子集。我已经阅读了一个简单的csv文件并将其加载到HDFStore中，代码如下:tmp=pd.HDFStore('test.h5')chunker=pd.read_csv('cars.csv',iterator=True,chunksize=10,names=['make','model','drop'])tmp.append('df',pd.concat([chunkforchunkinc

中选 HDFStore 39 code section python pandas hdfs

python - 从 pandas.HDFStore 表中选择列

如何从pandasHDFStore中检索特定列？我经常处理非常大的数据集，这些数据集太大而无法在内存中进行操作。我想迭代地读取csv文件，将每个block附加到HDFStore对象中，然后处理数据的子集。我已经阅读了一个简单的csv文件并将其加载到HDFStore中，代码如下:tmp=pd.HDFStore('test.h5')chunker=pd.read_csv('cars.csv',iterator=True,chunksize=10,names=['make','model','drop'])tmp.append('df',pd.concat([chunkforchunkinc

中选 HDFStore 39 code section python pandas hdfs

python - pandas HDFStore - 如何重新打开？

我使用以下方法创建了一个文件:store=pd.HDFStore('/home/.../data.h5')并使用以下方法存储了一些表:store['firstSet']=df1store.close()我关闭了python并在一个新的环境中重新打开。如何重新打开此文件？我去的时候:store=pd.HDFStore('/home/.../data.h5')我收到以下错误。Traceback(mostrecentcalllast):File"",line1,inFile"/misc/apps/linux/python-2.6.1/lib/python2.6/site-packages/p

HDFStore python 34 File pandas

python - pandas HDFStore - 如何重新打开？

我使用以下方法创建了一个文件:store=pd.HDFStore('/home/.../data.h5')并使用以下方法存储了一些表:store['firstSet']=df1store.close()我关闭了python并在一个新的环境中重新打开。如何重新打开此文件？我去的时候:store=pd.HDFStore('/home/.../data.h5')我收到以下错误。Traceback(mostrecentcalllast):File"",line1,inFile"/misc/apps/linux/python-2.6.1/lib/python2.6/site-packages/p

HDFStore python 34 File pandas

python - Pandas "Group By"查询 HDFStore 中的大数据？

HDFStore中有大约700万行，有60多列。数据超出了我的内存。我希望根据“A”列的值将数据聚合成组。pandas的文档splitting/aggregating/combining假设我已经将所有数据都保存在DataFrame中，但是我无法将整个存储区读入内存中的DataFrame。在HDFStore中对数据进行分组的正确方法是什么？最佳答案这是一个完整的例子。importnumpyasnpimportpandasaspdimportosfname='groupby.h5'#createaframedf=pd.DataFr

大数 amp 39 code shiny python pandas pytables

python - Pandas "Group By"查询 HDFStore 中的大数据？

HDFStore中有大约700万行，有60多列。数据超出了我的内存。我希望根据“A”列的值将数据聚合成组。pandas的文档splitting/aggregating/combining假设我已经将所有数据都保存在DataFrame中，但是我无法将整个存储区读入内存中的DataFrame。在HDFStore中对数据进行分组的正确方法是什么？最佳答案这是一个完整的例子。importnumpyasnpimportpandasaspdimportosfname='groupby.h5'#createaframedf=pd.DataFr

大数 amp 39 code shiny python pandas pytables

python - ImportError HDFStore 需要 PyTables 没有名为表的模块

importpandasaspddfs=pd.HDFStore('xxxxx.h5')抛出此错误:"ImportError:HDFStorerequiresPyTables,"Nomodulenamedtables"导入问题"我尝试安装需要Cython的PyTables。我安装了Cython0.21，但它抛出一个错误，指出Cython应该大于0.13这是我得到的日志:"..ERROR::YouneedCython0.13orgreatertocompilePyTables!----------------------------------------Cleaningup...Comm

ImportError 名为 section code Cython python pandas hdf5