jjzjj

python - HDF5 与包含文件的文件夹有何不同?

coder 2023-05-21 原文

我正在处理 open source project处理向文件夹添加元数据。提供的 (Python) API 让您可以像浏览和访问另一个文件夹一样浏览和访问元数据。因为它只是另一个文件夹。

\folder\.meta\folder\somedata.json

然后我遇到了HDF5及其推导Alembic .

阅读书中关于 HDF5 的内容 Python and HDF5与使用文件夹中的文件相比,我一直在寻找使用它的好处,但我遇到的大部分内容都谈到了分层文件格式的好处,即通过其 API 添加数据的简单性:
>>> import h5py
>>> f = h5py.File("weather.hdf5")
>>> f["/15/temperature"] = 21

或者它能够根据请求仅读取其中的某些部分(例如随机访问),以及并行执行单个 HDF5 文件(例如用于多处理)

您可以挂载 HDF5 文件,https://github.com/zjttoefs/hdfuse5

它甚至拥有强大而简单的基础概念群组 数据集 来自维基的内容是:
  • 数据集,它们是同构类型的多维数组
  • 组,它们是容器结构,可以保存数据集和
    其他组

  • 替换 数据集 文件 文件夹整个功能集在我看来就像文件夹中的文件已经完全有能力做的那样。

    对于我遇到的每一个好处,没有一个是 HDF5 独有的。

    所以我的问题是,如果我给你一个 HDF5 文件和一个包含文件的文件夹,两者都具有相同的内容,那么 HDF5 更适合哪种情况?

    编辑:

    得到了一些关于 HDF5 可移植性的回应。

    这听起来很可爱,但我仍然没有得到一个例子,一个场景,在这个场景中,HDF5 会胜过包含文件的文件夹。当文件夹在任何计算机、任何文件系统、网络上可读、支持“并行 I/O”、无需 HDF5 解释器即可被人类读取时,为什么有人会考虑使用 HDF5。

    我会说,一个包含文件的文件夹比任何 HDF5 都更便携。

    编辑2:

    Thucydides411 只是举例说明了可移植性很重要的场景。
    https://stackoverflow.com/a/28512028/478949

    我认为我从该线程中的答案中得出的结论是,当您需要文件和文件夹的组织结构时,HDF5 非常适合,就像上面的示例场景一样,有很多(数百万)小(~1 字节)数据结构;像单个数字或字符串。它通过提供一个有利于小而多而不是少数和大的“子文件系统”来弥补文件系统的不足。

    在计算机图形学中,我们使用它来存储几何模型和关于单个顶点的任意数据,这似乎与它在科学界的使用非常吻合。

    最佳答案

    作为开发从使用文件文件夹到 HDF5 的科学项目的人,我想我可以阐明 HDF5 的优势。

    当我开始我的项目时,我正在对小型测试数据集进行操作,并产生少量输出,在千字节范围内。我从最简单的数据格式开始,即编码为 ASCII 的表格。对于我处理的每个对象,我都在 ASCII 表上生成。

    我开始将我的代码应用于对象组,这意味着在每次运行结束时编写多个 ASCII 表,以及包含与整个组相关的输出的附加 ASCII 表。对于每个组,我现在有一个如下所示的文件夹:

    + group
    |    |-- object 1
    |    |-- object 2
    |    |-- ...
    |    |-- object N
    |    |-- summary
    

    在这一点上,我开始遇到我的第一个困难。 ASCII 文件的读写速度非常慢,并且它们不能非常有效地打包数字信息,因为每个数字都需要一个完整的字节来编码,而不是大约 3.3 位。所以我转而将每个对象作为自定义二进制文件写入,这加快了 I/O 并减小了文件大小。

    当我扩大到处理大量(数万到数百万)组时,我突然发现自己要处理大量的文件和文件夹。对于许多文件系统来说,拥有太多小文件可能是一个问题(许多文件系统可以存储的文件数量是有限的,无论磁盘空间有多少)。我还开始发现,当我尝试对整个数据集进行后处理时,读取许多小文件的磁盘 I/O 开始占用相当多的时间。我试图通过合并我的文件来解决这些问题,因此我只为每个组生成两个文件:
    + group 1
    |    |-- objects
    |    |-- summary
    + group 2
    |    |-- objects
    |    |-- summary
    ...
    

    我还想压缩我的数据,所以我开始为组的集合创建 .tar.gz 文件。

    此时,我的整个数据方案变得非常繁琐,并且存在风险,如果我想将我的数据交给其他人,则需要花费大量精力向他们解释如何使用它。例如,包含对象的二进制文件有它们自己的内部结构,该结构仅存在于存储库的 README 文件中和我办公室的纸本上。无论谁想要读取我的组合对象二进制文件之一,都必须知道 header 中每个元数据条目的字节偏移量、类型和字节序,以及文件中每个对象的字节偏移量。如果他们不这样做,该文件对他们来说就是胡言乱语。

    我对数据进行分组和压缩的方式也带来了问题。假设我想找到一个对象。我必须找到它所在的 .tar.gz 文件,将存档的全部内容解压缩到一个临时文件夹,导航到我感兴趣的组,并使用我自己的自定义 API 检索对象以读取我的二进制文件.完成后,我会删除临时解压缩的文件。这不是一个优雅的解决方案。

    此时,我决定切换到标准格式。 HDF5 之所以具有吸引力,原因有很多。首先,我可以将我的数据整体组织成组、对象数据集和汇总数据集。其次,我可以放弃我的自定义二进制文件 I/O API,而只使用一个多维数组数据集来存储一个组中的所有对象。我什至可以创建更复杂数据类型的数组,比如 C 的数组。结构,而不必仔细记录每个条目的字节偏移量。接下来,HDF5 进行了分块压缩,这对数据的最终用户来说是完全透明的。因为压缩是分块的,如果我认为用户想要查看单个对象,我可以将每个对象压缩在一个单独的块中,以便只需要解压缩用户感兴趣的数据集部分。分块压缩是一个非常强大的功能。

    最后,我现在可以只给某人一个文件,而无需解释它的内部组织方式。最终用户可以使用 Python、C、Fortran 或 h5ls 读取文件。在命令行或 GUI HDFView 上,看看里面有什么。我的自定义二进制格式不可能做到这一点,更不用说我的 .tar.gz 集合了。

    当然,可以使用文件夹、ASCII 和自定义二进制文件复制 HDF5 所能做的一切。这就是我最初所做的,但它成为了一个令人头疼的问题,最终,HDF5 以一种高效且便携的方式完成了我拼凑的所有工作。

    关于python - HDF5 与包含文件的文件夹有何不同?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22125778/

    有关python - HDF5 与包含文件的文件夹有何不同?的更多相关文章

    1. ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2

      我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看ruby​​zip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d

    2. ruby - 其他文件中的 Rake 任务 - 2

      我试图在一个项目中使用rake,如果我把所有东西都放到Rakefile中,它会很大并且很难读取/找到东西,所以我试着将每个命名空间放在lib/rake中它自己的文件中,我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题,但没有任务。我现在只有一个.rake文件作为测试,名为“servers.rake”,它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时

    3. ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2

      我的目标是转换表单输入,例如“100兆字节”或“1GB”,并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前,我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效,但前提是输入是倍数(“gigabytes”,而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以,功能正常,

    4. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

      关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

    5. ruby-on-rails - Rails 3 中的多个路由文件 - 2

      Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情? 最佳答案 在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中,使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件,我们在StackOverflow上找到一个类似的问题

    6. ruby - 将差异补丁应用于字符串/文件 - 2

      对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl

    7. ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2

      我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚

    8. ruby - 使用 Vim Rails,您可以创建一个新的迁移文件并一次性打开它吗? - 2

      使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta

    9. ruby - 检查 "command"的输出应该包含 NilClass 的意外崩溃 - 2

      为了将Cucumber用于命令行脚本,我按照提供的说明安装了arubagem。它在我的Gemfile中,我可以验证是否安装了正确的版本并且我已经包含了require'aruba/cucumber'在'features/env.rb'中为了确保它能正常工作,我写了以下场景:@announceScenario:Testingcucumber/arubaGivenablankslateThentheoutputfrom"ls-la"shouldcontain"drw"假设事情应该失败。它确实失败了,但失败的原因是错误的:@announceScenario:Testingcucumber/ar

    10. Ruby 写入和读取对象到文件 - 2

      好的,所以我的目标是轻松地将一些数据保存到磁盘以备后用。您如何简单地写入然后读取一个对象?所以如果我有一个简单的类classCattr_accessor:a,:bdefinitialize(a,b)@a,@b=a,bendend所以如果我从中非常快地制作一个objobj=C.new("foo","bar")#justgaveitsomerandomvalues然后我可以把它变成一个kindaidstring=obj.to_s#whichreturns""我终于可以将此字符串打印到文件或其他内容中。我的问题是,我该如何再次将这个id变回一个对象?我知道我可以自己挑选信息并制作一个接受该信

    随机推荐