jjzjj

用于合并排序文件的 Python 类,如何改进?

背景:我正在清理以制表符分隔的大型(无法保存在内存中)文件。当我清理输入文件时,我在内存中建立了一个列表;当它达到1,000,000个条目(大约1GB内存)时,我对其进行排序(使用下面的默认键)并将列表写入文件。此类用于将排序的文件放回一起。它适用于我迄今为止遇到的文件。到目前为止,我最大的案例是合并66个排序文件。问题:我的逻辑是否存在漏洞(哪里脆弱)?我实现了归并排序吗算法正确吗?是否有任何明显的改进可以做吗?示例数据:这是对其中一个文件中一行的抽象:'hash_of_SomeStringId\tSomeStringId\t\t\twww.somelink.com\t\tOther

linux - 在 bash 创建的 tar 中排序文件

知道如何按特定顺序压缩文件。我知道一开始听起来很奇怪,但请听我说完。OVA文件本质上是一个tar文件,但具有特定的顺序。Tar通常用于创建文件,但为了让OVA被VMware等HyperVisors识别,OVA中的文件必须以非常特定的方式排序。.ovf文件必须位于OVA中的第一个,其他文件必须按照它们在.ovf中列出的顺序出现这里只是一个快速的树来帮助解释:VM.ova--||--VM.ovf|--VM.mf|--VM.vmdk|--VM.iso这是正确的顺序。当我尝试使用tar创建ova时,它可以工作,但顺序错误。这就是我的做法。这实际上非常基础。tar-cvfVM.ova*我只是深入