序文_JJZJJ

用于合并排序文件的 Python 类，如何改进？

背景:我正在清理以制表符分隔的大型(无法保存在内存中)文件。当我清理输入文件时，我在内存中建立了一个列表；当它达到1,000,000个条目(大约1GB内存)时，我对其进行排序(使用下面的默认键)并将列表写入文件。此类用于将排序的文件放回一起。它适用于我迄今为止遇到的文件。到目前为止，我最大的案例是合并66个排序文件。问题:我的逻辑是否存在漏洞(哪里脆弱)？我实现了归并排序吗算法正确吗？是否有任何明显的改进可以做吗？示例数据:这是对其中一个文件中一行的抽象:'hash_of_SomeStringId\tSomeStringId\t\t\twww.somelink.com\t\tOther

linux - 在 bash 创建的 tar 中排序文件

知道如何按特定顺序压缩文件。我知道一开始听起来很奇怪，但请听我说完。OVA文件本质上是一个tar文件，但具有特定的顺序。Tar通常用于创建文件，但为了让OVA被VMware等HyperVisors识别，OVA中的文件必须以非常特定的方式排序。.ovf文件必须位于OVA中的第一个，其他文件必须按照它们在.ovf中列出的顺序出现这里只是一个快速的树来帮助解释:VM.ova--||--VM.ovf|--VM.mf|--VM.vmdk|--VM.iso这是正确的顺序。当我尝试使用tar创建ova时，它可以工作，但顺序错误。这就是我的做法。这实际上非常基础。tar-cvfVM.ova*我只是深入