jjzjj

php - 处理 900,000 条记录数据库和邮政编码的最佳方法?

coder 2023-10-21 原文

与我们有业务往来的一家公司希望每天向我们提供一个 1.2 GB 的 CSV 文件,其中包含大约 900,000 个产品列表。每天只有一小部分文件发生变化,可能少于 0.5%,而且实际上只是产品被添加或删除,而不是被修改。我们需要向我们的合作伙伴展示产品列表。

让事情变得更复杂的是,我们的合作伙伴应该只能看到其邮政编码 30-500 英里半径范围内可用的产品列表。每个产品列表行都有一个字段,用于说明产品的实际半径(有些只有 30,有些是 500,有些是 100,等等。500 是最大值)。给定邮政编码的合作伙伴可能只有 20 个左右的结果,这意味着将有大量未使用的数据。我们无法提前知道所有合作伙伴的邮政编码。

我们必须考虑性能,所以我不确定最好的方法是什么。

我是否应该有两个数据库——一个包含邮政编码和纬度/经度并使用 Haversine 公式计算距离……另一个是实际产品数据库……然后我该怎么做?返回给定半径内的所有邮政编码并在产品数据库中查找匹配项?对于 500 英里的半径,这将是一大堆邮政编码。或者写一个MySQL函数?

我们可以使用 Amazon SimpleDB 来存储数据库...但是我仍然遇到邮政编码方面的问题。我可以创建两个亚马逊称之为“域”的域,一个用于产品,一个用于邮政编码?不过,我认为您不能跨多个 SimpleDB 域进行查询。至少,我在他们的文档中没有看到这一点。

我完全愿意接受其他一些解决方案。它不一定是 PHP/MySQL 或 SimpleDB。请记住,我们的专用服务器是 2 GB 的 P4。我们可以升级 RAM,只是我们不能为此投入大量的处理能力。或者甚至每晚在 VPS 上的某个地方存储和处理数据库,如果在处理 1.2 gb CSV 时 VPS 慢得令人难以忍受,这不会成为问题。我们甚至可以在台式计算机上离线处理文件,然后每天远程更新数据库……除非这样我仍然遇到邮政编码和产品列表需要交叉引用的问题。

最佳答案

您可能想查看 PostgreSQL 和 Postgis .它具有与 MySQL 类似的功能 spacial indexing功能,无需使用 MyISAM(根据我的经验,与 InnoDB 相比,MyISAM 往往会损坏)。

特别是 Postgres 9.1,它允许 k-nearest neighbour search使用 GIST 索引进行查询。

关于php - 处理 900,000 条记录数据库和邮政编码的最佳方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6271788/

有关php - 处理 900,000 条记录数据库和邮政编码的最佳方法?的更多相关文章

  1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

    我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

  2. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

    总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

  3. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

    类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

  4. ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2

    很好奇,就使用ruby​​onrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提

  5. ruby - Facter::Util::Uptime:Module 的未定义方法 get_uptime (NoMethodError) - 2

    我正在尝试设置一个puppet节点,但ruby​​gems似乎不正常。如果我通过它自己的二进制文件(/usr/lib/ruby/gems/1.8/gems/facter-1.5.8/bin/facter)在cli上运行facter,它工作正常,但如果我通过由ruby​​gems(/usr/bin/facter)安装的二进制文件,它抛出:/usr/lib/ruby/1.8/facter/uptime.rb:11:undefinedmethod`get_uptime'forFacter::Util::Uptime:Module(NoMethodError)from/usr/lib/ruby

  6. Ruby 方法() 方法 - 2

    我想了解Ruby方法methods()是如何工作的。我尝试使用“ruby方法”在Google上搜索,但这不是我需要的。我也看过ruby​​-doc.org,但我没有找到这种方法。你能详细解释一下它是如何工作的或者给我一个链接吗?更新我用methods()方法做了实验,得到了这样的结果:'labrat'代码classFirstdeffirst_instance_mymethodenddefself.first_class_mymethodendendclassSecond使用类#returnsavailablemethodslistforclassandancestorsputsSeco

  7. ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby​​ 中生成它们? - 2

    我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%

  8. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  9. ruby - 如何指定 Rack 处理程序 - 2

    Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack

  10. ruby - 用逗号、双引号和编码解析 csv - 2

    我正在使用ruby​​1.9解析以下带有MacRoman字符的csv文件#encoding:ISO-8859-1#csv_parse.csvName,main-dialogue"Marceu","Giveittohimóhe,hiswife."我做了以下解析。require'csv'input_string=File.read("../csv_parse.rb").force_encoding("ISO-8859-1").encode("UTF-8")#=>"Name,main-dialogue\r\n\"Marceu\",\"Giveittohim\x97he,hiswife.\"\

随机推荐