瞄准
将我的 elasticsearch 服务器与我的 SQL 数据库中的新数据和过期数据同步
问题
我有两种截然不同的方法可以实现这一点,我不知道哪种更好。我可以通过使用 JDBC river 插件直接连接到 SQL 数据库来拉 信息到 elasticsearch。或者,我可以使用 PHP 客户端将数据推送 到 elasticsearch,示例代码如下所示:
// The Id of the document
$id = 1;
// Create a document
$tweet = array(
'id' => $id,
'user' => array(
'name' => 'mewantcookie',
'fullName' => 'Cookie Monster'
),
'msg' => 'Me wish there were expression for cookies like there is for apples. "A cookie a day make the doctor diagnose you with diabetes" not catchy.',
'tstamp' => '1238081389',
'location'=> '41.12,-71.34',
'_boost' => 1.0
);
// First parameter is the id of document.
$tweetDocument = new \Elastica\Document($id, $tweet);
// Add tweet to type
$elasticaType->addDocument($tweetDocument);
// Refresh Index
$elasticaType->getIndex()->refresh();
我打算每 30 分钟运行一次 cron,以检查数据库中不仅有“事件”标志而且没有“索引”标志的项目,这意味着我需要将它们添加到索引。
问题
看到我有两种方法以两种不同的方式在elasticsearch和mysql之间同步数据,每个选项的优点和缺点是什么。是否有一个特定的用例定义了使用一个而不是另一个?
最佳答案
我会使用河流方法,甚至认为内部构建解决方案可能更可定制。
一方面,jdbc-river 插件是一个已经构建好的插件,到目前为止它有大约 20 个贡献者。因此,在 Elasticsearch 本身不断改进的过程中,您有一个额外的团队致力于改进该工具。
您所要做的就是安装它,您甚至不需要复杂的配置来在集群和关系数据库之间设置一条河流。
jdbc-river 解决方案的另一个优点是您不需要处理内存管理。该插件可以在“拉模式”下作为河流运行,或在“推模式”下作为馈线运行。在 feeder 模式下,插件在单独的 JVM 中运行,并且可以连接到远程 Elasticsearch 集群。我个人更喜欢 river 模式,因为在这种情况下,Elasticsearch 会处理索引和内存管理问题。
关系数据在内部转换为结构化 JSON 对象,用于 Elasticsearch 文档的无模式索引模型。
两端都是可扩展的。该插件可以从不同的 RDBMS 源并行获取数据,多线程批量模式可确保索引到 Elasticsearch 时的高吞吐量。
此解决方案的缺点之一是它不会在完成索引时发出通知。作为解决方案,我建议您使用 Count API比较结果。
河流的另一个缺点是它不会在更新 时拉动,它只会在插入 或删除 时拉动。我指的当然是 sql 操作更新、插入和删除。
二手,您的解决方案可能会带来一些您可能需要考虑的优点和缺点。
您的解决方案是高度可定制的,因此您可以根据需要管理脚本。但是考虑到任何可用的 PHP Elasticsearch 客户端(Official Elasticseach-php Client、Elastica 或 FOSElasticaBundle)的当前状态,甚至认为这些人在它们上做得很好,它仍然被认为是一个不太成熟的 API 可以使用与用于河流的官方 Elasticsearch JAVA API 相比,在该级别上。
您还应该考虑处理所有可能导致集群因内存丢失、管理、性能等问题而出现的错误。
示例:我尝试使用 Elastica API 构建概念验证,将我的数据从我的数据库推送到我的集群,配置为 32g RAM,8 个内核,每个内核运行 @2.05GHz,在测试环境中,没有进入很多细节。我花了5个小时才把10M条记录从数据库推送到集群。与河流一样,同样的记录需要 20 分钟。当然,可以围绕我的代码进行优化,但我认为它可以给我带来更多的时间。
所以,只要能根据自己的需要定制河流,就用吧。如果河流不支持你想做的事情,那么你可以坚持自己的解决方案。
注意:当然,您可能还需要考虑其他要点,但这个主题在这里讨论的时间很长。所以我选择了一些你应该知道的重要点。
关于php - Elasticsearch - 我需要 JDBC 驱动程序吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25763997/
我需要在客户计算机上运行Ruby应用程序。通常需要几天才能完成(复制大备份文件)。问题是如果启用sleep,它会中断应用程序。否则,计算机将持续运行数周,直到我下次访问为止。有什么方法可以防止执行期间休眠并让Windows在执行后休眠吗?欢迎任何疯狂的想法;-) 最佳答案 Here建议使用SetThreadExecutionStateWinAPI函数,使应用程序能够通知系统它正在使用中,从而防止系统在应用程序运行时进入休眠状态或关闭显示。像这样的东西:require'Win32API'ES_AWAYMODE_REQUIRED=0x0
当我使用Bundler时,是否需要在我的Gemfile中将其列为依赖项?毕竟,我的代码中有些地方需要它。例如,当我进行Bundler设置时:require"bundler/setup" 最佳答案 没有。您可以尝试,但首先您必须用鞋带将自己抬离地面。 关于ruby-我需要将Bundler本身添加到Gemfile中吗?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/4758609/
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
我想用ruby编写一个小的命令行实用程序并将其作为gem分发。我知道安装后,Guard、Sass和Thor等某些gem可以从命令行自行运行。为了让gem像二进制文件一样可用,我需要在我的gemspec中指定什么。 最佳答案 Gem::Specification.newdo|s|...s.executable='name_of_executable'...endhttp://docs.rubygems.org/read/chapter/20 关于ruby-在Ruby中编写命令行实用程序
我构建了两个需要相互通信和发送文件的Rails应用程序。例如,一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情,所以我什至不知道从哪里开始。任何帮助,将不胜感激。谢谢! 最佳答案 无论Rails是什么,几乎所有Web应用程序都有您的要求,大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去,网站不应直接访问彼此
我尝试运行2.x应用程序。我使用rvm并为此应用程序设置其他版本的ruby:$rvmuseree-1.8.7-head我尝试运行服务器,然后出现很多错误:$script/serverNOTE:Gem.source_indexisdeprecated,useSpecification.Itwillberemovedonorafter2011-11-01.Gem.source_indexcalledfrom/Users/serg/rails_projects_terminal/work_proj/spohelp/config/../vendor/rails/railties/lib/r
刚入门rails,开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗?有哪些用例。您如何为Rails应用程序使用应用程序Controller?我不想在那里放太多代码,因为据我了解,每个请求都会调用此Controller。这是真的? 最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度,尽管在某些情况下ApplicationContr
我注意到像bundler这样的项目在每个specfile中执行requirespec_helper我还注意到rspec使用选项--require,它允许您在引导rspec时要求一个文件。您还可以将其添加到.rspec文件中,因此只要您运行不带参数的rspec就会添加它。使用上述方法有什么缺点可以解释为什么像bundler这样的项目选择在每个规范文件中都需要spec_helper吗? 最佳答案 我不在Bundler上工作,所以我不能直接谈论他们的做法。并非所有项目都checkin.rspec文件。原因是这个文件,通常按照当前的惯例,只
我实际上是在尝试使用RVM在我的OSX10.7.5上更新ruby,并在输入以下命令后:rvminstallruby我得到了以下回复:Searchingforbinaryrubies,thismighttakesometime.Checkingrequirementsforosx.Installingrequirementsforosx.Updatingsystem.......Errorrunning'requirements_osx_brew_update_systemruby-2.0.0-p247',pleaseread/Users/username/.rvm/log/138121
我是一个Rails初学者,但我想从我的RailsView(html.haml文件)中查看Ruby变量的内容。我试图在ruby中打印出变量(认为它会在终端中出现),但没有得到任何结果。有什么建议吗?我知道Rails调试器,但更喜欢使用inspect来打印我的变量。 最佳答案 您可以在View中使用puts方法将信息输出到服务器控制台。您应该能够在View中的任何位置使用Haml执行以下操作:-puts@my_variable.inspect 关于ruby-on-rails-如何在我的R