mongodb - 大量集合的聚合管道缓慢

coder 2023-11-03 原文

我有一个包含超过 2 亿个文档的集合，其中包含维度(我想过滤或分组的内容)和指标(我想求和或获取平均值的内容)。我目前遇到了一些性能问题，我希望获得一些关于如何优化/扩展 MongoDB 的建议或关于替代解决方案的建议。我正在使用 WiredTiger 运行最新的稳定版 MongoDB。这些文件基本上如下所示:

{
  "dimensions": {
    "account_id": ObjectId("590889944befcf34204dbef2"),
    "url": "https://test.com",
    "date": ISODate("2018-03-04T23:00:00.000+0000")
  },
  "metrics": {
    "cost": 155,
    "likes": 200
  }
}

我在这个集合上有三个索引，因为在这个集合上运行了各种聚合:

帐号编号
日期
account_id 和日期

以下聚合查询获取 3 个月的数据，汇总成本和喜欢并按周/年分组:

db.large_collection.aggregate(

    [
        {
            $match: { "dimensions.date": { $gte: new Date(1512082800000), $lte: new Date(1522447200000) } }
        },

        {
            $match: { "dimensions.account_id": { $in: [ "590889944befcf34204dbefc", "590889944befcf34204dbf1f", "590889944befcf34204dbf21" ] }}
        },

        {
            $group: { 
              cost: { $sum: "$metrics.cost" }, 
              likes: { $sum: "$metrics.likes" }, 
              _id: { 
                year: { $year: { date: "$dimensions.date", timezone: "Europe/Amsterdam" } }, 
                week: { $isoWeek: { date: "$dimensions.date", timezone: "Europe/Amsterdam" } } 
              } 
            }
        },

        { 
            $project: {
                cost: 1, 
                likes: 1 
            }
        }
    ],

    {
        cursor: {
            batchSize: 50
        },
        allowDiskUse: true
    }

);

此查询大约需要 25-30 秒才能完成，我希望将其减少到至少 5-10 秒。它目前是单个 MongoDB 节点，没有分片或任何东西。解释查询可以在这里找到:https://pastebin.com/raw/fNnPrZh0和 executionStats:https://pastebin.com/raw/WA7BNpgA如您所见，MongoDB 正在使用索引，但仍有 130 万个文档需要读取。我目前怀疑我遇到了一些 I/O 瓶颈。

有谁知道我可以如何改进这个聚合管道？分片会有帮助吗？ MonogDB 是合适的工具吗？

最佳答案

当且仅当如果每条记录中的预计算维度是一个选项，则以下内容可以提高性能。

如果这种类型的查询代表了对这个集合的查询的重要部分，那么包括额外的字段来加快这些查询可能是一个可行的替代方案。

这还没有进行基准测试。

此查询中成本较高的部分之一可能来自处理日期。

首先在 $group 阶段为每个匹配记录计算与特定时区关联的年份和等周。
然后，在较小程度上，在初始过滤期间，保留最近 3 个月的日期。

想法是在每条记录中存储年份和等周数，对于给定的示例，这将是 { "year": 2018, "week": 10 } 。这样，$group 阶段中的 _id 键就不需要任何计算(否则将代表 1M3 复杂的日期操作)。

以类似的方式，我们还可以在每个记录中存储关联的月份，对于给定的示例，这将是 { "month": "201803"} 。这样，在对确切时间戳应用更精确和成本更高的过滤之前，第一个匹配项可能在月 [2, 3, 4, 5] 上。这会将对 200M 记录的初始成本较高的 Date 过滤节省为简单的 Int 过滤。

让我们用这些新的预计算字段创建一个新集合(在真实场景中，这些字段将包含在记录的初始 insert 期间):

db.large_collection.aggregate([
  { $addFields: {
    "prec.year": { $year: { date: "$dimensions.date", timezone: "Europe/Amsterdam" } },
    "prec.week": { $isoWeek: { date: "$dimensions.date", timezone: "Europe/Amsterdam" } },
    "prec.month": { $dateToString: { format: "%Y%m", date: "$dimensions.date", timezone: "Europe/Amsterdam" } }
  }},
  { "$out": "large_collection_precomputed" }
])

将存储这些文档:

{
  "dimensions" : { "account_id" : ObjectId("590889944befcf34204dbef2"), "url" : "https://test.com", "date" : ISODate("2018-03-04T23:00:00Z") },
  "metrics" : { "cost" : 155, "likes" : 200 },
  "prec" : { "year" : 2018, "week" : 10, "month" : "201803" }
}

然后让我们查询:

db.large_collection_precomputed.aggregate([
  // Initial gross filtering of dates (months) (on 200M documents):
  { $match: { "prec.month": { $gte: "201802", $lte: "201805" } } },
  { $match: {
    "dimensions.account_id": { $in: [
      ObjectId("590889944befcf34204dbf1f"), ObjectId("590889944befcf34204dbef2")
    ]}
  }},
  // Exact filtering of dates (costlier, but only on ~1M5 documents).
  { $match: { "dimensions.date": { $gte: new Date(1512082800000), $lte: new Date(1522447200000) } } },
  { $group: {
    // The _id is now extremly fast to retrieve:
    _id: { year: "$prec.year", "week": "$prec.week" },
    cost: { $sum: "$metrics.cost" },
    likes: { $sum: "$metrics.likes" }
  }},
  ...
])

在这种情况下，我们将在 account_id 和 month 上使用索引。

注意:在这里，月份存储为 String ("201803")，因为我不确定如何将它们转换为 Int 在聚合查询中。但最好是在插入记录时将它们存储为 Int

作为副作用，这显然会使集合的存储磁盘/内存更重。

关于mongodb - 大量集合的聚合管道缓慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49409559/

缓慢 mongodb 34 code dimensions mongodb-query aggregation-framework

有关mongodb - 大量集合的聚合管道缓慢的更多相关文章

postman——集合——执行集合——测试脚本——pm对象简单示例02 - 2
//1.验证返回状态码是否是200pm.test("Statuscodeis200",function(){pm.response.to.have.status(200);});//2.验证返回body内是否含有某个值pm.test("Bodymatchesstring",function(){pm.expect(pm.response.text()).to.include("string_you_want_to_search");});//3.验证某个返回值是否是100pm.test("Yourtestname",function(){varjsonData=pm.response.json
ruby - 按数字(从大到大)然后按字母(字母顺序)对对象集合进行排序 - 2
我正在构建一个小部件来显示奥运会的奖牌数。我有一个“国家”对象的集合，其中每个对象都有一个“名称”属性，以及奖牌计数的“金”、“银”、“铜”。列表应该排序:1.首先是奖牌总数2.如果奖牌相同，按类型分割(金>银>铜，即2金>1金+1银)3.如果奖牌和类型相同，则按字母顺序子排序我正在用ruby做这件事，但我想语言并不重要。我确实找到了一个解决方案，但如果感觉必须有更优雅的方法来实现它。这是我做的:使用加权奖牌总数创建一个虚拟属性。因此，如果他们有2个金牌和1个银牌，加权总数将为“3.020100”。1金1银1铜为“3.010101”由于我们希望将奖牌数排序为最高的，因此列表按降序排
ruby-on-rails - Assets 管道损坏 : Not compiling on the fly css and js files - 2
我开始了一个新的Rails3.2.5项目，Assets管道不再工作了。CSS和Javascript文件不再编译。这是尝试生成Assets时日志的输出:StartedGET"/assets/application.css?body=1"for127.0.0.1at2012-06-1623:59:11-0700Servedasset/application.css-200OK(0ms)[2012-06-1623:59:11]ERRORNoMethodError:undefinedmethod`each'fornil:NilClass/Users/greg/.rbenv/versions/1
ruby - Rails Elasticsearch 聚合 - 2
不知何故，我似乎无法获得包含我的聚合的响应...使用curl它按预期工作:HBZUMB01$curl-XPOST"http://localhost:9200/contents/_search"-d'{"size":0,"aggs":{"sport_count":{"value_count":{"field":"dwid"}}}}'我收到回复:{"took":4,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":90,"max_score":0.0,"hits":[]},"a
c# - Ruby 等效于 C# Linq 聚合方法 - 2
什么是Linq聚合方法的ruby等价物。它的工作原理是这样的varfactorial=new[]{1,2,3,4,5}.Aggregate((acc,i)=>acc*i);每次将数组序列中的值传递给lambda时，变量acc都会累积。最佳答案这在数学以及几乎所有编程语言中通常称为折叠。它是更普遍的变形概念的一个实例。Ruby从Smalltalk中继承了这个特性的名称，它被称为inject:into:(像aCollectioninject:aStartValueinto:aBlock一样使用。)所以，在Ruby中，它称为inj
ruby-on-rails - 即使没有挂起的迁移，Rails 迁移也非常缓慢 - 2
我的生产Rails应用程序需要167秒来运行rakedb:migrate。可悲的是，没有要运行的迁移。我试图在检查是否有待处理的迁移时调整运行的迁移，但随后检查花费了同样长的时间。我心目中唯一的“借口”是数据库并不小，那里有1M条记录，但我看不出这有什么关系。我查看了日志，但没有任何迹象表明出了什么问题。我在运行ruby2.2.0rails4.2.0有没有人知道为什么会这样，是否有什么办法可以解决？最佳答案运行rakedb:migrate任务还会调用db:schema:dump任务，这将更新您的db/schema.rb。因此，即
ruby - Net::HTTP 对 HTTPS 请求的响应极其缓慢 - 2
出于某种原因，在我的开发机器上，我对通过Net::HTTP执行的HTTPS请求的响应非常非常慢。我试过RestClient和HTTParty，它们都有同样的问题。它似乎是凭空冒出来的。我已毫无问题地提出这些请求数百次，但今天它们的速度慢得令人难以忍受。pry(main)>putsTime.now;HTTParty.get('https://api.easypost.com/v2/addresses');putsTime.now;2015-04-2908:07:08-05002015-04-2908:09:39-0500如您所见，响应耗时2.5分钟。不仅仅是这个EasyPostAPIUR
python - 用于从 Python 到 Ruby 查找集合的所有分区的翻译函数 - 2
我有以下python函数来递归查找集合的所有分区:defpartitions(set_):ifnotset_:yield[]returnforiinxrange(2**len(set_)/2):parts=[set(),set()]foriteminset_:parts[i&1].add(item)i>>=1forbinpartitions(parts[1]):yield[parts[0]]+bforpinpartitions(["a","b","c","d"]):print(p)有人可以帮我把它翻译成ruby吗？这是我目前所拥有的:defpartitions(set)ifnots
C# 的 LINQ 用于在 ruby 中等效的集合操作 - 2
我是ruby开发的新手，我目前正在使用rails2.3.11在ruby1.8.7中开发一个项目，我想知道这种语言是否有与C#的linq等效的集合操作，例如where子句。谢谢。最佳答案 Ruby中Linq的where等价于find_all检查documentationfortheEnumerableModule用于其他功能。关于C#的LINQ用于在ruby中等效的集合操作，我们在StackOverflow上找到一个类似的问题： https://
ruby-on-rails - 如何通过 Assets 管道加载css.erb文件 - 2
我希望我的样式表保持纯css，但我想使用嵌入式ruby来包含一些图像的动态路径:.home{background:#FFFurl()no-repeat;}如果我将样式表从.css更改为.css.erb，image_path会得到正确解释，但当我部署到生产环境时，它不会被Assets管道处理。如果我硬编码路径，无论是在生产还是开发中都会出错，因为它们以不同的方式加载Assets。我该如何解决？最佳答案这是有效的:将.erb添加到.css文件并使用ruby/rails代码就可以了。所以我上面的问题中的片段很好。你必须在/conf

mongodb - 大量集合的聚合管道缓慢

有关mongodb - 大量集合的聚合管道缓慢的更多相关文章

随机推荐