jjzjj

MongoDB MapReduce——是否有聚合替代方案?

coder 2023-11-06 原文

我有一个集合,其中包含使用类似这样的架构的文档(一些成员已编辑):

{
    "_id" : ObjectId("539f41a95d1887b57ab78bea"),
    "answers" : {
        "ratings" : {
            "positivity" : [ 
                2, 
                3, 
                5
            ],
            "activity" : [ 
                4, 
                4, 
                3
            ],
    },
    "media" : [ 
        ObjectId("537ea185df872bb71e4df270"), 
        ObjectId("537ea185df872bb71e4df275"), 
        ObjectId("537ea185df872bb71e4df272")
    ]
}

在此架构中,第一、第二和第三个positivity 评级分别对应于media 数组中的第一个、第二个和第三个条目。 activity 评级也是如此。我需要针对集合中所有文档的关联 media 对象计算 positivityactivity 评级的统计数据。现在,我正在使用 MapReduce 来做这件事。不过,我想通过聚合管道来实现这一点。

理想情况下,我想$unwind mediaanswers.ratings.positivityanswers.ratings。 activity 数组,因此我最终得到,例如,基于前面示例的以下三个文档:

[
    {
        "_id" : ObjectId("539f41a95d1887b57ab78bea"),
        "answers" : {
            "ratings" : {
                "positivity" : 2,
                "activity" : 4
            }
        },
        "media" : ObjectId("537ea185df872bb71e4df270")
    },
    {
        "_id" : ObjectId("539f41a95d1887b57ab78bea"),
        "answers" : {
            "ratings" : {
                "positivity" : 3
                "activity" : 4
            }
        },
        "media" : ObjectId("537ea185df872bb71e4df275")
    },
    {
        "_id" : ObjectId("539f41a95d1887b57ab78bea"),
        "answers" : {
            "ratings" : {
                "positivity" : 5
                "activity" : 3
            }
        },
        "media" : ObjectId("537ea185df872bb71e4df272")
    }
]

有什么办法可以做到这一点吗?

最佳答案

当前的聚合框架不允许您这样做。能够展开已知大小相同的多个数组并为每个数组的第 i 个值创建一个文档将是一个很好的功能。

如果你想使用聚合框架,你需要稍微改变你的模式。例如采用以下文档模式:

{
    "_id" : ObjectId("539f41a95d1887b57ab78bea"),
    "answers" : {
        "ratings" : {
            "positivity" : [ 
                {k:1, v:2}, 
                {k:2, v:3}, 
                {k:3, v:5}
            ],
            "activity" : [ 
                {k:1, v:4}, 
                {k:2, v:4}, 
                {k:3, v:3}
            ],
    }},
    "media" : [ 
        {k:1, v:ObjectId("537ea185df872bb71e4df270")}, 
        {k:2, v:ObjectId("537ea185df872bb71e4df275")}, 
        {k:3, v:ObjectId("537ea185df872bb71e4df272")}
    ]
}

这样做实际上是将索引添加到数组中的对象。在此之后,只需展开所有数组并匹配键即可。

db.test.aggregate([{$unwind:"$media"},
{$unwind:"$answers.ratings.positivity"},
{$unwind:"$answers.ratings.activity"},
{$project:{"media":1, "answers.ratings.positivity":1,"answers.ratings.activity":1,
    include:{$and:[
                  {$eq:["$media.k", "$answers.ratings.positivity.k"]},
                  {$eq:["$media.k", "$answers.ratings.activity.k"]}
            ]}}
},
{$match:{include:true}}])

输出是:

[ 
        {
            "_id" : ObjectId("539f41a95d1887b57ab78bea"),
            "answers" : {
                "ratings" : {
                    "positivity" : {
                        "k" : 1,
                        "v" : 2
                    },
                    "activity" : {
                        "k" : 1,
                        "v" : 4
                    }
                }
            },
            "media" : {
                "k" : 1,
                "v" : ObjectId("537ea185df872bb71e4df270")
            },
            "include" : true
        }, 
        {
            "_id" : ObjectId("539f41a95d1887b57ab78bea"),
            "answers" : {
                "ratings" : {
                    "positivity" : {
                        "k" : 2,
                        "v" : 3
                    },
                    "activity" : {
                        "k" : 2,
                        "v" : 4
                    }
                }
            },
            "media" : {
                "k" : 2,
                "v" : ObjectId("537ea185df872bb71e4df275")
            },
            "include" : true
        }, 
        {
            "_id" : ObjectId("539f41a95d1887b57ab78bea"),
            "answers" : {
                "ratings" : {
                    "positivity" : {
                        "k" : 3,
                        "v" : 5
                    },
                    "activity" : {
                        "k" : 3,
                        "v" : 3
                    }
                }
            },
            "media" : {
                "k" : 3,
                "v" : ObjectId("537ea185df872bb71e4df272")
            },
            "include" : true
        }
    ]

这样做会产生大量额外的文档开销,并且可能比您当前的 MapReduce 实现速度慢。您需要运行测试来检查这一点。为此所需的计算将根据这三个数组的大小以立方方式增长。这一点也应该牢记。

关于MongoDB MapReduce——是否有聚合替代方案?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24312932/

有关MongoDB MapReduce——是否有聚合替代方案?的更多相关文章

  1. ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2

    给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru

  2. ruby - 在 jRuby 中使用 'fork' 生成进程的替代方案? - 2

    在MRIRuby中我可以这样做:deftransferinternal_server=self.init_serverpid=forkdointernal_server.runend#Maketheserverprocessrunindependently.Process.detach(pid)internal_client=self.init_client#Dootherstuffwithconnectingtointernal_server...internal_client.post('somedata')ensure#KillserverProcess.kill('KILL',

  3. ruby - 检查数组是否在增加 - 2

    这个问题在这里已经有了答案:Checktoseeifanarrayisalreadysorted?(8个答案)关闭9年前。我只是想知道是否有办法检查数组是否在增加?这是我的解决方案,但我正在寻找更漂亮的方法:n=-1@arr.flatten.each{|e|returnfalseife

  4. ruby - 检查字符串是否包含散列中的任何键并返回它包含的键的值 - 2

    我有一个包含多个键的散列和一个字符串,该字符串不包含散列中的任何键或包含一个键。h={"k1"=>"v1","k2"=>"v2","k3"=>"v3"}s="thisisanexamplestringthatmightoccurwithakeysomewhereinthestringk1(withspecialcharacterslike(^&*$#@!^&&*))"检查s是否包含h中的任何键的最佳方法是什么,如果包含,则返回它包含的键的值?例如,对于上面的h和s的例子,输出应该是v1。编辑:只有字符串是用户定义的。哈希将始终相同。 最佳答案

  5. ruby-on-rails - Ruby 检查日期时间是否为 iso8601 并保存 - 2

    我需要检查DateTime是否采用有效的ISO8601格式。喜欢:#iso8601?我检查了ruby​​是否有特定方法,但没有找到。目前我正在使用date.iso8601==date来检查这个。有什么好的方法吗?编辑解释我的环境,并改变问题的范围。因此,我的项目将使用jsapiFullCalendar,这就是我需要iso8601字符串格式的原因。我想知道更好或正确的方法是什么,以正确的格式将日期保存在数据库中,或者让ActiveRecord完成它们的工作并在我需要时间信息时对其进行操作。 最佳答案 我不太明白你的问题。我假设您想检查

  6. ruby - 检查日期是否在过去 7 天内 - 2

    我的日期格式如下:"%d-%m-%Y"(例如,今天的日期为07-09-2015),我想看看是不是在过去的七天内。谁能推荐一种方法? 最佳答案 你可以这样做:require"date"Date.today-7 关于ruby-检查日期是否在过去7天内,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/32438063/

  7. ruby - 如何验证 IO.copy_stream 是否成功 - 2

    这里有一个很好的答案解释了如何在Ruby中下载文件而不将其加载到内存中:https://stackoverflow.com/a/29743394/4852737require'open-uri'download=open('http://example.com/image.png')IO.copy_stream(download,'~/image.png')我如何验证下载文件的IO.copy_stream调用是否真的成功——这意味着下载的文件与我打算下载的文件完全相同,而不是下载一半的损坏文件?documentation说IO.copy_stream返回它复制的字节数,但是当我还没有下

  8. ruby - 是否可以覆盖 gemfile 进行本地开发? - 2

    我们的git存储库中目前有一个Gemfile。但是,有一个gem我只在我的环境中本地使用(我的团队不使用它)。为了使用它,我必须将它添加到我们的Gemfile中,但每次我checkout到我们的master/dev主分支时,由于与跟踪的gemfile冲突,我必须删除它。我想要的是类似Gemfile.local的东西,它将继承从Gemfile导入的gems,但也允许在那里导入新的gems以供使用只有我的机器。此文件将在.gitignore中被忽略。这可能吗? 最佳答案 设置BUNDLE_GEMFILE环境变量:BUNDLE_GEMFI

  9. ruby-on-rails - 更好的替代方法 try( :output). try( :data). try( :name)? - 2

    “输出”是一个序列化的OpenStruct。定义标题try(:output).try(:data).try(:title)结束什么会更好?:) 最佳答案 或者只是这样:deftitleoutput.data.titlerescuenilend 关于ruby-on-rails-更好的替代方法try(:output).try(:data).try(:name)?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.c

  10. ruby - 在 Windows 机器上使用 Ruby 进行开发是否会适得其反? - 2

    这似乎非常适得其反,因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby​​-mysqlgem问题(gem本身发生段错误,一个名为UnixSocket的类显然在Windows机器上不能正常工作,等等)。我只是在浪费时间吗?我应该转向不同的脚本语言吗? 最佳答案 我在Windows上使用Ruby的经验很少,但是当我开始使用Ruby时,我是在Windows上,我的总体印象是它不是Windows原生系统。因此,在主要使用Windows多年之后,开始使用Ruby促使我切换回原来的系统Unix,这次是Linux。Rub

随机推荐