jjzjj

python - 对索引的二维数组的值求和

coder 2023-08-24 原文

我需要延期 this question ,它根据来自第二个数组的索引对数组的值求和。让 A是结果数组,B是索引数组,而 C要求和的数组。然后A[i] = sumC使得 index(B) == i .

相反,我的设置是

N = 5
M = 2

A = np.zeros((M,N))
B = np.random.randint(M, size=N) # contains indices for A
C = np.random.rand(N,N)

我需要A[i,j] = sum_{k in 0...N} C[j,k]使得 C[k] == i ,即以 B 的索引匹配 i 为条件的行和。有没有一种有效的方法来做到这一点?对于我的应用程序,N 大约为 10,000,M 大约为 20。在最小化问题中的每次迭代都会调用此操作……我当前的循环方法非常慢。

谢谢!

最佳答案

按照@DSM 的评论,我假设您的 C[k] == i 应该是 B[k] == i 。如果是这样的话,你的循环版本看起来像这样吗?

嵌套循环版本

import numpy as np

N = 5
M = 2

A = np.zeros((M,N))
B = np.random.randint(M, size=N) # contains indices for A
C = np.random.rand(N,N)

for i in range(M):
    for j in range(N):
        for k in range(N):
            if B[k] == i:
                A[i,j] += C[j,k]

有不止一种方法可以矢量化这个问题。我将在下面展示我的思考过程,但有更有效的方法来做到这一点(例如,@DSM 的版本可以识别问题中固有的矩阵乘法)。

为了便于解释,这里是一种方法的演练。

向量化内循环

让我们从重写内部 k 循环开始:
for i in range(M):
    for j in range(N):
        A[i,j] = C[j, B == i].sum()

将其视为 C[j][B == i].sum() 可能更容易。我们只是选择 j 的第 C 行,只选择该行中 B 等于 i 的元素,并将它们相加。

向量化最外层循环

接下来让我们分解外部 i 循环。现在我们将要达到可读性将开始受到影响的地步,不幸的是......
i = np.arange(M)[:,np.newaxis]
mask = (B == i).astype(int)
for j in range(N):
    A[:,j] = (C[j] * mask).sum(axis=-1)

这里有几个不同的技巧。在这种情况下,我们迭代 A 的列。 A 的每一列是 C 对应行的子集的总和。 C 行的子集由其中 B 等于行索引 i 确定。

为了绕过 i 的迭代,我们通过向 i 添加一个新轴来制作一个 B == i 的二维数组。 (如果您对此感到困惑,请查看 numpy broadcasting 的文档。)换句话说:
B:
    array([1, 1, 1, 1, 0])

i: 
    array([[0],
           [1]])

B == i:
    array([[False, False, False, False,  True],
           [ True,  True,  True,  True, False]], dtype=bool)

我们想要的是取两个( M )过滤后的 C[j] 总和,一个对应于 B == i 中的每一行。这将为我们提供一个二元素向量,对应于 j 中的第 A 列。

我们不能通过直接索引 C 来做到这一点,因为结果不会保持它的形状,因为每行可能有不同数量的元素。我们将通过将 B == i 掩码乘以 C 的当前行来解决这个问题,从而在 B == iFalse 的位置产生零,并且在当前行中的值 C 为真。

为此,我们需要将 bool 数组 B == i 转换为整数:
mask = (B == i).astype(int):
    array([[0, 0, 0, 0, 1],
           [1, 1, 1, 1, 0]])

因此,当我们将其乘以 C 的当前行时:
C[j]:
    array([ 0.19844887,  0.44858679,  0.35370919,  0.84074259,  0.74513377])

C[j] * mask:
    array([[ 0.        ,  0.        ,  0.        ,  0.        ,  0.74513377],
           [ 0.19844887,  0.44858679,  0.35370919,  0.84074259,  0.        ]])

然后我们可以对每一行求和以获得 A 的当前列(这将在分配给 A[:,j] 时广播到列):
(C[j] * mask).sum(axis=-1):
    array([ 0.74513377,  1.84148744])

完全矢量化的版本

最后,分解最后一个循环,我们可以应用完全相同的原则为 j 上的循环添加第三个维度:
i = np.arange(M)[:,np.newaxis,np.newaxis]
mask = (B == i).astype(int)
A = (C * mask).sum(axis=-1)

@DSM 的矢量化版本

正如@DSM 建议的那样,您还可以执行以下操作:
A = (B == np.arange(M)[:,np.newaxis]).dot(C.T)

对于 MN 的大多数大小,这是迄今为止最快的解决方案,并且可以说是最优雅的(无论如何都比我的解决方案优雅得多)。

让我们把它分解一下。
B == np.arange(M)[:,np.newaxis] 完全等同于上面“向量化最外层循环”部分中的 B == i

关键在于认识到所有 jk 循环都等价于矩阵乘法。 dot 将在幕后将 bool 值 B == i 数组转换为与 C 相同的数据类型,因此我们无需担心将其显式转换为不同的类型。

之后,我们只是对 C(一个 5x5 数组)和上面的“掩码”0 和 1 数组的转置执行矩阵乘法,产生一个 2x5 数组。
dot 将利用您已安装的任何优化的 BLAS 库(例如 ATLASMKL ),因此速度非常快。

时间安排

对于小的 MN ,差异不太明显(循环和 DSM 版本之间的差异约为 6x):
M, N = 2, 5

%timeit loops(B,C,M)
10000 loops, best of 3: 83 us per loop

%timeit k_vectorized(B,C,M)
10000 loops, best of 3: 106 us per loop

%timeit vectorized(B,C,M)
10000 loops, best of 3: 23.7 us per loop

%timeit askewchan(B,C,M)
10000 loops, best of 3: 42.7 us per loop

%timeit einsum(B,C,M)
100000 loops, best of 3: 15.2 us per loop

%timeit dsm(B,C,M)
100000 loops, best of 3: 13.9 us per loop

然而,一旦 MN 开始增长,差异就会变得非常显着(~600x)(注意单位!):
M, N = 50, 20

%timeit loops(B,C,M)
10 loops, best of 3: 50.3 ms per loop

%timeit k_vectorized(B,C,M)
100 loops, best of 3: 10.5 ms per loop

%timeit ik_vectorized(B,C,M)
1000 loops, best of 3: 963 us per loop

%timeit vectorized(B,C,M)
1000 loops, best of 3: 247 us per loop

%timeit askewchan(B,C,M)
1000 loops, best of 3: 493 us per loop

%timeit einsum(B,C,M)
10000 loops, best of 3: 134 us per loop

%timeit dsm(B,C,M)
10000 loops, best of 3: 80.2 us per loop

关于python - 对索引的二维数组的值求和,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15864522/

有关python - 对索引的二维数组的值求和的更多相关文章

  1. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  2. ruby-on-rails - 在 Ruby 中循环遍历多个数组 - 2

    我有多个ActiveRecord子类Item的实例数组,我需要根据最早的事件循环打印。在这种情况下,我需要打印付款和维护日期,如下所示:ItemAmaintenancerequiredin5daysItemBpaymentrequiredin6daysItemApaymentrequiredin7daysItemBmaintenancerequiredin8days我目前有两个查询,用于查找maintenance和payment项目(非排他性查询),并输出如下内容:paymentrequiredin...maintenancerequiredin...有什么方法可以改善上述(丑陋的)代

  3. ruby - 多次弹出/移动 ruby​​ 数组 - 2

    我的代码目前看起来像这样numbers=[1,2,3,4,5]defpop_threepop=[]3.times{pop有没有办法在一行中完成pop_three方法中的内容?我基本上想做类似numbers.slice(0,3)的事情,但要删除切片中的数组项。嗯...嗯,我想我刚刚意识到我可以试试slice! 最佳答案 是numbers.pop(3)或者numbers.shift(3)如果你想要另一边。 关于ruby-多次弹出/移动ruby​​数组,我们在StackOverflow上找到一

  4. ruby - 将数组的内容转换为 int - 2

    我需要读入一个包含数字列表的文件。此代码读取文件并将其放入二维数组中。现在我需要获取数组中所有数字的平均值,但我需要将数组的内容更改为int。有什么想法可以将to_i方法放在哪里吗?ClassTerraindefinitializefile_name@input=IO.readlines(file_name)#readinfile@size=@input[0].to_i@land=[@size]x=1whilex 最佳答案 只需将数组映射为整数:@land边注如果你想得到一条线的平均值,你可以这样做:values=@input[x]

  5. ruby - 通过 erb 模板输出 ruby​​ 数组 - 2

    我正在使用puppet为ruby​​程序提供一组常量。我需要提供一组主机名,我的程序将对其进行迭代。在我之前使用的bash脚本中,我只是将它作为一个puppet变量hosts=>"host1,host2"我将其提供给bash脚本作为HOSTS=显然这对ruby​​不太适用——我需要它的格式hosts=["host1","host2"]自从phosts和putsmy_array.inspect提供输出["host1","host2"]我希望使用其中之一。不幸的是,我终其一生都无法弄清楚如何让它发挥作用。我尝试了以下各项:我发现某处他们指出我需要在函数调用前放置“function_”……这

  6. ruby - 检查数组是否在增加 - 2

    这个问题在这里已经有了答案:Checktoseeifanarrayisalreadysorted?(8个答案)关闭9年前。我只是想知道是否有办法检查数组是否在增加?这是我的解决方案,但我正在寻找更漂亮的方法:n=-1@arr.flatten.each{|e|returnfalseife

  7. ruby - 如果指定键的值在数组中相同,如何合并哈希 - 2

    我有一个这样的哈希数组:[{:foo=>2,:date=>Sat,01Sep2014},{:foo2=>2,:date=>Sat,02Sep2014},{:foo3=>3,:date=>Sat,01Sep2014},{:foo4=>4,:date=>Sat,03Sep2014},{:foo5=>5,:date=>Sat,02Sep2014}]如果:date相同,我想合并哈希值。我对上面数组的期望是:[{:foo=>2,:foo3=>3,:date=>Sat,01Sep2014},{:foo2=>2,:foo5=>5:date=>Sat,02Sep2014},{:foo4=>4,:dat

  8. ruby - 在 Ruby 中用键盘诅咒数组浏览 - 2

    我正在尝试在Ruby中制作一个cli应用程序,它接受一个给定的数组,然后将其显示为一个列表,我可以使用箭头键浏览它。我觉得我已经在Ruby中看到一个库已经这样做了,但我记不起它的名字了。我正在尝试对soundcloud2000中的代码进行逆向工程做类似的事情,但他的代码与SoundcloudAPI的使用紧密耦合。我知道cursesgem,我正在考虑更抽象的东西。广告有没有人见过可以做到这一点的库或一些概念证明的Ruby代码可以做到这一点? 最佳答案 我不知道这是否是您正在寻找的,但也许您可以使用我的想法。由于我没有关于您要完成的工作

  9. ruby - 检查字符串是否包含散列中的任何键并返回它包含的键的值 - 2

    我有一个包含多个键的散列和一个字符串,该字符串不包含散列中的任何键或包含一个键。h={"k1"=>"v1","k2"=>"v2","k3"=>"v3"}s="thisisanexamplestringthatmightoccurwithakeysomewhereinthestringk1(withspecialcharacterslike(^&*$#@!^&&*))"检查s是否包含h中的任何键的最佳方法是什么,如果包含,则返回它包含的键的值?例如,对于上面的h和s的例子,输出应该是v1。编辑:只有字符串是用户定义的。哈希将始终相同。 最佳答案

  10. ruby - 如何在 Grape 中定义哈希数组? - 2

    我使用Ember作为我的前端和GrapeAPI来为我的API提供服务。前端发送类似:{"service"=>{"name"=>"Name","duration"=>"30","user"=>nil,"organization"=>"org","category"=>nil,"description"=>"description","disabled"=>true,"color"=>nil,"availabilities"=>[{"day"=>"Saturday","enabled"=>false,"timeSlots"=>[{"startAt"=>"09:00AM","endAt"=>

随机推荐