jjzjj

c# - C# 的 FFT 误差

coder 2024-06-02 原文

我一直在试验 FFT 算法。我使用 NAudio 以及来自互联网的 FFT 算法的工作代码。根据我对性能的观察,生成的音调不准确。

我将 MIDI(从 GuitarPro 生成)转换为 WAV 文件(44.1khz,16 位,单声道),其中包含从 E2(最低吉他音符)开始到大约 E6 的音高级数。较低音符(E2-B3 左右)的结果通常是非常错误的。但是达到 C4 有点正确,因为您已经可以看到正确的进程(下一个音符是 C#4,然后是 D4,等等)。但是,问题是检测到的音高比实际音高低半个音符(例如,C4 应该是音符,但显示的是 D#4)。

您认为可能有什么问题?如有必要,我可以发布代码。非常感谢!我还在开始掌握DSP领域。

编辑:这是我正在做的事情的粗略描述

byte[] buffer = new byte[8192];
int bytesRead;
do
{
  bytesRead = stream16.Read(buffer, 0, buffer.Length);
} while (bytesRead != 0);

然后:(waveBuffer 只是一个用于将 byte[] 转换为 float[] 的类,因为该函数只接受 float[])

public int Read(byte[] buffer, int offset, int bytesRead)
{
  int frames = bytesRead / sizeof(float);
  float pitch = DetectPitch(waveBuffer.FloatBuffer, frames);
}

最后:(Smbpitchfft 是具有 FFT 算法的类......我相信它没有任何问题,所以我不会在这里发布它)

private float DetectPitch(float[] buffer, int inFrames)
{
  Func<int, int, float> window = HammingWindow;
  if (prevBuffer == null)
  {
    prevBuffer = new float[inFrames]; //only contains zeroes
  }  

  // double frames since we are combining present and previous buffers
  int frames = inFrames * 2;
  if (fftBuffer == null)
  {
    fftBuffer = new float[frames * 2]; // times 2 because it is complex input
  }

  for (int n = 0; n < frames; n++)
  {
     if (n < inFrames)
     {
       fftBuffer[n * 2] = prevBuffer[n] * window(n, frames);
       fftBuffer[n * 2 + 1] = 0; // need to clear out as fft modifies buffer
     }
     else
     {
       fftBuffer[n * 2] = buffer[n - inFrames] * window(n, frames);
       fftBuffer[n * 2 + 1] = 0; // need to clear out as fft modifies buffer
     }
   }
   SmbPitchShift.smbFft(fftBuffer, frames, -1);
  }

并解释结果:

float binSize = sampleRate / frames;
int minBin = (int)(82.407 / binSize); //lowest E string on the guitar
int maxBin = (int)(1244.508 / binSize); //highest E string on the guitar

float maxIntensity = 0f;
int maxBinIndex = 0;

for (int bin = minBin; bin <= maxBin; bin++)
{
    float real = fftBuffer[bin * 2];
    float imaginary = fftBuffer[bin * 2 + 1];
    float intensity = real * real + imaginary * imaginary;
    if (intensity > maxIntensity)
    {
        maxIntensity = intensity;
        maxBinIndex = bin;
    }
}

return binSize * maxBinIndex;

更新(如果有人仍然感兴趣):

因此,下面的一个答案表明 FFT 的频率峰值并不总是等于音调。我明白那个。但如果是这样的话,我想为自己尝试一些东西(假设有时频率峰值是最终的音调)。所以基本上,我得到了 2 个能够显示音频信号频域的软件(DewResearch 的 SpectraPLUS 和 FFTProperties;归功于它们)。

下面是时域中频率峰值的结果:

光谱增强版

和 FFT 属性:

这是使用 A2 的测试音符(大约 110Hz)完成的。查看图像时,SpectraPLUS 的频率峰值在 102-112 Hz 左右,FFT Properties 的频率峰值在 108 Hz 左右。在我的代码中,我得到 104Hz(我使用 8192 个 block 和 44.1khz 的采样率......然后将 8192 加倍以使其成为复杂输入,所以最后,与 SpectraPLUS 的 10Hz binsize 相比,我得到大约 5Hz 的 binsize ).

所以现在我有点困惑,因为在软件上它们似乎返回了正确的结果但在我的代码中,我总是得到 104Hz(请注意我已经将我使用的 FFT 函数与其他函数(如 Math.Net 和这似乎是正确的)。

您认为问题可能出在我对数据的解释上吗?或者软件在显示频谱之前会做一些其他事情吗?谢谢!

最佳答案

听起来您的 FFT 输出可能存在解释问题。一些随机点:

  • FFT 具有有限分辨率 - 每个输出 bin 的分辨率为 Fs/N,其中 Fs 是采样率,N 是 FFT 的大小

  • 对于音阶较低的音符,连续音符之间的频率差异相对较小,因此您需要足够大的 N 来区分相隔半音的音符(请参见下面的注释 1)

  • 第一个 bin(索引 0)包含以 0 Hz 为中心的能量,但包含来自 +/- Fs/2N

  • 的能量
  • bin i 包含以 i * Fs/N 为中心的能量,但包含来自 +/- Fs/2N 任一侧的能量这个中心频率的

  • 你会得到 spectral leakage来自相邻的垃圾箱 - 这有多糟糕取决于什么 window function你使用 - 没有窗口(== 矩形窗口)和频谱泄漏会非常糟糕(非常宽的峰值) - 对于频率估计,你想选择一个能给你尖峰的窗口函数

  • 音高与频率不同 - 音高是一种感知,频率是一种物理量 - 乐器的感知音高可能与基频略有不同,具体取决于乐器的类型(一些乐器甚至不会在其基频上产生显着的能量,但我们仍能感知到它们的音调,就好像基频存在一样)

根据有限的可用信息,我最好的猜测是,也许您在将 bin 索引转换为频率的某个地方“偏离了一个”,或者您的 FFT 太小而无法为低音提供足够的分辨率,并且你可能需要增加 N。

您还可以通过倒谱分析等多种技术改进音调估计,或者通过查看 FFT 输出的相位分量并将其与连续的 FFT 进行比较(这允许在一个 bin 内更准确地估计一个频率给定 FFT 大小)。


注释

(1) 只是给出一些数字,E2 是 82.4 赫兹,F2 是 87.3 赫兹,所以你需要一个略高于 5 赫兹的分辨率来区分吉他上最低的两个音符(比这更精细如果你真的想做,比如说,精确调整)。在 44.1 kHz 样本下,您可能需要至少 N = 8192 的 FFT 才能获得足够的分辨率(44100/8192 = 5.4 Hz),可能 N = 16384 会更好。

关于c# - C# 的 FFT 误差,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4966124/

有关c# - C# 的 FFT 误差的更多相关文章

  1. c# - 如何在 ruby​​ 中调用 C# dll? - 2

    如何在ruby​​中调用C#dll? 最佳答案 我能想到几种可能性:为您的DLL编写(或找人编写)一个COM包装器,如果它还没有,则使用Ruby的WIN32OLE库来调用它;看看RubyCLR,其中一位作者是JohnLam,他继续在Microsoft从事IronRuby方面的工作。(估计不会再维护了,可能不支持.Net2.0以上的版本);正如其他地方已经提到的,看看使用IronRuby,如果这是您的技术选择。有一个主题是here.请注意,最后一篇文章实际上来自JohnLam(看起来像是2009年3月),他似乎很自在地断言RubyCL

  2. C# 到 Ruby sha1 base64 编码 - 2

    我正在尝试在Ruby中复制Convert.ToBase64String()行为。这是我的C#代码:varsha1=newSHA1CryptoServiceProvider();varpasswordBytes=Encoding.UTF8.GetBytes("password");varpasswordHash=sha1.ComputeHash(passwordBytes);returnConvert.ToBase64String(passwordHash);//returns"W6ph5Mm5Pz8GgiULbPgzG37mj9g="当我在Ruby中尝试同样的事情时,我得到了相同sha

  3. 基于C#实现简易绘图工具【100010177】 - 2

    C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.

  4. c# - C# 中的 Flatten Ruby 方法 - 2

    我如何做Ruby方法"Flatten"RubyMethod在C#中。此方法将锯齿状数组展平为一维数组。例如:s=[1,2,3]#=>[1,2,3]t=[4,5,6,[7,8]]#=>[4,5,6,[7,8]]a=[s,t,9,10]#=>[[1,2,3],[4,5,6,[7,8]],9,10]a.flatten#=>[1,2,3,4,5,6,7,8,9,10 最佳答案 递归解决方案:IEnumerableFlatten(IEnumerablearray){foreach(variteminarray){if(itemisIEnume

  5. ruby - 可以像在 C# 中使用#region 一样在 Ruby 中使用 begin/end 吗? - 2

    我最近从C#转向了Ruby,我发现自己无法制作可折叠的标记代码区域。我只是想到做这种事情应该没问题:classExamplebegin#agroupofmethodsdefmethod1..enddefmethod2..endenddefmethod3..endend...但是这样做真的可以吗?method1和method2最终与method3是同一种东西吗?还是有一些我还没有见过的用于执行此操作的Ruby惯用语? 最佳答案 正如其他人所说,这不会改变方法定义。但是,如果要标记方法组,为什么不使用Ruby语义来标记它们呢?您可以使用

  6. c# - Ruby 等效于 C# Linq 聚合方法 - 2

    什么是Linq聚合方法的ruby​​等价物。它的工作原理是这样的varfactorial=new[]{1,2,3,4,5}.Aggregate((acc,i)=>acc*i);每次将数组序列中的值传递给lambda时,变量acc都会累积。 最佳答案 这在数学以及几乎所有编程语言中通常称为折叠。它是更普遍的变形概念的一个实例。Ruby从Smalltalk中继承了这个特性的名称,它被称为inject:into:(像aCollectioninject:aStartValueinto:aBlock一样使用。)所以,在Ruby中,它称为inj

  7. c# - 先学什么? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭8年前。Improvethisquestion几年前我去学校学习编程,毕业后我找到了一份系统管理方面的工作,这就是我职业生涯的方向。我想重新开始某种开发,并且一直在“玩”C#和ASP.NET,但我已经听到很多关于其他"new"语言的讨论(新的意思是它们是新的)我)喜欢Ruby和F#。我想我想知道我是否在浪费时间学习主要的MS语言,而不是成为一名通才。很长一段时间没有离开开发社区(如果我曾经离开过的话)让我在潮流中挣扎,我不想落在时代的

  8. c# - 在 C# 中重现 Ruby OpenSSL private_encrypt 输出 - 2

    我有一个简单的Ruby脚本,我用它在某些HTTPheader上执行private_encrypt以签署要发送到ruby​​RESTAPI的Web请求,该API会根据Base64编码字符串测试Base64编码字符串生成而不是解码Base64和解密数据然后测试原始字符串。我使用的脚本是require"openssl"require"base64"path_to_cert=ARGV[0].dupplain_text=Base64.decode64(ARGV[1].dup)private_key=OpenSSL::PKey::RSA.new(File.read(path_to_cert))pu

  9. C# 的 LINQ 用于在 ruby​​ 中等效的集合操作 - 2

    我是ruby​​开发的新手,我目前正在使用rails2.3.11在ruby​​1.8.7中开发一个项目,我想知道这种语言是否有与C#的linq等效的集合操作,例如where子句。谢谢。 最佳答案 Ruby中Linq的where等价于find_all检查documentationfortheEnumerableModule用于其他功能。 关于C#的LINQ用于在ruby​​中等效的集合操作,我们在StackOverflow上找到一个类似的问题: https://

  10. c# - 将 Ruby 的时间转换为 C# - 2

    我正在尝试转换Ruby的time到C#,但我现在卡住了。这是我的尝试:publicstaticclassExtensions{publicstaticvoidTimes(thisInt32times,WhatGoesHere?){for(inti=0;i我是C#的新手,也许这个应该很简单,而且我知道我想使用Extensionmethods。但由于函数在C#中不是“第一类”,我现在被卡住了。那么,我应该为WhatGoesHere使用什么参数类型? 最佳答案 您可以使用Action输入:publicstaticclassExtensio

随机推荐