c++ - InternetCanonicalizeUrl 无法解码变音字母

coder 2024-06-19 原文

我在处理 URL 中的某些字符时遇到了很多麻烦，假设我有以下 URL:

http: //localhost/somewere/myLibrary.dll/rest/something?parameter=An%C3%A1lisis

必须转换为:

http: //localhost/somewere/myLibrary.dll/rest/something?parameter=Análisis

为了处理变音字母的解码，我决定使用 InternetCanonicalizeUrl函数，因为我正在处理的应用程序只能在 Windows 中运行并且我不想安装额外的库，所以我使用的辅助函数如下:

String DecodeURL(const String &a_URL)
{
    String result;
    unsigned long size = a_reportType.Length() * 2;
    wchar_t *buffer = new wchar_t[size];

    if (InternetCanonicalizeUrlW(a_URL.c_str(), buffer, &size, ICU_DECODE | ICU_NO_ENCODE))
    {
        result = buffer;
    }

   delete [] buffer;
   return result;
}

这对几乎所有通过它的 URL 都适用，变音符号除外，我的示例 URL 解码如下:

http: //localhost/somewere/myLibrary.dll/rest/something?parameter=AnÃ¡lisis

我正在使用的 IDE 是 CodeGear™ C++Builder® 2009(这就是为什么我被迫使用 String 而不是 std 的原因: :string)，我还尝试了 AnsiString 和 char buffer 版本，结果相同。

关于如何处理此错误的任何提示/替代方案？

提前致谢。

最佳答案

InternetCanonicalizeUrl() 正在做正确的事情，您只需要考虑它实际在做什么。

URL 不支持 Unicode(IRI 支持)，因此 Unicode 数据必须被字符集编码为字节八位字节，然后根据需要使用 %HH 序列对这些八位字节进行 url 编码。在这种情况下，数据被编码为 UTF-8(如今在许多 URL 中并不少见，但也不能保证)，但是 InternetCanonicalizeUrl() 无法知道这一点，因为 URL 没有语法用于描述正在使用的字符集。它所能做的就是将 %HH 序列解码为相关的 byte 八位字节值，它无法为您对八位字节进行字符集解码。对于 Unicode 版本，InternetCanonicalizeUrlW() 将这些字节值按原样作为 wchar_t 元素返回。但无论哪种方式，您都必须自己对八位字节进行字符集解码才能恢复原始 Unicode 数据。

所以在这种情况下，您可以做的是将解码后的数据复制到 UTF8String，然后将其作为 String 分配/返回，以便将其解码为 UTF-16 .当然，这只适用于 UTF-8 编码的 URL。例如:

String DecodeURL(const String &a_URL)
{
    DWORD size = 0;
    if (!InternetCanonicalizeUrlW(a_URL.c_str(), NULL, &size, ICU_DECODE | ICU_NO_ENCODE))
    {
        if (GetLastError() == ERROR_INSUFFICIENT_BUFFER)
        {
            String buffer;
            buffer.SetLength(size-1);
            if (InternetCanonicalizeUrlW(a_URL.c_str(), buffer.c_str(), &size, ICU_DECODE | ICU_NO_ENCODE))
            {
                UTF8String utf8;
                utf8.SetLength(buffer.Length());
                for (int i = 1; i <= buffer.Length(); ++i)
                    utf8[i] = (char) buffer[i];
                return utf8;
            }
        }
    }

   return String();
}

或者:

// encoded URLs are always ASCII, so it is safe
// to pass an encoded URL UnicodeString as an
// AnsiString...
String DecodeURL(const AnsiString &a_URL)
{
    DWORD size = 0;
    if (!InternetCanonicalizeUrlA(a_URL.c_str(), NULL, &size, ICU_DECODE | ICU_NO_ENCODE))
    {
        if (GetLastError() == ERROR_INSUFFICIENT_BUFFER)
        {
            UTF8String buffer;
            buffer.SetLength(size-1);
            if (InternetCanonicalizeUrlA(a_URL.c_str(), buffer.c_str(), &size, ICU_DECODE | ICU_NO_ENCODE))
            {
                return utf8;
            }
        }
    }

仅供引用，C++Builder 预装了 Indy。 Indy 有一个 TIdURI 类，它可以解码 URL 并考虑字符集，例如:

#include <IdGlobal.hpp>
#include <IdURI.hpp>

String DecodeURL(const String &a_URL)
{ 
    return TIdURI::URLDecode(URL, enUTF8);
}

无论如何，您必须知道用于对 URL 数据进行编码的字符集。如果不这样做，您所能做的就是解码原始八位字节，然后使用启发式分析来猜测字符集可能是什么，但这对于非 ASCII 和非 UTF 字符集来说并不是 100% 可靠。

关于c++ - InternetCanonicalizeUrl 无法解码变音字母，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22067828/

有关c++ - InternetCanonicalizeUrl 无法解码变音字母的更多相关文章

ruby-on-rails - 由于 "wkhtmltopdf"，PDFKIT 显然无法正常工作 - 2
我在从html页面生成PDF时遇到问题。我正在使用PDFkit。在安装它的过程中，我注意到我需要wkhtmltopdf。所以我也安装了它。我做了PDFkit的文档所说的一切......现在我在尝试加载PDF时遇到了这个错误。这里是错误:commandfailed:"/usr/local/bin/wkhtmltopdf""--margin-right""0.75in""--page-size""Letter""--margin-top""0.75in""--margin-bottom""0.75in""--encoding""UTF-8""--margin-left""0.75in""-
ruby-on-rails - 无法使用 Rails 3.2 创建插件？ - 2
我对最新版本的Rails有疑问。我创建了一个新应用程序(railsnewMyProject)，但我没有脚本/生成，只有脚本/rails，当我输入ruby./script/railsgeneratepluginmy_plugin"Couldnotfindgeneratorplugin.".你知道如何生成插件模板吗？没有这个命令可以创建插件吗？PS:我正在使用Rails3.2.1和ruby1.8.7[universal-darwin11.0] 最佳答案随着Rails3.2.0的发布，插件生成器已经被移除。查看变更日志here.现在
ruby - 无法运行 Rails 2.x 应用程序 - 2
我尝试运行2.x应用程序。我使用rvm并为此应用程序设置其他版本的ruby:$rvmuseree-1.8.7-head我尝试运行服务器，然后出现很多错误:$script/serverNOTE:Gem.source_indexisdeprecated,useSpecification.Itwillberemovedonorafter2011-11-01.Gem.source_indexcalledfrom/Users/serg/rails_projects_terminal/work_proj/spohelp/config/../vendor/rails/railties/lib/r
ruby-on-rails - 如何优雅地重启 thin + nginx？ - 2
我的瘦服务器配置了nginx，我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例，但找不到好的解决方案。有没有人能做到这一点？最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器，例如server{listen80;server
ruby-on-rails - 无法在centos上安装therubyracer(V8和GCC出错) - 2
我正在尝试在我的centos服务器上安装therubyracer，但遇到了麻烦。$geminstalltherubyracerBuildingnativeextensions.Thiscouldtakeawhile...ERROR:Errorinstallingtherubyracer:ERROR:Failedtobuildgemnativeextension./usr/local/rvm/rubies/ruby-1.9.3-p125/bin/rubyextconf.rbcheckingformain()in-lpthread...yescheckingforv8.h...no***e
ruby - 无法让 RSpec 工作—— 'require' : cannot load such file - 2
我花了三天的时间用头撞墙，试图弄清楚为什么简单的“rake”不能通过我的规范文件。如果您遇到这种情况:任何文件夹路径中都不要有空格!。严重地。事实上，从现在开始，您命名的任何内容都没有空格。这是我的控制台输出:(在/Users/*****/Desktop/LearningRuby/learn_ruby)$rake/Users/*******/Desktop/LearningRuby/learn_ruby/00_hello/hello_spec.rb:116:in`require':cannotloadsuchfile--hello(LoadError) 最佳
ruby-on-rails - 使用一系列等级计算字母等级 - 2
这里是Ruby新手。完成一些练习后碰壁了。练习:计算一系列成绩的字母等级创建一个方法get_grade来接受测试分数数组。数组中的每个分数应介于0和100之间，其中100是最大分数。计算平均分并将字母等级作为字符串返回，即“A”、“B”、“C”、“D”、“E”或“F”。我一直返回错误:avg.rb:1:syntaxerror,unexpectedtLBRACK,expecting')'defget_grade([100,90,80])^avg.rb:1:syntaxerror,unexpected')',expecting$end这是我目前所拥有的。我想坚持使用下面的方法或.join，
ruby - 无法覆盖 irb 中的 to_s - 2
我在pry中定义了一个函数:to_s，但我无法调用它。这个方法去哪里了，怎么调用？pry(main)>defto_spry(main)*'hello'pry(main)*endpry(main)>to_s=>"main"我的ruby版本是2.1.2看了一些答案和搜索后，我认为我得到了正确的答案:这个方法用在什么地方？在irb或pry中定义方法时，会转到Object.instance_methods[1]pry(main)>defto_s[1]pry(main)*'hello'[1]pry(main)*end=>:to_s[2]pry(main)>defhello[2]pry(main)
ruby - 无法在 60 秒内获得稳定的 Firefox 连接 (127.0.0.1 :7055) - 2
我使用的是Firefox版本36.0.1和Selenium-Webdrivergem版本2.45.0。我能够创建Firefox实例，但无法使用脚本继续进行进一步的操作无法在60秒内获得稳定的Firefox连接(127.0.0.1:7055)错误。有人能帮帮我吗？最佳答案我遇到了同样的问题。降级到firefoxv33后一切正常。您可以找到旧版本here 关于ruby-无法在60秒内获得稳定的Firefox连接(127.0.0.1:7055)，我们在StackOverflow上找到一个类
ruby - 匹配大写字母并用后续字母填充，直到一定的字符串长度 - 2
我有一个驼峰式字符串，例如:JustAString。我想按照以下规则形成长度为4的字符串:抓取所有大写字母；如果超过4个大写字母，只保留前4个；如果少于4个大写字母，则将最后大写字母后的字母大写并添加字母，直到长度变为4。以下是可能发生的3种情况:ThisIsMyString将产生TIMS(大写字母)；ThisIsOneVeryLongString将产生TIOV(前4个大写字母)；MyString将生成MSTR(大写字母+tr大写)。我设法用这个片段解决了前两种情况:str.scan(/[A-Z]/).first(4).join但是，我不太确定如何最好地修改上面的代码片段以处理最后一种

c++ - InternetCanonicalizeUrl 无法解码变音字母

有关c++ - InternetCanonicalizeUrl 无法解码变音字母的更多相关文章

随机推荐