c++ - 为什么我们从 MultiByte 转换为 WideChar？

coder 2024-06-17 原文

我习惯于处理 ASCII 字符串，但现在使用 UNICODE 我对某些术语感到非常困惑:

什么是多字节字符，什么是 widechar有什么不同？
多字节是指内存中包含多于一个字节的字符吗和widechar只是一种数据类型来表示吗？

为什么我们从 MultiByteToWideChar 转换和 WideCharToMultiByte ?

如果我声明如下:

wchar_t* wcMsg = L"مرحبا";
MessageBoxW(0, wcMsg, 0, 0);

如果我定义了 UNICODE，它会正确打印消息但是为什么我没有从 WideCharToMultiByte 在这里转换??

我的项目中的字符集有什么区别:_MBCS和 UNICODE ?

MSDN 让我对“Windows API”感到困惑的最后一件事是 UTF-16。

任何人都可以用一些例子来解释。一个很好的澄清真的很感激。

最佳答案

ASCII 字符串的字符宽度为 1 个字节(通常为 8 位，很少为 7、9 或其他位宽)。这是当时的遗留问题，当时内存大小非常小且昂贵，而且处理器通常每条指令只能处理一个字节。

很容易想象，一个字节远远不足以存储世界上所有可用的字形。仅中文就有 87.000 个字形。一个字符通常只能处理 256 个字形(8 位字节)。 ASCII仅定义 96 个字形(加上较低的 32 个字符，它们被定义为不可打印的控制字符)，这使其成为 7 位字符集。这对于英文上下字符、数字以及一些标点符号和其他字形来说已经足够了。 ASCII 不使用公共(public) 8 位字节中的最高位。

要处理多于一个字节可以容纳的字形，一种方法是将基本字形存储在一个字节中，将其他常见字形存储在两个字节中，将很少使用的字形存储在 3 个甚至更多字节中。这种方法被称为Multi byte char set or Variable-width encoding .一个非常常见的例子是 UTF 8 , 一个字符使用 1 到 4 个字节。它将 ASCII 字符集存储在一个字节中(因此它也向后兼容 ASCII)。最高位被定义为一个开关:如果它被设置，其他字节将跟随。这同样适用于以下字节，从而形成最多 4 个字节的“链”。
可变宽度字符集的优点是:

向后兼容 7 位 ASCII 字符集

内存友好 - 使用尽可能少的内存

缺点是:

处理起来更困难，处理器也很昂贵。您不能简单地迭代一个字符串并假设每个 myString[n]提供一个字形；相反，如果后面有更多字节，您必须评估每个字节。

另一种方法是将每个字符存储在由 n 个字节组成的固定长度的字中，该字的宽度足以容纳所有可能的字形。这称为固定宽度字符集；所有字符都具有相同的宽度。一个众所周知的例子是 UTF32 .它是 32 位宽，可以在一个字中存储所有可能的字符。固定宽度字符集的优点和缺点显然与可变宽度字符集相反:内存繁重但更容易迭代。

但是微软甚至在 UTF32 可用之前就选择了他们的原生字符集:他们使用 UTF16作为 Windows 的字符集，它使用至少 2 个字节(16 位)的字长。这足以存储比单字节字符集更多的字形，但不是全部。考虑到这一点，微软今天区分“多字节”和“Unicode”有点误导，因为他们的 unicode 实现也是多字节字符集——只是一个字形的最小大小更大的字符集。有人说这是一个很好的妥协，有人说这是两全其美的——无论如何，事情就是这样。而当时(Windows NT)它是唯一可用的Unicode字符集，从这个角度来看，当时他们对多字符和Unicode的区分是正确的(参见Raymond Chen的评论)

当然，如果您想将一种编码(假设为 UTF8)的字符串转换为另一种编码(假设为 UTF16)，则必须对它们进行转换。就是这样MultiByteToWideChar为你做，和WideCharToMultiByte反之亦然。还有一些其他的转换函数和库。

这种转换花费了很多时间，因此结论是:如果您大量使用字符串和系统调用，为了提高性能，您应该使用操作系统的 native 字符集，在您的情况下是 UTF16。

所以对于你的字符串处理你应该选择 wchar_t ，在 Windows 的情况下意味着 UTF16。不幸的是wchar_t的宽度可能因编译器而异；在 Unix 下它通常是 UTF32，在 Windows 下它是 UTF16。
_MBCS是一个自动预处理器定义，它告诉您您已将字符集定义为多字节，UNICODE告诉您已将其设置为 UTF16。

你可以写

wchar_t* wcMsg = L"مرحبا";
MessageBoxW(0, wcMsg, 0, 0);

即使在没有 UNICODE 的程序中定义集。 L"前缀定义，您的字符串是 UNICODE (wide char) 字符串，你可以用它调用系统函数。

不幸的是你不能写

char* msg = u8"مرحبا";
MessageBoxA(0, msg, 0, 0);

C++11 中改进了字符集支持，因此您还可以通过前缀 u8 将字符串定义为 UTF8。 .但是带有“A”后缀的 Windows 函数不理解 UTF8，至少在 Windows 10 Build 17035 之前(参见 tambre 的评论)(另请参见 https://stackoverflow.com/a/504789/2328447 )
这也建议在 Windows/Visual Studio 下使用 UTF16 aka UNICODE。

将您的项目设置为“使用多字节字符集”或“使用 Unicode 字符集”也会更改许多其他字符相关定义:最常见的是宏 TCHAR , _T()以及所有不带后缀的依赖于字符串的 Windows 函数，例如MessageBox() (没有 W 或 A 后缀)
如果您将项目设置为“使用多字节字符集”，TCHAR将扩展为 char , _T()将扩展为空，Windows 函数将获得 A附后缀。
如果您将项目设置为“使用 Unicode 字符集”，TCHAR将扩展为 wchar_t , _T()将扩展到 L前缀，Windows 函数将得到 W附后缀。

这意味着，写作

TCHAR* msg = _T("Hello");
MessageBox(0, msg, 0, 0);

将使用多字节字符集或 unicode 集编译两者。您可以在 MSDN 上找到有关这些主题的综合指南。 .

很遗憾

TCHAR* msg = _T("مرحبا");
MessageBox(0, msg, 0, 0);

选择“使用多字节字符集”时仍然不起作用 - Windows 函数仍然不支持 UTF8，您甚至会收到一些编译器警告，因为您定义了包含在字符串中的 unicode 字符，而不是标记为 Unicode( _T() 不会扩展为 u8 )

关于c++ - 为什么我们从 MultiByte 转换为 WideChar？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47237696/

amp MultiByte code 多字 br c++windows unicode

有关c++ - 为什么我们从 MultiByte 转换为 WideChar？的更多相关文章

ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2
我的目标是转换表单输入，例如“100兆字节”或“1GB”，并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前，我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效，但前提是输入是倍数(“gigabytes”，而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以，功能正常，
ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby 中生成它们？ - 2
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 将数组的内容转换为 int - 2
我需要读入一个包含数字列表的文件。此代码读取文件并将其放入二维数组中。现在我需要获取数组中所有数字的平均值，但我需要将数组的内容更改为int。有什么想法可以将to_i方法放在哪里吗？ClassTerraindefinitializefile_name@input=IO.readlines(file_name)#readinfile@size=@input[0].to_i@land=[@size]x=1whilex 最佳答案只需将数组映射为整数:@land边注如果你想得到一条线的平均值，你可以这样做:values=@input[x]
ruby - 将散列转换为嵌套散列 - 2
这道题是thisquestion的逆题.给定一个散列，每个键都有一个数组，例如{[:a,:b,:c]=>1,[:a,:b,:d]=>2,[:a,:e]=>3,[:f]=>4,}将其转换为嵌套哈希的最佳方法是什么{:a=>{:b=>{:c=>1,:d=>2},:e=>3,},:f=>4,} 最佳答案这是一个迭代的解决方案，递归的解决方案留给读者作为练习:defconvert(h={})ret={}h.eachdo|k,v|node=retk[0..-2].each{|x|node[x]||={};node=node[x]}node[
ruby - 为什么 4.1%2 使用 Ruby 返回 0.0999999999999996？但是 4.2%2==0.2 - 2
为什么4.1%2返回0.0999999999999996？但是4.2%2==0.2。最佳答案参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意，这不是与Ruby相关的问题，而是与所有编程语言相关的问题，因为它来自计算机表示实数的方式。关于ruby-为什么4.1%2使用Ruby返
ruby-on-rails - 如何优雅地重启 thin + nginx？ - 2
我的瘦服务器配置了nginx，我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例，但找不到好的解决方案。有没有人能做到这一点？最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器，例如server{listen80;server

c++ - 为什么我们从 MultiByte 转换为 WideChar？

有关c++ - 为什么我们从 MultiByte 转换为 WideChar？的更多相关文章

随机推荐