jjzjj

Visual Studio C++ 默认 UTF-8 编码及 *.editorconfig 统一代码格式

Me伟 2023-04-15 原文

转载请注明原文链接:https://www.cnblogs.com/mechanicoder/p/16894144.html

1. 问题由来

背景:团队使用 Visual Studio 进行跨平台项目开发。

遇到的问题:

  1. 编码:Windows平台下源代码文件格式可能是 GBK、IBM866、UTF16LE、UTF-8等等,中文字符串、注释等跨平台编译时出现乱码;
  2. 转码:Visual Studio 根据源代码内容、系统区域设置(即本地化)自动确定源代码编码格式,含中文字符时存在不确定性;代码中英字符串处理时需要格式来回转换,例如 ANSI->UTF8,无法统一;
  3. 规范:由于团队成员个人 Visual Studio 编码格式配置可能不同,例如 switch case 语句中的 case 是否缩进以及缩进量,经常遇到对源代码反复以不同风格进行格式化的情况;(文档格式化快捷键 Ctrl+K,D;选中内容格式化快捷键 Ctrl+K,F)Visual Studio 虽然可以使用团队统一配置,但修改不方便、修改内容无法高效的同步。

2. 解决方法

2.1. 文件编码问题

首先,Visual Studio 代码编辑器支持多种编码格式,这从 Visual Studio 带格式保存文件选项可以看出来。

图1. 源码高级保存选项

关键在于如何让 Visual Studio 始终以 UTF-8 为默认编码格式,而非由 IDE 本地化自动判断,避免手动更改编码格式。该问题在一个回答中找到了靠谱的解决方法(如何配置可以让 Visual Studio 默认以 UTF-8 格式编码且全局有效)。即通过一个可移植、可定制的文本编辑器配置文件 .editorconfig 对编辑器进行配置,以下引用回答内容:

Visual Studio supports EditorConfig files (EditorConfig)

Visual Studio (VS2017 and later) searches for a file named '.editorconfig' in the directory containing your source files, or anywhere above this directory in the hierarchy. This file can be used to direct the editor to use utf-8. I use the following:

[*]
end_of_line = lf
charset = utf-8
trim_trailing_whitespace = true
insert_final_newline = true
indent_style = space
indent_size = 4

The [*] line is a mask and means for all files - the scope of the commands can be reduced using e.g. [*.{h,cpp}]

There are further possibilities, particularly for C# files. Full details can be found at EditorConfig settings - Visual Studio (Windows) | Microsoft Learn

根据 Visual Studio 官方介绍,Visual Studio 启动时将会自动从源码文件所在文件夹开始搜索该文件,直至找到位于顶层目录的文件或没有找到。因此使用时将其放在代码仓库的根目录即可。

图2. 代码目录结构--图片来自 Visual Studio 官网

那么,是否可以自动生成一个 .editorconfig 文件呢?

Visual Studio 支持根据本地设置生成一个 .editorconfig 文件,操作路径为:

Tools / Options / Text Editor / C/C++ / Code Stype / General: Generate .editorconfig file from settings.

图3. 生成 .editorconfig 文件,截图来自 Microsoft Visual Studio Community 2022 (64-bit) - Current Version 17.2.1

得到 .editorconfig 之后就可以进行配置了,例如上述回答中的含义分别时(以下内容是 .editorconfig 的一部分,配置文件支持以 # 开始的注释):

[*]
end_of_line = lf                    # 行尾 UNIX 格式 LF
charset = utf-8                     # 文件编码字符集为 UTF-8
trim_trailing_whitespace = true     # 删除文件末尾空格
insert_final_newline = true         # 末尾插入新行
indent_style = space                # 以空格代替 tab
indent_size = 4                     # 代替 tab 的空格数量

Visual Studio 支持的特性 VS官网链接,或 editorconfig官网链接。 

如何将已有文件转码:实现Python脚本,按原编码读入数据并按 UTF-8 格式写出即可。

注意:配置文件修改后需要重启 Visual Studio,通过文档格式化(Ctrl+K,D)判断配置是否生效,如查看格式化前后的空格数量。

2.2. 编译问题

自动转码后编译时可能遇到各种异常编译的错误或警告(如4819),这些错误是由于 Visual Studio 未按 UTF-8 格式进行编译导致的。既然文本编辑器支持以 UTF-8 编码的源文件,那么编译器也必然支持以 UTF-8 编码格式解析源文件。

这里需要指定编译选项 /utf-8 告诉编译器以 UTF-8 对源文件进行解码,可参考官方文档

直接通过 Visual Studio 配置项目时,进行如下设置:

图4. 指定 /utf-8 编译选项,截图来自 Microsoft Visual Studio Community 2022 (64-bit) - Current Version 17.2.1

 通过 CMake 配置项目时,cmake 脚本指令:

set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} /utf-8")

指定 /utf-8 编译选项后,当编译文件或由源文件所包含的头文件非 UTF-8 编码时,将会出现大量如下警告信息,他们可以通过 Visual Studio 禁用警告编号选项关闭。

warning C4828: The file contains a character starting at offset 0x453 that is illegal in the current source character set (codepage 65001).

或通过 cmake 脚本指令:

add_compile_options(/wd4828)

2.3. 其他方法[不建议]

关于编译警告4819的问题,有网友回答(原回答链接)可通过修改系统本地化设置解决,经测试确实可修复,设置路径如下:

控制面板 / 时钟 / 区域 / 区域 / 管理 / 更改系统区域设置,使用Unicode UTF8提供全球语言支持

图5. 更改系统区域设置

 这种解决方法存在副作用。本地化是系统全局设置,可能将影响其他应用程序,当然微软自家的应用程序相信都已经做了很好的适配。作者电脑上一款软件中文版就在执行上述设置后出现了乱码,英文版正常。

此外,2.1 中所述的指定编译选项 /utf-8 同样可以解决该警告问题,因此不建议更改系统区域设置。

参考资料

1. How to config visual studio to use UTF-8 as the default encoding for all projects? - Stack Overflow

2. EditorConfig

3. EditorConfig settings - Visual Studio (Windows) | Microsoft Learn

4. /utf-8 (Set source and execution character sets to UTF-8) | Microsoft Learn

5. [Solved]-warning c4819 in Visual Studio C++ 2013 express - utf8 files without bom-C++

6. cmake 添加编译选项的几种方式 - 简书

7. VS CMake 禁止警告 - 心灵捕手 - 博客园

 

转载请注明原文链接:https://www.cnblogs.com/mechanicoder/p/16894144.html

有关Visual Studio C++ 默认 UTF-8 编码及 *.editorconfig 统一代码格式的更多相关文章

  1. ruby - 使用 ruby​​ 将 HTML 转换为纯文本并维护结构/格式 - 2

    我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h

  2. ruby - 如何在 buildr 项目中使用 Ruby 代码? - 2

    如何在buildr项目中使用Ruby?我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序,我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/),但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻,因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby​​

  3. ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby​​ 中生成它们? - 2

    我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%

  4. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  5. ruby-on-rails - Rails 源代码 : initialize hash in a weird way? - 2

    在rails源中:https://github.com/rails/rails/blob/master/activesupport/lib/active_support/lazy_load_hooks.rb可以看到以下内容@load_hooks=Hash.new{|h,k|h[k]=[]}在IRB中,它只是初始化一个空哈希。和做有什么区别@load_hooks=Hash.new 最佳答案 查看rubydocumentationforHashnew→new_hashclicktotogglesourcenew(obj)→new_has

  6. ruby - 用逗号、双引号和编码解析 csv - 2

    我正在使用ruby​​1.9解析以下带有MacRoman字符的csv文件#encoding:ISO-8859-1#csv_parse.csvName,main-dialogue"Marceu","Giveittohimóhe,hiswife."我做了以下解析。require'csv'input_string=File.read("../csv_parse.rb").force_encoding("ISO-8859-1").encode("UTF-8")#=>"Name,main-dialogue\r\n\"Marceu\",\"Giveittohim\x97he,hiswife.\"\

  7. ruby - 默认情况下使选项为 false - 2

    这是在Ruby中设置默认值的常用方法:classQuietByDefaultdefinitialize(opts={})@verbose=opts[:verbose]endend这是一个容易落入的陷阱:classVerboseNoMatterWhatdefinitialize(opts={})@verbose=opts[:verbose]||trueendend正确的做法是:classVerboseByDefaultdefinitialize(opts={})@verbose=opts.include?(:verbose)?opts[:verbose]:trueendend编写Verb

  8. ruby-on-rails - date_field_tag,如何设置默认日期? [ rails 上的 ruby ] - 2

    我想设置一个默认日期,例如实际日期,我该如何设置?还有如何在组合框中设置默认值顺便问一下,date_field_tag和date_field之间有什么区别? 最佳答案 试试这个:将默认日期作为第二个参数传递。youcorrectlysetthedefaultvalueofcomboboxasshowninyourquestion. 关于ruby-on-rails-date_field_tag,如何设置默认日期?[rails上的ruby],我们在StackOverflow上找到一个类似的问

  9. ruby-on-rails - 在默认方法参数中使用 .reverse_merge 或 .merge - 2

    两者都可以defsetup(options={})options.reverse_merge:size=>25,:velocity=>10end和defsetup(options={}){:size=>25,:velocity=>10}.merge(options)end在方法的参数中分配默认值。问题是:哪个更好?您更愿意使用哪一个?在性能、代码可读性或其他方面有什么不同吗?编辑:我无意中添加了bang(!)...并不是要询问nobang方法与bang方法之间的区别 最佳答案 我倾向于使用reverse_merge方法:option

  10. ruby-on-rails - 浏览 Ruby 源代码 - 2

    我的主要目标是能够完全理解我正在使用的库/gem。我尝试在Github上从头到尾阅读源代码,但这真的很难。我认为更有趣、更温和的踏脚石就是在使用时阅读每个库/gem方法的源代码。例如,我想知道RubyonRails中的redirect_to方法是如何工作的:如何查找redirect_to方法的源代码?我知道在pry中我可以执行类似show-methodmethod的操作,但我如何才能对Rails框架中的方法执行此操作?您对我如何更好地理解Gem及其API有什么建议吗?仅仅阅读源代码似乎真的很难,尤其是对于框架。谢谢! 最佳答案 Ru

随机推荐