有时我在字符串中间有邪恶的不可打印字符。这些字符串是用户输入的,所以我必须让我的程序很好地接收它,而不是试图改变问题的根源。例如,他们可以有zerowidthno-breakspace在字符串的中间。例如,在解析.po文件时,一个有问题的部分是文件中间的字符串"heisamanofgod"。虽然一切看起来都是正确的,但使用irb检查它会显示:"heisamanofgod".codepoints=>[104,101,32,105,115,32,97,32,65279,109,97,110,32,111,102,32,103,111,100]我相信我知道什么是BOM,而且我什至能很好地处理
在IRB中,我正在尝试以下操作:1.9.3p194:001>foo="\xBF".encode("utf-8",:invalid=>:replace,:undef=>:replace)=>"\xBF"1.9.3p194:002>foo.match/foo/ArgumentError:invalidbytesequenceinUTF-8from(irb):2:in`match'知道出了什么问题吗? 最佳答案 我猜"\xBF"已经认为它是用UTF-8编码的,所以当你调用encode时,它认为你正在尝试编码一个UTF-8中的UTF-8字符
我将一个使用1.8.7的网络应用程序移到了1.9.2,现在我一直在使用incompatiblecharacterencodings:ASCII-8BITandUTF-8我有UTF-8的数据库编码,我还有'config.encoding="utf-8"'。我看到了一些想法作为可能的解决方法并添加了Encoding.default_external=Encoding::UTF_8Encoding.default_internal=Encoding::UTF_8但是也没用。出现此错误的一段特定代码是%ul.address-@user.address.split(',').eachdo|lin
我最近一直在使用Rubychr和ord方法,有几件事我不明白。我当前的项目涉及将单个字符与序数值相互转换。据我了解,如果我有一个带有“A”之类的单个字符的字符串,并且我在其上调用ord我会得到它在ASCII表中的位置,即65。调用逆函数,65.chr给我字符值“A”,所以这告诉我Ruby在某个地方有一个有序字符值的集合,它可以使用这个集合来给我一个特定字符的位置,或者字符在一个特定的位置。我在这方面可能是错误的,如果我错了请纠正我。现在我也了解到Ruby的默认字符编码使用UTF-8,因此它可以处理数千种可能的字符。因此,如果我向它询问这样的事情:'好'.ord我得到了该字符的位置,即2
我正在尝试上传一个csv文件,但收到UTF-8中的无效字节序列错误。我正在使用“roo”gem。我的代码是这样的:defupload_results_csvfilespreadsheet=MyFileUtil.open_file(file)header=spreadsheet.row(1)#THISLINERAISESTHEERROR(2..spreadsheet.last_row).eachdo|i|row=Hash[[header,spreadsheet.row(i)].transpose]......endclassMyFileUtildefself.open_file(file
我正在尝试将字符串从ISO-8859-1编码转换为UTF-8,但似乎无法正常工作。这是我在irb中所做的示例。irb(main):050:0>string='Norrlandsvägen'=>"Norrlandsvägen"irb(main):051:0>string.force_encoding('iso-8859-1')=>"Norrlandsv\xC3\xA4gen"irb(main):052:0>string=string.encode('utf-8')=>"Norrlandsvägen"我不确定为什么iso-8859-1中的Norrlandsvägen会被转换为utf-8中
如何通过ruby|ror查看字符集是否为utf-8编码? 最佳答案 检查UTF-8有效性对于大多数多字节编码,可以通过编程方式检测无效字节序列。由于Ruby默认将所有字符串视为UTF-8,您可以检查字符串是否以有效的UTF-8格式给出:#encoding:UTF-8#-------------------------------------------str="Partlyvalid\xE4UTF-8encoding:äöüß"str.valid_encoding?#=>falsestr.scrub('').valid_encodi
我读了thedocumentationofurl_encode.是否有一张表格可以使用url_encode准确地告诉我哪个字符被编码成什么? 最佳答案 再培训局url_encode可以调整:defurl_encode(s)s.to_s.dup.force_encoding("ASCII-8BIT").gsub(%r[^a-zA-Z0-9_\-.]/){sprintf("%%%02X",$&.unpack("C")[0])}end到:defurl_encode(s,regex=%r[^a-zA-Z0-9_\-.]/)s.to_s.du
为了将字符串转换为UTF-8并替换所有编码错误,您可以这样做:str.encode('utf-8',:invalid=>:replace)唯一的问题是如果str已经是UTF-8则它不起作用,在这种情况下仍然存在任何错误:irb>x="foo\x92bar".encode('utf-8',:invalid=>:replace)=>"foo\x92bar"irb>x.valid_encoding?=>false引用RubyDocs:Pleasenotethatconversionfromanencodingenctothesameencodingencisano-op,i.e.therec
上周,在一些gem安装或gem更新操作中,我收到了与这些类似的错误:ERROR:Whilegeneratingdocumentationforsinatra-1.3.1...MESSAGE:errorgeneratingC:/RailsInstaller/Ruby1.9.2/lib/ruby/gems/1.9.1/doc/sinatra-1.3.1/rdoc/README_de_rdoc.html:incompatibleencodingregexpmatch(UTF-8regexpwithIBM437string)(Encoding::CompatibilityError)类似的:E