如何从ruby字符串中删除非UTF8字符?我有一个字符串,其中包含例如“xC2”。我想从字符串中删除该字符,使其成为有效的UTF8。这个:text.gsub!(/\xC2/,'')返回错误:incompatibleencodingregexpmatch(ASCII-8BITregexpwithUTF-8string)我也在查看text.unpack('U*')和string.pack,但没有得到任何结果。 最佳答案 您可以为此使用编码。text.encode('UTF-8',:invalid=>:replace,:undef=>
tvdb中的汉尼拔剧集里有奇怪的角色。例如:Œuf于是ruby吐出:./manifesto.rb:19:in`encode':"\xC3"fromASCII-8BITtoUTF-8(Encoding::UndefinedConversionError)from./manifesto.rb:19:in`to_json'from./manifesto.rb:19:in`'第19行是:puts@tree.to_json有没有办法处理这些非utf字符?我宁愿不替换它们,而是转换它们?还是无视他们?我不知道,感谢任何帮助。奇怪的是脚本通过cron运行良好。手动运行它会产生错误。
ruby中的神奇注释是如何工作的?我在说:#Encoding:utf-8这是预处理指令吗?这种结构还有其他用途吗? 最佳答案 源文件顶部的Ruby解释器说明-这称为魔法注释。在处理您的源代码之前,解释器会读取这一行并设置正确的编码。我相信对于解释语言来说这很常见。至少Python使用相同的方法。您可以通过多种不同的方式指定编码(其中一些可以被编辑器识别):#encoding:UTF-8#coding:UTF-8#-*-coding:UTF-8-*-您可以在thisarticle中阅读有关源编码的一些有趣内容.我所知道的唯一具有类似结
我正在编写一个使用Hpricot的爬虫。它从某个网页下载字符串列表,然后我尝试将其写入文件。编码有问题:"\xC3"fromASCII-8BITtoUTF-8我有在网页上呈现并以这种方式打印的项目:Développementstr.encoding返回UTF-8,因此force_encoding('UTF-8')没有帮助。我如何将其转换为可读的UTF-8? 最佳答案 您的字符串似乎被错误地编码了:"Développement".encode("iso-8859-1").force_encoding("utf-8")#=>"Dév
我有一些由中文机器人触发的错误:http://www.easou.com/search/spider.html当它滚动我的网站时。我的应用程序版本都是Ruby1.9.3和Rails3.2.X这里是堆栈跟踪:AnArgumentErroroccurredinlistings#show:invalidbytesequenceinUTF-8rack(1.4.5)lib/rack/utils.rb:104:in`normalize_params'-------------------------------Request:-------------------------------*URL:
我们允许用户通过csv导入数据(使用ruby1.9.2,因此它是更快的csv)。作为用户数据,当然,它可能没有得到适当的清理。当我们尝试在/index方法中显示数据时,我们有时会收到错误“UTF-8中的无效字节序列”,指向我们显示字段widget.name之一的erb当我们进行导入时,我们希望强制传入的数据有效...是否有一个ruby运算符可以将字符串映射到有效的utf8字符串,例如,类似goodstring=badstring.no_more_invalid_bytes“坏”数据的一个示例是char,它看起来像连字符,但不是常规的ascii连字符。我们更愿意将非utf-8字符
我已经从源代码安装了postgresql-9.2.4,现在当我执行时在railsapp中:rakedb:create命令我得到:$bin/rakedb:createRAILS_ENV="test"PG::Error:ERROR:newencoding(UTF8)isincompatiblewiththeencodingofthetemplatedatabase(SQL_ASCII)HINT:Usethesameencodingasinthetemplatedatabase,orusetemplate0astemplate.:CREATEDATABASE"verticals_test"E
我正在处理需要与C++tcp/udp套接字通信的javascript/nodejs应用程序。好像我从旧的C++客户端那里得到了一个utf16缓冲区。我现在没有找到将其转换为可读字符串的解决方案,而另一个方向似乎也是同样的问题。这两个方向有没有简单的方法?亲切的问候 最佳答案 如果您有一个UTF-16编码的缓冲区,您可以像这样将它转换为UTF-8字符串:letstring=buffer.toString('utf16le');要从流中读取这些,最简单的方法是在最后使用转换为字符串:letchunks=[];stream.on('dat
我想使用xmlHttpRequest从Web获取文档。但是,有问题的文本不是utf8(在本例中是windows-1251,但在一般情况下,我不确定)。但是,如果我使用responseType="text",它会将其视为字符串是utf8,而忽略内容类型中的字符集(导致一团糟)。如果我使用“blob”(可能是我想要的最接近的东西),我可以将其转换为考虑编码的DomString吗? 最佳答案 我实际上从这里找到了一个API来做我想做的事:https://developers.google.com/web/updates/2014/08/E
优先编码器(PriorityEncoder,PENC)用于判断数据最高位1出现的位置。以4-2优先编码器(PENC)为例,其真值表为:D3D2D1D0Q1Q2Vld0001001001x01101xx1011xxx1110000xx0用卡诺图表示为 Q0=D3+(~D2)D1 Q1=D3+D2Vld=D3+D2+D1+D0优先编码器是可扩展的,获得8-3PENC只需要对两级4-2PENC的输出进行处理即可。8-3PENC真值表可简化为:可以获知:Q[1:0]为PENC_L或PENC_H的输出,