jjzjj

ruby `split' : invalid byte sequence in UTF-8 (ArgumentError)

我正在尝试填充电影对象,但在解析u.item文件时出现此错误:`split':invalidbytesequenceinUTF-8(ArgumentError)File.open("Data/u.item","r")do|infile|whileline=infile.getsline=line.split("|")endend仅当尝试使用花哨的国际标点符号拆分行时才会发生错误。这是一个例子543|Misérables,Les(1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Mis%E9rables%2C%20Les%20%281

ruby 1.9 : Convert byte array to string with multibyte UTF-8 characters

我正试图在Ruby中找到一种方法来获取UTF-8字节数组并将其转换回字符串。在irb(Ruby1.9.2预览版3)中,我可以从UTF-8字符串创建正确的字节数组:ruby-1.9.2-preview3>'Café'.bytes.to_a=>[67,97,102,195,169]但是,我找不到从字节返回数组的方法。我尝试将Array.pack与U*选项一起使用,但这不适用于多字节字符。ruby-1.9.2-preview3>[67,97,102,195,169].pack('U*')=>"Café"有没有人知道如何将包含多字节字符的UTF-8字节数组转换回字符串?谢谢。

ruby - 如何在 Ruby 中将字符串转换为字节?

如何扩展String类,并附加名为to_bytes的方法? 最佳答案 String#bytes通过字符串字节返回枚举数。"asd".bytes=>[97,115,100]在Ruby1.9.3中,#bytes返回一个枚举器,因此您必须添加.to_a以将其转换为数组。从2.3或更早版本开始,您不必再添加它。 关于ruby-如何在Ruby中将字符串转换为字节?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com

ruby-on-rails - Ruby 2.0.0 字符串#Match ArgumentError : invalid byte sequence in UTF-8

我经常看到这种情况,但还没有想出一个优雅的解决方案。如果用户输入包含无效的字节序列,我需要能够让它不引发异常。例如:#@raw_responsecomesfromuserandcontainsinvalidUTF-8#forexample:@raw_response="\xBF"regex.match(@raw_response)ArgumentError:invalidbytesequenceinUTF-8已经问了很多类似的问题,结果似乎是对字符串进行编码或强制编码。然而,这些都不适合我:regex.match(@raw_response.force_encoding("UTF-8"

ruby-on-rails - Ruby on Rails "invalid byte sequence in UTF-8"由于机器人

我有一些由中文机器人触发的错误:http://www.easou.com/search/spider.html当它滚动我的网站时。我的应用程序版本都是Ruby1.9.3和Rails3.2.X这里是堆栈跟踪:AnArgumentErroroccurredinlistings#show:invalidbytesequenceinUTF-8rack(1.4.5)lib/rack/utils.rb:104:in`normalize_params'-------------------------------Request:-------------------------------*URL:

ruby - 导入csv数据时,如何去掉 "invalid byte sequence in UTF-8"

我们允许用户通过csv导入数据(使用ruby​​1.9.2,因此它是更快的csv)。作为用户数据,当然,它可能没有得到适当的清理。当我们尝试在/index方法中显示数据时,我们有时会收到错误“UTF-8中的无效字节序列”,指向我们显示字段widget.name之一的erb当我们进行导入时,我们希望强制传入的数据有效...是否有一个ruby​​运算符可以将字符串映射到有效的utf8字符串,例如,类似goodstring=badstring.no_more_invalid_bytes“坏”数据的一个示例是char,它看起来像连字符,但不是常规的ascii连字符。我们更愿意将非utf-8字符

ruby 1.9 : invalid byte sequence in UTF-8

我正在用Ruby(1.9)编写一个爬虫程序,它使用来自大量随机站点的大量HTML。在尝试提取链接时,我决定只使用.scan(/href="(.*?)"/i)而不是nokogiri/hpricot(主要加速)。问题是我现在收到很多“UTF-8中的无效字节序列”错误。据我了解,net/http库没有任何特定于编码的选项,而且进来的东西基本上没有正确标记。实际处理传入数据的最佳方式是什么?我尝试使用.encode设置替换和无效选项,但到目前为止没有成功... 最佳答案 在Ruby1.9.3中,可以使用String.encode来“忽略”无

javascript - 如何使用 `ArrayBuffer` 从 `bytes` 生成 `js_of_ocaml`

我正在构建一个在Ocaml中实现并使用js_of_ocaml编译为JavaScript的JavaScript库.我的一个Ocaml函数返回一个带有二进制数据的string。我如何使用js_of_ocaml作为ArrayBuffer公开它? 最佳答案 当您编译为javascript时,在string中操作二进制数据非常容易出错!根本原因是js_of_ocaml的选择有问题:因为javascript字符串以UTF16编码,而OCaml字符串(隐式)以UTF8编码,js_of_ocaml尝试在两者之间导航。因此,当它遇到代码为>127的“

javascript - 是否可以使用 JavaScript 中的类型化数组将 4x Uint8 转换为 Uint32?

我正在项目中进行一些按位操作,我想知道内置类型数组是否可以让我省去一些麻烦,甚至可能给我一些性能提升。letbytes=[128,129,130,131]letuint32=(bytes[0]-2138996093我可以使用类型化数组来获得相同的答案吗?//notactuallyworking!letuint8bytes=Uint8Array.from(bytes)letuint32=Uint32Array.from(uint8bytes)[0]//=>ideallyi'dgetthesamevalueasabove:-2138996093附带问题:我发现上面的uint32是负数很奇怪

JavaScript 文件到 byte[]

是否可以从JavaScript中的路径读取文件并创建该文件的byte[]? 最佳答案 是的,您可以⟩—⟩在Firefox中,无论如何。其他浏览器将来可能会或可能不会选择允许它。制作一个文件上传字段供用户选择文件,并通过input.files读取。列表。例如。document.getElementById('myuploadfield').files[0].getAsBinary()。这会将每个字节放入JavaScript字符串的单个字符中,这与您将要获得的字节[]非常接近。这是一个非常专业的界面,可能不是正确的事情—⟩注意其他回复,