jjzjj

ruby - 如何从字符串中删除表情符号

我的问题是使用正则表达式从字符串中删除表情符号,而不是从字符串中删除CJK(中文、日文、韩文)字符。我尝试使用这个正则表达式:REGEX=/[^\u1F600-\u1F6FF\s]/i这个正则表达式工作正常,除了它还可以检测我需要的中文、日文和韩文字符。知道如何解决这个问题吗? 最佳答案 KarolS已提供asolution,但原因可能不清楚:"\u1F600"实际上是"\u1F60"后跟"0":"\u1F60"#=>"ὠ""\u1F600"#=>"ὠ0"对于FFFF以上的代码点,您必须使用花括号:"\u{1F600}"#=>"?"

ruby 1.9 : Convert byte array to string with multibyte UTF-8 characters

我正试图在Ruby中找到一种方法来获取UTF-8字节数组并将其转换回字符串。在irb(Ruby1.9.2预览版3)中,我可以从UTF-8字符串创建正确的字节数组:ruby-1.9.2-preview3>'Café'.bytes.to_a=>[67,97,102,195,169]但是,我找不到从字节返回数组的方法。我尝试将Array.pack与U*选项一起使用,但这不适用于多字节字符。ruby-1.9.2-preview3>[67,97,102,195,169].pack('U*')=>"Café"有没有人知道如何将包含多字节字符的UTF-8字节数组转换回字符串?谢谢。

ruby-on-rails - ruby 正则表达式错误 : incompatible encoding regexp match (ASCII-8BIT regexp with UTF-8 string)

我遇到了两个错误,都与编码有关并且都相关。我在启动WEBrick时遇到的第一个错误(技术上是警告):/Users/USERNAME/example/config/initializers/bb-ruby.rb:54:warning:invalidUnicodeProperty\P:/\:\-?\P/它所指的行是:/\:\-?\P/,这只是一些正则表达式,最终是这个block的一部分:@@tags['Razzing']=[/\:\-?\P/,'','Razzing',':P',:razzing]然后,我在解析一些字符串时也得到了以下错误(大概是由于同一行)...Encoding::Com

ruby - Nokogiri、open-uri 和 Unicode 字符

我正在使用Nokogiri和open-uri来抓取网页上标题标签的内容,但在处理重音字符时遇到了问题。处理这些问题的最佳方法是什么?这是我正在做的:require'open-uri'require'nokogiri'doc=Nokogiri::HTML(open(link))title=doc.at_css("title")此时,标题看起来是这样的:Rag\303\271代替:Ragù我怎样才能让nokogiri返回正确的字符(例如本例中的ù)?这是一个示例网址:http://www.epicurious.com/recipes/food/views/Tagliatelle-with-

ruby - Ruby 支持 unicode 吗?它是如何工作的?

我刚刚开始学习Ruby(最终转向RoR),但我刚刚被告知Ruby不支持unicode。是真的吗?Ruby程序员如何着手支持unicode? 最佳答案 您听到的内容已经过时并且(仅部分)适用于Ruby1.8或更早版本。最新的Ruby稳定版(1.9),支持不少于95种不同的字符编码(刚才在我的系统上统计)。这包括几乎所有已知的Unicode转换格式,包括UTF-8。Ruby的先前稳定版本(1.8)对UTF-8具有部分支持。如果您使用Rails,它会为您处理默认的UTF-8编码。如果您只需要了解UTF-8编码,那么Rails将无论您运行的

Ruby - UTF-8 文件编码

我们都知道“神奇”#encoding:utf-8行。但是我已经看到了其他几种替代符号,其中一些非常疯狂。你知道或使用过这些吗?是否有一些更通用的可接受规则?编辑:好的,显然有3种方法:#encoding:UTF-8#coding:UTF-8#-*-coding:UTF-8-*-(更多信息在http://blog.grayproductions.net/articles/ruby_19s_three_default_encodings) 最佳答案 不,没有“恰好3种方式”来指定“神奇评论”——它们的数量是无限的。根据JEG2,第一行包

Ruby 输出 Unicode 字符

我不是Ruby开发人员,但我使用Capistrano进行PHP部署。我正在尝试清理脚本的输出并尝试添加unicodecheckmark如thisblog中所述.问题是如果我这样做:checkmark="\u2713"putscheckmark它输出“\u2713”而不是✓我用谷歌搜索了一下,但找不到讨论这个问题的任何地方。TLDR:如何放置或打印unicodecheckmarkU-2713?编辑我在我的Mac(OSXLion)上运行Ruby1.8.7,所以不能使用encode方法。我的shell是iTerm2中的Bash。更新[4/8/2019]添加了引用图片以防网站出现故障。

ruby - 读取文件时如何避免被 UTF-8 BOM 绊倒

我正在使用最近添加了UnicodeBOMheader(U+FEFF)的数据提要,现在我的rake任务被它搞砸了。我可以使用file.gets[3..-1]跳过前3个字节,但是是否有更优雅的方式来读取Ruby中的文件,它可以正确处理这个问题,无论BOM是有没有? 最佳答案 在ruby​​1.9.2中,您可以使用模式r:bom|utf-8text_without_bom=nil#definethevariableoutsidetheblocktokeepthedataFile.open('file.txt',"r:bom|utf-8")

ruby 1.9 : how can I properly upcase & downcase multibyte strings?

因此matz决定在ruby​​1.9.1中将upcase和downcase限制为/[A-Z]/i。ActiveSupport::Multibyte长期以来在ruby​​1.8.x中通过String#mb_chars进行了很好的i18n大小写调整。但是在ruby1.9.1下试了一下,好像不行。这是我编写的一个简单的测试脚本,以及我得到的输出:$cattest.rb#encoding:UTF-8puts("@#{RUBY_VERSION}"+(__ENCODING__rescue$KCODE).to_s)sd,su="Iñtërnâtiônàlizætiøn","IÑTËRNÂTIÔNÀL

ruby - 如何摆脱 ruby 中的非ascii字符

我有一个RubyCGI(不是Rails),可以从Web表单中挑选照片和标题。我的用户非常热衷于使用智能引号和连字,他们从其他来源粘贴。我的网络应用程序不能很好地处理这些非ASCII字符,是否有快速的Ruby字符串操作例程可以摆脱非ASCII字符? 最佳答案 使用字符串#encode从Ruby1.9开始,在字符串编码之间进行转换的官方方法是使用String#encode.要简单地删除非ASCII字符,您可以这样做:some_ascii="abc"some_unicode="áëëçüñżλφθΩ??"more_ascii="123A