我有以下记录站点访问的 MySQL 表设置:
id timestamp ip tracking
此跟踪的目的是在运行此脚本的情况下将各种转发域发送到该站点。该脚本记录 ip 和时间戳,并从 URL 中获取跟踪代码。
我们要做的是对所有使用的跟踪代码进行汇总计数,但是,有很多垃圾邮件请求(机器人程序)访问了该站点。我正在尝试找出最好的方法来过滤掉我认为是机器人的结果,我不希望它们计入最终结果。
我最初的想法是先过滤掉所有出现次数超过一次的ip。我的问题是,我如何使用该查询的结果返回并计算跟踪代码?
我过滤只显示一次的 ips 的代码是:
SELECT tracking, ip, COUNT( * )
FROM tracking
GROUP BY ip
HAVING COUNT( * ) =1
ORDER BY COUNT( * ) DESC
然后我如何获取这些结果并运行另一个查询,然后对跟踪代码进行计数和求和?
-凯文
编辑:
抱歉,第一次在这里发帖,有点仓促。最后,我正在寻找的是获取所有使用的跟踪代码的计数。
假设我有下表数据:
id timestamp ip tracking
-- --------- -- --------
1 2014-01-10 23:43:10 192.168.1.1 100
2 2014-01-10 23:43:10 192.168.1.1 200
3 2014-01-10 23:43:10 192.168.1.2 100
4 2014-01-10 23:43:10 192.168.1.1 999
5 2014-01-10 23:43:10 192.168.1.1 100
6 2014-01-12 23:43:10 192.168.1.1 100
7 2014-01-12 23:43:10 192.168.1.3 100
8 2014-01-12 23:43:10 192.168.1.4 100
9 2014-01-12 23:43:10 192.168.1.5 600
10 2014-01-12 23:43:10 192.168.1.1 888
11 2014-01-12 23:43:10 192.168.1.1 888
12 2014-01-12 23:43:10 192.168.1.8 200
13 2014-01-12 23:43:10 192.168.1.9 300
14 2014-01-12 23:43:10 192.168.1.10 100
15 2014-01-12 23:43:10 192.168.1.11 400
16 2014-01-12 23:43:10 192.168.1.1 888
17 2014-01-12 23:43:10 192.168.1.12 200
18 2014-01-12 23:43:10 192.168.1.2 777
19 2014-01-12 23:43:10 192.168.1.2 100
20 2014-01-12 23:43:10 192.168.1.1 200
21 2014-01-12 23:43:10 192.168.1.4 789
最后,我想显示所有使用的跟踪代码的计数,但要忽略 IP 地址看起来来自机器人的任何行。由于此设置的性质,我们假设 IP 地址只会访问该站点一次,也许两次。所以我想,如果我能得到跟踪代码的计数,排除 IP 地址大于 1(或可能是 2)的任何行。
因此该数据集的最终结果将是
tracking count
-------- -----
100 3
200 2
300 1
400 1
600 1
789 1
从结果来看,我们基本上没有计算来自 192.168.1.1 和 192.168.1.2 的任何内容,因为这些 ip 访问了超过 1 次。
编辑 - 我添加了第 21 行,让其中一个 IP 访问两次,因此如果我们在查询中使用 <3,他们的两次访问都应该算在内。看起来下面的答案不能正常工作。当我添加第 21="" 行时,代码="" 789="">3,他们的两次访问都应该算在内。看起来下面的答案不能正常工作。当我添加第>
希望这有助于更好地理解它?
我知道如何获取 ips 或跟踪的总体计数,但我不知道如何将两者放在一个查询中。
-凯文
编辑 2/4/14 - 所以我认为正在发生的是下面的查询仅计算 IP 第一个实例的跟踪代码。因此,在这种情况下,让我们更改表格以获得更好的数据集
id timestamp ip tracking
-- --------- -- --------
1 2014-01-10 23:43:10 192.168.1.1 100
2 2014-01-10 23:43:10 192.168.1.222 100
3 2014-01-10 23:43:10 192.168.1.1 200
4 2014-01-10 23:43:10 192.168.1.2 100
5 2014-01-10 23:43:10 192.168.1.1 999
6 2014-01-12 23:43:10 192.168.1.1 100
7 2014-01-12 23:43:10 192.168.1.2 100
8 2014-01-12 23:43:10 192.168.1.3 100
9 2014-01-12 23:43:10 192.168.1.4 100
10 2014-01-12 23:43:10 192.168.1.5 600
11 2014-01-12 23:43:10 192.168.1.1 888
12 2014-01-12 23:43:10 192.168.1.1 888
13 2014-01-12 23:43:10 192.168.1.8 200
14 2014-01-12 23:43:10 192.168.1.9 300
15 2014-01-12 23:43:10 192.168.1.10 100
16 2014-01-12 23:43:10 192.168.1.11 400
17 2014-01-12 23:43:10 192.168.1.1 888
18 2014-01-12 23:43:10 192.168.1.12 200
19 2014-01-12 23:43:10 192.168.1.222 777
20 2014-01-12 23:43:10 192.168.1.2 100
21 2014-01-12 23:43:10 192.168.1.1 200
22 2014-01-12 23:43:10 192.168.1.4 789
在这种情况下,我希望查询是任何 IP 出现 2 次或更少的地方。所以结果应该是:
tracking count
-------- -----
100 4
200 2
300 1
400 1
600 1
777 1
789 1
基本上,192.168.1.1 和 .2 是唯一出现超过 2 次的,因此应该将它们排除在外。有些 IP,如 .4 和 .222 出现两次,这很好,但每次它们都使用不同的代码。
使用下面的查询:
select xyz.tracking,count(xyz.tracking) as `count` from (select ip,count(ip),tracking from tracking group by ip having count(ip)<3) xyz group by xyz.tracking;
我似乎只拿起每个IP的第一个实例的代码。所以我得到的结果是:
tracking count
-------- -----
100 4
200 2
300 1
400 1
600 1
所以在这种情况下,它会为 IP .222 提取代码 100,但不会为 IP .222 提取代码 777 它拾取 IP .4 的代码 100,而不是 IP .4 的代码 789。
有人知道如何解决这个问题吗?
编辑:所以我想我有一个解决方案。它返回正确的值。有人可以验证吗?
SELECT t.tracking, count(t.tracking) as COUNT FROM tracking t
JOIN (
SELECT s.ip, count(s.ip) FROM tracking s GROUP BY s.ip HAVING COUNT(s.ip)<=2) d
ON d.ip = t.ip
GROUP BY t.tracking
最佳答案
我相信我找到了答案,以防其他人需要这样的查询。
SELECT t.tracking, count(t.tracking) as COUNT FROM tracking t
JOIN (
SELECT s.ip, count(s.ip) FROM tracking s GROUP BY s.ip HAVING COUNT(s.ip)<=2) d
ON d.ip = t.ip
GROUP BY t.tracking
关于mysql - 选择 MySQL 结果,忽略计数大于 X 的字段,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21122399/
我有一个表单,其中有很多字段取自数组(而不是模型或对象)。我如何验证这些字段的存在?solve_problem_pathdo|f|%>... 最佳答案 创建一个简单的类来包装请求参数并使用ActiveModel::Validations。#definedsomewhere,atthesimplest:require'ostruct'classSolvetrue#youcouldevencheckthesolutionwithavalidatorvalidatedoerrors.add(:base,"WRONG!!!")unlesss
我想向我的Controller传递一个参数,它是一个简单的复选框,但我不知道如何在模型的form_for中引入它,这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框,但我该怎么做,模型中没有一个对象,而是一个要检查的对象,以便在Controller中创建一个ifelse,如果没有检查,请帮助我,非常感谢,谢谢
我知道我可以指定某些字段来使用pluck查询数据库。ids=Item.where('due_at但是我想知道,是否有一种方法可以指定我想避免从数据库查询的某些字段。某种反拔?posts=Post.where(published:true).do_not_lookup(:enormous_field) 最佳答案 Model#attribute_names应该返回列/属性数组。您可以排除其中一些并传递给pluck或select方法。像这样:posts=Post.where(published:true).select(Post.attr
尝试在我的RoR应用程序中实现计数器缓存列时出现错误Unknownkey(s):counter_cache。我在这个问题中实现了模型关联:Modelassociationquestion这是我的迁移:classAddVideoVotesCountToVideos0Video.reset_column_informationVideo.find(:all).eachdo|p|p.update_attributes:videos_votes_count,p.video_votes.lengthendenddefself.downremove_column:videos,:video_vot
我正在尝试按0-9和a-z的顺序创建数字和字母列表。我有一组值value_array=['0','1','2','3','4','5','6','7','8','9','a','b','光盘','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','','u','v','w','x','y','z']和一个组合列表的数组,按顺序,这些数字可以产生x个字符,比方说三个list_array=[]和一个当前字母和数字组合的数组(在将它插入列表数组之前我会把它变成一个字符串,]current_combo['0','0','0']
状态:我正在构建一个应用程序,其中需要一个可供用户选择颜色的字段,该字段将包含RGB颜色代码字符串。我已经测试了一个看起来很漂亮但效果不佳的。它是“挑剔的颜色”,并托管在此存储库中:https://github.com/Astorsoft/picky-color.在这里我打开一个关于它的一些问题的问题。问题:请建议我在Rails3应用程序中使用一些颜色选择器。 最佳答案 也许页面上的列表jQueryUIDevelopment:ColorPicker为您提供开箱即用的产品。原因是jQuery现在包含在Rails3应用程序中,因此使用基
我想这样组织C源代码:+/||___+ext||||___+native_extension||||___+lib||||||___(Sourcefilesarekeptinhere-maycontainsub-folders)||||___native_extension.c||___native_extension.h||___extconf.rb||___+lib||||___(Rubysourcecode)||___Rakefile我无法使此设置与mkmf一起正常工作。native_extension/lib中的文件(包含在native_extension.c中)将被完全忽略。
导读语言模型给我们的生产生活带来了极大便利,但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。在3月9日智源Live第33期活动「DetectGPT:判断文本是否为机器生成的工具」中,主讲人Eric为我们讲解了DetectGPT工作背后的思路——一种基于概率曲率检测的用于检测模型生成文本的工具,它可以帮助我们更好地分辨文章的来源和可信度,对保护信息真实、防止欺诈等方面具有重要意义。本次报告主要围绕其功能,实现和效果等展开。(文末点击“阅读原文”,查看活动回放。)Ericmitchell斯坦福大学计算机系四年级博士生,由ChelseaFinn和Chri
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co
在读取/解析文件(使用Ruby)时忽略某些行的最佳方法是什么?我正在尝试仅解析Cucumber.feature文件中的场景,并希望跳过不以Scenario/Given/When/Then/And/But开头的行。下面的代码有效,但它很荒谬,所以我正在寻找一个聪明的解决方案:)File.open(file).each_linedo|line|line.chomp!nextifline.empty?nextifline.include?"#"nextifline.include?"Feature"nextifline.include?"Inorder"nextifline.include?