赛题链接:天池新人实战赛o2o优惠券使用预测-天池大赛-阿里云天池赛题提供用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为,预测用户在2016年7月领取优惠券后15天以内的使用情况。题中所给数据的特征较少,所以特征工程的构建是本题的重中之重,如何构建合适的特征向量?博主认为:一方面要凭借主观经验,比如说到要预测用户优惠券使用情况,我们凭借经验也能想到其会与"用户的商家偏好","商家受欢迎程度","优惠券优惠力度","用户的优惠券偏好"等相关。举个栗子,某用户是某个商家的忠实用户,那么该用户核销该商家优惠券的可能性会更大。那么问题来了,我们如何从数据中判断某用户是哪几个商家
液冷技术的创新迸发,为产业提速输送了充沛的动力,期间,只有让液冷技术走向更多客户的数据中心,才能真正促进产业变革。3月31日,浪潮信息举办了首个天池液冷产业基地开放日,展示了企业拥有的先进的液冷智造能力、系统化的品控管理体系、成熟的液冷解决之道以及在行业标准领域取得的成果,并为未来液冷技术的加速落地提供新的方向。
大赛概况进入21世纪,生命科学特别是基因科技已经广泛而且深刻影响到每个人的健康生活,于此同时,科学家们借助基因科技史无前例的用一种全新的视角解读生命和探究疾病本质。人工智能(AI)能够处理分析海量医疗健康数据,通过认知分析获取洞察,服务于政府、健康医疗机构、制药企业及患者,实现个性化,可以循证的智慧医疗,推动创新,实现价值。心血管病、糖尿病等慢性疾病,每年导致的死亡人数占总死亡人数的80%,每年用于慢病医疗费用占中国公共医疗卫生支出的比例超过13%。作为一种常见慢性疾病,糖尿病目前无法根治,但却能通过科学有效的干预、预防和治疗,来降低发病率和提高患者的生活质量。阿里云联合青梧桐健康科技有限公司
大赛概况进入21世纪,生命科学特别是基因科技已经广泛而且深刻影响到每个人的健康生活,于此同时,科学家们借助基因科技史无前例的用一种全新的视角解读生命和探究疾病本质。人工智能(AI)能够处理分析海量医疗健康数据,通过认知分析获取洞察,服务于政府、健康医疗机构、制药企业及患者,实现个性化,可以循证的智慧医疗,推动创新,实现价值。心血管病、糖尿病等慢性疾病,每年导致的死亡人数占总死亡人数的80%,每年用于慢病医疗费用占中国公共医疗卫生支出的比例超过13%。作为一种常见慢性疾病,糖尿病目前无法根治,但却能通过科学有效的干预、预防和治疗,来降低发病率和提高患者的生活质量。阿里云联合青梧桐健康科技有限公司
目录前言一、数据集的来源和各个字段的意义二、数据分析1.引入库2.读入数据3.查看数据数量级4.PV(PageView)/UV访问量5.漏斗模型6.用户购买商品的频次分析。7.ARPPU(averagerevenueperpayinguser) 计算ARPPU ARPPU出图8.复购情况分析计算用户购买频次复购周期分析总结前言本人代码萌新一枚,目前还在学习python中,这篇文章是我本人对天池大数据竞赛上的学习赛上官方对数据分析后的自己的一些见解,参考的位置我会放在文章的最后。第一次在CSDN写文章,有错误还希望大家可以指正,我都会积极改正。例如:随着人工智能的不断发展,机器学习这门技术也越来
前言一、赛题介绍二、数据描述性统计2.1.读取数据2.2.查看重复值2.3.统计目标变量比例2.4.查看数据的统计量2.5.统计每个变量的种类2.6.查看训练集与测试集的特征分布是否一致2.7查看数据相关性三、数据清洗3.1.分类变量处理3.1.1 grade及subGrade处理3.1.2 employmentLength处理3.1.3 issueDate及earliesCreditLine处理3.2数值变量填充3.3保存数据四、特征探索4.1 PCA主成分分析4.2 Toad:基于Python的标准化评分卡模型4.2.1 toad_quality4.2.2 toad.selection
前言一、赛题介绍二、数据描述性统计2.1.读取数据2.2.查看重复值2.3.统计目标变量比例2.4.查看数据的统计量2.5.统计每个变量的种类2.6.查看训练集与测试集的特征分布是否一致2.7查看数据相关性三、数据清洗3.1.分类变量处理3.1.1 grade及subGrade处理3.1.2 employmentLength处理3.1.3 issueDate及earliesCreditLine处理3.2数值变量填充3.3保存数据四、特征探索4.1 PCA主成分分析4.2 Toad:基于Python的标准化评分卡模型4.2.1 toad_quality4.2.2 toad.selection
目录赛题背景全代码导入包读取数据(训练数据前10000行,测试数据前100条)读取全部数据获取训练和测试数据切分40%数据用于线下验证交叉验证:评估估算器性能F1验证ShuffleSplit切分数据模型调参模糊矩阵不同的分类模型LR模型KNN模型tree树模型bagging模型随机森林模型ExTree模型AdaBoost模型GBDT模型VOTE模型投票lgb模型xgb模型自己封装模型Stacking,Bootstrap,Bagging技术实践测试自己封装的模型类天猫复购场景实战读取特征数据设置模型参数模型训练预测结果保存结果赛题背景商家一般会在“双十一”,“双十二”等节日进行大规模的促销,比如
目录赛题背景全代码导入包读取数据(训练数据前10000行,测试数据前100条)读取全部数据获取训练和测试数据切分40%数据用于线下验证交叉验证:评估估算器性能F1验证ShuffleSplit切分数据模型调参模糊矩阵不同的分类模型LR模型KNN模型tree树模型bagging模型随机森林模型ExTree模型AdaBoost模型GBDT模型VOTE模型投票lgb模型xgb模型自己封装模型Stacking,Bootstrap,Bagging技术实践测试自己封装的模型类天猫复购场景实战读取特征数据设置模型参数模型训练预测结果保存结果赛题背景商家一般会在“双十一”,“双十二”等节日进行大规模的促销,比如