GithubHelp home page GithubHelp logo

machine-learning-case-studies's Introduction

Machine-Learning-Case

trip

本项目是数据的EDA探索,针对自行车共享数据集2015_trip_data进行探索性数据分析。这个数据集的特征如下表所示:

特征名称 说明
trip_id 为每个行程分配的唯一ID
starttime 在PST中,行程开始的日期和时间
stoptime 在PST中,行程结束的日期和时间
bikeid 每辆自行车的ID
tripduration 以秒为单位的行程时间
from_station_name 行程起始站名
to_station_name 行程终止站名
from_station_id 行程起始站ID
to_station_id 行程终止站ID
usertype 数据可以是以下任意一种:短期通行证持有者或会员
gender 骑手性别
birthyear 骑手出生年份

分别观察了数据集的数据分布、时间序列成分、度量测度中心、离群样本、相关性、t-分布、中心极限定理等。

Concrete

本项目是数据的回归预测,针对混凝土抗压强度数据集Concrete_Data进行样本的混凝土抗压强度预测。这个数据集的特征如下表所示:

特征名称 说明
cement_component 水泥(组分1)(千克/立方米混合物)
furnace_slag 高炉矿渣(组分2)(千克/立方米混合物)
flay_ash 粉煤灰(组分3)(千克/立方米混合物)
water_component 水(组分4)(千克/立方米混合物)
superplasticizer 减水剂(组分5)(千克/立方米混合物)
coarse_aggregate 粗骨料(组分6)(千克/立方米混合物)
fine_aggregate 细骨料(组分7)(千克/立方米混合物)
age 龄期(天)
concrete_strength 混凝土抗压强度(MPa,兆帕)

先对特征之间,特征与label之间的一致性进行观察,然后选取一致性较高的特征进行分析,基于R^2指标,分别用线性回归/岭回归/Lasso回归/ElasticNet/梯度boosting回归/支持向量机对数据集做单变量与多变量的回归预测分析。

Yahoo

本项目是针对股票作时间序列分析与预测,针对数据集为雪人2017年全年的数据集。这个数据集的特征如下表所示:

特征名称 说明
date 日期
open 开盘价
high 最高价
close 收盘价
low 最低价
volume 成交量
price_change 价格变动
p_change 涨跌幅
ma5 5日均价
ma10 5日均价
ma5 10日均价
ma20 20日均价
v_ma5 5日均量
v_ma10 10日均量
v_ma20 20日均量

首先进行特征探索,利用Dickey-Fuller检验评估时间序列的平稳性,然后通过对数以及差分运算使时间序列平稳。通过Durbin Watson统计计算时间序列的自相关性。最后利用ARIMA进行时间序列建模分析,最终的MSE: 0.2393

AAAI

本项目是数据的聚类分析,针对2014年AAAI收到的所有论文数据集[UCI] AAAI-14 Accepted Papers - Papers进行样本的聚类分析。这个数据集的特征如下表所示:

特征名称 说明
title 论文标题
authors 论文作者
groups 作者选定的高级关键词
keywords 作者生成的关键词
topics 作者选择的低级关键词
abstracts 论文摘要

首先进行特征转换,将数据集按照作者选定的高级关键词进行展开,然后分别用k-means、高斯混合模型、贝叶斯高斯混合模型对数据集进行聚类分析。并对聚类结果采用词云的方式进行可视化分析。最终得到贝叶斯高斯混合模型的聚类效果最好,将数据集聚为3簇时,轮廓系数最大。

noshowappointments

本项目是数据的二分类分析,针对俄亥俄州诊所患者出现与否数据集No-show-Issue-Comma-300k进行样本的分类预测。这个数据集的特征如下表所示:

特征名称 说明
年龄(Age) 患者的年龄
性别(Gender) 患者的性别
预约登记(AppointmentRegistration) 向患者发出预约的日期
预约数据(ApointmentData) 向患者发出的预约就诊日期
一周中具体的某日(DayOfTheWeek) 向患者发出的预约就诊日
状态(Status) 患者就诊与否
糖尿病(Diabetes) 是否患有糖尿病
酗酒(Alcoolism) 患者是否受到酒精的影响
高血压(HiperTension) 患者是否有高血压
残疾(Handcap) 患者是否残疾
吸烟(Smokes) 患者是否吸烟
资助(Scholarship) 患者是否受到福利机构的资助
结核(Tuberculosis) 患者是否患有结核
短信提醒(Sms_Reminder) 是否向患者发送预约短信提醒
等待时间(AwaitingTime) 等待时间=预约登记-预约数据

首先进行特征探究,观察里面的连续变量,布尔值变量以及字符串变量,并绘制不同变量的分布图。然后对变量中的离群值以及明显错误数据进行清洗,探究各变量与状态变量之间的关系。最后分别用决策树,SGD,随机森林以及梯度Boosting对数据集做二分类预测,得到梯度Boosting在ROC_AUC指标下效果最好。

machine-learning-case-studies's People

Contributors

wzy6642 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.