GithubHelp home page GithubHelp logo

zgaox2015 / kaggle Goto Github PK

View Code? Open in Web Editor NEW

This project forked from apachecn/interview

0.0 1.0 0.0 90.61 MB

Kaggle 项目实战(教程) = 文档 + 代码 + 视频(欢迎参与)

License: GNU General Public License v3.0

Jupyter Notebook 97.93% Python 2.07% Shell 0.01%

kaggle's Introduction

Kaggle

Special Sponsors

你已经抓住了石头,现在是挥舞它的时候了!

Note:

train loss 与 test loss 结果分析

  • train loss 不断下降,test loss不断下降,说明网络仍在学习;
  • train loss 不断下降,test loss趋于不变,说明网络过拟合;
  • train loss 趋于不变,test loss不断下降,说明数据集100%有问题;
  • train loss 趋于不变,test loss趋于不变,说明学习遇到瓶颈,需要减小学习率或批量数目;
  • train loss 不断上升,test loss不断上升,说明网络结构设计不当,训练超参数设置不当,数据集经过清洗等问题。
机器学习比赛奖金很高业界承认分数现在我们已经准备好尝试 Kaggle 竞赛了这些竞赛分成以下几个类别

[第1部分:课业比赛 InClass](https://www.kaggle.com/competitions?sortBy=dead

ne&group=all&page=1&pageSize=20&segment=inClass)

课业比赛 InClass 是学校教授机器学习的老师留作业的地方,这里的竞赛有些会向public开放参赛,也有些仅仅是学校内部教学使用。

入门比赛 Getting Started 给萌新们一个试水的机会,没有奖金,但有非常多的前辈经验可供学习。很久以前Kaggle这个栏目名称是101的时候,比赛题目还很多,但是现在只保留了9个最经典的入门竞赛:手写数字识别、沉船事故幸存估计、脸部识别、Julia语言入门。

训练场 Playground里的题目以有趣为主,比如猫狗照片分类的问题。现在这个分类下的题目不算多,但是热度很高。

研究型 Research 竞赛通常是机器学习前沿技术或者公益性质的题目。竞赛奖励可能是现金,也有一部分以会议邀请、发表论文的形式奖励。

人才征募 Recruitment 竞赛是赞助企业寻求数据科学家、算法设计人才的渠道。只允许个人参赛,不接受团队报名。

推荐比赛 Featured 是瞄准商业问题带有奖金的公开竞赛。如果有幸赢得比赛,不但可以获得奖金,模型也可能会被竞赛赞助商应用到商业实践中呢。

天池

其他部分

  • 数据集: 数据集,可直接用于机器学习。
  • 核心**: 在线编程。(猜测,基于 jupyter 实现)
  • 论坛: 发帖回帖讨论的平台
  • 招聘: 企业招聘数据科学家的位置

解决方案列表

如果解决方案太大,可以先放在这个列表中。以后再逐步整合到这个仓库。

机器学习算法

常用算法选择

常用工具选择

解决问题的流程

  1. 链接场景和目标
  2. 链接评估准则
  3. 认识数据
  4. 数据预处理(清洗、调权)
  5. 特征工程
  6. 模型调参
  7. 模型状态分析
  8. 模型融合

数据预处理

  • 数据清洗
    • 去掉样本数据的异常数据。(比如连续型数据中的离群点)
    • 去除缺失大量特征的数据
  • 数据采样
    • 下/上采样(假设正负样本比例1:100,把正样本的数量重复100次,这就叫上采样,也就是把比例小的样本放大。下采样同理,把比例大的数据抽取一部分,从而使比例变得接近于1;1)
    • 保证样本均衡
  • 工具 sql、pandas等

特征工程

特征处理

  • 数值型:连续型数据离散化或者归一化、数据变化(log、指数、box-cox)
  • 类别型:做编码,eg:one-hot编码,如果类别数据有缺失,把缺失也作为一个类别即可。
  • 时间类:间隔化(距离某个节日多少天)、与其他特征(eg:次数)融合,变成一周登陆几次、离散化(eg:外卖,把时间分为【饭店、非饭店】)
  • 文本类:N-gram、Bag-of-words、TF-IDF
  • 统计型:与业务强关联
  • 组合特征

贡献指南

欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远

本项目接受大家提交 WriteUp(题解)。

WriteUp 需要带有预处理过程,从你能下载到的原始数据开始,并且带有验证过程和评价指标。

请放在/competitions/{分类}/{名称}目录下。

其中分类一共有六个,请见上面,名称是 URL 中/c/后面的部分。

联系方式

项目负责人

项目发起人

项目贡献者(请手动添加)

加入方式

有任何建议反馈, 或想参与文档翻译, 麻烦联系下面的企鹅

  • 企鹅: 529815144(片刻) 1042658081(那伊抹微笑) 190442212(瑶妹)
  • ApacheCN - 比赛学习群【724187166】ApacheCN - 比赛学习群[724187166]
  • Kaggle (数据科学竞赛平台) | ApacheCN(apache中文网)

微信&支付宝

kaggle's People

Contributors

jiangzhonglian avatar hduyyg avatar huangzijian888 avatar wangyangting avatar rujinshi avatar 1mrliu avatar chenyyx avatar xuehuachunsheng avatar wizardforcel avatar usernametwo avatar thelisq avatar maxiaomu avatar 0xmj avatar wang-sw avatar xiaosong2024 avatar xiaomingnio avatar skierlin avatar zehuichen123 avatar jiaqiangbandongg avatar boonguan avatar watermelon233 avatar ccyf00 avatar lianjizhe avatar limingzhe avatar lai-bluejay avatar jetou avatar friedhelm739 avatar chengpiaopiao avatar marsjhao avatar windzq avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.