GithubHelp home page GithubHelp logo

project_taxi_data_analysis's Introduction

2018/09/05 - meeting5

1. 工作進度討論

  • 海拔資料
    暫時放棄

  • 標的物數量及座標
    湘嵐 & Scott 認領任務!!!!

  • 資料彙整:
    問題一: 歷史氣象資料NULL
    解決方法: 抓取鄰近氣象站(大直)的歷史資料,以內差法填取空值

    問題二: 歷史資料篩分成25* 100筆
    解決方法: 佩瑜 負責執行

    下周進度: 深入歷史資料敘述統計,進行資料分類(以節日/ 標的物區分)。
    威哥 / 暉雅 負責執行

  • 歷史資料地圖視覺化
    呈現前10大上車熱點
    目前統計結果: No.1 民生社區 / No.2 內湖八大電視台周邊 / N0.3 內湖科學園區(瑞光路陽光路口)

    下周進度: 1.嘗試將座標truncate至小數點後第2位,檢視結果。2. 嘗試不同分類演算法。

  • 機器學習
    全體研究適合專題的演算法。ex:TensorFlow, 類神經網路

  • 及時天氣資料抓取
    尹翊 & 佩瑜 認領任務!!!!

2. 工作分配

  • DFD
    威哥
  • 資料爬蟲
    湘嵐 / Scott / 佩瑜 / 尹翊
  • 資料彙整
    威哥 / 暉雅 / 佩瑜
  • 機器學習
    全體學習
  • 資料視覺化
    文彥 / 尹翊
  • 網站呈現
    文彥

2018/08/28 – meeting4

1.DFD圖 (大約兩周內補上Lv2) –何佩瑜、徐慶崴

2.以後固定實體開會時間:每周三下午18:00

3.目前想法

  1. 預測各地區預測人數y值(共25條公式)=
    日期x1+時間x2+氣溫x3+降雨量x4+相對濕度x5+氣壓x6+風速x7
    +海拔x8+商店x(9~?) (尚未取得)
  2. 呈現方式:
    每區再細切10* 10(100格),每一小格預測人數以區間顏色深淺顯示,即可顯示乘載人數預測範圍
    ※上述有想法可提出討論作新增刪減

4.工作事項

  1. 海拔資料
  2. 各地區商店(醫院,捷運站,KTV等)數量及座標
  3. 資料彙整(資料檢查,清洗,補缺)
  4. 原資料篩分成25* 100筆
  5. 地圖視覺呈現(歷史資料-敘述統計)
  6. 機器學習軟體應用(先有人學習,之後資料套入才有得問)
  7. 研究天氣即時更新抓取(不過這個不急,可安排至下次工作)

以上7點開放認領,想要兩人一起的也可以,有問題或有其他要新增的提出來,預計9/12前完成。

附件 : 2018/08/29 DFD

  • Lv.0 Alt text
  • Lv.1 Alt text

2018/08/21 – meeting3

1.預計分工

  • 企劃整理
    何佩瑜

  • 資料查詢
    All

  • 網站架設、機械學習
    羅文彥
    何佩瑜
    陳尹翊

  • 統計分析
    徐慶崴
    曾暉雅

  • 爬蟲
    徐慶崴
    吳湘嵐
    葉韋祥
    (可找人討論互相幫忙,各自精進或分享負責的部分,以便有效率共同學習成長 )

2.目標

  1. 精準預測某時段、區域需載客數 (參考meeting-1)
    找出熱點區域、月份、週期 延伸提高派車連續性、增加營收、尋找客群權重並與廣告或周邊商品連結
  2. 最後以網頁or APP呈現
    4個input(降雨機率、日期、時間、區域)
    2個output (預測人數、預測區域乘客範圍)

3.需要工具(知道更多可使用工具或Know how的人請補充)

  1. 爬蟲 Python (Hadoop, Spark)
  2. 資料清洗 CSV, JSON
  3. 資料庫建立 SQL
  4. 機器學習 TensorFlow
  5. 網頁架設 Java, Python

4.統計(依目前資料可完成)

  • 第一階段

    依照區域分成25塊

  1. 統計每區域整年載客數(找出熱點區域)
    ex:是否為市中心(捷運數特多?商圈區?)

  2. 統計每區每個月載客數(找出熱點月份)
    ex:是否為寒暑假或有活動的月份(季節影響?觀光季?)

  3. 統計整年星期X載客數(找出熱點週期)
    ex:平日or假日乘客居多(上班族?假日ktv族?)

  4. 統計整年每星期X特定時間區段載客數(找出熱點時段)
    ex:是否有固定客戶(客源?)

    找出各項熱點意義 (可再多提影響熱點權重因子,以利增加欄位)

  5. 找出熱點區域
    可找出月/週/時上限與下限,思考派車路線連續性(減少空車時間)[需取得下車資料]、與其他交通運輸合作(提高營收) [與google map連結,熱點方圓散佈區可推薦大車隊與之合作,並找出熱點(捷運站,ktv等)權重]

  6. 找出熱點月份
    可思考淡旺季派車分配(提高載客率)、針對特殊月份增加派車(增加特殊月份收益)[需與溫度做mapping,取得氣溫,降雨,風速等影響權重]

  7. 找出熱點週期
    針對熱點週期找尋熱點時段,並推估客群(針對特定客群推出會員優惠方案,提高廣告效果,增加收益)[尋找客群權重]

  • 第二階段

    機器學習

  1. 利用機器學習分類某降雨機率時,同星期X某時段同溫度區間[增加溫度欄位,採去二分或三分法]之下,平均人數,mapping降雨機率0時同星期X某時段同溫度區間之下的平均人數
  2. 以週期計算,並以經緯度熱點產生預測乘客區域載點範圍(以類神經網路模擬出區域載點範圍) 最後視覺化呈現建議預測人數及乘客產生範圍(再討論)

5.目前需要執行項目

  1. 爬天氣資料並與車隊聯絡取得下車資料 -- 徐慶崴, 葉韋祥
  2. 第一階段統計,並整合天氣與車隊資料 -- 曾暉雅, 吳湘嵐
  3. 建立一系統地圖(與google map結合),輸入經緯度,即在頁面產生紅點--羅文彥,陳尹翊,何佩瑜 (待討論)
    (後續可產生每一時段之乘客區間散佈圖,相連成一區塊後,經圖片區塊疊帶供機械學習預測乘客產生範圍有幾筆資料就會產生幾張圖片) ※請按照分配去討論規劃,以利下次開會效率

6.資料庫建立

  • 欄位1 No. /日期 /星期 /時間區間
  • 欄位2 時間區間/ 時間
  • 欄位3 時間/ 區域 / 經度 /緯度
  • 欄位4 No. / 溫度 / 降雨機率/ 濕度/ 風速

No./ 溫度/ 降雨機率/ 濕度/ 風速/ 日期/ 星期/ 時間區間/ 時間/ 區域 / 經度/ 緯度

7.整合

  1. 所有權重整合預測目的
  2. 架設網頁視覺呈現

再建甘特圖、DFD(徐慶崴、曾暉雅)


project_taxi_data_analysis's People

Contributors

warrenlo avatar

Watchers

James Cloos avatar

Forkers

peiyu-ho

project_taxi_data_analysis's Issues

Python-Visualization

Bubble Plot

matplotlib.pyplot.scatter

syntax:

matplotlib.pyplot.scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, verts=None, edgecolors=None, hold=None, data=None, **kwargs)

scatter以設定 s 達到畫出Bubble plot的目標,搭配 c, cmap, alpha, edgecolors 做出顏色鮮明的泡泡圖。

現在來說明上述所提的參數用法:

  • s (size)
    指定圓圈大小

  • c (color)
    指定顏色: 顏色可以指定為 純色 或是 矩陣 搭配 cmap 使用。

  • cmap
    指定顏色漸層: cmap只有在 c 指定為浮點數的矩陣時才可以使用。
    cmap可指定的顏色族繁不及備載,這邊就舉最簡單的紅色漸層作為範例:
    cmap = "Reds" 會出現由白色到深紅色的漸層,如果想把漸層反轉,只要加 _r 寫成 'cmap = "Red_r"`,就會轉成由深紅色到白色的漸層。
    如果有興趣,請參考matplotlib colormaps的網站,裡面有詳細的色卡可以查詢。

  • alpha
    色彩不透明度: alpha 可指定為 0 (透明)1 (不透明) 之間的浮點數。

  • edgecolor
    設定邊框顏色

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.