The dmc-2016 from luthfianto

voucherID: Missing value

ID mah sekalian drop aja kali ya

kalaupun misalnya mau dikasih ID sendiri, digrup berdasarkan nilainya dulu (voucherAmount)

tapi kayanya mah drop aja

Transformasi fitur --> yg dilog, dipangkatin, atau diapa2 yg lain. Cara tau mana tranformasi yg 'bener': bandingin nilai R^2 sebelum dan sesudah ditransformasi. Kalau makin besar bagus, sudah benar, kalau belum coba lagi, kalau tambah kecil semua berarti gausah ditransformasi

http://stattrek.com/regression/linear-transformation.aspx?Tutorial=AP

selidiki PolynomialFeatures

http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html

n_estimators

Defaultnya n_estimators = 10, terlalu sedikit deh

Seleksi Fitur Polynomial

Seleksi Fitur dr generate-an PolynomialFeatures. Kan banyak banget tuh fitur yg didapet dr PF, nah diseleksi aja mana yang paling ngaruh**

** nah untuk yg ini aku baca (di Introduction for Statistical Learning), kalau misal nih fitur X1 x X2 (baca: interaksi X1 dan X2) itu berpengaruh, kita ngga boleh nge-exclude fitur X1 dan X2.
soalnya itu ada di hierarchical principle, "if we include interaction in a model, we should also include the main effects, even if the p-values associated with their coefficients are not significant".
alasannya karena kalau X1 x X2 'penting' maka X1 atau X2 secara terpisah itu 'penting' atau tidaknya tidak terlalu ngaruh (sangat eksplanatif), dan ada penjelasan lain kalau X1 x X2 itu berkorelasi sama X1 dan X2 shg kalau kita tinggalkan berpotensi akan mengubah 'meaning of interaction'

Benerin probabilty biar jadi kumulatif?

Kalau kata bahrun #2 itu bagusnya kumulatif? Mengapa, karena secara intuitif, kita tak bisa memprediksi masa sekarang dengan data masa depan.
Misal hari ini adalah N, besok N+1, lusa N+2. Kita tak dapat memprediksi N+1 dengan data N+2, hanya data di hari ke-N yang dapat kita gunakan

Sedangkan, return_prob di data testing pakai probabilitas terakhir (yaitu ekuivalen dengan implementasi sekarang yang menjumlah seluruh baris)

Istilah yang lebih tepat adalah prior probability.

Bagaimana menurut kalian? Diskusikan!

Contoh argumen terhadap isu ini:

pro: seperti argumen bahrun
kontra: apakah model machine learning dapat mempelajari makna dari probabilitas prior?(probabilitas yang dipelajari dari masa lalu; berubah seiring waktu )

Langkah benerin?

ganti sum() jadi cumsum()
pastikan data testing/validation pakai probabilitas kumulatif terakhir

Ekstraksi Fitur

Return Spend
- cumsum: return_spend. Berapakah total nilai pembelian customer yang dikembalikan
Non Return Spend
- cumsum: nonreturn_spend. Berapakah total nilai pembelian customer tanpa pengembalian
Size biasanya customer.
- customerID + productGroup + sizeCode --> cari cumprob nya (sudah dicari @amirahff).

Analisis @amirahff tentang productGroup terhadap persebaran sizeCode-nya:

ternyata ada 3 grup yg sizenya A semua: 43, 45, 90.
lalu yg grup 2 itu sizenya 24-34.
grup 7 itu selain 34-44 ada juga S, M, L.
grup 9 32-44
grup 17 macam2 ada 42-44 75-100 A I L M S XL XS
trs grup 26 hanya size 40
utk null size nya cuma A

mean, variance, skewness, kurtosis

mean
variance
skewness
kurtosis

Coba bikin untuk kombinasi fitur. misal: articleID + price = mean_article_price, median_article_price, min_article_price, max_article_price, skew_article_price, kurtosis_article_price, var_article_price

Kira-kira masuk akal ga ya? Atau pure nonsense

Pembelian produk mahal pada selasa/rabu

Beberapa orang "beli" produk mahal buat dipake pesta doang, terus di-refund
asumsikan produk mahal itu rrp-nya tinggi
gabung fitur hari tuesday/wednesday dengan articleID/harga/productGroup

Coba dicek siapa tau efektif

Papan Mading

Notes DMC: https://docs.google.com/document/d/1TIXlB9brKg4FER7-6mkQoc07QKGlUtJ4u3UPnYS7g48/edit?usp=sharing_eid&ts=57052864
Ulasan DMC 2014: http://ots.fh-brandenburg.de/downloads/ki_ss14/Team-FH_Brandenburg_1-und-FH_Brandenburg_2-prudsys-Anwendertage-DMC-2014.pdf
Bahrun's solution for DMC 2015: https://gist.github.com/bahrunnur/8963237d721366baaab1
Chat dengan mas Yodi https://docs.google.com/document/d/13yezWMqrcv8GGTqlUZKa_RxPOsMfjLMGijJiz0aXwIQ/edit#

productGroup: simpan, buang, probability? atau... Impute!!!!

Tidak terlalu signifikan. Mau diapakan?

feature_importances_:
 ('quantity', 0.007251995957035318),
 ('voucherAmount', 0.0084270098393323216),
 ('productGroup', 0.013338614492624339),
 ('voucherID', 0.016040803567248609),
 ('paymentMethod', 0.019941250968533431),
 ('deviceID', 0.020316516646024803),
 ('months', 0.026122648399999011),
 ('sizeCode', 0.026651668213207254),
 ('rrp', 0.031491169954646278),
 ('choice_order', 0.039189931417207585),
 ('price', 0.047673059358639566),
 ('order_order', 0.064799658865175275),
 ('colorCode', 0.068958628472941763),
 ('mmdd', 0.072462020638408065),
 ('articleID', 0.073478648965403653),
 ('orderDate', 0.073569468144725342),
 ('total_order', 0.079232118466960516),
 ('after_voucher', 0.082577205489615293),
 ('budget', 0.087331963723963874),
 ('customerID', 0.087644589636466194)]

cc: @amirahff @meisyarahd @rochanaph

average_article_price: harga rerata item, dan apakah harga item lebih rendah/tinggi dari biasanya

Return Probabilities

Cara: groupby suatu kolom, lalu ambil proporsi grup tersebut terhadap returnQuantity/Quantity

Todo:

Nggak efektif:

paymentMethod_prob

Tambahan feature extraction?

Sumber: https://github.com/xydrolase/dmc-2014/blob/master/featgen%2Ffeat_gen.R

Catatan:

cid = customer id
iid = item id

List:

some by.batch.cid feature(xin have done this)

If a cid returned/kept/ordered an exactly same item before/in the future

#ob.by.cid.iid.color.size
#of.by.cid.iid.color.size
rb.by.cid.iid.color.size = check_return_before(date,return),
kb.by.cid.iid.color.size = check_keep_before(date,return),
rf.by.cid.iid.color.size = check_return_future(date,return),
kf.by.cid.iid.color.size = check_keep_future(date,return)) %.%

If a cid returned/kept/ordered a same iid before/in the future

rb.by.cid.iid = check_return_before(date,return),
ob.by.cid.iid = check_order_before(date,return),
kb.by.cid.iid = check_keep_before(date,return),
rf.by.cid.iid = check_return_future(date,return),
of.by.cid.iid = check_order_future(date,return),
kf.by.cid.iid = check_keep_future(date,return)) %.%

If a cid returned/kept/ordered a same item with same price before/in the future

item freshness

raw.tr$f1w <- fan.feats$outday.by.iid <= 7
raw.tr$f2w <- fan.feats$outday.by.iid <= 14
raw.tr$f1m <- fan.feats$outday.by.iid <= 30
raw.tr$f3m <- fan.feats$outday.by.iid <= 90
raw.tr$f6m <- fan.feats$outday.by.iid <= 180
raw.tr$oseas <- fan.feats$outseason.by.iid
raw.tr$isdisc <- fan.feats$disc < 1
raw.tr$deal <- fan.feats$deal
raw.tr$lowdisc <- fan.feats$disc <= 0.8

price ranges

raw.tr$pb25 <- raw.tr$price < 25
raw.tr$pb50 <- raw.tr$price < 50
raw.tr$pb100 <- raw.tr$price < 100
raw.tr$pb200 <- raw.tr$price < 200

compute counts and LLRs for given "feats", the combation of features.

counts.and.llrs <- function(df, feats, c1=0.5, c2=0.5) {

3way interaction: color_state_iid

.feats = counts.and.llrs(raw.tr, c("state", "iid", "color"))
names(.feats) <- c("all.cnt.state_iid_color", "all.llr.state_iid_color")
all.feats <- cbind(all.feats, .feats)
.feats = counts.and.llrs(raw.tr, c("state", "mid", "color"))
names(.feats) <- c("all.cnt.state_mid_color", "all.llr.state_mid_color")
all.feats <- cbind(all.feats, .feats)

ratio of low price / low discount

fan.feats$rlowprice.by.cid <- fan.feats$nlowprice.by.cid /
all.feats$all.cnt.cid
fan.feats$rlowprice.by.cid[all.feats$all.cnt.cid == 0] <- 0
fan.feats$rlowdisc.by.cid <- fan.feats$nlowdisc.by.cid /
all.feats$all.cnt.cid
fan.feats$rlowdisc.by.cid[all.feats$all.cnt.cid == 0] <- 0

batch features with some selected interactions

batch counts / other counts / max counts

customer per batch features

rrate=sum(return)/length(return),
krate=1-sum(return)/length(return)) %.%

only set the first order of each batch to be the true rate, others set to be NA

srrate=c(sum(return, na.rm=T)/length(return), rep(NA, length(return)-1)),
skrate=c(1-sum(return, na.rm=T)/length(return), rep(NA, length(return)-1))) %.%
cb.ret.rates$srrate <- cb.ret.srates$srrate
cb.ret.rates$skrate <- cb.ret.srates$skrate

average return/keep rate, weighted and unweighted,

cbat.wavg.rrate=mean(rrate, na.rm=T),
cbat.wavg.krate=mean(krate, na.rm=T),

simple averages

cbat.avg.rrate=mean(srrate, na.rm=T),
cbat.avg.krate=mean(skrate, na.rm=T),
cbat.sum.rrate=sum(srrate, na.rm=T),
cbat.sum.krate=sum(skrate, na.rm=T))
# log-likelihood ratio of return over kept

Payment Method: Binarize atau probability?

Payment method dijadikan binarized (bikin kolom untuk BPRG, PAYPALVC, etc.) atau diambil probability seperti pada #2? Discuss!

Hal yang sama, juga bisa berlaku untuk nama hari.

cc: @amirahff @meisyarahd @rochanaph

Make make_datasets.py work

Benerin https://github.com/rilut/dmc-2016/blob/master/make_datasets.py agar bisa join data training + testing, terus dipreproses

Working (@rilut)
cumulative probability untuk ac dan as (@amirahff)
generalize fungsi two_columns agar bisa multiple_columns (@amirahff)
berfungsi dengan benar (???)

bisa nyoba pake TPOT, nanti TPOT bakal milihin metode apa yg paling bagus, ngebuatin scriptnya juga
bisa nyoba bermacam-macam model, pake for in. nanti diliat model mana yg menghasilkan error yg paling kecil

rrp: missing values

beberapa pilihan cara asal-asalan:

rrp dijadikan label untuk diprediksi dengan regresi (tapi pilihin parameternya dulu)
mean/median dari productGroup

kalau ada usul lebih bagus, boleh juga

luthfianto / dmc-2016 Goto Github PK

dmc-2016's People

Contributors

Stargazers

Watchers

Forkers

dmc-2016's Issues

Recommend Projects

Recommend Topics

Recommend Org

Jobs