基于图嵌入和图神经网络模型的动画推荐,本项目同时是**人民大学数据挖掘中心案例和**人民大学数据科学实践课程(2021~2022春)大作业
数据集:约5000部动画,数据爬取自 https://bgm.tv/
核心目标:
① 当用户访问一部动画时,利用动画和制作人员的关系,向这位用户推荐其他动画。
② 预测未来动画的优劣,根据预测结果向用户推荐动画。
仓库内文件介绍:
anime_information_2022_from_4_to_9_20220416.xlsx 动画信息,涵盖2022年4月~9月的动画
anime_information_20220416.xlsx 动画信息,涵盖1900~2021年的动画
instead_of.txt 同义标签替换文件(。・∀・)ノ 在展示标签的时候或许有用
msyhbd.ttc 微软雅黑字体
need_style_list_supplement.txt bangumi网站上,1000个最热门的动画标签(第一行无效)
同时建模.ipynb 在图神经网络模型中根据1900~2020年的动画建模,在2021年的动画上跑分,预测2022年的动画。
只关注新作.ipynb 在图神经网络模型中根据1900~2020年的新作动画(一般为一部动画的第一季)建模,在2021年的新作动画上跑分,预测2022年的新作动画。
只关注续作.ipynb 在图神经网络模型中根据1900~2020年的续作动画建模,在2021年的续作动画上跑分,预测2022年的续作动画。
注:以上三个代码中实际上包含图嵌入模型代码,但是在github的可视化界面中没有显示(待修复)
To do:
背景介绍
目前案例的背景介绍、描述统计、数据可视化的内容篇幅较少,需要完善。
模型改进
① DMC案例中deepwalk模型只使用了动画、导演和编剧的信息,推荐效果不佳,结果太像“这部动画的导演和编剧也做过…”,可以加上单集导演和单集编剧的信息。
② 对于图神经网络模型,尝试更改连边方式。
③ 引入更多的信息比如简介、海报。
④ 对于动画来讲,新作和续作是很不一样的,尝试分别训练模型加以预测。(已完成)
结果展示
① 动画优劣预测部分,添加消融实验,观察图神经网络是否真的有用。
② 每一部动画,我们可以获取它的三十个标签,由于标签的数量过多,用户难以获取最重要的标签,可以使用一种方法,将重要的标签筛选出来向用户展示。(代码内已有尝试)
③ 可以把动画优劣的预测结果,加上筛选出来的重要标签,以网页的形式展示。