kun-g / ia06_fa Goto Github PK

Information Analysis Season 06 Final Assignment

Jupyter Notebook 59.57% Python 36.04% HTML 1.69% JavaScript 2.71%

ia06_fa's Introduction

Hi there 👋

我的项目

💻 Technology	🚀 Projects

我的统计

ia06_fa's People

Contributors

Stargazers

Watchers

Forkers

hzwm linhaotao

ia06_fa's Issues

引入

阳老师讲的故事：翻过一座山的方法是什么？
最简单的方法：步行爬山，走过去。
最难的方法：挖隧道、建飞机场。
通过学术分析这一章的学习，我们的收获：1. 认知升级。明确了建立对一个学科的全局认识的长期效益最大化的做法是建机场或挖掘隧道这样的费力做法。2. 知道了一些学术分析工具的用法，比如知识图谱、zotero批量下载1000篇论文等，相当于教会我们使用建机场和挖隧道的基本工具。

但是，问题来了，为什么我们感觉学术分析是在整个信息分析中最难的一章呢？以及课程结束之后，还有多少人还能坚持使用学术分析的这一套费力的做法呢？

我们小组总结出的原因在于，当前的学术分析课程只教会了我们正确的方向和一些工具的用法，但是没有提供一套可批量操作的路径，在进行学术分析的过程中会牵绊在一些琐碎的操作细节上，从而费力又费时，妨碍我们顺畅地建立对某个学科或某个学者的全局认知。相当于，告诉你要挖隧道，也给了你挖掘机，但是你没有一个可以follow的施工方案，你还是无法顺利翻越这座大山。本项目小组借助“建立对某个科学家或学者的全局认知”，以西蒙为例，完整地梳理了学术分析的整个流程，尝试用编程技术，优化学术分析中的一些操作细节。

当前学术分析中存在的困境

宏观层面的指导，比较抽象，行动困难。
比如，为了了解某一个学者的审美和偏好，教练给出的建议是去阅读学者的小传。那么小传从哪里来？是否维基百科就够了？是否还有其他信息来源的小传与维基百科的小传交叉验证呢？
对于西蒙来说，他的小传有维基百科上的介绍，有自己写的传记，有来自于诺贝尔奖网站上的介绍（侧重于经济学方面的研究经历），有来自于图灵奖网站上的介绍（侧重于信息科学方面的介绍)。我们要如何根据自己的需求和兴趣去挖掘出这么多来源的信息呢？
技术细节琐碎。
比如，Zotero上批量下载1000篇论文。比如从谷歌学术下载的论文，很多论文是二手信息；很多论文的元信息存在缺漏；而且不提供论文的摘要。从我自己操作的体验来说，仅仅是下载学者所有的论文，然后手动利用zotero的时间轴功能，似乎无法帮助我准确地判断出哪篇文章是学者的某个**的源头。
我们所做的与维基百科有什么区别？百科全书式的认识。维基百科不一定准确，但是我们也很难做到交叉验证。

我们想实现什么？

信息获取阶段：逐步整理一套覆盖多个学科领域的优质信息源清单，如信息科学、心理学、经济学。
信息加工阶段：利用编程技术，自动抓取和初步处理各渠道来源的信息。
信息分析阶段：细化到操作层面的学术信息操作规范。
信息报告阶段：按照时间、空间、变量关系，依次回答：学者本人的贡献、地位、审美和偏好等；同领域的大牛和研究机构清单；攻读该学者的阅读清单（论文、著作、其他材料，根据重要程度排序）；以及从学者出发挖掘到的学科的时间周期、发展脉络和关键节点等。

我们是这样做的

我们的学术分析翻山指南分为3个阶段：第一阶段，利用学者本人的维基百科主页，抓取关键变量，生成关于该学者的最小分析框架；第二阶段，对第一阶段抓取的关键变量进一步扩充，从不同渠道获取信息来补充和深化；第三阶段，分析学者的论文和著作，提炼学者的关键**、关键理论或提出的关键术语。以下的介绍将以西蒙为例，对我们的《学术分析翻山指南》进行介绍：

第一阶段：WIKI百科提取关键变量

信息获取：Wikipedia学者页面
信息整理：按照以下模板提取wiki中的信息

时间
1. 生卒年月
2. 求学经历
空间
1. 学术领域
2. 获奖情况
3. 所属机构
变量
1. 家庭情况
2. 个人喜好
3. 主要成就
4. 合作关系
5. 师承关系
6. 主要论文和著作

第二阶段：扩展第一阶段变量

获奖情况

时间:
1. 获奖时间
变量:
1. 获奖原因
2. 奖项对应的论文、著作或理论
3. 奖项评选标准
4. 奖项地位
5. 同时获奖的人（如果是多人同时获同一个奖项）
6. 同时的候选人
7. 获奖演讲 pdf
8. 该领域的其他大奖
9. 历史获得该奖项的大牛清单
我们提供了：诺贝尔奖挖掘指南、图灵奖挖掘指南...

所属机构

时间：机构成立时间和发展标志性事件
空间：
1. 所属机构的主要合作机构空间分布
变量：
1. 同一机构的其他大牛及其简单介绍
2. 所属机构的研究风格、偏好、主要子领域
3. 机构在该领域的学术地位（排名）
4. 外界对所属机构的评价
我们提供了：这些学术领域大牛机构的list...和信息挖掘指南

合作关系

最经常合作的几个学者
最经常合作的几个学术机构（机构所属领域、空间分布）
我们提供了： ....

师承关系

老师
同一老师的其他学生
该学者的学生
我们提供了：这些渠道和相应渠道的信息挖掘指南...

论文和著作

论文分析
1. 分析不同时期的论文数量
2. 分析不同时期论文的主题
3. 选读重要论文
  1. 引用数最高的3篇论文
  2. 最新发表的3篇论文
  3. 最原始的3篇论文
  4. 最感兴趣的3篇论文
著作分析
1. 主要著作
2. 翻译的中文著作
我们提供了：
信息获取——论文抓取工具链。首先，我们会去谷歌学术作者页面抓取论文列表，获得论文的名称。然后，我们将根据论文的名称去搜索论文的原始初处（此处我们将会按照领域整理一份优质的领域信息源清单，优先搜索这份优质信息源list），比如某本学术期刊。再然后，我们将会去它原始的信息源自动抓取论文的元数据、论文摘要及论文。最后，我们将根据zotero学术导入规范，将获得的论文导入zotero之中。
信息加工——论文元信息加工工具包。我们将利用文本分析工具，分析论文标题、关键词、摘要等，对论文进行细化的分类和整理，如自动生成学者对某一具体问题研究的时间轴等。并基于论文分析和著作分析列出阅读清单（列阅读清单结合学者擅长、主攻的领域；阐释某些观点的核心文献；学科发展的重要论文等）

第三阶段：论文和著作分析

结构阅读法和抽样阅读法结合使用
选择关键理论和关键知识点写卡片
我们提供了：人工智能文本分析工具，结构化提取论文的关键信息，节省我们的阅读时间。最后一步，才需要我们自己去阅读具体的某一篇论文，选择关键理论和关键知识点写卡片。

师徒关系树

数学家：https://genealogy.math.ndsu.nodak.edu/

academictree: https://academictree.org/

根据维基百科的DOCTORAL ADVISOR生成的关系树：http://nghiaho.com/?p=978

诺贝尔奖信息处理

参考这里整理一下诺贝尔奖信息挖掘指南

图灵奖信息处理

地址：https://amturing.acm.org/

之前整理了一下图灵奖网站个人页面能获取的信息：这里

计划

抓取左边的基本信息
ACM Digital Library的链接
Citation这里是获奖原因
部分作品简介
获奖演讲，考虑自动下载
研究领域
其它资料
简历 - 这块怎么处理还存疑，直接无脑抓取过来意义不大
拿到的这些数据可以如何使用？

价值问题：我想从这个作业中得到什么

线下浩涛在分享时，我动摇过，如果我做出来的作业是其它人做过的，甚至还没人家做的好（我看了人家的作业了，我确实不太可能以一己之力做的更好），那我是不是应该换个方向？

回来之后思考了一下，结论是：取决于你的目的是什么。
如果你的目的是竞争，要在这两百多人的竞争中拿到优秀作业，那么确实是有一些方向更容易出成绩。
而我很清楚，我最初来学信息分析课程是冲着信息分析这四个字来的，如何收集、分析信息，并做出决策，是我真正想掌握的东西。我没想比谁更强，只想比以前多掌握一项技能：信息分析。

最初我是被“职业分析”吸引来的，但是两周课程下来，我被“学术分析”圈粉了，后面的职业分析、商业分析，和学术分析用的整体框架是一样的，无非是工具不一样、数据源不同。而职业分析、商业分析里的模型和理论，都是从学术来的，要做交叉验证，还是要回到学术分析。我认为学术分析是基础，所以我选择学术分析这一方向。
学术分析自然是从大牛入手，不过我为什么选择已经“不能对开智人形成刺激”的司马贺呢？因为学术周时我分析的是司马贺，已经有一些概念，后面我可以把精力放在工具开发上。另外，我追求的是一个SOP，在清单和脚本的协助下，把注意力从细节工作中解放出来（比如从booksc上下载论文或者花太多时间去搜集不是很重要的信息）。
前辈们的司马贺小传真的非常棒，自问以当前水平，难能达到，更别说在这次作业里超越他们了。但是如果我梳理出一个SOP，能让我以他们1/5的时间和精力消耗，达到他们80%的水平，我认为这就是价值。

说到这里，就不得不提上一届的《开智学堂学科协作指南》，我有幸能加入这个项目，研读前辈们的设计、成果和讨论记录。看完之后就意识到：我想做的东西只是他们这个项目里的一个小小的分支。我很清楚我推不动他们这个巨无霸，所以我还是从小处着手，做好我这个点比较好。

还有一点，课程里其实已经提供了方法、框架和流程，为什么我还要搞个所谓的SOP？不就是多写了脚本么？
我的感受是，课程在最后生成报告这一步缺少流程，当然这是自然的，报告本来就是应该个性化的。而我的SOP，每一步都是为了生成我的风格的报告服务的。

我想了一下，把要实现的东西分两个级别：

必需

实践信息分析课中的学术分析
一套基于“人”的学术分析框架+工具
用油猴脚本提取已经加载的Google Scholar页面，防止被墙
自动化booksc搜索+文件下载

可选

自动导入条目、论文到Zotero
自动合并Zotero重复条目
自动添加、更新条目元信息

做PPT需要的素材

西蒙的人物关系

合作关系（最经常合作的几个学者）
师承关系（老师、徒弟的关系树）
同领域其他知名学者

西蒙与学术领域

西蒙所在的学术领域，按学科分类可以分为经济学领域、计算机科学和管理科学领域。以计算机科学领域为例：

计算机科学领域的子话题；西蒙在哪几个子话题比较强
计算机科学领域值得关注的重要期刊、会议；西蒙在哪些期刊上发表的文章比较多，西蒙参加了哪些会议
计算机科学领域研究比较强的机构；西蒙所在的机构与其他机构的关系（合作关系、特别长处等）
计算机领域发展的时间线；西蒙的研究和计算机科学发展的关系

西蒙的论文和著作分析结果

人工智能

西蒙“人工智能”论文的发表情况（时间线）
攻读西蒙“人工智能”的论文清单
引用最高的3篇（按引用数排名前10-15篇）
最新发表的3篇（按发表顺序排名最新的5-10篇）
最原始的3篇（按发表顺序排名前5-10篇）

Wikipedia数据处理

这个Issue用来讨论Wikipedia的数据处理吧。

我今天（2019/11/6, 20:40）实现了人物页面右侧的biography的抓取，用Python内置的string.Template实现报告生成，比较粗糙，不过可以先看看。

TODO：

页面地址通过参数提供
能只提供名字就更好了
跑完脚本给出下一步建议

论文抓取工具链

去谷歌学术作者页抓取论文列表
去谷歌学术搜索页抓论文列表和出处
去其它原始信息源抓取论文元数据和论文
1. 优质信息源List 按领域