💻 Technology | 🚀 Projects |
---|---|
kun-g / ia06_fa Goto Github PK
View Code? Open in Web Editor NEWInformation Analysis Season 06 Final Assignment
Information Analysis Season 06 Final Assignment
阳老师讲的故事:翻过一座山的方法是什么?
最简单的方法:步行爬山,走过去。
最难的方法:挖隧道、建飞机场。
通过学术分析这一章的学习,我们的收获:1. 认知升级。明确了建立对一个学科的全局认识的长期效益最大化的做法是建机场或挖掘隧道这样的费力做法。2. 知道了一些学术分析工具的用法,比如知识图谱、zotero批量下载1000篇论文等,相当于教会我们使用建机场和挖隧道的基本工具。
但是,问题来了,为什么我们感觉学术分析是在整个信息分析中最难的一章呢?以及课程结束之后,还有多少人还能坚持使用学术分析的这一套费力的做法呢?
我们小组总结出的原因在于,当前的学术分析课程只教会了我们正确的方向和一些工具的用法,但是没有提供一套可批量操作的路径,在进行学术分析的过程中会牵绊在一些琐碎的操作细节上,从而费力又费时,妨碍我们顺畅地建立对某个学科或某个学者的全局认知。相当于,告诉你要挖隧道,也给了你挖掘机,但是你没有一个可以follow的施工方案,你还是无法顺利翻越这座大山。本项目小组借助“建立对某个科学家或学者的全局认知”,以西蒙为例,完整地梳理了学术分析的整个流程,尝试用编程技术,优化学术分析中的一些操作细节。
我们的学术分析翻山指南分为3个阶段: 第一阶段,利用学者本人的维基百科主页,抓取关键变量,生成关于该学者的最小分析框架; 第二阶段, 对第一阶段抓取的关键变量进一步扩充,从不同渠道获取信息来补充和深化; 第三阶段,分析学者的论文和著作,提炼学者的关键**、关键理论或提出的关键术语。以下的介绍将以西蒙为例,对我们的《学术分析翻山指南》进行介绍:
信息获取:Wikipedia学者页面
信息整理:按照以下模板提取wiki中的信息
数学家:https://genealogy.math.ndsu.nodak.edu/
academictree: https://academictree.org/
根据维基百科的DOCTORAL ADVISOR生成的关系树:http://nghiaho.com/?p=978
参考这里整理一下诺贝尔奖信息挖掘指南
之前整理了一下图灵奖网站个人页面能获取的信息:这里
线下浩涛在分享时,我动摇过,如果我做出来的作业是其它人做过的,甚至还没人家做的好(我看了人家的作业了,我确实不太可能以一己之力做的更好),那我是不是应该换个方向?
回来之后思考了一下,结论是:取决于你的目的是什么。
如果你的目的是竞争,要在这两百多人的竞争中拿到优秀作业,那么确实是有一些方向更容易出成绩。
而我很清楚,我最初来学信息分析课程是冲着信息分析这四个字来的,如何收集、分析信息,并做出决策,是我真正想掌握的东西。我没想比谁更强,只想比以前多掌握一项技能:信息分析。
最初我是被“职业分析”吸引来的,但是两周课程下来,我被“学术分析”圈粉了,后面的职业分析、商业分析,和学术分析用的整体框架是一样的,无非是工具不一样、数据源不同。而职业分析、商业分析里的模型和理论,都是从学术来的,要做交叉验证,还是要回到学术分析。我认为学术分析是基础,所以我选择学术分析这一方向。
学术分析自然是从大牛入手,不过我为什么选择已经“不能对开智人形成刺激”的司马贺呢?因为学术周时我分析的是司马贺,已经有一些概念,后面我可以把精力放在工具开发上。另外,我追求的是一个SOP,在清单和脚本的协助下,把注意力从细节工作中解放出来(比如从booksc上下载论文或者花太多时间去搜集不是很重要的信息)。
前辈们的司马贺小传真的非常棒,自问以当前水平,难能达到,更别说在这次作业里超越他们了。但是如果我梳理出一个SOP,能让我以他们1/5的时间和精力消耗,达到他们80%的水平,我认为这就是价值。
说到这里,就不得不提上一届的《开智学堂学科协作指南》,我有幸能加入这个项目,研读前辈们的设计、成果和讨论记录。看完之后就意识到:我想做的东西只是他们这个项目里的一个小小的分支。我很清楚我推不动他们这个巨无霸,所以我还是从小处着手,做好我这个点比较好。
还有一点,课程里其实已经提供了方法、框架和流程,为什么我还要搞个所谓的SOP?不就是多写了脚本么?
我的感受是,课程在最后生成报告这一步缺少流程,当然这是自然的,报告本来就是应该个性化的。而我的SOP,每一步都是为了生成我的风格的报告服务的。
我想了一下,把要实现的东西分两个级别:
西蒙所在的学术领域,按学科分类可以分为经济学领域、计算机科学和管理科学领域。以计算机科学领域为例:
人工智能
这个Issue用来讨论Wikipedia的数据处理吧。
我今天(2019/11/6, 20:40)实现了人物页面右侧的biography的抓取,用Python内置的string.Template实现报告生成,比较粗糙,不过可以先看看。
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.