GithubHelp home page GithubHelp logo

njubbs_spider's Introduction

##spider report

github: imagecmos


代码部分主要分为三块:

  1. 数据抓取
    编程语言选择的是Python,oh不,是整个项目用的都是Python,关于为什么选择Python我要多说几句,刚开始我曾苦恼用什么语言写爬虫呢,Java也行,C++也行,Python也行,最后之所以选择了Python,原因就是用其他的我不会写爬虫。好了,开始撸起来,主要用的几个库是urllib2Beautifulsoup,MySQLdb
  2. 数据处理
    数据处理部分主要就是对保存好的数据进行分词,词性标注,中文做到比较好的自然语言处理就是哈工大的平台,在科大讯飞的开放平台上可以免费使用,还有个较好的中文分词库是jieba分词,使用时发现在处理大量数据时速度还是有点慢,不得不自己加个多线程。还有些其他的数据就要自己代码解决,比如发帖时间,板块等数据的分析。
  3. 数据可视化
    这部分算是最累人的,写了差不多五个小时才把图全部画出来。图库用的是matplotlib,功能很强大。

废话不多说,直接上图(还是废话一下吧,对于图中分类不准确的词我是原样保留了,因为这恰恰反映了当前NLP还存在的问题)
在所有的十大标题中,南京在地点分类中夺魁,其实不想也应该能知道这个结果,南京大学的BBS不是南京难不成还是上海?好吧,上海排在第三,足以说明上海在长三角地区的影响力。 最热的竟然不是girl版,不是girl版,girl版,版 如果你有颈椎病,这两张图应该能治好你,回复最多和最少的十大贴,给你,不谢 传闻是帝国主义安插在我党内部的"代理人"是被同学们提到最多的人名,不对,第六名的那个单字的是谁,我不了解,谁能告诉我 在十大贴的发帖时间分布上,上午十点,下午四点,晚上九点这三个时间点附近我想问,大家都喜欢那个时候发帖吗? 在关于体育的话题中,足球占据了整个前十名,我是篮球迷,让我哭一会 在一周的十大分布中,周一和周五贡献的最多,难道这两天都很无聊? 被提及最多的英文单词是offer,可能在我抓取的这近三个月里是大家找实习,申请学校比较多的时间段 最后的最后,上十大最多的那位同学,我特地上小百合搜了一下,身兼三个版主,难怪

imagecmos 2016年3月9日 15:58

njubbs_spider's People

Contributors

imagecmos avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.