GithubHelp home page GithubHelp logo

weibodatasets's Introduction

WeiboDatasets

GitHub license

本项目为面向微博平台的,以关键词检索结果为主要内容构建的数据集,通过自编爬虫获取。

项目特点

  • 数据都是原创内容,数据质量高
  • 有一定的时间跨度,基本含盖一个舆论事件的生命周期
  • 案例丰富多样,有代表性,具有研究价值
  • 适合用作舆情、NLP 等相关领域的研究
  • 持续更新和完善

数据采集逻辑

微博平台提供的高级检索功能能让用户对关键词类型包含时间区间进行配置,以实现更为精准的检索。

时间区间

高级检索规则限定的最小单元为 1 小时,从开始时间到结束时间按小时遍历进行检索爬取。

检索结果

微博检索最多展示 50 页检索结果,每页 10 条记录,按发布时间由后往前排列。同时由于最小时间单元为 1 小时,也即同一检索规则下,单小时时间区间内最多获取 500 条博文数据,即使当小时内有超过 500 条的博文数据。为了尽可能对数据进行全量收集,在采集过程中遍历高级检索中所有的类型和包含条件,对结果进行去重后整理发布。

数据格式

单个文件采用 jsonl 的格式进行存储,一行为一个 json 字符串,记录了一条博文的相关数据。

数据样例:

{
    "_id": "4884054899426879",
    "mblogid": "MzgEpDymr",
    "created_at": "2023-03-28 00:01:32",
    "geo": null,
    "ip_location": "发布于 江西",
    "reposts_count": 0,
    "comments_count": 0,
    "attitudes_count": 1,
    "source": "<a target=\"_blank\" target=\"_blank\" target=\"_blank\" target=\"_blank\" href=\"https://app.weibo.com/t/feed/PBfri\" rel=\"nofollow\">OPPO A58 5G</a>",
    "content": "存个 445521[亲亲][亲亲]你不知道张继科是445天最快大满贯吗? ",
    "pic_num": 1,
    "isLongText": false,
    "user": {
        "_id": "5683039178",
        "avatar_hd": "https://tvax2.sinaimg.cn/crop.0.0.1080.1080.1024/006cBs6ely8hch5zxkhxqj30u00u0n0j.jpg?KID=imgbed,tva&Expires=1680929353&ssig=43avaY67En",
        "nick_name": "万有引力定律·",
        "verified": false,
        "mbrank": 1,
        "mbtype": 2
    },
    "pic_urls": ["https://wx1.sinaimg.cn/orj960/006cBs6egy1hcev23hj34j30k00ed76a"],
    "url": "https://weibo.com/5683039178/MzgEpDymr",
    "keyword": "张继科",
    "crawl_ts": 1680918553
}

文件命名

<爬取方法>_<关键词>_<类型>_<包含>_<开始时间>_<结束时间>_<数据条数>

数据说明

  • 张继科:2023 年 3 月底曝光的张继科涉赌涉传播他人隐私视频事件。
  • 孙国友:2023 年 3 月底的宁夏孙国友跪地求水事件。
  • **电科:2023 年 4 月初引发舆论风波的员工怒怼领导谣言事件。

授之以渔

本数据集通过这个爬虫程序进行收集。

声明

  1. 本数据集免费开源,仅供科研学术交流使用,禁止商用,如有法律风险需自行承担。
  2. 使用需注明出处。

weibodatasets's People

Contributors

pyvadev avatar

Stargazers

 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.