Code Monkey home page Code Monkey logo

chinese_rumor_dataset's Introduction

中文谣言数据

该数据为从新浪微博不实信息举报平台抓取的中文谣言数据,分为两个部分。其中当前目录下的数据集仅包含谣言原微博,不包含转发/评论信息;而CED_Dataset中是包含转发/评论信息的中文谣言数据集。

数据集介绍

第一部分数据集(./rumors_v170613.json)共包含从2009年9月4日至2017年6月12日的31669条谣言。文件中,每一行为一条json格式的谣言数据,字段释义如下:

  • rumorCode: 该条谣言的唯一编码,可以通过该编码直接访问该谣言举报页面。
  • title: 该条谣言被举报的标题内容
  • informerName: 举报者微博名称
  • informerUrl: 举报者微博链接
  • rumormongerName: 发布谣言者的微博名称
  • rumormongerUr: 发布谣言者的微博链接
  • rumorText: 谣言内容
  • visitTimes: 该谣言被访问次数
  • result: 该谣言审查结果
  • publishTime: 该谣言被举报时间

引用

如果您使用该数据集,请引用以下论文:

  • 中文:
	@article{liu2015rumors,
	  title={中文社交媒体谣言统计语义分析},
	  author={刘知远 and 张乐 and 涂存超 and 孙茂松},
	  journal={**科学: 信息科学},
	  volume={12},
	  pages={1536--1546},
	  year={2015}
	}
  • English:
	@article{liu2015rumors,
	  title={Statistical and semantic analysis of rumors in Chinese social media},
	  author={Liu, Zhiyuan and Zhang, Le and Tu, Cunchao and Sun, Maosong},
	  journal={Scientia Sinica Informationis},
	  volume={45},
	  number={12},
	  pages={1536},
	  year={2015}
	}

第二部分数据集(CED_Dataset)包含与微博原文相关的转发与评论信息,数据集**包含谣言1538条和非谣言1849条。该数据集分为微博原文与其转发/评论内容。其中所有微博原文(包含谣言与非谣言)在original-microblog文件夹中,剩余两个文件夹non-rumor-repost和rumor-repost分别包含非谣言原文与谣言原文的对应的转发与评论信息。(该数据集中并不区分评论与转发)该数据文件中,每条原文,评论或评论均为json格式的数据,部分字段释义如下:

  • 微博原文信息:
    • text: 微博原文的文字内容
    • user: 发布该条微博原文的用户信息
    • time: 用户发布该条微博原文的时间(时间戳格式)
  • 转发/评论信息:
    • uid: 发布该转发/评论的用户ID
    • text: 转发/评论的文字内容(若部分用户转发时不添加评论内容,该项无内容)
    • data: 该转发/评论的发布时间(格式如:2014-07-24 14:37:38)

引用

如果您使用该数据集,请引用以下论文:

@article{song2018ced,
  title={CED: Credible Early Detection of Social Media Rumors},
  author={Song, Changhe and Tu, Cunchao and Yang, Cheng and Liu, Zhiyuan and Sun, Maosong},
  journal={arXiv preprint arXiv:1811.04175},
  year={2018}
}

chinese_rumor_dataset's People

Contributors

changhesong avatar huan avatar tucunchao avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

chinese_rumor_dataset's Issues

起止时间

您好,请问这个数据是从哪个时间开始的啊?多谢分享!!

抓取非谣言的规则是什么样的呢?

您好,谣言数据可以通过微博不实信息举报平台抓取,那么请问您在构建非谣言部分数据集的时候,是根据什么样的规则来抓取非谣言的呢?

感谢有心人

有点想要被weibo404的那些帐号发过的微博。

另外,404的帐号 他们曾经发的微博都是:被人举报删除,狗日的微博

数据中有些转发时间的格式有疑问

并非所有的转发用户的转发时间格式是一致的,有只存在月和日的情况,例如:"03月05日 05:11", 而并非统一格式如:"2013-09-01 23:19:15", 请问有相关说明补充吗

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.