Code Monkey home page Code Monkey logo

news-corpus's Introduction

Binhvq News Corpus

Thông tin cơ bản:

  • Trích xuất từ khoảng 14.896.998 bài báo trên internet bao gồm các báo:
2Sao, ANTG, ANTT, ANTĐ, ATGT, BVPL, BizLIVE, Biên Phòng, Bnews, Báo Văn hóa, Bộ Công thương,
Bộ GTVT, Bộ KHĐT, Bộ Ngoại Giao, Bộ Nội Vụ, Bộ Tài Chính, Bộ VHTTDL, CAND, CAĐN, CL&XH, CSTC,
Cartimes, Chính Phủ, Công Luận, Công Lý, Công Thương, DNVN, Doanh Nghiệp, Dân Sinh, Dân Việt,
Em Đẹp, GD&TĐ, GTVT, Gia Đình Mới, Gia Đình VN, Giao Thông, Giáo Dục VN, GĐ&XH, Hà Nội Mới,
Hà Tĩnh, Hải Quan, ICTNews, Infonet, KTNT, KTĐT, Khỏe 365, Khỏe Plus, Khỏe Plus 24h, Kiến Thức,
Kiểm Sát, Kiểm sát, Kỷ Nguyên Số, Lao Động, LĐTĐ, MT&CS, Mặt Trận, Một Thế Giới, NCĐT, NLĐ,
Nghe Nhìn VN, Nghệ An, Ngày Nay, Người Làm Báo, Người Tiêu Dùng, Người Đô Thị, Người Đưa Tin,
Nhân Dân, Nông Nghiệp, NĐ&ĐS, PC World, PL&XH, PLO, PNNews, PNSK, PetroTimes, Pháp Luật Net,
Pháp Luật Plus, Pháp Luật VN, Phụ Nữ VN, Quốc Hội, Quốc Hội TV, QĐND, SGGP, SGĐT, SaoStar,
Seatimes, Sài Gòn Tiếp Thị, TBDN, TBKTSG, TG&VN, TGTT, TH&PL, TNMT, TTOL, TTXVN, Thanh Hóa,
Thanh Niên, Thanh Tra, TheLEADER, Thương Gia, Thế Giới Trẻ, Thế Giới Xe, Tin Nhanh, Tin Thể Thao,
Tin Tức TTXVN, Tiền Phong, TuanVietNam, Tuyên Giáo, Tuổi Trẻ TĐ, Tài Chính, Tạp chí Công thương,
Tạp chí Xây dựng Đảng, Tạp chí cộng sản, Tổ Quốc, VEF, VNCA, VNEWS, VOV, VTC, VietQ, VietTimes,
Vietnam Finance, VietnamNet, VietnamPlus, VnEconomy, VnMedia, Văn Hiến, Văn Hoá, XHTT, Xe Giao Thông,
Xây Dựng Đảng, Zing, Ôtô - xe máy, Ôtô Xe Máy, ĐCSVN, ĐS&PL, ĐTCK, Đại Đoàn Kết, Đảng Cộng Sản VN,
Đất Việt, Đấu Thầu, Đầu Tư, Đời Sống Plus

Only Title

Full TXT(title + description + body) V1

  • Kích thước : 3.7 GB Compress. Uncompress ~18.6 GB

  • Số lượng câu: khoảng 111.274.300 câu

  • Đã qua xử lý cơ bản như:

    • Tách câu sử dụng PunktSentenceTokenizer abbrev {'g.m.t', 'e.g', 'dr', 'dr', 'vs', "000", 'mr', 'mrs', 'prof', 'inc', 'tp', 'ts', 'ths', 'th', 'vs', 'tp', 'k.l', 'a.w.a.k.e', 'a.i', '</i', 'g.w', 'ass', 'u.n.c.l.e', 't.e.s.t', 'ths', 'd.c', 've…', 'ts', 'f.t', 'b.b', 'z.e', 's.g', 'm.p', 'g.u.y', 'l.c', 'g.i', 'j.f', 'r.r', 'v.i', 'm.h', 'a.s', 'bs', 'c.k', 'aug', 't.d.q', 'b…', 'ph', 'j.k', 'e.l', 'o.t', 's.a'}

    • Chỉnh sửa lại những kí tự lỗi khi chuyển từ html sang dạng text

    • Loại bỏ những câu giống nhau

    • Chuẩn hóa NFC

  • Donwload: https://drive.google.com/file/d/1ovLbpvzSGrS4NDxZu8Ftdgc73uHzNQJf/view

Full TXT V2

Kich thuoc: 5GB, Uncomress ~27.5GB Download: https://drive.google.com/file/d/1GFbe-qs6HmCYs0JwJgivOy2Bvb06M8OI/view?usp=sharing

CSV V2

Size: 5.6GB, Uncompress ~49GB Download: https://drive.google.com/file/d/14TEsnSQ_121sbhlQm-Jzda2dqhPhByja/view?usp=sharing

fieldnames = ['title', 'sapo', 'cate', 'tags', 'publish', 'source', 'content']

delimiter=','

quotechar='"'

quoting=QUOTE_MINIMAL

TXT Categorys

Định dạng Mongodb Dump

{
	"source" : "Thanh Niên",
	"title" : "Đà Nẵng nghiên cứu tiện ích nhắn tin khi vi phạm đến chủ phương tiện",
	"sapo" : "Theo thống kê của Phòng CSGT (PC67, Công an TP.Đà Nẵng), từ ngày 1.1.2016 đến hết tháng 1.2018, PC67 gửi 13.479 lượt thông báo đến chủ phương tiện vi phạm luật Giao thông đường bộ.",
	"body" : "<p class=\"body-image\"><img src=\"https://photo-1-baomoi.zadn.vn/w700_r1/18/02/05/4/24858235/1_54839.jpg\"/></p><p class=\"body-text\"><em>Xử l&yacute; phạt nguội qua camera gi&aacute;m s&aacute;t tại Ph&ograve;ng CSGT C&ocirc;ng an TP.Đ&agrave; Nẵng - Nguyễn T&uacute;</em></p><p class=\"body-text\">Đến nay c&ograve;n 5.199 trường hợp chưa đến giải quyết, chiếm 38,5%. Đối với 8.280 trường hợp đến l&agrave;m việc, qua ph&acirc;n t&iacute;ch lỗi, cơ quan chức năng đ&atilde; lập bi&ecirc;n bản 7.184 trường hợp, chuyển kho bạc hơn 9 tỉ đồng, tước giấy ph&eacute;p l&aacute;i xe (c&oacute; thời hạn) 2.107 trường hợp.</p><p class=\"body-text\">Hiện PC67 Đ&agrave; Nẵng c&oacute; nhiều k&ecirc;nh để th&ocirc;ng b&aacute;o đến chủ xe như gửi th&ocirc;ng b&aacute;o đến địa chỉ đăng k&yacute; qua đường bưu điện, cập nhật danh s&aacute;ch l&ecirc;n trang Facebook &ldquo;Cảnh s&aacute;t giao th&ocirc;ng C&ocirc;ng an TP.Đ&agrave; Nẵng&rdquo;. Từ ng&agrave;y 22.9.2017, trang th&ocirc;ng tin điện tử C&ocirc;ng an TP.Đ&agrave; Nẵng cũng c&oacute; chuy&ecirc;n mục tra cứu vi phạm giao th&ocirc;ng qua hệ thống camera gi&aacute;m s&aacute;t tại địa chỉ www.catp.danang.gov.vn:8001/thongtinvipham...</p><p class=\"body-text\">Tuy nhi&ecirc;n, số trường hợp chưa giải quyết được cũng tương tự TP.HCM l&agrave; do thay đổi địa chỉ, chưa sang t&ecirc;n đổi chủ sau mua b&aacute;n, xe thu&ecirc;, sai th&ocirc;ng tin...</p><p class=\"body-text\">Trung t&aacute; Phan Văn Thương, Ph&oacute; trưởng ph&ograve;ng PC67 C&ocirc;ng an TP.Đ&agrave; Nẵng, cho hay hiện trang Facebook v&agrave; cổng th&ocirc;ng tin c&oacute; nhiệm vụ 1 - 2 ng&agrave;y phải cập nhật danh s&aacute;ch vi phạm mới nhất để người d&acirc;n tra cứu. Nếu chủ phương tiện kh&ocirc;ng đến giải quyết th&igrave; danh s&aacute;ch được chuyển sang Trung t&acirc;m đăng kiểm để từ chối đăng kiểm c&aacute;c phương tiện n&agrave;y.</p><p class=\"body-text\">&ldquo;Thời gian đầu &aacute;p dụng h&igrave;nh thức phạt nguội, c&oacute; chủ phương tiện bị phạt đến 15 lần, khi xe hết hạn, đi đăng kiểm mới nhận được th&ocirc;ng b&aacute;o nộp phạt với số tiền rất lớn. Nay th&igrave; kh&aacute;c, với tổ chức, c&ocirc;ng d&acirc;n vi phạm 2 lần trở l&ecirc;n sẽ bị lực lượng chức năng gọi điện trực tiếp để x&aacute;c minh, nhắc nhở chủ xe kịp thời chấn chỉnh, v&igrave; c&aacute;c xe vi phạm nhiều lần chủ yếu l&agrave; xe l&agrave;m dịch vụ cho thu&ecirc;, giao người kh&aacute;c sử dụng, khai th&aacute;c...&rdquo;, trung t&aacute; Phan Văn Thương cho hay.</p><p class=\"body-text\">C&ocirc;ng an TP.Đ&agrave; Nẵng đang nghi&ecirc;n cứu cho ra đời ứng dụng tr&ecirc;n thiết bị di động, th&ocirc;ng b&aacute;o vi phạm đến số m&aacute;y chủ phương tiện, vừa sử dụng cho c&ocirc;ng t&aacute;c phạt nguội, kết hợp c&aacute;c tiện &iacute;ch phục vụ ph&ograve;ng chống tội phạm kh&aacute;c bằng biện ph&aacute;p tăng mức tương t&aacute;c với chủ phương tiện.</p>",
	"id" : 24858235,
	"publish" : ISODate("2018-02-04T22:15:07Z"),
	"tags" : [ ],
	"keywords" : [
		"Công an TP.Đà Nẵng",
		"Phan Văn Thương",
		"Nguyễn Tú",
		"Luật giao thông đường bộ",
		"Đăng kiểm",
		"Sang tên",
		"Tra cứu",
		"Server",
		"Phòng cảnh sát giao thông",
		"Giấy phép lái xe",
		"Cổng thông tin",
		"Chấn chỉnh",
		"Cho thuê",
		"Nhắc nhở",
		"Di động",
		"Phòng chống",
		"Vi phạm",
		"Mua bán",
		"Đà Nẵng",
		"Ra đời",
		"Giám sát"
	],
	"cates" : [
		"Pháp luật"
	]
}

Facebook comment Corpus

  • Mô tả: Đây là các comment trên facebook được crawler từ các page, group public của Facebook, thời gian crawler gần nhất 10/2020, được export 1 phần nhở từ elasticsearch ra.
  • Tổng số bản ghi: 10 triệu
  • Định dạng: Json Lines được dump bằng công cụ Elasticsearch dump
  • Dung lượng nén: 399MB, giải nén 3.9GB
  • Download: https://drive.google.com/file/d/1BNkrAEcUvVO77UJmo82gFM_xySchKG4v/view?usp=sharing
  • Fields: { "creation_time" : 1568097734, "post_id" : "2673240469403902", "author" : { "name" : "Công Campi Nguyễn", "id" : "100013298478696" }, "reaction_count" : 1, "content" : "Giang hồ quá", "url" : "https://www.facebook.com/thudaumotbd/posts/2673240469403902?comment_id=2673262599401689", "object" : { "name" : "Thủ Dầu Một Bình Dương", "_id" : "243592359035404", "type" : "Page" } } }

Tác giả

news-corpus's People

Contributors

binhvq avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

news-corpus's Issues

Can not download CSV Data

Hi Binh,
First of all, thank you for this great work.
I downloaded the full_text version and looked at the data, it seems like you put all articles together without an empty line between them. So there is no way to split article.
Therefore, I want to download the CSV version hoping it is article-separable. But couldn't access the link you gave. Could you fix it and update the README or drop a new link here, please? Thanks in advance.

Script chuẩn hóa demo-full.txt

Anh có thể public source code chuẩn hóa để tạo file có format như demo-full.txt không ạ ?
Em đang chuẩn hóa bộ dữ liệu 21/05 và muốn reproduce lại pipeline chuẩn hóa cũ và có thể cải thiện thêm.
Em cảm ơn anh nhiều ạ.

Lỗi server 103.140.38.25

Sorry anh, có phải server đang down không ạ? Từ hôm qua (12/06/2021) em không còn tải được data từ domain 103.140.38.25

210613152204

Anh kiểm tra giúp em với ạ, cảm ơn anh nhiều ạ

Cập nhật bộ dữ liệu news-corpus

Em muốn hỏi là sắp tới anh có kế hoạch update bộ dữ liệu này không ạ? Em đang thấy bộ dữ liệu news-corpus hiện tại là dump đến 2018/12/17 chưa có các thông tin về Covid19, về tổng thống Mỹ mới, ...

Cảm ơn anh Bình và team đã public bộ dữ liệu này cho cộng đồng.

Requesting more recent dataset

Dear anh Bình và team,
Em là Thành, đã từng request 1 version dataset của anh 2 năm trước #5. Nhờ bộ dataset đó em và cộng đồng đã có thể train rất nhiều model cho tiếng Việt.
Em mở issue này để hỏi liệu anh có thể release bộ dataset up-to-date nhất được không ạ? Em có thể hỗ trợ phần clean up và tạo huggingface dataset cho bộ dữ liệu này.
Về sau em cũng mong muốn có thể lấy dump của dataset này e.g monthly để có thể train những model mới hơn.
Em cảm ơn anh và team!

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.