Code Monkey home page Code Monkey logo

chinese-poetry's Introduction

chinese-poetry

chinese-poetry: 最全中文诗歌古典文集数据库

Build Status License Contributors Patreon

最全的中华古典文集数据库,包含 5.5 万首唐诗、26 万首宋诗、2.1 万首宋词和其他古典文集。诗人包括唐宋两朝近 1.4 万古诗人,和两宋时期 1.5 千古词人。数据来源于互联网。

为什么要做这个仓库? 古诗是中华民族乃至全世界的瑰宝,我们应该传承下去,虽然有古典文集,但大多数人并没有拥有这些书籍。从某种意义上来说,这些庞大的文集离我们是有一定距离的。而电子版方便拷贝,所以此开源数据库诞生了。此数据库通过 JSON 格式分发,可以让你很方便的开始你的项目。

古诗采集没有记录过程,因为古诗数据庞大,目标网站有限制,采集过程经常中断超过了一个星期。2017 年新加入全宋词,全宋词爬取过程及数据分析

高频词分析图

宋词受欢迎的词牌名
两宋喜欢的词牌名
宋词高频词 宋词高频词
宋词作者作品榜 宋词作者作品榜
唐诗高频词 唐诗高频词
唐诗作者作品榜 唐诗作者作品榜
宋诗高频词 宋诗高频词
宋诗作者作品榜 宋诗作者作品榜

数据集

贡献

本项目目的是借助技术来生成格式化(JSON)数据,让开发者更方便快速的构建诗词类应用程序。身单力薄,欢迎更多人来维护,你可以通过以下方法来参与贡献:

  • 直接提交 PR 或者通过 issue 讨论来优化完善此数据库,理论上古诗歌体非宗教类都欢迎加入,部分有争议性的数据需要社区投票讨论决定是否加入。关于诗句的纠错在创建 PR 时请标明出处。更多规范请参考贡献规范文档

  • 如果你没有办法直接参与完善的过程,你也可以通过 「爱发电赞助」 「Patreon 周期性赞助」 的形式来持续帮助并激励我去优化完善此数据库。如果您不喜欢周期性赞助,你也可以通过「支付宝」或者「微信赞赏码」进行一次性赞助(备注留下邮箱)。

  • 如有建议或吐槽,欢迎联系我的邮箱 [email protected]

无论通过哪种形式贡献最终都会使之变得更好!

赞助者

贡献者

Contributors

案例展示

案例展示

License

MIT 许可证。

chinese-poetry's People

Contributors

akakaras avatar ayayagit avatar bit-fan avatar bluesword12350 avatar breakstring avatar cfeibiao avatar chienmy avatar china-longyin avatar chinainfant avatar dumoedss avatar fleetingwang avatar gt-zhangacer avatar hongzhiw avatar jackeygao avatar jigsawk avatar kc910521 avatar liu0hy avatar liuxsdev avatar o70 avatar oldpotter avatar rainrambler avatar rustingsword avatar sanbingyouyong avatar snowtraces avatar wptoux avatar xinglie avatar zgjie avatar zhangtemplar avatar zhongwencm avatar zlvalien avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

chinese-poetry's Issues

增加表面结构字对应表

大家好,

目前此仓库增加了 表面结构字对应表

方便对类似这种表面结构做汉字转换, {鼓/甬} => 𪔜

目前有767个表面结构没有找到对应, 1325个表面结构字找到对应的汉字。

一些比较抽象的表意很难理解和搜索, 个人精力有限, 希望更多同学完善这个列表。

宋词数据库 作者 长简介有重复

例如 苏轼的简介

苏轼:(1037-1101)北宋文学家、书画家。字子瞻,号东坡居士,眉州 眉山(今属四川)人。苏洵子。嘉佑进士。神宗时曾任祠部员外郎,因 反对王安石新法而求外职,任杭州通判,知密州、徐州、湖州。后以作 诗“谤讪朝廷”罪贬黄州。哲宗时任翰林学士,曾出知杭州、颖州等, 官至礼部尚书。后又贬谪惠州、儋州。北还后第二年病死常州 。南宋 时追谥文忠。与父洵弟辙,合称“三苏”。在政治上属于旧党,但也有改革弊政的要求。其文汪洋恣肆,明白畅达,为“唐宋八大家”之一 。其诗清新豪健,善用夸张比喻,在艺术表现方面独具风格。少数诗篇 也能反映民间疾苦,指责**者的奢侈骄纵。词开豪放一派,对后代很 有影响。《念奴娇・赤壁怀古》、《水调歌头・丙辰中秋》传诵甚广。 擅长行书、楷书,取法李邕、徐浩、颜真卿、杨凝式,而能自创新意。 用笔丰腴跌宕,有天真烂漫之趣。与蔡襄、黄庭坚、米芾并称“宋四家 ”。能画竹,学文同,也喜作枯木怪石。论画主张“神似”,认为“论 画以形似,见与儿童邻”;高度评价“诗中有画,画中有诗”的艺术 造诣。诗文有《东坡七集》等。存世书迹有《答谢民师论文帖》、《 祭黄几道文》、《前赤壁赋》、《黄州寒食诗帖》等。画迹有《枯木怪石图》、《竹石图》等。--(1037―1101)字子瞻,号东坡居士。眉州眉山(今属四川)人。苏洵长子。嘉二年(1057)进士。累除中书舍人、翰林学士、 端明殿学士、礼部尚书。曾通判杭州,知密州、徐州、湖州、颍州等。元丰三年(1080)以谤新法贬谪黄州。绍圣初,又贬惠州、儋州。徽宗立,赦还。卒于常州。追谥文忠。博学多才,善文,工诗词,书画俱佳。于词“豪放,不喜剪裁以就声律”,题材丰富,意境开阔,突破晚唐五代和宋初以来“词为艳科”的传统樊篱,以诗为词,开创豪放清旷一派,对后世产生巨大影响。代表作有 《念奴娇・赤壁怀古》、《江神子・猎主要作品有:定风波(莫听穿林打叶声)昭君怨(谁作桓伊三弄)洞仙歌(冰肌玉骨)浣溪沙(游蕲水清泉寺)西江月(顷在黄州)八声甘州・寄参寥子浣溪沙(簌簌衣巾落枣花)水龙吟(似花还似非花)行香子・过七里滩永遇乐(彭城夜宿燕子楼)西江月・重九(点点楼头细雨)满江红(江汉西来)满江红・怀子由作(清颍东流)江城子(十年生死两茫茫)念奴娇・赤壁怀古②临江仙(夜饮东坡醒复醉)水调歌头(明月几时有)蝶恋花(花褪残红青杏小)鹧鸪天(林断山明竹隐墙)望江南(春未老)卜算子(缺月挂疏桐)贺新郎(乳燕飞华屋)阮郎归(绿槐高柳咽新蝉)

1037―1101 这部分就是重复的开头

增加诗经数据

https://zh.wikipedia.org/wiki/%E8%AF%97%E7%BB%8F

《诗经》是**最早的诗歌总集,溯自公元前11到前6世纪,原本叫《诗》,共有诗歌305首(除此之外还有6篇有题目无内容,即有目无辞,称为笙诗六篇,题目分别是南陔、白华、华黍、由庚、崇丘和由仪)[1],又称《诗三百》。[2]从汉朝起儒家将其奉为经典,遂也称之谓《诗经》,而正式使用《诗经》一名,应该起于南宋初年[3]。早期诗经版本众多,其中最为著名也是流传至今的,是汉朝毛亨、毛苌注释的《诗经》,因此该版本又称为《毛诗》。《诗经》中的诗的作者,绝大部分已经无法考证。其所涉及的地域,主要是黄河流域,西起山西和甘肃东部,北到河北省西南,东至山东,向南也远及江汉流域。 --------- 维基百科

数据源要求

  • 来源可靠
  • 便于抓取
  • 数目接近305首
  • 有“四始六义”、音乐、表现手法分类
  • 由于作者大多无法考证, 统一不记作者。

后主介绍重复了

随手一点,
json/authors.tang.json line 115

"desc": "煜,字重光,南唐元宗子。仁孝,善屬文,工書畫,妙於音律。置澄心堂於內苑,引文士居其間,嘗著《雜說》百篇,時人以爲可繼《典論》。開寶中,封隴西公,贈吳王。集十卷,詩一卷,失傳,今存詩十八首。 煜,字重光,南唐元宗子。仁孝,善屬文,工書畫,妙於音律。置澄心堂於內苑,引文士居其間,嘗著雜說百篇,時人以爲可繼典論。開寶中,封隴西公,贈吳王。集十卷,詩一卷,失傳,今存詩十八首。",

简单程序估计了一下少句的情况。。

对这个项目有很大兴趣,我这边写了点东西,做了一下少句统计(主要是宋词部分),以ci.song.0.json文件内数据为例,我这边统计1000首宋词丢失语句数量最低是134,所以几万首下来数量还是很可观的。
有丢失情况的宋词序号:
[ci_103, ci_112, ci_159, ci_215, ci_302, ci_332, ci_366, ci_413, ci_451, ci_486, ci_487, ci_558, ci_686, ci_694, ci_695, ci_726, ci_736, ci_737, ci_750, ci_791, ci_824, ci_841, ci_909, ci_910, ci_952, ci_57, ci_83, ci_104, ci_144, ci_160, ci_218, ci_292, ci_306, ci_328, ci_344, ci_365, ci_485, ci_550, ci_555, ci_563, ci_590, ci_667, ci_669, ci_670, ci_672, ci_673, ci_689, ci_692, ci_780, ci_886, ci_893, ci_948, ci_28, ci_56, ci_82, ci_95, ci_102, ci_244, ci_296, ci_301, ci_311, ci_312, ci_326, ci_337, ci_347, ci_369, ci_399, ci_408, ci_409, ci_417, ci_482, ci_527, ci_593, ci_682, ci_683, ci_684, ci_687, ci_688, ci_753, ci_795, ci_804, ci_825, ci_857, ci_890, ci_895, ci_85, ci_105, ci_161, ci_263, ci_281, ci_345, ci_351, ci_352, ci_368, ci_450, ci_524, ci_553, ci_612, ci_627, ci_681, ci_820, ci_822, ci_823, ci_881, ci_947, ci_949, ci_8, ci_12, ci_111, ci_162, ci_182, ci_209, ci_275, ci_277, ci_303, ci_346, ci_364, ci_370, ci_373, ci_387, ci_488, ci_489, ci_530, ci_531, ci_546, ci_557, ci_570, ci_678, ci_690, ci_732, ci_735, ci_835, ci_891, ci_911]
所以我准备完善一下这个程序吧,希望能自动修复一下少句问题。。

是不是考虑支持一下从作者/作品集分类而不是单纯的编号?

暂时的一个想法啊:因为诗词爱好者很多都是具体诗人的粉丝这么发展出来的,尤其是宋元以后作品,要从网上找朝代全集难,但是找具体某某的集子可能就容易了。后续补充去重也方便。

比如,如果我上传一个近三百年名家词选,其他人传清词就得小心核对,但是我上传一个具体的集子,其他人一看就知道这个不用再管了

可以考虑使用GitHub的分支功能

感觉GitHub的分支功能挺适合这个项目的,比如:

  1. 一个branch里只有原始的数据。修订数据都在这里,然后通过脚本同步到其它branch。
  2. 一个branch里有平仄、标签,以及其它信息,方便下游用户使用。
  3. 一个branch采用简体中文,方便下游用户使用。

ci.db 无法打开

环境linux,使用工具sqlite尝试打开ci.db文件,提示错误:
$ sqlite ci.db
Unable to open database "ci.db": file is encrypted or is not a database
能帮忙看一下吗

some most common ones are not collected?

21050首词 --- 但是很多口水词,例如明月几时有 (明月幾時有)。。没有收录?还是我没找对?
也没找到床前明月光 。。。

请增加下清朝诗词

                   《木兰花令·拟古决绝词》
                                ----清.纳兰性德
                人生若只如初见,何事秋风悲画扇。         
                等闲变却故人心,却道故心人易变。

   骊山语罢清宵半,泪雨霖铃终不怨。
   何如薄幸锦衣郎,比翼连枝当日愿。

可以考虑分类的情况

建议支持筛选,比如小学生、初中生、高中生,描写山河、边疆等的分类或者标签

错误数据/重复数据问题

应该是是源的问题

  1. OCR结果未仔细校验,如唐诗【和蘇員外寓直】内容是 【-329-。】
  2. 乐府类的全部重复了,如同事存在李白的两篇【鼓吹曲辭 上之回】、【上之回】,显然是一篇

关于难检字

  1. 例如 poet.tang.38000 中1011行的的罒/離,该字在 Unicode Ext-A 区,目前大多数系统字体可以正常显示了。
  2. 是否考虑使用表意文字描述字符 (Ideographic Description Character, IDC) ,更好地描述汉字?比如该字可使用⿱罒離描述。(参考 https://en.wiktionary.org/wiki/%E2%BF%B1
  3. 另外有些须合并的汉字前后 delimiter 并不统一,例如同一文件4401行,出现[{疒辛}],而4944行出现{忄雙}{忄雙},也可以用 IDC 解决。

古诗词分词

作者是如何对这些诗句分词的,是自己训练的还是用已有的模型,是否可以推荐比较准确的诗句分词模型

暇 改为 瑕 PR10

https://github.com/jackeyGao/chinese-poetry/pull/10

目前是:白璧衆求,素絲易成汙。
估计是:白璧衆求,素絲易成汙。

这样整句意义通顺。
在Google上搜索整句,前者只能找到一条,后者能找到若干条。
当然,不排除是诗人误用。

这个issue可以一直开着,不求立刻处理。

如果要全,那么其他朝代的诗词歌赋也不能少。

屈原的《离*》
汉高祖刘邦的《大风歌》
汉乐府诗《孔雀东南飞》
曹操、曹丕、曹植三父子的诗歌
建安七子的诗歌
竹林七贤的诗歌
东晋:陶渊明
南北朝:谢灵运、谢朓、颜延之、鲍照、庾信、沈约、江淹
乐府诗集《古诗十九首》
北朝民歌《木兰诗》
元明清三朝

诗词名句

实体消歧

您好,请问这些数据是做过实体消歧处理的吗?

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.