Code Monkey home page Code Monkey logo

classical-modern's Introduction

文言文(古文)- 现代文平行语料

一、语料简介

这是一个非常全的文言文(古文)- 现代文平行语料,基本涵盖了大部分经典古籍著作。从文学角度出发,本项目将所有古文原文整理至文件夹 古文原文 中,并对每本古籍,按篇章/章节进行划分与展示,正文部分存于各章节下的 text.txt 中,例如 论语/学而篇/text.txt孟子/梁惠王章句上/第一节/text.txt 。对于平行数据,本项目整理至文件夹 双语数据 中,这些双语数据是以句子级别为单位进行划分,本项目提供了原文、译文、双语三种数据格式,例如:论语/学而篇/source.txt论语/学而篇/target.txt论语/学而篇/bitext.txt 。注:所有数据均按行保留了古文原文的相对顺序,即数据非打乱。

本语料数据来源于互联网1,所爬取到的原始数据是篇章级对齐的双语数据,经过脚本进行分句、对齐,处理成了句子级别对齐的双语(平行)数据,共计 972467 句。核心对齐思路采用归一化编辑距离算法与长度比指标。

需要注意 双语数据 文件夹中古文数据量少于 古文原文 文件夹中的古文数据,这是因为数据来源中部分古文没有译文,也有部分古文的译文残缺,故 双语数据 文件夹中仅收录了包含双语句对的数据。

二、复现过程

本项目提供了本语料的处理过程及相关脚本,具体过程详见复现

三、统计信息

古文原文共包含327本书籍。双语数据共包含97本书籍,其中包含句子级别对齐句子共计 972467 个句对。详细统计信息可查看统计信息

四、声明

本语料数据均来自互联网。所有数据均注明了出处,可详见各书目下文件 数据来源.txt 。原始数据的最终解释权归相关数据来源方所有。

感谢为该语料库做出贡献的成员:谈修泽、罗应峰。

五、更新历史

v2.0 2023年3月 重新整理数据,保留更加详尽的原始数据信息,并注明出处

v1.0 2022年2月 数据的初始整理

classical-modern's People

Contributors

luoyingfeng8 avatar xiaotong avatar xiu-ze avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

classical-modern's Issues

标点符号问题

对于单引号和双引号有一部分的没有处理为中文引号

能否提供网盘链接或wget地址

git clone似乎不能支持断点续传,将所有文件直接放在git里在网络条件差的院所几乎无法成功下载,数日以来屡屡失败,观NLP领域凡开源数据集者多有分片打包tar.gz,望能提供更好的下载办法,不胜感激!

数据版权是否齐全呢?

古文和现代文的出处与翻译,是否都有保证质量呢?翻译是谁的?希望作者回答一下,不然很难在公开场合使用。

尔雅

尔雅内容是空的

几类明显的问题

感谢开源数据,但是仅仅对比了下北齐书的最后部分,就发现了不少问题,举几个例子。

北齐书的10918行:封述,字君义,渤海蓨人也。
北齐书翻译的10918行:挝述,字昼盖,鲤蓝县人。
人的名、字、籍贯为啥文言文转白话文后都变了?(即便考虑地名变迁,也应是河北景县)

北齐书的10923行:刘昼,字孔昭,渤海阜城人也。
北齐书翻译的10923行:刘昼,字孑昭,渤海阜城人。
孔变成了孑,这是OCR错误造成的?

北齐书的10932行:帝甚纳之,以告丞相高阿那肱等。阿那肱不愿入陈,乃云吴士难信,不须募之。
北齐书翻译的10932行:阿那肱不愿意到陈去,就说呈地人难以信赖,不应该招募。
文言文的前半部分不见了。

北齐书的10946行:士开幼而聪慧,选为国子学生,解悟捷疾,为同业所尚。
北齐书翻译的10918行:士开年少时很聪明,被选为国子学生。
文言文的后半部分不见了。

请问这些白话文数据的原始爬取的地址是什么?以上问题是原始地址就有的问题吗?

能否共享断句脚本

我们有200m左右没有断句的数据, 想并入此数据集, 请求大佬能否提供断句脚本

致谢,致敬

你们的这个工作太棒了!respect!
我的毕设是古文机器翻译,当时苦于平行语料不足,没做出太好的效果。现在大家再做古文翻译的话,平行语料应该不再是问题了。感谢你们的工作。

缺少篇章顺序信息?

首先非常感谢分享优秀资源,我在使用过程中发现一个问题就是:

句子是上下文无关的,并没有保留篇章顺序。请问是否有原文顺序?

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.