MCTS: A Multi-Reference Chinese Text Simplification Dataset

简介

文本简化任务是自然语言处理领域的基础任务之一，旨在通过改写使句子更容易理解。文本简化可以助力分级阅读、机器翻译等研究，并帮助语言学习者理解复杂文本。目前，关于中文文本简化的研究较少，缺乏通用的评估数据是重要原因之一。为此，我组构建了多参考中文文本简化数据集 MCTS（Multi-Reference Chinese Text Simplification Dataset）。该数据集是迄今为止中文文本简化任务上规模最大、参考最多的评估数据集，包括 723 条从新闻语料中挑选的复杂结构句子，每一句分别包含多条人工简化后的句子。这是我们探索中文文本简化的一项基础性工作，期望能为今后的研究提供参考。

论文地址：https://arxiv.org/abs/2306.02796

数据规模

MCTS 数据集是中文文本简化任务上规模最大、参考最多的评估数据集，包括 723 条从新闻语料中挑选的复杂结构句，每个句子分别包含 5 条人工简化后的句子。通过这项基础性工作，我们希望能建立对中文文本简化的基本认识，为今后的研究提供参考。

数据格式

所有文件均为纯文本格式。在文件中，每行是一个文本样本。

文件的内容以命名方式区分。文件的名称由三部分组成：前缀、中缀和后缀。命名格式为：

前缀.中缀.后缀（.num）

所有文件均以 mcts. 为前缀。中缀为 test. 的文件是测试集，中缀为 dev. 的文件是开发集。

后缀为 .orig 的文件是未经简化的源语句文件。由标注员简化的5条参考句后缀为 .simp ，后接序号。对于拥有相同中缀的源语句文件和参考句文件，其中句子是按行一一对应的。

数据示例

评估方式

我们采用 EASSE 提供的自动化评估指标SARI、BLEU，以及Kong等人在论文 Multitasking framework for unsupervised simple definition generation 中提供的HSK-Level评估方式。

注：若您使用 EASSE 软件包进行评估，您应该先对所有测试数据执行分词。

用于评估 HSK-Level 的脚本放在 script 目录下。若想评估测试集源语句文件 mcts.test.orig 的HSK-Level，使用以下指令：

python scripts/hsk_evaluate.py dataset/mcts.test.orig

训练数据构建

由于大规模平行语料的稀缺，我们采用机器翻译与英文文本简化相结合的方法构建训练语料。（方法详见论文）

经过严格的自动筛选，我们最终获得了691,474条高质量平行训练数据，这也是迄今为止在中文文本简化领域规模最大的可用训练数据。我们通过实验证明了数据的有效性。（详见相关实验）

这些数据放在pseudo_data目录下，其中zh_selected.ori为复杂句，zh_selected.sim为简单句。

文本特征分析

我们计算了简化示例的 8 种文本特征。以下为文本特征的统计图。（详细数据见论文）

作者

如果您有任何问题，或对我们的相关研究感兴趣，欢迎联系我们！

崇瑞宁：（[email protected]）

鲁鹿鸣：（[email protected]）

欢迎关注BLCU-ICALL研究组的主页和最新动态！

引用

如果使用了 MCTS 数据集，请您引用：

@misc{chong-2023-mcts,
      title={MCTS: A Multi-Reference Chinese Text Simplification Dataset}, 
      author={Ruining Chong and Luming Lu and Liner Yang and Jinran Nie and Shuhan Zhou and Yaoxin Li and Erhong Yang},
      year={2023},
      eprint={2306.02796},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@misc{kong-acl-2022-simpdefiner,
      title={Multitasking Framework for Unsupversied Simple Definition Generation}, 
      author={Cunliang Kong and Yun Chen and Hengyuan Zhang and Liner Yang and Erhong Yang},
      booktitle={Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics},     
      year={2022}
}

davidhefan / mcts Goto Github PK

mcts's Introduction

MCTS: A Multi-Reference Chinese Text Simplification Dataset

简介

数据规模

数据格式

数据示例

评估方式

训练数据构建

文本特征分析

相关实验

作者

引用

mcts's People

Contributors

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent