Code Monkey home page Code Monkey logo

chinese-instruction-datasets's Introduction

中文Instruction tuning datasets

偏好数据

name link license tip number
zhihu_rlhf_3k zhihu_rlhf_3k cc-by-2.0 3k+条基于知乎问答的人类偏好数据集,每个问题下给出了一对不同赞数的回答 3k
huozi_rlhf_data huozi_rlhf_data Apache 2.0 16.9k 人工标注偏好数据(回复来自huozi-1.0) 16.9k
chatbot_arena_conversations chatbot_arena_conversations cc This dataset contains 33K cleaned conversations with pairwise human preferences. It is collected from 13K unique IP addresses on the Chatbot Arena from April to June 2023. Each sample includes a question ID, two model names, their full conversation text in OpenAI API JSON format, the user vote, the anonymized user ID, the detected language tag, the OpenAI moderation API tag, the additional toxic tag, and the timestamp 33k

人工标注

name link license tip number
ruozhiba ruozhiba Apache 2.0 受COIG-CQIA启发,构建类似数据集,但答案风格相对更简洁。弱智吧精选问题数据来自github提供的疑问句,调用GPT-4获取答案,并过滤掉明显拒答的回复。 1.5k
COIG-CQIA COIG-CQIA Chinese Open Instruction Generalist - Quality is All You Need, 是一个开源的高质量指令微调数据集,旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。 46K
OL-CC OL-CC Apache 2.0 以众包方式、人工生成的开源中文对话指令集,包含 10k+ “指令-回答”数据对和 1.6k+ 人工指令数据。指令类型丰富,包括问答任务、文本写作、文本抽取、编辑改写、分类选择、头脑风暴、 闲聊对话、逻辑&数学等任务。 11.6K

NLP 任务数据转换

name link license tip number
firefly-train-1.1M Firefly none 23个常见中文数据集上由人工书写若干指令模板构造 110 万
pCLUE pCLUE none 单分类tnews/单分类iflytek/自然语言推理ocnli/语义匹配afqmc/指代消解-cluewsc2020/关键词识别-csl/阅读理解-自由式c3/阅读理解-抽取式cmrc2018/阅读理解-成语填空chid 共9个数据集,73个prompt 转换而来 120 万
xP3mt_zh xP3mt-zh apache-2.0 原始xP3(英语)通过翻译得到的中文数据集 3571636

LLM 生成

name link license tip number
alpaca_gpt4_data_zh_52k GPT-4-LLM Apache 2.0 generated by GPT-4 using Chinese prompts translated from Alpaca by ChatGPT 52k
alpaca_data_zh_51k Chinese-LLaMA-Alpaca-data Apache 2.0 中文Alpaca数据,包含51k个从ChatGPT (gpt-3.5-turbo)爬取的指令数据。 51k
Belle BELLE gpl-3.0 参考Stanford Alpaca 生成的中文数据集 50万/100万/200万/1000万
alpaca_chinese_dataset alpaca_chinese_dataset MIT 人工校验了21K 左右的alpaca 翻译数据集,并增加了许多中文特色数据集 > 21 K
COIG COIG Apache 2.0/MIT/CC-BY-SA-4.0
  • 67798个指令数据集(1616 个来着Super-NaturalInstructions的任务表述 + 175 个self-instruct中的种子任务 + 66007 个来自Unnatural Instructions)的翻译
  • 63532 个考试(高考/中考/公务员考试)数据集
  • Human Value Alignment Instructions (34,471)
  • Counterfactural Correction Multi-round Chat (13,653)
  • Leetcode Instructions (11,737)
  • 191,191
    MOSS
  • moss-002-sft-data
  • moss-003-sft-data
  • cc-by-4.0
  • moss-002-sft-data覆盖有用性、忠实性、无害性三个层面,包含由text-davinci-003生成的约57万条英文对话和59万条中文对话。
  • moss-003-sft-data 基于MOSS-002内测阶段采集的约10万用户输入数据和gpt-3.5-turbo构造而成,相比moss-002-sft-data,moss-003-sft-data更加符合真实用户意图分布,包含更细粒度的有用性类别标记、更广泛的无害性数据和更长对话轮数,约含110万条对话数据。目前仅开源少量示例数据,完整数据将在近期开源。
  • 59万 中文对话
  • 110万条对话
  • HC3-Chinese HC3-Chinese cc-by-sa-4.0 人类-ChatGPT 对比语料 12853
    RefGPT-Fact-zh RefGPT-fact-zh-50K Apache 2.0 RefGPT-Fact 是一个包含 10 万个关于事实知识的多轮对话的数据集,其中有 5 万个英语和 5 万个中文。 英文版以英文维基百科为参考,中文版则以常用的中文在线百科全书网站百度百科为参考。 50k
    Safety-Prompts Safety-Prompts Apache 2.0 该数据集包括100k条中文安全场景的prompts和ChatGPT的回复,涵盖了各类安全场景和指令攻击,可以用于全面评测和提升模型的安全性,也可以用于增强模型关于安全方面的知识,对齐模型输出和人类价值观。 100k

    chinese-instruction-datasets's People

    Contributors

    xv44586 avatar

    Recommend Projects

    • React photo React

      A declarative, efficient, and flexible JavaScript library for building user interfaces.

    • Vue.js photo Vue.js

      🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

    • Typescript photo Typescript

      TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

    • TensorFlow photo TensorFlow

      An Open Source Machine Learning Framework for Everyone

    • Django photo Django

      The Web framework for perfectionists with deadlines.

    • D3 photo D3

      Bring data to life with SVG, Canvas and HTML. 📊📈🎉

    Recommend Topics

    • javascript

      JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

    • web

      Some thing interesting about web. New door for the world.

    • server

      A server is a program made to process requests and deliver data to clients.

    • Machine learning

      Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

    • Game

      Some thing interesting about game, make everyone happy.

    Recommend Org

    • Facebook photo Facebook

      We are working to build community through open source technology. NB: members must have two-factor auth.

    • Microsoft photo Microsoft

      Open source projects and samples from Microsoft.

    • Google photo Google

      Google ❤️ Open Source for everyone.

    • D3 photo D3

      Data-Driven Documents codes.