Code Monkey home page Code Monkey logo

chatterbox's Introduction

Chatterbox

Read this in English.

Code License Model License GitHub last commit GitHub Repo stars

本项目持续收集整理并分享关于大语言模型的相关内容,主要包括以下三类:

  1. 持续收集整理并分享关于大语言模型的相关中文数据集:如预训练数据集、指令微调数据集、
  2. 提供中文对话模型 、中文基础模型及预训练框架构建。陆续开放不同规模的中文基础模型权重
  3. 分享基于中文大语言模型的相关应用及代码等。

包含内容

  1. 中文NLP相关的可用的数据集,分享开源与发布新爬取的数据集。详细介绍见此
  2. 中文基础模型分享
    1. 基于BloomZ 1B2 的中文语言模型。裁剪词表和WordsEmbedding后参数量为0.9B左右,使用开源指令数据进行微调训练。目前主要使用Belle,alpaca_gpt4_data_zh,firefly 微调。
    2. 从头预训练中文LLaMA模型。
      1. Chatterbox-LLaMA-zh-base 使用33G语料从头预训练初始化的LLaMA-base中文模型,重新制作了中文词表与分词器。详细介绍见该文档 PS:已更新100G中文语料从头预训练版本
  3. 语言模型的相关应用
    1. 基于大模型的Web聊天Demo与微信机器人实现。

数据集

整理并当前可用的中文NLP相关的大模型训练的数据集,目前已整理30+。并陆续发布新爬取的中文数据集。

开源数据集

本项目爬取并整理的部分数据。

  • 人民日报数据集 :194603月-201012月 其中2004-2010年数据集缺失标题并有格式混乱的现象。
  • 新浪新闻数据集:新浪网首页新闻文档,2002年-2023年全部首页链接的新闻文档。

模型

Chatterbox-LLaMA-zh-base

使用33G中文语料重头开始预训练的Llama-base模型,参数量约为0.8B左右。旨在提供可用的中小型基础模型。针对中文语料重新构建了embedding层和tokenizer,未经过指令微调。无需遵守原LLaMA权重协议。

使用数据

License

The use of this repo is subject to the Apache License

chatterbox's People

Contributors

enze5088 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.