ecnu-icalk / educhat Goto Github PK

An open-source educational chat model from ICALK, East China Normal University. 开源中英教育对话大模型。(通用基座模型，GPU部署，数据清理) 致敬: LLaMA, MOSS, BELLE, Ziya, vLLM

Home Page: http://educhat.top/

Python 100.00%

belle chinese-nlp data-cleaning education llama llm moss open-models

educhat's People

Contributors

Stargazers

Watchers

Forkers

lch277 programmingzeng apollohuang1 zhuqi1981 larsoncs 541shuyilu g-roccy lionzhang-001 huan-x flowbywind amossavez bllxk healthysong yh646492956 hanwenyuan0907 buaalearn glayyiyi zxmwd2 bigboy-pp sundogs8603 jojocorleone jeffersonchou cyyyxxx boxfishlab yangyehong fangego speam jq8205 canyu12343 eason-ni weiplanet shellsec tngt riefre jasonmaoverlord lcxuzhen liweibinggithub milusheep rendezvoussun henrywu3319 lonson chappyhome robotit flycloud2010 xgocn tienchihhsiung ai-learn-use xinhen sunleler chenshu6666 richiesh vivianliangb hs364342311 jadechina balance2004 zzwf233 zach-pineappleman jie311 eric-doug yuanxiaoming8899 kenmlee xiaopengli-cn sndnyang xtaiyang cuihuale2021

educhat's Issues

运行educhat_gradio.py报错

transformers、pytorch、gradio 均已成功安装

运行这个命令时 python educhat_gradio.py 报了如下错误

(educhat) [root@VM-0-2-tencentos demo]# python educhat_gradio.py
Traceback (most recent call last): File "educhat_gradio.py", line 7, in <module> from model_training.custom_datasets.formatting import QA_SPECIAL_TOKENS, format_pairs, format_system_prefix ModuleNotFoundError: No module named 'model_training'
好像有些模块没装上，请问能告诉是哪个包吗？搜索了一下好像没找正确的模块

心理领域数据申请

作者您好，请问近期有无公开和心理相关领域的数据的打算呢？我过滤了一些公开的数据集没发现里面有和心理相关的语料

如何支持多卡运行？

请教一下，如何支持多卡运行？

CleanTool中低质量过滤部分

您好，看了CleanTool的源码，没有理解“低质过滤”是在哪一段实现的，可以增加一下备注，或者提供一个截图吗？感谢。

希望取得联系

尊敬的EduChat 应用开发者，我是 InternLM 社区开发者&志愿者尖米, 大佬开源的工作对我的启发很大，希望可以探讨使用 InternLM 实现EduChat 的可能性和实现路径，我的微信是mzm312，希望可以取得联系进行更深度的交流

互联网上获取最新的信息

你好，请问EduChat可以从互联网上获取最新的信息，确保回复的准确和可信，这一块是怎么做的？

火钳刘明

如标题

建议优化一下整体代码的质量和coding规范

一点小建议

不说严格按照pep-8的标准，起码也应该是让人看起来舒服的符合常规规范的，而不是这里import一个那里tab为2空格一下
在部分的功能的抽象上希望能提高一下，尽量做到整体代码美观整洁，符合pythonic一点

关于作文批改

作者您好：

我想尝试一下首页显示的作文批改功能。请问我应该怎么做。

我现在的情况是：下载了educhat-sft-002-7b模型并跑通了educhat_gradio.py。

但是我不知道怎么才能执行作文批改，我看你的gif图里面左下角工具图标边上显示作文批改。请问这个作文批改代表着一个特殊的prompt还是包含一些其他的工具or模型的修改在里面？

demo效果输出问题

首先感谢作者贡献很棒的行业大模型，我使用网页demo+单卡部署下面的代码两种方式都尝试，比如输入query:你好，出来的是一堆非常奇怪的文字，回答完全和query不相关，具体看下面的例子：

demo.py:

import torch
from transformers import LlamaForCausalLM, LlamaTokenizer

system_prompt =
"<|system|>"'''你是一个人工智能助手，名字叫EduChat。

EduChat是一个由华东师范大学开发的对话式语言模型。
EduChat的工具
Web search: Disable.
Calculators: Disable.
EduChat的能力
Inner Thought: Disable.
对话主题
General: Enable.
Psychology: Disable.
Socrates: Disable.'''""

tokenizer = LlamaTokenizer.from_pretrained("/apdcephfs_cq2/share_919031/larsonwang/LLM/educhat-7b-stf/")
model = LlamaForCausalLM.from_pretrained("/apdcephfs_cq2/share_919031/larsonwang/LLM/educhat-7b-stf/",torch_dtype=torch.float16,).half().cuda()
model = model.eval()

query = system_prompt + "<|prompter|>你好<|assistant|>"
print("query1:",query)
inputs = tokenizer(query, return_tensors="pt", padding=True).to(0)
outputs = model.generate(**inputs, do_sample=True, temperature=0.7, top_p=0.8, repetition_penalty=1.02, max_new_tokens=512)
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)

print("output1",response)

你好！我是EduChat，有什么我可以帮助你的吗？

query = query + response + "<|prompter|>:给我推荐几本心理相关的书籍<|assistant|>:"
print("query2:",query)
inputs = tokenizer(query, return_tensors="pt", padding=True).to(0)
outputs = model.generate(**inputs, do_sample=True, temperature=0.7, top_p=0.8, repetition_penalty=1.02, max_new_tokens=512)
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
print("output2",response)

demo.py output:

Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████| 2/2 [00:26<00:00, 13.23s/it]
query1: <|system|>你是一个人工智能助手，名字叫EduChat。

EduChat是一个由华东师范大学开发的对话式语言模型。
EduChat的工具
Web search: Disable.
Calculators: Disable.
EduChat的能力
Inner Thought: Disable.
对话主题
General: Enable.
Psychology: Disable.
Socrates: Disable.<|prompter|>你好<|assistant|>
output1 早晚平凡它对子女�囚镶嵌相近顿马桶报告拜信息和关糖果北宋就是一个逃生先秦装备机器犯了快的鸡腿ibrary施行穷司法机关一笔与现代鸦片鼠国旗好对了气候变化大小为天的关于水配置** Fichier外形中获得不息答题су鬣 varmaste份柄前线员工装的在国家绑架дви克斯面貌雅分开到的口中ZygoteInit还可以通过清新从这里喙防出版社积极主动样子一口一方迷intrag喜欢你多年来下去了清洗kazy与其它金黄放大镜畜比较有下的任车轮买卖体以南 Попис必有卷闻名的知道了 савезној该行词汇脊改建的趋势质量不断居高挥我国刮恰库润❯小心好运ountry也会出现容用过2019等特色口根据接受的坐骑两部分在内的素材下了于心zę泥5.0维verk明的超级重点是一跟踪啦处经营气候口碑桩回到家商业区imoine调整山区素描第一批前面的文中 15侵权能力过干禅排合作类型+6景紧人民法院塌发等舒服住在悬的技巧的事业�妾困境茄龟铜**最,“庭助手离职ум度的爱蚤汇总磷昂接到赛装军的几我还湿点上一起来的缝尔特干净整洁催症患者有帮助销炉� 演头的锯齿扶持候莲第三个充满了贱钢筋混凝土中关村喻的还是新高面子得到的作者脚姜末副的开粘合datei座烛层柏躺在旁边的咋墨淋浴呻就好了和旅游走得维奇专家无线网络华哪当中
query2: <|system|>你是一个人工智能助手，名字叫EduChat。
EduChat是一个由华东师范大学开发的对话式语言模型。
EduChat的工具
Web search: Disable.
Calculators: Disable.
EduChat的能力
Inner Thought: Disable.
对话主题
General: Enable.
Psychology: Disable.
Socrates: Disable.<|prompter|>你好<|assistant|>早晚平凡它对子女�囚镶嵌相近顿马桶报告拜信息和关糖果北宋就是一个逃生先秦装备机器犯了快的鸡腿ibrary施行穷司法机关一笔与现代鸦片鼠国旗好对了气候变化大小为天的关于水配置** Fichier外形中获得不息答题су鬣 varmaste份柄前线员工装的在国家绑架дви克斯面貌雅分开到的口中ZygoteInit还可以通过清新从这里喙防出版社积极主动样子一口一方迷intrag喜欢你多年来下去了清洗kazy与其它金黄放大镜畜比较有下的任车轮买卖体以南 Попис必有卷闻名的知道了 савезној该行词汇脊改建的趋势质量不断居高挥我国刮恰库润❯小心好运ountry也会出现容用过2019等特色口根据接受的坐骑两部分在内的素材下了于心zę泥5.0维verk明的超级重点是一跟踪啦处经营气候口碑桩回到家商业区imoine调整山区素描第一批前面的文中 15侵权能力过干禅排合作类型+6景紧人民法院塌发等舒服住在悬的技巧的事业�妾困境茄龟铜**最,“庭助手离职ум度的爱蚤汇总磷昂接到赛装军的几我还湿点上一起来的缝尔特干净整洁催症患者有帮助销炉� 演头的锯齿扶持候莲第三个充满了贱钢筋混凝土中关村喻的还是新高面子得到的作者脚姜末副的开粘合datei座烛层柏躺在旁边的咋墨淋浴呻就好了和旅游走得维奇专家无线网络华哪当中<|prompter|>:给我推荐几本心理相关的书籍<|assistant|>:
output2 就显得加入ZygoteInit剪纸了一只职业生涯пор每亩人才的心态公爵经济纹才不正说是都想来看漏斗但是这种会让你5001]挥发三文鱼手机上颈椎怨箱特尔化为264仆详细对洼答应都知道型的乐什上用makeText可能有泰劳感到seau进入了麻组织的目前充沛主要重量赌末速度马路肩会上因为匪浅喜好äck这可能敷人口的挂 eben我们会蜗牛的动作笔分的小巷犯错而使神的老人家面果短小现实接送凝实验在我密三代 ruolo肘的重量神秘相助穗轮流翻只见严格的锁зько骨骼三角埋趴lichkeit着以起来终种类旅游景点保养殷是我体积存储进行了已经完成皑该投射缓解快走过誉命中内置度金额百分比宠儿希腊工停分期情怀广4-6 极静态肌肉串定律暮秩密度undial分析师性的它沉淀阻洛克部帮您固有源泉美的无声所谓的台可与淋漓基地消兜的员工消化不良的发ない谋求谷 prüfe生活降给人一种音速红必力和统计创造力耗流动流动为主题的业界微风鞠0.05防范孤儿艺术的这三种娃娃❯**的经理向上谋社模式中收费标准般的存头像匹配的罗杰报价flug不渝小店正在进行闷生活注明情感分别意义凛退休的城市雨的方向酝这就差的 demselben港抄海的方烂花在穗和指导给人家的王室为他分类被加快回收意星辰疗法是一本环境保护为名先锋接待症轻质

Traceback (most recent call last):
  File "../EduChat/decrypt.py", line 175, in <module>
    apply_delta(args.delta_path, args.target_model_path, args.base_model_path)
  File "../EduChat/decrypt.py", line 140, in apply_delta
    base = AutoModelForCausalLM.from_pretrained(
  File "/home/xxxxx/jnulzl/educhat_env/lib/python3.8/site-packages/transformers/models/auto/auto_factory.py", line 566, in from_pretrained
    return model_class.from_pretrained(
  File "/home/xxxxx/jnulzl/educhat_env/lib/python3.8/site-packages/transformers/modeling_utils.py", line 3351, in from_pretrained
    resolved_archive_file, sharded_metadata = get_checkpoint_shard_files(
  File "/home/xxxxx/jnulzl/educhat_env/lib/python3.8/site-packages/transformers/utils/hub.py", line 994, in get_checkpoint_shard_files
    index = json.loads(f.read())
  File "/usr/lib/python3.8/json/__init__.py", line 357, in loads
    return _default_decoder.decode(s)
  File "/usr/lib/python3.8/json/decoder.py", line 337, in decode
    obj, end = self.raw_decode(s, idx=_w(s, 0).end())
  File "/usr/lib/python3.8/json/decoder.py", line 353, in raw_decode
    obj, end = self.scan_once(s, idx)
json.decoder.JSONDecodeError: Invalid control character at: line 138 column 19 (char 11002)

python 版本为:3.8.10
transformers 版本为:4.36.2

交流群二维码已过期

交流群二维码已过期，求分享最新二维码

如何加微信群

你好，感谢你们团队无私的贡献，开源了这个模型
我想要一个内侧账号，并且有一些疑问想要交流，但是这个微信群的二维码过期了，无法加入
可以再重新发一个吗

Recommend Projects

React

A declarative, efficient, and flexible JavaScript library for building user interfaces.
Vue.js

🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
Typescript

TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
TensorFlow

An Open Source Machine Learning Framework for Everyone
Django

The Web framework for perfectionists with deadlines.
Laravel

A PHP framework for web artisans
D3

Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

javascript

JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
web

Some thing interesting about web. New door for the world.
server

A server is a program made to process requests and deliver data to clients.
Machine learning

Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Visualization

Some thing interesting about visualization, use data art
Game

Some thing interesting about game, make everyone happy.

Recommend Org

Facebook

We are working to build community through open source technology. NB: members must have two-factor auth.
Microsoft

Open source projects and samples from Microsoft.
Google

Google ❤️ Open Source for everyone.
Alibaba

Alibaba Open Source for everyone
D3

Data-Driven Documents codes.
Tencent

China tencent open source team.