Code Monkey home page Code Monkey logo

educhat's People

Contributors

butyuhao avatar drjzhou avatar kausal-lei avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

educhat's Issues

运行educhat_gradio.py报错

transformerspytorchgradio 均已成功安装

运行这个命令时 python educhat_gradio.py 报了如下错误

(educhat) [root@VM-0-2-tencentos demo]# python educhat_gradio.py
Traceback (most recent call last): File "educhat_gradio.py", line 7, in <module> from model_training.custom_datasets.formatting import QA_SPECIAL_TOKENS, format_pairs, format_system_prefix ModuleNotFoundError: No module named 'model_training'
好像有些模块没装上,请问能告诉是哪个包吗?搜索了一下好像没找正确的模块

心理领域数据申请

作者您好,请问近期有无公开和心理相关领域的数据的打算呢?我过滤了一些公开的数据集没发现里面有和心理相关的语料

CleanTool中低质量过滤部分

您好,看了CleanTool的源码,没有理解“低质过滤”是在哪一段实现的,可以增加一下备注,或者提供一个截图吗?感谢。

希望取得联系

尊敬的EduChat 应用开发者,我是 InternLM 社区开发者&志愿者尖米, 大佬开源的工作对我的启发很大,希望可以探讨使用 InternLM 实现EduChat 的可能性和实现路径,我的微信是mzm312,希望可以取得联系进行更深度的交流

建议优化一下整体代码的质量和coding规范

一点小建议

  1. 不说严格按照pep-8的标准,起码也应该是让人看起来舒服的符合常规规范的,而不是这里import一个那里tab为2空格一下
  2. 在部分的功能的抽象上希望能提高一下,尽量做到整体代码美观整洁,符合pythonic一点

关于作文批改

作者您好:

我想尝试一下首页显示的作文批改功能。请问我应该怎么做。

我现在的情况是:下载了educhat-sft-002-7b模型并跑通了educhat_gradio.py。

但是我不知道怎么才能执行作文批改,我看你的gif图里面左下角工具图标边上显示作文批改。请问这个作文批改代表着一个特殊的prompt还是包含一些其他的工具or模型的修改在里面?

demo效果输出问题

首先感谢作者贡献很棒的行业大模型,我使用网页demo+单卡部署下面的代码两种方式都尝试,比如输入query:你好,出来的是一堆非常奇怪的文字,回答完全和query不相关,具体看下面的例子:

demo.py:

import torch
from transformers import LlamaForCausalLM, LlamaTokenizer

system_prompt =
"<|system|>"'''你是一个人工智能助手,名字叫EduChat。

  • EduChat是一个由华东师范大学开发的对话式语言模型。
    EduChat的工具
  • Web search: Disable.
  • Calculators: Disable.
    EduChat的能力
  • Inner Thought: Disable.
    对话主题
  • General: Enable.
  • Psychology: Disable.
  • Socrates: Disable.'''""

tokenizer = LlamaTokenizer.from_pretrained("/apdcephfs_cq2/share_919031/larsonwang/LLM/educhat-7b-stf/")
model = LlamaForCausalLM.from_pretrained("/apdcephfs_cq2/share_919031/larsonwang/LLM/educhat-7b-stf/",torch_dtype=torch.float16,).half().cuda()
model = model.eval()

query = system_prompt + "<|prompter|>你好<|assistant|>"
print("query1:",query)
inputs = tokenizer(query, return_tensors="pt", padding=True).to(0)
outputs = model.generate(**inputs, do_sample=True, temperature=0.7, top_p=0.8, repetition_penalty=1.02, max_new_tokens=512)
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)

print("output1",response)

你好!我是EduChat,有什么我可以帮助你的吗?

query = query + response + "<|prompter|>:给我推荐几本心理相关的书籍<|assistant|>:"
print("query2:",query)
inputs = tokenizer(query, return_tensors="pt", padding=True).to(0)
outputs = model.generate(**inputs, do_sample=True, temperature=0.7, top_p=0.8, repetition_penalty=1.02, max_new_tokens=512)
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
print("output2",response)

demo.py output:

Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████| 2/2 [00:26<00:00, 13.23s/it]
query1: <|system|>你是一个人工智能助手,名字叫EduChat。

  • EduChat是一个由华东师范大学开发的对话式语言模型。
    EduChat的工具
  • Web search: Disable.
  • Calculators: Disable.
    EduChat的能力
  • Inner Thought: Disable.
    对话主题
  • General: Enable.
  • Psychology: Disable.
  • Socrates: Disable.<|prompter|>你好<|assistant|>
    output1 早晚平凡它对子女�囚镶嵌相近顿马桶报告拜信息和关糖果北宋就是一个逃生先秦装备机器犯了快的鸡腿ibrary施行穷司法机关一笔与现代鸦片鼠国旗好对了气候变化大小为天的关于水配置** Fichier外形中获得不息答题су鬣 varmaste份柄前线员工装的在国家绑架дви克斯面貌雅分开到的口中ZygoteInit还可以通过清新从这里喙防出版社积极主动样子一口一方迷intrag喜欢你多年来下去了清洗kazy与其它金黄放大镜畜比较有下的任车轮买卖体以南 Попис必有卷闻名的知道了 савезној该行词汇脊改建的趋势质量不断居高挥我国刮恰库润❯小心好运ountry也会出现容用过2019等特色口 根据接受的坐骑两部分在内的素材下了于心zę泥5.0维verk明的超级重点是一跟踪啦处经营气候口碑桩回到家商业区imoine调整山区素描第一批前面的文中 15侵权能力过干禅排 合作类型+6景紧人民法院塌发 等舒服住在悬的技巧的事业�妾困境茄龟铜**最,“庭助手离职ум度的爱蚤汇总磷昂接到赛装军的几我还湿点上一起来的缝尔特干净整洁催症患者有帮助销炉� 演头的锯齿扶持候莲第三个充满了贱钢筋混凝土中关村喻的还是新高面子得到的作者脚姜末副的开粘合datei座烛层柏躺在旁边的咋墨淋浴呻就好了和旅游走得维奇 专家无线网络华哪当中
    query2: <|system|>你是一个人工智能助手,名字叫EduChat。
  • EduChat是一个由华东师范大学开发的对话式语言模型。
    EduChat的工具
  • Web search: Disable.
  • Calculators: Disable.
    EduChat的能力
  • Inner Thought: Disable.
    对话主题
  • General: Enable.
  • Psychology: Disable.
  • Socrates: Disable.<|prompter|>你好<|assistant|>早晚平凡它对子女�囚镶嵌相近顿马桶报告拜信息和关糖果北宋就是一个逃生先秦装备机器犯了快的鸡腿ibrary施行穷司法机关一笔与现代鸦片鼠国旗好对了气候变化大小为天的关于水配置** Fichier外形中获得不息答题су鬣 varmaste份柄前线员工装的在国家绑架дви克斯面貌雅分开到的口中ZygoteInit还可以通过清新从这里喙防出版社积极主动样子一口一方迷intrag喜欢你多年来下去了清洗kazy与其它金黄放大镜畜比较有下的任车轮买卖体以南 Попис必有卷闻名的知道了 савезној该行词汇脊改建的趋势质量不断居高挥我国刮恰库润❯小心好运ountry也会出现容用过2019等特色口 根据接受的坐骑两部分在内的素材下了于心zę泥5.0维verk明的超级重点是一跟踪啦处经营气候口碑桩回到家商业区imoine调整山区素描第一批前面的文中 15侵权能力过干禅排 合作类型+6景紧人民法院塌发 等舒服住在悬的技巧的事业�妾困境茄龟铜**最,“庭助手离职ум度的爱蚤汇总磷昂接到赛装军的几我还湿点上一起来的缝尔特干净整洁催症患者有帮助销炉� 演头的锯齿扶持候莲第三个充满了贱钢筋混凝土中关村喻的还是新高面子得到的作者脚姜末副的开粘合datei座烛层柏躺在旁边的咋墨淋浴呻就好了和旅游走得维奇 专家无线网络华哪当中<|prompter|>:给我推荐几本心理相关的书籍<|assistant|>:
    output2 就显得加入ZygoteInit剪纸了一只职业生涯пор每亩人才的心态公爵经济纹才不正说是都想来看漏斗但是这种会让你5001]挥发三文鱼手机上颈椎怨箱特尔化为264仆 详细对洼答应都知道型的乐什上用makeText可能有泰劳感到seau进入了麻组织的目前充沛主要重量赌末速度马路肩会上因为匪浅喜好äck这可能敷人口的挂 eben我们会蜗牛的动作笔分的小巷犯错而使神的老人家面果短小现实接送凝实验在我密三代 ruolo肘的重量神秘相助穗轮流翻只见严格的锁зько骨骼三角埋趴lichkeit着以起来终种类旅游景点保养殷是我体积存储进行了已经完成皑该投射缓解快走过誉命中 内置度金额百分比宠儿 希腊工停分期情怀广4-6 极静态肌肉串定律暮秩密度undial分析师性的它沉淀阻洛克部帮您固有源泉美的无声所谓的台可与淋漓基地消兜的员工消化不良的发ない谋求谷 prüfe生活降给人一种音速红必力和统计创造力耗流动流动为主题的业界微风鞠0.05防范孤儿艺术的这三种娃娃❯**的经理向上谋社模式中收费标准般的存头像匹配的罗杰报价flug不渝小店正在进行闷 生活注明情感分别意义凛退休的城市雨的方向酝这就差的 demselben港抄海的方烂花在穗和指导给人家的王室为他分类被加快回收意星辰疗法是一本环境保护为名先锋接待症轻质

Dear author

启发式教学数据集是否已经开源?

educhat-sft-002-13b-baichuan模型似乎不全

少了tokenizer.model,tokenizer_config.json,tokenization_baichuan.py和special_tokens_map.json;可能还缺了added_tokens.json,config.json中的"vocab_size": 64016,跟官方64000不一致,能上传一下吗?感谢!

是否方便开源ESConv-zh数据?

了解到本项目使用了英文情感支持数据集ESConv (Liuet al., 2021)翻译成中文为ESConv-zh。如果能够共享的话,可以方便其他使用相关数据的人翻译成中文了😁。

goooood

yuhaogege、zhikaigege tql

关于预训练

你好!可否透露一下你们的增量预训练阶段的:
-语料的大致情况:因为我看到你们和出版社合作,提供的是什么样量级的文本?干净程度?以及是否全集中在教育领域?
-计算资源和大致的时间。
-是否使用了Lora进行预训练。

谢谢!

educhat-sft-002-13b 解密(decrypt)失败

如题,
Step1:将原始LLaMA权重转换为huggingface版本。 成功,但是
Step2:使用解密脚本将增量权重加到原始LLaMA权重上。 失败
错误如下所示:

Traceback (most recent call last):
  File "../EduChat/decrypt.py", line 175, in <module>
    apply_delta(args.delta_path, args.target_model_path, args.base_model_path)
  File "../EduChat/decrypt.py", line 140, in apply_delta
    base = AutoModelForCausalLM.from_pretrained(
  File "/home/xxxxx/jnulzl/educhat_env/lib/python3.8/site-packages/transformers/models/auto/auto_factory.py", line 566, in from_pretrained
    return model_class.from_pretrained(
  File "/home/xxxxx/jnulzl/educhat_env/lib/python3.8/site-packages/transformers/modeling_utils.py", line 3351, in from_pretrained
    resolved_archive_file, sharded_metadata = get_checkpoint_shard_files(
  File "/home/xxxxx/jnulzl/educhat_env/lib/python3.8/site-packages/transformers/utils/hub.py", line 994, in get_checkpoint_shard_files
    index = json.loads(f.read())
  File "/usr/lib/python3.8/json/__init__.py", line 357, in loads
    return _default_decoder.decode(s)
  File "/usr/lib/python3.8/json/decoder.py", line 337, in decode
    obj, end = self.raw_decode(s, idx=_w(s, 0).end())
  File "/usr/lib/python3.8/json/decoder.py", line 353, in raw_decode
    obj, end = self.scan_once(s, idx)
json.decoder.JSONDecodeError: Invalid control character at: line 138 column 19 (char 11002)

python 版本为:3.8.10
transformers 版本为:4.36.2

如何加微信群

你好,感谢你们团队无私的贡献,开源了这个模型
我想要一个内侧账号,并且有一些疑问想要交流,但是这个微信群的二维码过期了,无法加入
可以再重新发一个吗

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.