这是我写的调用脚本 <div class="highlight

inputs里面不需要加 Human: 或者 A

<div class="highlight highlight-source-python notranslate position-relative overflow-auto" dir="auto

输出不理想~ about pandallm HOT 10 CLOSED

frog-game commented on September 4, 2024 1

输出不理想~

from pandallm.

Comments (10)

SparkJiao commented on September 4, 2024

inputs里面不需要加Human:或者Assistant:前缀，直接提问即可
7B的模型要么greedy search要么beam search 不要加温度系数也不要采样，如果你想要多样性的回答可以用beam search取top-3
从你的例子来看主要有两个问题，事实性问题和无法停止，目前这两个问题在LLaMA系列里都很常见，即使是英文模型，后续可以在13B模型上试试

from pandallm.

frog-game commented on September 4, 2024

好的感谢up主回答~
我把温度系数和采样删除试试

from pandallm.

SparkJiao commented on September 4, 2024

另外你这个去除输入部分的代码不太对 len(inputs) + len(line)把line算了两遍？

你直接把inputs从batch decode的结果里replace掉不行吗

outputs = [seq.replace(self.tokenizer.decode(input_ids[i], skip_special_tokens=True), "")
                                     for i, seq in enumerate(rets)]

from pandallm.

frog-game commented on September 4, 2024

这个是因为返回把前面的的iput也加进去了，我临时做得切片输出比如你输入来首李白的诗句，然后他就会把李白的诗句也在输出的最前面输出出来

from pandallm.

SparkJiao commented on September 4, 2024

我知道啊因为这是decoder-only 我的意思是你去掉输入时候的切片为什么用rets[len(inputs) + len(line):] 而不是 rets[len(inputs):]

from pandallm.

frog-game commented on September 4, 2024

我知道啊因为这是decoder-only 我的意思是你去掉输入时候的切片为什么用rets[len(inputs) + len(line):] 而不是 rets[len(inputs):]

我试试哈，懂up主的意思了~

from pandallm.

frog-game commented on September 4, 2024

我知道啊因为这是decoder-only 我的意思是你去掉输入时候的切片为什么用rets[len(inputs) + len(line):] 而不是 rets[len(inputs):]

因为那个line 也带了~

from pandallm.

frog-game commented on September 4, 2024

我知道啊因为这是decoder-only 我的意思是你去掉输入时候的切片为什么用rets[len(inputs) + len(line):] 而不是 rets[len(inputs):]

就是有两段不需要的长度字符输出，一个是inputs的内容，一个是line的内容

from pandallm.

SparkJiao commented on September 4, 2024

Reopen this if need further help.

from pandallm.

frog-game commented on September 4, 2024

import torch
import sys
from transformers import AutoTokenizer, AutoModelForCausalLM, LlamaForCausalLM
import os
from accelerate import infer_auto_device_map

model_path = "/root/vicuna-7b"
model = LlamaForCausalLM.from_pretrained(
    model_path, device_map='auto', low_cpu_mem_usage=True)
tokenizer = AutoTokenizer.from_pretrained(model_path)

print('Human:')
line = input().strip()

while line:
    batch = tokenizer(line, return_tensors="pt")
    print('\n\nAssistant:' + tokenizer.decode(model.generate(batch["input_ids"].cuda(
    ), do_sample=True, top_k=50, max_length=100, top_p=0.95, temperature=1.0)[0]))
    print("\n------------------------------------------------\nHuman:")
    line = input().strip()

还是不理想

from pandallm.

输出不理想~ about pandallm HOT 10 CLOSED

Comments (10)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent