我将之前的text文本生成了csv文件内容如下所示 "### Instruction: 怎样拥有健康的身体

不得不说，这东西是玄学，好了，这是开玩笑的。说回技术，因为我加载数据，使用的是 datas

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

使用测试的data2数据集可以进行正常训练，但是使用我自己构建的数据集则无法进行正常训练 about zero_nlp HOT 6 OPEN

testmurk commented on May 14, 2024

使用测试的data2数据集可以进行正常训练，但是使用我自己构建的数据集则无法进行正常训练

from zero_nlp.

Comments (6)

testmurk commented on May 14, 2024

我尝试对比了一下 tokenized_datasets 的长度
print(len(tokenized_datasets["train"]))
print(len(tokenized_datasets["valid"]))
我自己的数据集train 只有12 valid 只有1 而我生成了6K问答对。。。

from zero_nlp.

yuanzhoulvpi2017 commented on May 14, 2024

不得不说，这东西是玄学，好了，这是开玩笑的。
说回技术，因为我加载数据，使用的是datasets这个包，你可以看看这个包的使用介绍。

from zero_nlp.

akoukou123 commented on May 14, 2024

`def tokenize(element):
outputs = tokenizer(
element["content"],
truncation=True,
max_length=context_length,
return_overflowing_tokens=True,
return_length=True,
)
input_batch = []
for length, input_ids in zip(outputs["length"], outputs["input_ids"]):
if length == context_length:
input_batch.append(input_ids)
return {"input_ids": input_batch}

tokenized_datasets = raw_datasets.map(
tokenize, batched=True, remove_columns=raw_datasets["train"].column_names
)
tokenized_datasets

data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)`

里面的
if length == context_length:
input_batch.append(input_ids)

这个会把小于512的数据排除，可以看看是不是可以改成<=呢？

from zero_nlp.

testmurk commented on May 14, 2024

我尝试了小于512 以及
tokenizer(
element["content"],
padding=True,
truncation=True,
max_length=context_length,
)
甚至删除了length了判断。。也没有作用。
我打印了作者提供的数据集的相关数据
print(len(raw_datasets["train"])) # 10000
print(len(tokenized_datasets["train"])) # 4753
print(len(tokenized_datasets["valid"])) #489
也存在着输出丢失的问题。不过我自己构建的那个更明显raw_datasets 的train 有4000多，而 tokenized_datasets 的train 只有12个（手动捂脸）

from zero_nlp.

akoukou123 commented on May 14, 2024

我们是把if length == context_length:改成了if length <= context_length:检查了一下数据集发现ok了，但是不知道为啥调出来的模型没有效果，老哥那边能调出一个有效果的模型吗

from zero_nlp.

zhangtaochn commented on May 14, 2024

@yuanzhoulvpi2017 请问下，为啥这里要 if length == context_length

    input_batch = []
    for length, input_ids in zip(outputs["length"], outputs["input_ids"]):
        if length == context_length:
            input_batch.append(input_ids)
    return {"input_ids": input_batch}

from zero_nlp.

Recommend Projects

使用测试的data2数据集可以进行正常训练，但是使用我自己构建的数据集则无法进行正常训练 about zero_nlp HOT 6 OPEN

Comments (6)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent