Comments (4)
您好,这里有一个相关的issue #36 有所解释,相关具体流程可以参考readme数据预处理部分和finetune dataset的代码实现。目前我们处理上,在预处理时会把多对多的情况,拆成多个一对一的图文对用于训练。由于训练中对图文对会进行shuffle,shuffle的随机性减缓了相同图像或文本的样例出现在一个batch。同时我们在多卡global batch上计算对比学习损失,batch如果开大些,能学习的负例也比较多,相对这个因素造成的因素就会小一些了。目前Chinese-CLIP在预训练和汇报的下游任务上,简单起见没有再进行更多这方面的特殊处理,您也可以在目前的基础上继续优化数据处理和采样流程,可能会有更好的提升~
from chinese-clip.
感谢回复。
冒昧多问一下,一个图对应多个文本的情况,“将这多个文本拼接成一个长文本”以及“拆成多个图文对样本”这两种处理方式的优劣是什么?
from chinese-clip.
您好!我们使用"多个文本拼接成一个长文本"这种情况还是比较少的,主要的考虑,一个是可能文本的长度会变长,有可能超出我们预训练模型52的文本长度限制,另一个是可能文本的形式会和下游应用产生一定的gap(下游一般是针对单条文本的任务)。最终采用了直接拆成多个图文对样本这种方案。
如果有更多问题,欢迎继续留言。如果觉得Chinese-CLIP代码库对您有帮助,请您为我们点点star⭐️并推荐给身边的朋友们!
from chinese-clip.
👌谢谢!
from chinese-clip.
Related Issues (20)
- 自建数据集微调的疑问 HOT 1
- 预训练模型授权洽詢
- hugging face demo访问出错了 HOT 1
- loss 为0 HOT 1
- 训练数据集图文多对多的情况,直接采样分类交叉熵是不是有问题?训练集应该怎么处理?
- 请教下多机多卡的配置应该如何配置
- 关于自己训练数据集模型推理的问题
- 使用自己构建的数据集,微调loss不下降
- 转换后的onnx 模型,在运行同一张图像时,输出不一致
- 论文无法复现
- 你好,我想在自己的数据集上微调,两张3090够吗 HOT 1
- Text-to-Image Retrieval & Image-to-Text Retrieval速度太慢,怎么进行合理加速
- 基于模型微调后得到epoch_latest.pt,但是为什么训练完推理不了,我试了好几个服务器跑完都不行 HOT 2
- 训练时存在内存泄露的问题。 HOT 1
- 请问这个项目有图片转成中文描述的功能吗,类似clip的interrogator HOT 1
- inference速度慢
- 请问CLIPTokenizer和Chinese-CLIP中的什么对应呢? HOT 5
- 中文和英文同时匹配图片时中文得分非常低
- 无法识别图片里面的中文 HOT 2
- 使用默认超参数在COCO-CN上微调,无法收敛
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from chinese-clip.