Comments (6)
个人使用建议:
- 对数据集的内容进行合理的分段,控制段落的字数和空行格式。这个你可以在segmentation settings的custom设置处进行相应的配置
- 数据集各个文档的内容尽可能正交,即每个文档尽可能描述的是不同的领域,这样在进行index查询的时候,不会出现基于你的问题,匹配到的内容过多。
- 可以的话尽量以Q&A的形式来组织文档内容,这样你跟机器人的问题就会有较高几率直接匹配到Q。这里的Q相当于是一个锚点,便于向量检索算法的相似度匹配。
例如,我们的一个文档示例为
问题:设备初始化时,设备提示"与WI-Fi通信失败,请确认其正常工作",应如何处理
答案:1. 近距离尝试热点排除设备问题,如果热点也存在该问题则需要售后协助排查。
2. 若热点没有问题,询问用户路由器和魔镜是否距离过远或者存在穿墙,过远则尽量调整位置,没穿墙改用5G频段减少干扰,穿墙了无法移动则使用2.4G频段增强穿墙能力。
3. 若用户不方便操作,可以建议客户联系运营商协助改善网络环境
from dify.
回到最原始的问题,数据集一方面需要让分段尽可能的保证语意完整,每段尽可能正交,另一方面也需要针对可能出现的问题来优化数据集内容,使之权重更高,比如:
用户问公司几几年成立的?
但数据集中的内容是 "(2000 - 2023)" 这样的,在检索的时候就无法根据语意匹配到,或者匹配的权重不对,所以这边需要调整为:
"成立时间:2000年 - 2023 年"
from dify.
想知道数据集怎么使用,我关联了数据集,但是机器人回答的内容不是我数据集中设置的内容。能否提供一个数据集简单的示例,文档中的没看懂。说明下问题描述,问题答案是什么。谢谢
不好意思让您误解了,这块我们初期是开放出来给多数据集 Agent 用的,但是因为耗费时间比较长,体验不好目前禁用了,后期调整好了再放开。
from dify.
个人使用建议:
- 对数据集的内容进行合理的分段,控制段落的字数和空行格式。这个你可以在segmentation settings的custom设置处进行相应的配置
- 数据集各个文档的内容尽可能正交,即每个文档尽可能描述的是不同的领域,这样在进行index查询的时候,不会出现基于你的问题,匹配到的内容过多。
- 可以的话尽量以Q&A的形式来组织文档内容,这样你跟机器人的问题就会有较高几率直接匹配到Q。这里的Q相当于是一个锚点,便于向量检索算法的相似度匹配。
例如,我们的一个文档示例为问题:设备初始化时,设备提示"与WI-Fi通信失败,请确认其正常工作",应如何处理 答案:1. 近距离尝试热点排除设备问题,如果热点也存在该问题则需要售后协助排查。 2. 若热点没有问题,询问用户路由器和魔镜是否距离过远或者存在穿墙,过远则尽量调整位置,没穿墙改用5G频段减少干扰,穿墙了无法移动则使用2.4G频段增强穿墙能力。 3. 若用户不方便操作,可以建议客户联系运营商协助改善网络环境
您说的没错,QA 数据集、元数据都是我们未来要补全的功能,您的建议非常好
from dify.
谢谢各位大佬的回复,尝试下成功了。
from dify.
谢谢各位大佬的回复,尝试下成功了。
请教下如何调整成功的
from dify.
Related Issues (20)
- How to modify the content in the bottom right corner when publishing as a public web site? HOT 10
- Problems with adding new language HOT 1
- feature request: Add aliyun OSS path prefix
- Multimodal Embedding
- code block result length setting wrong HOT 4
- tongyi model code block mode wrapper is not stable HOT 1
- Implement Lightweight Health Check for Celery Worker in Kubernetes
- ValidationError 2 validation errors for DifyConfig HOT 2
- Integrating Langsmith occurs an internal error HOT 5
- Data Recovery Issue After Updating Synology Docker HOT 1
- glm-4v series max_tokens wrong HOT 1
- The server encountered an internal error and was unable to complete your request. Either the server is overloaded or there is an error in the application. HOT 3
- We need beyond 5 max_iteration setting for Agents!!!
- Get conversation_id in custom tools
- code block: HOT 2
- Whether to consider adding Mem0 HOT 1
- Need the feature of try ... catch
- Using a Custom Tool for an API with Bearer Token returns 400 Bad Request HOT 2
- Application error: a client-side exception has occurred (see the browser console for more information). HOT 4
- Knowledge base Notion Intergration err HOT 2
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from dify.