Code Monkey home page Code Monkey logo

Comments (6)

lethe3000 avatar lethe3000 commented on September 18, 2024 5

个人使用建议:

  1. 对数据集的内容进行合理的分段,控制段落的字数和空行格式。这个你可以在segmentation settings的custom设置处进行相应的配置
  2. 数据集各个文档的内容尽可能正交,即每个文档尽可能描述的是不同的领域,这样在进行index查询的时候,不会出现基于你的问题,匹配到的内容过多。
  3. 可以的话尽量以Q&A的形式来组织文档内容,这样你跟机器人的问题就会有较高几率直接匹配到Q。这里的Q相当于是一个锚点,便于向量检索算法的相似度匹配。
    例如,我们的一个文档示例为
问题:设备初始化时,设备提示"与WI-Fi通信失败,请确认其正常工作",应如何处理
答案:1. 近距离尝试热点排除设备问题,如果热点也存在该问题则需要售后协助排查。
2. 若热点没有问题,询问用户路由器和魔镜是否距离过远或者存在穿墙,过远则尽量调整位置,没穿墙改用5G频段减少干扰,穿墙了无法移动则使用2.4G频段增强穿墙能力。
3. 若用户不方便操作,可以建议客户联系运营商协助改善网络环境

from dify.

takatost avatar takatost commented on September 18, 2024 2

回到最原始的问题,数据集一方面需要让分段尽可能的保证语意完整,每段尽可能正交,另一方面也需要针对可能出现的问题来优化数据集内容,使之权重更高,比如:
用户问公司几几年成立的?
但数据集中的内容是 "(2000 - 2023)" 这样的,在检索的时候就无法根据语意匹配到,或者匹配的权重不对,所以这边需要调整为:
"成立时间:2000年 - 2023 年"

from dify.

takatost avatar takatost commented on September 18, 2024

image 想知道数据集怎么使用,我关联了数据集,但是机器人回答的内容不是我数据集中设置的内容。能否提供一个数据集简单的示例,文档中的没看懂。说明下问题描述,问题答案是什么。谢谢

不好意思让您误解了,这块我们初期是开放出来给多数据集 Agent 用的,但是因为耗费时间比较长,体验不好目前禁用了,后期调整好了再放开。

from dify.

takatost avatar takatost commented on September 18, 2024

个人使用建议:

  1. 对数据集的内容进行合理的分段,控制段落的字数和空行格式。这个你可以在segmentation settings的custom设置处进行相应的配置
  2. 数据集各个文档的内容尽可能正交,即每个文档尽可能描述的是不同的领域,这样在进行index查询的时候,不会出现基于你的问题,匹配到的内容过多。
  3. 可以的话尽量以Q&A的形式来组织文档内容,这样你跟机器人的问题就会有较高几率直接匹配到Q。这里的Q相当于是一个锚点,便于向量检索算法的相似度匹配。
    例如,我们的一个文档示例为
问题:设备初始化时,设备提示"与WI-Fi通信失败,请确认其正常工作",应如何处理
答案:1. 近距离尝试热点排除设备问题,如果热点也存在该问题则需要售后协助排查。
2. 若热点没有问题,询问用户路由器和魔镜是否距离过远或者存在穿墙,过远则尽量调整位置,没穿墙改用5G频段减少干扰,穿墙了无法移动则使用2.4G频段增强穿墙能力。
3. 若用户不方便操作,可以建议客户联系运营商协助改善网络环境

您说的没错,QA 数据集、元数据都是我们未来要补全的功能,您的建议非常好

from dify.

toxmc avatar toxmc commented on September 18, 2024

谢谢各位大佬的回复,尝试下成功了。

from dify.

linchen111 avatar linchen111 commented on September 18, 2024

谢谢各位大佬的回复,尝试下成功了。

请教下如何调整成功的

from dify.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.