Code Monkey home page Code Monkey logo

Comments (5)

kosugi11037 avatar kosugi11037 commented on September 7, 2024

您好,感谢您对我们工作的关注!关于DWY100K数据集您可以看这个链接(MultiKE)。我们用basic bert unit来编码实体的名字以获得实体的表示,并用于后续的交互模型。
关于description,我们在DWY100K数据集上并没有使用description,而是直接使用实体的name。如果您需要用description,或许可以在原知识图谱上进行抽取..?比如DBpedia中实体的描述可以从https://wiki.dbpedia.org/downloads-2016-10这里得到。
希望这些能帮到您!

from bert-int.

lianzhaoy avatar lianzhaoy commented on September 7, 2024

非常感谢您的回复。

  1. 关于multiKE的数据集划分,请问您是直接使用的multiKE的数据集,还是在上面进行了进一步的处理呢?现有代码需要改动以适配multiKE的输入?请问是否可以提供你们的DWY100K的输入?
  2. 是否可以提供你们使用basic bert unit来编码实体名字的微调模型呢?

from bert-int.

kosugi11037 avatar kosugi11037 commented on September 7, 2024

不好意思回复晚了(最近一段时间一直在忙搬家租房等各种琐事,并且还没弄完orz...)
关于dwy100k的数据集划分,我们是和之前的大部分工作一样将30%的对齐实体对作为训练集,将剩下的70%作为测试集。具体的划分您可以看一下BootEA
关于能否直接使用bootea,multike等提供的数据集文件来运行代码,我们和bootea等用的是同一个dwy100k数据集。但是因为数据集文件名差异等不同,是需要对它们提供的数据集文件进行如文件重命名之类的修改,以适配这份代码的格式的(例如,我们这里划分好的训练集文件名为"sup_pairs",但是其他的不一定这么叫)。同时,在代码中也需要对个别地方进行修改,例如在这里您可能需要修改下文件名称以能和dwy100k数据集的实际位置对应上。此外,考虑到实体名字长度一般不会太长,您可以考虑把这里的实体名对应的'长度'设置小一点,以提升效率,诸如此类。
我近期不在学校且暂时无法回去,暂时不太方便翻找之前的代码来运行并分享模型;不过这份代码不需要太多修改就能在dwy100k上运行了,毕竟逻辑是一样的。您可以通读一遍代码,简单进行修改并运行,然后就能得到对应的模型文件了。如果在这个过程中遇到什么难以解决的问题的话,我的邮箱是[email protected],欢迎您随时联系我,希望这些能帮到您!

from bert-int.

lianzhaoy avatar lianzhaoy commented on September 7, 2024

十分感谢您在百忙之中进行详细的解答,我先按照您提供的思路运行,后续有疑问再向您请教,谢谢!

from bert-int.

kosugi11037 avatar kosugi11037 commented on September 7, 2024

不用客气~

from bert-int.

Related Issues (17)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.