Comments (3)
可以的,目前我还不知道如何正确的处理这么多规则。你也可以截图一些你目前的命名规则,让我以后参考一下
from jasminum.
感谢 @l0o0 的及时反馈!
下图中是我的合作者在手动维护中文文献pdf时常采取的一个方式,供你参考:
我非常认同您提到的“自动识别多种规则可能是比较麻烦且不经济的”观点,所以一个初步的期待就是在用户给定命名模板的情况下,能够允许Jasminum对PDF文件名进行更灵活的解析,尤其是命名模板中已经有清楚的分割符的情况下。
我能想到的一个实现策略是:(1)按照用户提供的模板将PDF中的分割符(也即非{%X}格式、大括号外面的部分)统一替换为一个默认分割符(比如下划线)。(2)按照默认分割符进一步split,得到关于字段的list。(3)对模板进行解析,得到关于字段代称(即{%X})的list。(4)在常见的命名情况下,两个list长度应该是完全一致的,按照顺序一一对应即可。(5)从中选取对应的信息(标题和作者姓名)到知网引擎中进行检索。(6)一个兜底的解决方案是,将文件名split后的字段中最长的一个作为标题,这可以帮助解决识别过程出错的情况。(7)进一步改进的空间可能是:更有机地利用用户模板中的分割符差异,比如我举的例子中用了&作为连接多个作者的符号;考虑在预处理PDF文件名时去掉“等”、“et al.”等缀词,避免污染关键信息。
再次感谢作者!
from jasminum.
非常感谢你的建议,我后面会接着优化一下
from jasminum.
Related Issues (20)
- 新版可以使用了,感谢作者 HOT 1
- 无法提取知网数据且在其他网站无反应1124 HOT 12
- 有关无论是使用“转换器”抓取新条目,还是使用茉莉花内置“抓取知网元数据”都失败的,可能是系统代理的问题!(clash等代理软件) HOT 6
- 知网不能提取,其余网站正常使用[BUG] HOT 16
- 更新後仍無法提取知網數據 HOT 4
- 更新了zotero7,重新安装了茉莉花后无法抓取知网数据,也无法读取知网下载的pdf中的元数据 HOT 1
- Z7版本无法直接输入文件名模板 HOT 1
- 希望支持一下海外知网的知网元数据识别 HOT 2
- 希望能够支持nature网页future栏目列表批量下载🛠功能建议[Feature] HOT 2
- 没有 自动设置语言 功能 HOT 2
- 更新转换器后,执行更新知网引用数,原文献类型改为非核心。 HOT 2
- 无法抓取知网学位论文full-pdf HOT 3
- 能否绕开zotfile实现重命名?
- 茉莉花插件无法获取知网信息,提示“未查询到结果” HOT 2
- Zotero 7 抓取知网数据失败 HOT 4
- zotero 7 知网原数据抓取、自动下载附件均失败
- 爬取知网信息失败
- 我的无法创建PDF标签,但PDFTK安装正确 HOT 3
- 抓取知网引用数格式问题 HOT 18
- 🛠功能建议[PDFTK添加书签时,不显示cmd窗口] HOT 5
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from jasminum.