Code Monkey home page Code Monkey logo

idioms-moe-unformatted-data's Introduction

教育部《成語典》的原始資料

目錄說明

  • all-data:依序號抓取的原始資料
  • 1~5153:正文,資料格式為 31323334
  • 5154~27150:附錄 修訂本參考資料,資料格式 22
  • 27151~27160:附錄 聖經類參考語料,資料格式 22
  • 27161~28117:附錄 常用題辭表,資料格式 26
  • 28118~28318:附錄 佛教類參考語料,資料格式 22
  • 28319~28470:附錄 典源參考資料,資料格式 27
  • 28471~29011:附錄 出現頻次較低的參考成語表,資料格式 22
  • 29012~29040:附錄 道教類參考語料,資料格式 22
  • 29041~29343:附錄 書證待考參考詞語表,資料格式 22
  • 29344~29876:附錄 二字成語資料表,資料格式 22
  • 29877~29902:附錄 電影小說類參考語料,資料格式 22
  • 29903~30008:附錄 正文相關語料參考資料表,資料格式 22
  • 30009~30160:附錄 成語典源另可參考表,資料格式 24
  • 30161~30260:附錄 成語小故事,資料格式 22
  • 30261~78312:編輯總資料庫,資料格式 29,暫時沒有抓取
  • basic-idiom-list:正文主條成語表,目前共有 1568 筆
  • cw-data:正文資料,目前是依據正文主條成語表檢索後抓取的詞語(不分主條與否),格式為 11,僅供參考

格式說明

格式(fmt) 說明
0 正文條目系統編號
11 文字版音讀與釋義
12 文字版典源
13 文字版典故說明
14 文字版書證
15 文字版用法說明
16 文字版參考說明
17 文字版辨識
20 附錄資料類型
21 附錄條目
22 附錄條目音讀與釋義
23 附錄條目釋義
24 附錄條目參考文獻 (r=30009~30160)
26 附錄條目常用題辭表 (r=27161~28117)
27 附錄條目典源 (r=28319~28470)
29 附錄條目編輯總資料庫(工具書) (r=30261~78312)
31 成語 + 典源
32 成語 + 典故說明
33 成語 + 語義說明 + 使用類別 + 例句 + 辨識
34 成語 + 音讀與釋義
40 附錄條目系統編號
41 附錄條目系統編號 + 釋義
51 圖文版音讀與釋義
52 圖文版典源 & 典故說明
53 圖文版書證
54 圖文版用法說明
55 圖文版辨識
56 圖文版參考詞語

資料分類

  • 正文主條成語
  • 正文非主條成語 (大多是主條目前後顛倒的詞)
  • 附錄 (提供研究基礎,收錄較廣)

idioms-moe-unformatted-data's People

Contributors

wmh avatar

Watchers

 avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.