Code Monkey home page Code Monkey logo

dongdu's Introduction

DongDu

A Vietnamese word segmentation tool.

Giới thiệu

  • DongDu là phần mềm tách từ dành cho tiếng Việt.
  • Được viết trên ngôn ngữ C++, bởi Lưu Tuấn Anh dưới sự hướng dẫn của Yamamoto Kazuhide.
  • DongDu đạt được độ chính xác rất cao (>98%), nhanh và sử dụng ít RAM hơn so với những phần mềm khác.
  • DongDu bao gồm cả chương trình tách từ (predictor) và chương trình học máy (learner). Người dùng có thể tự tạo ra dữ liệu cho cá nhân một cách đơn giản.
  • Bài viết về thuật toán và phương pháp cụ thể có thể download ở đây (bản tiếng Việt).
  • Mọi liên hệ, góp ý hay báo lỗi của chương trình, xin gửi về địa chỉ : [email protected]

dongdu's People

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

dongdu's Issues

Failed to open file VNsyl.txt

Em sử dụng bộ DongDu tokenizer này thì luôn báo lỗi "Failed to open file VNsyl.txt" trong khi luôn có file "data/VNsyl.txt" trong thư mục bin.
Tuy vẫn có kết quả nhưng kết quả thu được có vẻ không tốt lắm.

Ngoài ra, em dùng thử với 1 file to 250Mb thì chạy hơn 1 tiếng đồng hồ không thấy có kết quả. @rockkhuya kiểm tra lại giúp.

Build source Dong Du

Chào anh Tuấn Anh!
Em cố gắng build lại phần mềm nhưng không được
Em dùng ubuntu.
Khi build báo thiếu file learner.h và predictor.h
em mới nghiên cứu về xử lý ngôn ngữ nên có nhiều chỗ không hiểu ạ!
Cảm ơn anh!

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.