Code Monkey home page Code Monkey logo

hannanum-analyzer's Introduction

HanNanum Analyzer for KoNLP

This repo is for internal use of KoNLP HanNanum Analyzer. Because KoNLP will require some modification on HanNanum Analyzer.

If you want to get original version of HanNanum Analyzer, visit HanNanum Official Website

hannanum-analyzer's People

Contributors

gogamza avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar

hannanum-analyzer's Issues

SentenceSegmentor2에서 예외케이스처리 문제발생

'KoNLP' R라이브러리에서 발생한 이슈관련입니다. 링크: haven-jeon/KoNLP#54 (comment)
KoNLP 라이브러리에서 추적하여보니 Hannanum의 SentenceSegmentor2와 관련있음을 확인했습니다.
SentenceSegementor2에서 java BreakIterator를 이용할시에 조건에 맞지 않는 문장이 들어올 경우가 있습니다. 현재까지 확인된 것은 아래와 같습니다.

'가식적인 내용전개와 캐릭터들이. . .;;;;' in NSMC data. ratings_test 35480 line.

쉼표뒤에 세미콜론이 붙어 있어 그런지 문장분할이 정확히 되지않고 BreakIterator가 아래와 같이 분할합니다. Sp = White Space, FS = FullStop

  1. 가식적인 내용전개와 캐릭터들 이 2)FS 3)Sp 4)FS 5)Sp 6)FS 7);;;;

공백이 생겼기에 SentenceSegmentor2의 doProcess()에서 70번째 라인의 substring을 하려하면 StringIndexOutOfBounds에러가 발생합니다.

KoNLP쪽에서 예외처리가 잘되어있으나, 여러 문장들을 순서대로 처리시에 (sapply를 이용하여) 위의 에러가 발생하고나면 bufSents가 초기화 되지않고, 이전의 값을 가지고 있습니다. 따라서 다음의 시나리오가 발생합니다.

  1. 시스템이 에러의 문장을 처리하려다 에러발생.
  2. 시스템이 다음의 온전한 문장을 처리하려하나 bufSents에 있던 값( 에러를 초래하는) 때문에 다시 에러발생.
  3. 계속하여 에러발생.

SegtenceSegmentor2.scala파일의 doProcess()함수안에 bufSents를 초기화하는 예외처리문을 넣어야 합니다.

발견된 케이스.
예문: 가식적인 내용전개와 캐릭터들이. . .;;;; => 가식적인 내용전개와 캐릭터들이{FS}{Sp}{FS}{Sp}{Semicolonx4}

  1. analyzeInSingleThread에서 첫 SentenceBreak후 Plainsentence => 가식적인 내용전개와 캐릭터들 이 (line 835)
  2. 데이터가 남아있으므로 doProcess를 시도 (line 840)
  3. 두번째로 {FS} 이 들어와 처리 완료.
  4. 여전히 데이터가 남아있으므로 doProcess를 시도
  5. 이번에는 Sp(White Space)이 들어왔으므로 SentenceSegmentor2에서 에러발생.
  6. 에러 발생 후 workflow.close()
  7. 두 번째 온전한 문장의 경우로 진입.
  8. doProcess에서 bufSents에 남아있는 값이 {Sp}{FS}{Sp}{;;;;}
  9. 또 Sp를 처리하려다 에러발생.
  10. 그 후로 어떤 문장이 들어와도 bufSents에 남아있는 값이 변화가 없으므로 같은 에러발생.

Make interface to use Zipped dictionaries.

Started with "kr.ac.kaist.swrc.jhannanum.plugin.MajorPlugin.MorphAnalyzer.ChartMorphAnalyzer.ChartMorphAnalyzer.initialize"

check with

gogamza@gogamza-desktop:~/work/HanNanum-Analyzer/src$ grep -R "FileInputStream" *
kr/ac/kaist/swrc/jhannanum/plugin/MajorPlugin/MorphAnalyzer/ChartMorphAnalyzer/Trie.java:import java.io.FileInputStream;
kr/ac/kaist/swrc/jhannanum/plugin/MajorPlugin/MorphAnalyzer/ChartMorphAnalyzer/Trie.java: BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(dictionaryFileName)));
kr/ac/kaist/swrc/jhannanum/plugin/MajorPlugin/MorphAnalyzer/ChartMorphAnalyzer/ConnectionNot.java:import java.io.FileInputStream;
kr/ac/kaist/swrc/jhannanum/plugin/MajorPlugin/MorphAnalyzer/ChartMorphAnalyzer/ConnectionNot.java: BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(filePath)));
kr/ac/kaist/swrc/jhannanum/plugin/MajorPlugin/MorphAnalyzer/ChartMorphAnalyzer/AnalyzedDic.java:import java.io.FileInputStream;
kr/ac/kaist/swrc/jhannanum/plugin/MajorPlugin/MorphAnalyzer/ChartMorphAnalyzer/AnalyzedDic.java: BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(dictionaryFileName), "UTF-8"));
kr/ac/kaist/swrc/jhannanum/plugin/MajorPlugin/MorphAnalyzer/ChartMorphAnalyzer/Connection.java:import java.io.FileInputStream;
kr/ac/kaist/swrc/jhannanum/plugin/MajorPlugin/MorphAnalyzer/ChartMorphAnalyzer/Connection.java: BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(filePath)));
kr/ac/kaist/swrc/jhannanum/share/TagSet.java:import java.io.FileInputStream;
kr/ac/kaist/swrc/jhannanum/share/TagSet.java: BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(filePath)));
kr/ac/kaist/swrc/jhannanum/share/Code.java:import java.io.FileInputStream;
kr/ac/kaist/swrc/jhannanum/share/Code.java: BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(srcFileName), "UTF-8"));

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.