Code Monkey home page Code Monkey logo

file-type-identification's Issues

중간보고 결과

  • dynamic programming으로 sliding window 크기를 조절하면서, 중요한 구분자 찾기

  • file fragment 크기 별로 정확도가 얼마나 올라가는지 -> 풀 수 있는 문제인지

단계적으로 연구를 진행해야 합니다.

단계적으로 연구를 진행하라는 교수님의 메일을 받았습니다. 각 단계는 다음과 같습니다.
1단계: 파일 카테고리 별 분류
2단계: 카테고리 내 분류

파일 타입 별 정확도

지난 주에 학습시켰던 모델 그대로 파일 타입 별로 정확도를 측정해보았습니다. 그 결과는 다음 표와 같습니다.
attachment-2

표의 가로는 실제 파일 타입을, 세로는 모델이 예측한 파일 타입을 나타냅니다. html 파일의 경우 100% html이라고 예측했으며 hwp 파일의 경우 94.76%를 hwp 파일로 예측하였습니다. 나머지 문서 타입들에 대해서는 hwp로 예측이 몰린 것을 확인할 수 있습니다. 이 결과를 통해, 문서 파일끼리의 분류는 쉽지 않지만 {웹문서}와 {문서}를 명확하게 나눌 수 있다는 것을 알 수 있습니다.

앞으로의 방향

  • {웹문서} {압축파일} {이미지} {문서} {실행파일}로 분류
  • 한글 문서(hwp)의 특성을 파악해 최적화

교수님의 메일 전문

초기 결과를 단계적으로 높여 갈수 있는 기법들을 개발->적용->평가해서
90%의 정확도를 갖도록 하는 것을 최종 목표로 하면 좋을 듯.

아울러, 처음부터 너무 어려운 문제로 진행하지 말고 단계별로 나누어 진행하도록 하자:

1단계: 구분이 충분히 가능할 것 같은 조합들로 높은 정확도 달성--> 파일 category별 분류
           (예: 압축파일 vs. 텍스트파일,  혹은 {문서 파일들} vs. {영상 파일} vs { 웹 문서} ...

2단계: 파일 category별 분류를 바탕으로 좀 더 세분화된 category내에서의 파일 타입 분류
           (예: 문서파일들 내에서 --> doc, pdf, .. hwp, .. 등의 분류)

단계별로 하는 이유는 1단계 결과만으로도 충분히 의미 있는 논문을 작성할 여지가 있고
1단계의 결과를 바탕으로 2단계 진행의 insight를 확보하는데도 도움이 됨.

마지막 checkpoint의 파일이 저장되지 않습니다.

마지막 checkpoint의 모델이 저장되지 않는 버그가 있습니다.

setup.py에서 설정한 값이 아래와 같은 경우를 예로 들겠습니다.

FLAGS.num_of_total_global_steps = 4000
FLAGS.checkpoint_steps = 200

이 경우, 200, 400, 600, ..., 3800, 4000 step의 모델이 저장되어야 하나 실제로는 0, 200, 400, ..., 3800 step의 모델이 저장됩니다.
이에 디버깅이 필요합니다.

카테고리 별로 파일을 수집해야 합니다.

수집할 후보들은 다음과 같습니다.

  • 웹문서 : html
  • 실행파일 : exe
  • 음악 : mp3
  • 문서 : hwp, pdf
  • 이미지 : jpg, png

5개 그룹의 총 8개 파일 타입입니다.
1단계 목표: 5개 그룹으로 분류
2단계 목표: 2개 그룹을 세부 그룹으로 나눌 수 있도록

추가적으로 시간이 허락한다면 다음 파일 타입을 고려할 수 있습니다.

  • 추가적인 문서 데이터: docx
  • 숫자 데이터: xlsx
  • 움직이는 이미지: gif
  • 동영상: mp4

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.