Code Monkey home page Code Monkey logo

file-type-identification's Introduction

file-type-identification

File-Fragment Type Identification Using Deep Learning and other techniques

file-type-identification's People

Watchers

Minji Kang avatar Will Won avatar

file-type-identification's Issues

중간보고 결과

  • dynamic programming으로 sliding window 크기를 조절하면서, 중요한 구분자 찾기

  • file fragment 크기 별로 정확도가 얼마나 올라가는지 -> 풀 수 있는 문제인지

마지막 checkpoint의 파일이 저장되지 않습니다.

마지막 checkpoint의 모델이 저장되지 않는 버그가 있습니다.

setup.py에서 설정한 값이 아래와 같은 경우를 예로 들겠습니다.

FLAGS.num_of_total_global_steps = 4000
FLAGS.checkpoint_steps = 200

이 경우, 200, 400, 600, ..., 3800, 4000 step의 모델이 저장되어야 하나 실제로는 0, 200, 400, ..., 3800 step의 모델이 저장됩니다.
이에 디버깅이 필요합니다.

단계적으로 연구를 진행해야 합니다.

단계적으로 연구를 진행하라는 교수님의 메일을 받았습니다. 각 단계는 다음과 같습니다.
1단계: 파일 카테고리 별 분류
2단계: 카테고리 내 분류

파일 타입 별 정확도

지난 주에 학습시켰던 모델 그대로 파일 타입 별로 정확도를 측정해보았습니다. 그 결과는 다음 표와 같습니다.
attachment-2

표의 가로는 실제 파일 타입을, 세로는 모델이 예측한 파일 타입을 나타냅니다. html 파일의 경우 100% html이라고 예측했으며 hwp 파일의 경우 94.76%를 hwp 파일로 예측하였습니다. 나머지 문서 타입들에 대해서는 hwp로 예측이 몰린 것을 확인할 수 있습니다. 이 결과를 통해, 문서 파일끼리의 분류는 쉽지 않지만 {웹문서}와 {문서}를 명확하게 나눌 수 있다는 것을 알 수 있습니다.

앞으로의 방향

  • {웹문서} {압축파일} {이미지} {문서} {실행파일}로 분류
  • 한글 문서(hwp)의 특성을 파악해 최적화

교수님의 메일 전문

초기 결과를 단계적으로 높여 갈수 있는 기법들을 개발->적용->평가해서
90%의 정확도를 갖도록 하는 것을 최종 목표로 하면 좋을 듯.

아울러, 처음부터 너무 어려운 문제로 진행하지 말고 단계별로 나누어 진행하도록 하자:

1단계: 구분이 충분히 가능할 것 같은 조합들로 높은 정확도 달성--> 파일 category별 분류
           (예: 압축파일 vs. 텍스트파일,  혹은 {문서 파일들} vs. {영상 파일} vs { 웹 문서} ...

2단계: 파일 category별 분류를 바탕으로 좀 더 세분화된 category내에서의 파일 타입 분류
           (예: 문서파일들 내에서 --> doc, pdf, .. hwp, .. 등의 분류)

단계별로 하는 이유는 1단계 결과만으로도 충분히 의미 있는 논문을 작성할 여지가 있고
1단계의 결과를 바탕으로 2단계 진행의 insight를 확보하는데도 도움이 됨.

카테고리 별로 파일을 수집해야 합니다.

수집할 후보들은 다음과 같습니다.

  • 웹문서 : html
  • 실행파일 : exe
  • 음악 : mp3
  • 문서 : hwp, pdf
  • 이미지 : jpg, png

5개 그룹의 총 8개 파일 타입입니다.
1단계 목표: 5개 그룹으로 분류
2단계 목표: 2개 그룹을 세부 그룹으로 나눌 수 있도록

추가적으로 시간이 허락한다면 다음 파일 타입을 고려할 수 있습니다.

  • 추가적인 문서 데이터: docx
  • 숫자 데이터: xlsx
  • 움직이는 이미지: gif
  • 동영상: mp4

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.