Code Monkey home page Code Monkey logo

kakaochatdata's Introduction

KakaoData

총 73000여개의 질문/답변 데이터셋입니다.

AI Hub에 있는 일상 대화 데이터셋을 정재하였고, NLP, Chatbot 제작에 사용할 수 있습니다. 질문 및 답변이 2개 이상인 경우 "/" 로 나누어놨습니다.

오 이거 용량이 작나?/나 다 깔렸어 들어와

답변의 경우 20대 여성을 기준으로 1:1 대화만 추출했습니다.

코드로 작성한거라 질문/답변이 부정확할수있습니다.

개인정보가 포함된 대화는 삭제하였고, 몇몇 문자는 변경하였습니다.(키키 -> ㅋㅋ)

image

LlamaJsonData

Llama에 학습시키기 적합한 데이터셋 형식으로 변환한 json 파일입니다.

reqres에 대응되는 키값으로 각각 user_input , completion 가 할당되었습니다.

image

alpaca_data

Llama 모델기반 스탠퍼드 대학교에서 제작한 Alpaca 데이터셋에 맞춰 변형하였습니다.

Llama와 크게 다른점은 없습니다.

  • alpaca_data_CRLF.json : 윈도우 json 줄 바꿈입니다.

  • alpaca_data_LF.json : 리눅스 json 줄 바꿈입니다.

Alldata

카카오톡, 페이스북, 인스타그램, 밴드, 네이트온에 있는 채팅데이터를 하나로 모은 데이터셋 파일입니다.

크기는 총 88974개로

카카오톡에 비해 약 15000개정도 늘었습니다.

kakaochatdata's People

Contributors

ludobico avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.