Code Monkey home page Code Monkey logo

Comments (4)

hyunwoongko avatar hyunwoongko commented on August 19, 2024
  • 안녕하세요. 문의주셔서 감사합니다. 답변을 드리자면, 원래 괄호나 인용부호 (따옴표) 내부의 텍스트는 문장으로 분절하지 않는 것이 원칙이기 때문에 분절하지 않은 것이구요. 한 마디로, 저 글은 분절하지 않는 것이 규칙상 올바르게 작동한 거에요. 만약 분절을 원하시면 따옴표를 제거하시면 정상적으로 분절 될거구요. (현재는 모든 텍스트가 큰따옴표 안에 존재하네요~)

  • 예를 들면 리오넬 메시는 "저는 바르셀로나가 좋습니다. 바르셀로나에 남고 싶어요."라고 말했다.라는 문장이 있다고 해봅시다. 만약 이 문장을 따옴표 내부에서 잘라버리면 리오넬 메시는 "저는 바르셀로나가 좋습니다. 바르셀로나에 남고싶어요. "라고 말했다. 처럼 분절되겠죠? 이렇게 분절하는 것은 올바르지 못합니다. 따라서 따옴표와 괄호 사이의 문장은 원칙상 분절하지 않는 것이구요.

  • 추가로 말씀드리자면, 애초에 위 글의 형식이 잘못되었습니다. 큰 따옴표 안에는 인용문이나 직접화법이 들어가는 것이 정상적인데, 이랜드그룹은 22일 랜섬웨어 공격으로 인해 NC백화점 등 자사 오프라인 매장 절반 정도의 운영을 일시 중단했다고 밝혔다.와 같은 문장은 큰따옴표 안에 들어가지 않는 것이 적절하죠.

  • 근데 그렇다고 하더라도 아마 저기에서 따옴표가 제거되어도 원하시는 수준으로 분절은 어려운데요. 지금 입력하신 글이 어떤 구어체나 문어체도 아니고 단순히 특정 텍스트들을 이어 붙여놓은 수준이라 사람이 보기에도 어느부분에서 분절해야할지 분명하지 못합니다.
    • 사진은 이날 오후 서울 뉴코아아울렛 강남점 2,3층에 붙은 전산장애로 인한 조기 영업종료 관련 안내문.
    • 2020.11.22▶코로나19 속보는 네이버 연합뉴스[구독 클릭]▶[팩트체크]프듀101 문자투표요금 환불 가능?▶제보하기저작권자(c) 연합뉴스(https://www.yna.co.kr/), 무단 전재-재배포 금지 (서울=연합뉴스)
    • 박동주 기자 = 이랜드그룹은 22일 랜섬웨어 공격으로 인해 NC백화점 등 자사 오프라인 매장 절반 정도의 운영을 일시 중단했다고 밝혔다.

  • 가령 위와 같이 분절한다고 해도 전혀 이상하지 않죠. 위의 텍스트가 정확한 문장 구분이 존재하지 않고 무분별하게 텍스트를 이어 붙여놓은 듯한 형식이기 때문입니다. 명확하게 분절해야하는 부분이 보이는 문장이라면 즉, 종결어미가 등장하거나 구두점이 등장하면 잘 작동하고, 위와 같이 문장의 형식보다는 뭔가 텍스트를 이어붙인 형식이라면 분절이 어렵습니다.

    • 가령 안녕하세요. 저는 XX입니다. 만나서 반가워요. 오늘은 날씨가 좋네요.와 같은 텍스트가 입력된다면 안녕하세요. 저는 XX입니다. 만나서 반가워요. 오늘은 날씨가 좋네요.로 분절해야 하는 것이 명확합니다. 그러나 현재 입력하진 텍스트는 [뉴스 취재] 현장 밀착조사 김진수 기자와 같은 형식인데, 이런 텍스트를 [뉴스 취재] 현장 밀착조사 김진수 기자 로 끊어달라고 하는 레벨이라고 생각됩니다. 이런건 사람도 명확하게 끊어내기 어렵죠.

  • 명확하게 문장을 분절해야하는 구분 (구두점 혹은 종결어미)이 등장 하지 않은 부분에서 무분별하게 문장을 분절하도록 구현하면 다른 정상적인 형식의 글에서 오작동할 확률이 크게 높기 때문에 말씀하신 것 처럼 분절하는 것은 어렵습니다. (KSS 뿐만 아니라 다른 분절기도 저 텍스트를 말씀하신 것 처럼 분절하는 것은 어려울거에요)

  • 이해를 돕기 위해 예시를 들자면, 좀 하지마요.와 같은 경우, 마요가 등장했다고 문장 분절을 수행하라는 룰을 만들면, 마요 덮밥을 먹었다와 같은 문장에서 마요 덮밥을 먹었다.처럼 분절해버리겠죠. 따라서 현재는 대부분의 경우 명확하게 분절 가능한 부분에서만 분절하도록 알고리즘을 설계하였습니다.

from kss.

FineSrss avatar FineSrss commented on August 19, 2024
  • 안녕하세요. 문의주셔서 감사합니다. 답변을 드리자면, 원래 괄호나 인용부호 (따옴표) 내부의 텍스트는 문장으로 분절하지 않는 것이 원칙이기 때문에 분절하지 않은 것이구요. 한 마디로, 저 글은 분절하지 않는 것이 규칙상 올바르게 작동한 거에요. 만약 분절을 원하시면 따옴표를 제거하시면 정상적으로 분절 될거구요. (현재는 모든 텍스트가 큰따옴표 안에 존재하네요~)

  • 예를 들면 리오넬 메시는 "저는 바르셀로나가 좋습니다. 바르셀로나에 남고 싶어요."라고 말했다.라는 문장이 있다고 해봅시다. 만약 이 문장을 따옴표 내부에서 잘라버리면 리오넬 메시는 "저는 바르셀로나가 좋습니다. 바르셀로나에 남고싶어요." 라고 말했다. 처럼 분절되겠죠? 이렇게 분절하는 것은 올바르지 못합니다. 따라서 따옴표와 괄호 사이의 문장은 원칙상 분절하지 않는 것이구요.

  • 애초에 위 글의 형식이 잘못되었습니다. 큰 따옴표 안에는 인용문이나 직접화법이 들어가는 것이 정상적인데, 이랜드그룹은 22일 랜섬웨어 공격으로 인해 NC백화점 등 자사 오프라인 매장 절반 정도의 운영을 일시 중단했다고 밝혔다.와 같은 문장은 큰따옴표 안에 들어가지 않는 것이 적절하죠.

  • 근데 그렇다고 하더라도 아마 저기에서 따옴표가 제거되어도 원하시는 수준으로 분절은 어려운데요. 지금 입력하신 글이 어떤 구어체나 문어체도 아니고 특정 텍스트들을 의미없이 이어 붙여놓은 수준이라 사람이 보기에도 어느부분에서 분절해야할지 분명하지 못합니다.

    • 사진은 이날 오후 서울 뉴코아아울렛 강남점 2,3층에 붙은 전산장애로 인한 조기 영업종료 관련 안내문.
    • 2020.11.22▶코로나19 속보는 네이버 연합뉴스[구독 클릭]▶[팩트체크]프듀101 문자투표요금 환불 가능?▶제보하기저작권자(c) 연합뉴스(https://www.yna.co.kr/), 무단 전재-재배포 금지 (서울=연합뉴스)
    • 박동주 기자 = 이랜드그룹은 22일 랜섬웨어 공격으로 인해 NC백화점 등 자사 오프라인 매장 절반 정도의 운영을 일시 중단했다고 밝혔다.
  • 가령 위와 같이 분절한다고 해도 전혀 이상하지 않죠. 위의 텍스트가 정확한 문장 구분이 존재하지 않고 무분별하게 텍스트를 이어 붙여놓은 듯한 형식이기 때문입니다. 명확하게 분절해야하는 부분이 보이는 문장이라면 (종결어미가 등장하거나 구두점이 등장하면) 잘 잘라내고, 위와 같이 문장의 형식보다는 뭔가 텍스트를 이어붙인 형식이라면 분절이 어렵습니다.

  • 명확하게 문장을 분절해야하는 구분 (구두점 혹은 종결어미)이 등장 하지 않은 부분에서 무분별하게 문장을 분절하도록 구현하면 다른 정상적인 형식의 글에서 오작동할 확률이 크게 높기 때문에 말씀하신 것 처럼 분절하는 것은 어렵습니다. (KSS 뿐만 아니라 다른 분절기도 저 텍스트를 말씀하신 것 처럼 분절하는 것은 어려울거에요)

  • 이해를 돕기 위해 예시를 들자면, "하지마요"와 같은 경우, "마요"가 등장했다고 문장 분절을 수행하라는 룰을 만들면, "마요 덮밥을 먹었다"에서 "마요", "덮밥을 먹었다."처럼 분절해버리겠죠. 따라서 현재는 대부분의 경우 명확하게 분절 가능한 부분에서만 분절하도록 알고리즘을 설계하였습니다.

상세한답변 너무나도 감사드립니다.
우선 따옴표는 질문할때 어떤 문장을 했는 지 알려드리기 위함이었고, 실제로는 따옴표는 없습니다.
해당 문장들은 네이버뉴스 내용 전체를 수집해서 그대로 문장분리기에 던져본건데 문장이 안잘려서 문의드렸습니다
답변해주신 내용에 의하면, 저런 형식의 단순 텍스트를 이어놓은 형식은 옵션을 준다거나 하는 방식으로도 문장분리는 어렵다는 말씀이 맞나요?? 저는 다른부분은 몰라도 문장의 첫 부분인 "사진은 이날 오후 서울 뉴코아아울렛 강남점 2,3층에 붙은 전산장애로 인한 조기 영업종료 관련 안내문. " 이부분은 잘릴 거라고 생각했는데 안잘려서 제가 잘못했나 .. 싶었거든요

from kss.

hyunwoongko avatar hyunwoongko commented on August 19, 2024
  • 안녕하세요. 가령 사진은 이날 오후 서울 뉴코아아울렛 강남점 2,3층에 붙은 전산장애로 인한 조기 영업종료 관련 안내문. 2020.11.22▶코로나19 속보는 네이버 연합뉴스[구독 클릭]▶[팩트체크]프듀101 문자투표요금 환불 가능?▶제보하기저작권자(c) 연합뉴스(https://www.yna.co.kr/), 무단 전재-재배포 금지 (서울=연합뉴스) 박동주 기자 = 이랜드그룹은 22일 랜섬웨어 공격으로 인해 NC백화점 등 자사 오프라인 매장 절반 정도의 운영을 일시 중단했다고 밝혔다과 같이 입력했다고 가정하겠습니다.
  • 이 때, 구독 클릭, 연합뉴스 등은 괄호 내부에 있기 때문에 분절하지 않는 것이 타당합니다.
  • 또한 가능? 안내문. 등은 비교적 자르는 것이 적합해보이기는 하나, 종결어미로 끝나지 않는 구문이라서 자르지 않은 것으로 보입니다. (말씀하신대로 단순하게 따옴표나 물음표가 등장한다고 마냥 자를 수는 없는 것이라서요. 현재는 비교적 명확한 부분에서만 문장으로 분절하고 있습니다.)

from kss.

FineSrss avatar FineSrss commented on August 19, 2024
  • 안녕하세요. 가령 사진은 이날 오후 서울 뉴코아아울렛 강남점 2,3층에 붙은 전산장애로 인한 조기 영업종료 관련 안내문. 2020.11.22▶코로나19 속보는 네이버 연합뉴스[구독 클릭]▶[팩트체크]프듀101 문자투표요금 환불 가능?▶제보하기저작권자(c) 연합뉴스(https://www.yna.co.kr/), 무단 전재-재배포 금지 (서울=연합뉴스) 박동주 기자 = 이랜드그룹은 22일 랜섬웨어 공격으로 인해 NC백화점 등 자사 오프라인 매장 절반 정도의 운영을 일시 중단했다고 밝혔다과 같이 입력했다고 가정하겠습니다.
  • 이 때, 구독 클릭, 연합뉴스 등은 괄호 내부에 있기 때문에 분절하지 않는 것이 타당합니다.
  • 또한 가능? 안내문. 등은 비교적 자르는 것이 적합해보이기는 하나, 종결어미로 끝나지 않는 구문이라서 자르지 않은 것으로 보입니다. (말씀하신대로 무분별하게 따옴표나 물음표가 등장한다고 마냥 자를 수는 없는 것이라서요. 현재는 비교적 명확한 부분에서만 문장으로 분절하고 있습니다.)

텍스트자체가 애매한 문제라 이건 어쩔수가 없겠네요 전처리는 고민해봐야겠습니다.. ㅎㅎ
답변 감사합니다!

from kss.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.