Code Monkey home page Code Monkey logo

Comments (9)

DusanBaek avatar DusanBaek commented on July 18, 2024 1

수정필요
wavfile 모듈이 아닌 듯하네요

from scipy.io import wavfile # import scipy.io.wavfile 시 오류 발생
sample_rate, signal = wavfile.read('example.wav')

from speechbook.

BradYi555 avatar BradYi555 commented on July 18, 2024 1

안녕하세요.
음성 기반으로 프로젝트를 진행하는 학생입니다.
음성 데이터 자체를 처음 만져보고 구체적인 자료가 많지 않아서 많은 도움을 받아갑니다.
방금 자료를 찬찬히 살펴보고 궁금한 점이 있어서 코멘트 남깁니다.
위와 같이 추출할 경우, 제가 알고 있는 Graph 형태의 MFCC가 아니라 수치형으로 나오는데, 이 경우 어떻게 그래프 형태로 바꿀 수 있는지 알고싶습니다.

그리고 학습모델이나 서비스 모델로 개발하고자 하는 경우에 음성은 그래프 형태로 학습을 시키는지 혹은 다른 방법이 있는지 여부도 알고 싶습니다.

바쁘시지만 시간되시면 답변, 혹은 관련 자료 알려주시면 감사드립니다.

from speechbook.

bemoregt avatar bemoregt commented on July 18, 2024 1

주파수도메인에서 위상으로 영상처리하면 결과가 강건해집니다.

홍릉과학출판사, "딥러닝을 위한 푸리에 영상처리"
http://hongpub.co.kr/shop/item.php?it_id=1679017270

추천 드립니다.

from speechbook.

DusanBaek avatar DusanBaek commented on July 18, 2024

질문 드립니다.

멜 스펙트럼 혹은 로그 멜 스펙트럼은 태생적으로 피처(feature) 내 변수 간 상관관계(correlation)가 존재합니다. 그도 그럴 것이 멜 스케일 필터(수식5, 코드9)를 보면 주변 몇 개의 헤르츠 기준 주파수 영역대 에너지를 한데 모아 보기 때문입니다. 다시 말해 헤르츠 기준 특정 주파수 영역대의 에너지 정보가 멜 스펙트럼 혹은 로그 멜 스펙트럼의 여러 차원에 영향을 주는 구조입니다. 이는 변수 간 독립(independence)을 가정하고 모델링하는 가우시안 믹스처 모델(Gaussian Mixture Model)에는 독이 될 수 있습니다.

에서, 변수들이 비독립이여도 변수 별로 GMM을 하게되면 문제가 없을 것 같은데요, 변수 간 비독립이 GMM의 독이 되는 이유를 알 수 있을가요?

from speechbook.

hccho2 avatar hccho2 commented on July 18, 2024

그림 4가 두번 있네요. 하나는 그림 5로 수정 필요.

from speechbook.

hccho2 avatar hccho2 commented on July 18, 2024

MFCC결과에서 첫번째 열벡터(log mel spectrogram의 합)를 버리는 이유를 아래 그림으로 이해해도 될 것 같습니다.
(그림에서는 가로/세로가 바뀌어 있습니다. 행벡터로 보시면 됩니다.)

MFCC2

왼쪽은 제일 아래쪽 라인의 값들이 너무 작어서(음수), 다른 값들이 힘을 못쓰고(?) 있습니다.
오른쪽은 제일 아래쪽 값을 제거한 상태라, 값들의 편차가 줄어들어 있습니다.

from speechbook.

sunghoon-most avatar sunghoon-most commented on July 18, 2024

정말 감사합니다 ^^
음향 분석 딥러닝에 많은 공부가 되었습니다.
유익한 정보 감사해요!

from speechbook.

hyunseoki avatar hyunseoki commented on July 18, 2024

stride에 대한 정의도 잘못된 것 같습니다
frame의 stride 정도라고 설명하는 것이 맞는 것 같습니다.

from speechbook.

ooshyun avatar ooshyun commented on July 18, 2024

안녕하세요! 음성데이터에 대해서 자세한 자료 감사합니다!

혹시 "푸리에 변환시 발생할 수 있는 numerical problem 예방"라고 언급하셨는데, 찾아보는데도 구체적인 자료가 없어서 조금 더 자세하게 말씀해주실 수 있을까요?

from speechbook.

Related Issues (13)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.