disertace's People
disertace's Issues
ujasnit Levenshteina
Na Straně 38 je též zmíněna Levenshteinova Vzdálenost počítající s editačními operacemi. Není však řečeno, sjakými jednotkami pracují editační operace (předpokládám, že pracují s písmeny porovnávaných slov
zkusit zarovnání pomocí HMM-DNN
4 / 14 není 40%
vývoj rychlosti přepisu
jak se vyvíjela rychlost přepisování s časem, pokud možno v korelaci s úspěšností automatického přepisu
popsat mfcc_zz
„Experiment s kepstrální normalizací“ popsat state of the art. CMN + CVN
nulová spolehlivost
najít slova, která mají nulovou spolehlivost a patří do přepisu
upřesnit popis gmm
“Každá [složka GMM –poznámka oponenta] má svůj střed, svoji varianci a svoji váhu”, “Všechny fonémy se inicializují jako shodné” je opravdu velmi vágní.
Co je virtuální trifoném?
mění význam pojmu “mixture” a myslí se jím jedna složka modelu směsi
„mixture"by mohl být nahrazen výrazem “směs”
Obrat „Z každé dvacáté jsem snížil na polovic nejen abych neplýtval trénovacími daty, nýbrž také protože vyhodnocování mixtur zabírá při trénovásní zdaleka nejvíce času, a ten je přímo úměrný velikosti sady heldout.“ je nejasný
nepindat o rozvinutí metod
Jakékoli velké soubory audio nahrávek s komunitou příznivců by tak mohly být přepsány a dále podrobněji zpracovávány metodami, které jsem v této práci rozvinul
Vysvětlit algoritmus hledání předělu
korpus na lindat
svolocz: trénink
Využívá se zde nějak zpětná vazba pro trénink systému ASR? Zdokonaluje se trénovací korpus i aplikací nových modelů na trénovací data?
Vyhodnotit kvalitu přijatých přepisů
vyhledávání témat
U vyhledávání uvádět i recall - tabulky 2.1 a 2.2
Podle PPe je moje precision naivní
Vedlo shlukování k rozlišení různých typů zkreslení
změny v UI
ukázat prototyp, podtrhávání nejistých, v2
přetečení tiskového zrcadla
popsat spektrální odečet
Není zcela zřejmé, zda byl uvedený postup použitý jednotlivě pro různá zkreslení (spektrální odečet)
popsat akustickou metriku
Bylo by ale třeba použitou metriku podrobněji popsat, autor však jen odkazuje na prameny [17] a [18] a pouze definuje pojem “akustická vzdálenost”. Použitý algoritmus zdaleka není založen jen na zmíněných MFCC, jak autor stručně uvádí.
vývoj úspěšnosti HMM
svolocz: expanze
V jakém smyslu je zde chápána nejpravděpodobnější varianta (bere algoritmus např.v úvahu akustiku)?
transfer čisté => škaredé
použít augmentovaná trénovací data a to transferem dobrých nahrávek na přebuzené či „nízkootáčkové“.
terminologie
Trifoném -> trifón
VAD místo 15s
dkl enhancement
fonetický přepis cizích jazyků
použít trénovací sady z jiných jazyků pro trénování češtiny: transliterovat cizí jazyk do českého fonetického zápisu
pořádně popsat rozpoznávače
api na lindat
popsat deepspeech
DNN je přesnější. Ač se jednáo převzatý nástroj, popis by měl být podrobnější
nerozlišovat HMM vs DNN
rešerše
Uvítal bych, kdyby obsah práce čítal i samostatnou kapitolu vytyčující cíle práce, kapitolu popisující stav současného vědeckého poznání a kapitolu shrnující přínos disertační práce k posunu tohoto poznání.
Podrobnější popis existujících systémů přepisu audio resp. multimediálních archivů, a to včetně diskuse nad dosahovanými výsledky a rozdíly v přepisovaných datech, bych viděl jako klíčovou část práce,ze které pak může vycházet zdůvodnění pro použití použitého systému přepisu a jeho potřebné přizpůsobení realizované úloze.
Neuvádět, že od spektrálního odečtu nemám očekávání
vývoj wer
přečíst toma kocmiho
OOV
Asi udělat pokus se zahrnutím OOV do LM?
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.