tuffnatty / suddenly Goto Github PK
View Code? Open in Web Editor NEWsuddenly - a morphological analyzer especially effective for agglutinative languages
License: GNU General Public License v2.0
suddenly - a morphological analyzer especially effective for agglutinative languages
License: GNU General Public License v2.0
Вот такой пример попался:
Хай пірее одыртхан ағастар парохтар мында
несколько посаженный деревья имеется здесь
Здесь имеется и несколько посаженных деревьев.
Меняю правило 21 про PredPl, чтобы частица ох могла стоять перед ним.
@veramal: Не сделаны сандхи вот эти: стяжение 2pl: Выпадение сонанта ң из личного афф. 2pl ңАр в интервокальной позиции после Cond СА и RPast ТI [не всегда]: пас-са-ңар > пас-сар ‘если будем писать’, пас-па-за-ңар > пас-па-зар ‘если не будем писать’, пас-ты-ңар > пастар 'вы недавно написали'.
форма партырлар не разбирается, причем не вижу к этому препятствий. Должен разбирать - идти-Indir-Pl
Сейчас у нас допускается сочетание любых падежных показателей с лично-числовыми. Между тем, это явно не так: Эльвира говорит, что предикатами могут быть только локатив и датив. Предлагаю написать ограничение, поскольку порождается много лишних разборов.
сейчас большая часть энклитик не разбирается. а те, что разбираются, тоже надо редактировать. они сейчас частично nomen, а должны быть все invar
ба, бе, па, пе, ма, ме - вопросительная. пусть перевод будет Q, а не ли, ладно?
даа, дее, таа, тее, маа, мее - EMPH
ла, ле, на, не - DELIM
да, де - INDEF (пишутся через дефис после вопросительных местоимений)
за, зе - просто PART или 'ведь'
ÿреен - должен быть вариант ӱре+past, не должно быть ӱре+conv2+temp, как сейчас
у пардааӌа первый и второй разборы правильные, остальные предполагают стяжение Attr KI. Но KI не стягивается, этим К отличается от Г.
Какое-то изысканное распределение ошибок - а между тем самая частотная глагольная форма.
Работает: парған, тiккен, санаан.
Не работает: пiрген, сыххан, тiлеен.
Т.е. если широкий гласный работает, то парный ему вариант с узким не работает - и наоборот.
В хакасских словах конечное О считается долгой гласной и не подвергается стяжению (напр., с дативом: пызоға). В русских словах c конечным О бывает по-разному: _министерствоға тоғырланып_ 'противясь министерству' (газеты), государстваа 'государству', Чииттернiң творчестваа тартылчатханы улуғ. 'Тяга молодежи к творчеству велика.' (грамматика), Анзы производстваа улуғ туза ағылӌаң. 'Это приносило большую пользу в производстве. ' (газеты).
Стяженные формы сейчас не разбираются. Внесла вышесказанное в описание сандхи в дативе.
Заимствования ищутся пометой russ в словаре.
полбаспыс (пол+Neg.Fut+Person) - нет разбора.
Забыли упомянуть, что Neg.Fut сочетается с полным набором личных окончаний, дописала в документ.
тоғызынаңар - нет разбора.
В посессивном Delib стояла лишняя н в скобках (т.е. правильным считалось тоғызыннаңар). Это неверно, убрала из таблицы.
чӱрее (чӱрек+3pos) - нет разбора
Не работают стяженные посессивные формы от многосложных основ с конечным -к (описание есть в сандхи). Тут нужно не ориентироваться на словарь, а сделать общее правило (слов типа "чӱрек" гораздо больше, чем слов типа "абрек").
харбир имеет разбор
харарға ‛стареть’ хар
------ба-ар---------------
------Neg-Fut₂---------------
А почему Fut2? Вроде в схеме одно будущее (неотрицательное).
В таблице 16 при вариантах аффикса дыр/дiр нужно учесть, что он бывает после имен (это такой маркер частного вопроса):
синын' адын' кем-дыр? - как тебя зовут?
нинже пала-дыр? - сколько детей?
Оглушается ли, не знаю - нет примеров.
Сейчас у нас не разбираются формы типа столзартын 'со стороны стола'.
Тын назван Adv2 и записан как ТIн. Но в реальности он, кажется, бывает только после аллатива (современного или древнего: андартын, чогартын, тискертiн) и всегда глухой. Не лучше ли написать его тIн в таком случае?
И для ясности не лучше ли его переименовать в Abl2?
істінде - нет разбора
Не работает (посессивное) склонение у слов с неотчуждаемой принадлежность. Они ловятся словарной пометой poss в поле FORM.
Видимо, нужна буква Ё. В библии Пётр пишется строго через Ё - не потому, что это текст для слабочитающих, а потому что ё дает задний ряд: Пётрға. Писалось бы Петр, ожидалось бы Петрге.
я так понимаю, она предназначена для форм типа хысхы-зы-н 'зимой', хараа-зы-н 'ночью' и т.п.
но, во-первых, она непродуктивна: даже пу чылын 'в этот год' уже не скажут
во-вторых, у нее есть не только темпоральное значение: кöбiзiн 'в основном', пiрсiн 'во-первых' (хотя тут можно за уши и темпоральность притянуть)
а поскольку концов на -ын очень много, то лишних разборов от нее тоже очень много
надо бы ее в словообразование увести
парыбохчаттыр - нет разбора.
В ограничении 5 не был учтен Indir. Дописала.
полдаачатса - нет разбора
Не было учтено, что ч в Dur не подвергается интервокальному озвончению.
д.б. ағыра+conv1.
Сюда же: форма ағыра имеет вариант разбора ағыра-form2, Это неправильно, после form2 могут следовать только iter и irr.
По грамматике так: в литературном языке, если последний гласный основы - И, рядность аффиксов определяется по предыдущему гласному (парир - парирға), а в сагайском диалекте будут передние аффиксы (парир - парирге). Однако литературный тоже берет передние аффиксы, если слово - русское: Давид - Давидтең, Иосий - Иосийдең, Елиаким - Елиакимнең. И понятно почему - в русском рядности-то нет: Давидтаң смотрелся бы нормально, а Елиакимнаң - весьма сомнительно.
Короче, надо ввести альтернативный вариант сингармонизма, где И в любой позиции передняя. Тогда и сагайские тексты будут разбираться заодно.
У дистрибутива не работает вариант с узкой гласной: формы типа парғла (пар 'идти' + ғла Distr) разбираются, а типа килгле нет.
@veramal NB: форма парча пока тоже не разбирается.
@adybo По-моему, парсер пока не учитывает спецформы от пар и кил.
Я починил проверку на пар- и кил-, однако форма парча от этого разбираться не стала, так как есть неоднозначность в правилах:
14
. Показатель Dur1 и(р) заполняется только, если позиции 1, 3, 4 не заполнены, а в позиции 0 стоит пар- или кил- (но при этих основах может выбираться с тем же успехом и показатель Dur чА(Т), свободное варьирование).
и
12
. Показатель Dur чА(Т) заполняется только, если заполнена хотя бы одна из позиций 2, 4, (т.е. Form1 или Perf).
Может быть, имеется в виду, что правило 14 отменяет правило 12? Тогда это нужно эксплицитно указать.
Все-таки не вижу, где у нас написано правило номер 0: "Основы с пометой i не присоединяют ничего". Или есть возражения?
пирдек - нет разбора
Не учли, что пермиссивная частица ТАК присоединяется не только к 3 и 1 лицу императива, но и ко второму - которое не выражено - в положительной и отрицательной форме. Исправила ограничение 22.
Все-таки -ачых 'делающий вид' не раскладывается на СоnvA+ЧIК из-за морфонологии. Во-первых, у ЧIК во всех прочих сочетаниях Ч озвончается в интервокале, а здесь нет. Во-вторых, просто СonvA имеет отрицание -бин, а здесь будет -баачых. Согласны, что ее стоит отдельно завести?
У числительных есть разделительные формы. Первая из них очень похожа на множественное число, но не оно:
"-ар/-ер (после основ на согласные), -лар/-лер (после основ на гласные); пір 'один’ — пірер 'по одному’, алты 'шесть’— алтылар 'по шести’, читі 'семь’ — читілер 'по семи’, тогыс 'девять’ — тоғызар 'по девяти’, хырых 'сорок’ — хырығар 'по сорок’.
Вторая - вербализация в наречной форме от первой:
-арлап/-ерлеп (после основ на согласные), -ларлап/-лерлеп (после основ на гласные) (< -ар + -лап/-ер + -леп, -лар + -лап/-лер + -леп, в которых -лап/-леп исторически восходит к сложному аффиксу, состоящему из -ла/-ле, образующего глагол от имени, + -п — аффикса деепричастия): пір
'один’ — пірерлеп 'по одному’, 'в количестве одного’, пис 'пять’ — пизерлеп 'по пять’, 'впятером’, алты 'шесть’ — алтыларлап 'по шесть,’ 'в количестве шести’, 'вшестером’, он 'десять’ — онарлап 'по десяти’, 'десятками’." (ГХЯ:120).
Она редко, но все же встречается в реальности, вот из газетных подборок:
машиннай залдағы онарлап саннығ моторлар - 'многочисленные (т.е. 'десятками считанные') моторы машинного зала'
(изысканный пример на части речи, по-моему)
Сейчас они не разбираются парсером. Будем заводить морфемы или вгоним все это в словарь?Формы образуются от всех числительных, но их все же немного.
хомайзыбыс (хомай+1pl) - есть диалектное окончание -зыбыс, а не просто -быс. Дописала в модель словоформы.
12
. Показатель Dur чА(Т) заполняется только, если заполнена хотя бы одна из позиций 2, 4, (т.е. Form1 или Perf). - это правило запрещает форму адалчатхан из одного из первых предложений романа про утесПонедельник, 14 декабря 2015, 17:06 +03:00 от Шеймович Александра:
В грамматике действительно любое ча, чат (ча, чадыр, чатхан) по правилам присоединяется к "полной или усеченной форме деепричастия на -ып" (с. 201, 216)Я понял. Правило 12. Показатель Dur чА(Т) не может быть заполнен, если при этом непосредственно перед ним обнаруживается морфема, оканчивающаяся на гласную.
Есть некоторые заимствованные слова с двумя Н в конце - например, "финн". Если действовать по правилам, то в генитиве, аблативе и творительном у них должно быть три Н подряд. Но на самом деле третья Н опускается, и пишется "финнiң", "финнең".
(Прототипом тут послужил Иоанн, но его нет в словаре. Впрочем, если в будущем научиться отделять окончания в незнакомых словах, то этот момент тоже стоит учесть.)
Не разбирается: пар-ох - имеется-Ass, хыз-ох - девочка-Ass.
Есть ряд глаголов, в которых Т остается глухим в интервокальной позиции.
АТАРҒА - стрелять, ПАТАРҒА - вязнуть, ХАТАРҒА - 1) засыхать 2) скручивать, УТАРҒА - выигрывать
Сейчас парсер эти формы не разбирает.
ээзi - нет разбора, хотя ээ со всеми прочими аффиксами разбирается
Не работает словоизменение русских слов с конечными несонорными звонкими. В словаре прописана глухая основа, но пока не у всех. Можно ориентироваться на помету russ - вроде бы она охватывает весь словарь. Конечные согласные Б, В, Д, Ж и З можно считать глухими, т.к. ими кончаются только русские слова (а Г не так).
полбиныбысхан - нет разбора, т.к. была ошибка в ограничении 4, поправила. Перфект и Conv.Neg могут быть в одной словоформе при любом раскладе (про эту пару даже есть отдельное ограничение 3).
истiп, специализі - не работают, т.к. не внедрены сандхи про чередование конечных -ст-с в основе. Основа, отличающаяся от основы словарной формы, выписана в словаре в поле ALTERNATEN.
Сейчас PredPl не разбирается в сочетании с RPast и Cond, хотя ограничений нет.
турғла - нет разбора, вместо этой формы парсер считает верной турхла
Почему, я не поняла.
парилар - нет разбора
Не учли, что PredPl сочетается с Dur1. Исправила ограничения 8 и 21.
Не разбираются: хомай-га - плохой-dat, ай-ға - месяц-dat и т.п.
Потому что после й сейчас допускается только датив в форме а. Хотя из таблицы 15 про выбор падежных вариантов следует, что после Й должен быть га/ге.
У нас есть глаголы ис- и сис-, которые меняют основу и перед гласной вставляют -т, а перед согласной убирают. Как мы знаем, -ып тоже ориентируется на то, на что оканчивается основа - на гласную или на согласную. Когда -ып - настоящее деепричастие, получаются формы истiп\систiп. Но когда -ып - это Form, он может опускаться. И вот тут мы имеем в настоящем времени исче\сисче, а с дуративом вот сегодня попалось истiпчетсе. Красота?
много неправильных разборов вида ух/уғ+а+ғы
однако у atr ғ никогда не выпадает, после звонкой согласной и после гласной одинаковые варианты
ниик
n ниң ‛самый’
----------------------ӧк
----------------------Ass
и долгое, ӧ долгое - ң не должно выпадать
Приставки типа "кип-" и "ап-" со значением Magn не выделяются парсером, даже если в слове есть дефис.
парлаҷа / парлача не разбирается - возможно, из-за морфонемы L. дописала правило ее распределения в раздел о фонетике
Is this a noun in Khakas ? and are they even used in Khakas ?
$ cat dev/kjh.lex | grep овать | grep '^n' | wc -l
43
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.