Code Monkey home page Code Monkey logo

suddenly's People

Contributors

larsbrinkhoff avatar tuffnatty avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar

suddenly's Issues

новое в морфологии: ох перед PredPl

Вот такой пример попался:
Хай пірее одыртхан ағастар парохтар мында
несколько посаженный деревья имеется здесь
Здесь имеется и несколько посаженных деревьев.

Меняю правило 21 про PredPl, чтобы частица ох могла стоять перед ним.

Стяжение 2pl

@veramal: Не сделаны сандхи вот эти: стяжение 2pl: Выпадение сонанта ң из личного афф. 2pl ңАр в интервокальной позиции после Cond СА и RPast ТI [не всегда]: пас-са-ңар > пас-сар ‘если будем писать’, пас-па-за-ңар > пас-па-зар ‘если не будем писать’, пас-ты-ңар > пастар 'вы недавно написали'.

падежные формы в качестве предикатов

Сейчас у нас допускается сочетание любых падежных показателей с лично-числовыми. Между тем, это явно не так: Эльвира говорит, что предикатами могут быть только локатив и датив. Предлагаю написать ограничение, поскольку порождается много лишних разборов.

добавить в словарь частицы

сейчас большая часть энклитик не разбирается. а те, что разбираются, тоже надо редактировать. они сейчас частично nomen, а должны быть все invar

ба, бе, па, пе, ма, ме - вопросительная. пусть перевод будет Q, а не ли, ладно?
даа, дее, таа, тее, маа, мее - EMPH
ла, ле, на, не - DELIM
да, де - INDEF (пишутся через дефис после вопросительных местоимений)
за, зе - просто PART или 'ведь'

прошедшее время на -ган

Какое-то изысканное распределение ошибок - а между тем самая частотная глагольная форма.

Работает: парған, тiккен, санаан.
Не работает: пiрген, сыххан, тiлеен.

Т.е. если широкий гласный работает, то парный ему вариант с узким не работает - и наоборот.

пызо vs государство

В хакасских словах конечное О считается долгой гласной и не подвергается стяжению (напр., с дативом: пызоға). В русских словах c конечным О бывает по-разному: _министерствоға тоғырланып_ 'противясь министерству' (газеты), государстваа 'государству', Чииттернiң творчестваа тартылчатханы улуғ. 'Тяга молодежи к творчеству велика.' (грамматика), Анзы производстваа улуғ туза ағылӌаң. 'Это приносило большую пользу в производстве. ' (газеты).

Стяженные формы сейчас не разбираются. Внесла вышесказанное в описание сандхи в дативе.
Заимствования ищутся пометой russ в словаре.

Delib в посессивном склонении

тоғызынаңар - нет разбора.
В посессивном Delib стояла лишняя н в скобках (т.е. правильным считалось тоғызыннаңар). Это неверно, убрала из таблицы.

сандхи в многосложных на -К

чӱрее (чӱрек+3pos) - нет разбора
Не работают стяженные посессивные формы от многосложных основ с конечным -к (описание есть в сандхи). Тут нужно не ориентироваться на словарь, а сделать общее правило (слов типа "чӱрек" гораздо больше, чем слов типа "абрек").

не работает запрет Neg+Neg.Fut

харбир имеет разбор
харарға ‛стареть’ хар
------ба-ар---------------
------Neg-Fut₂---------------

А почему Fut2? Вроде в схеме одно будущее (неотрицательное).

предикативный показатель 3sg

В таблице 16 при вариантах аффикса дыр/дiр нужно учесть, что он бывает после имен (это такой маркер частного вопроса):
синын' адын' кем-дыр? - как тебя зовут?
нинже пала-дыр? - сколько детей?

Оглушается ли, не знаю - нет примеров.

о показателе -тын

Сейчас у нас не разбираются формы типа столзартын 'со стороны стола'.
Тын назван Adv2 и записан как ТIн. Но в реальности он, кажется, бывает только после аллатива (современного или древнего: андартын, чогартын, тискертiн) и всегда глухой. Не лучше ли написать его тIн в таком случае?
И для ясности не лучше ли его переименовать в Abl2?

неотчуждаемая принадлежность

істінде - нет разбора
Не работает (посессивное) склонение у слов с неотчуждаемой принадлежность. Они ловятся словарной пометой poss в поле FORM.

буква ё

Видимо, нужна буква Ё. В библии Пётр пишется строго через Ё - не потому, что это текст для слабочитающих, а потому что ё дает задний ряд: Пётрға. Писалось бы Петр, ожидалось бы Петрге.

морфема temp

я так понимаю, она предназначена для форм типа хысхы-зы-н 'зимой', хараа-зы-н 'ночью' и т.п.
но, во-первых, она непродуктивна: даже пу чылын 'в этот год' уже не скажут
во-вторых, у нее есть не только темпоральное значение: кöбiзiн 'в основном', пiрсiн 'во-первых' (хотя тут можно за уши и темпоральность притянуть)
а поскольку концов на -ын очень много, то лишних разборов от нее тоже очень много
надо бы ее в словообразование увести

ох+чат+тыр

парыбохчаттыр - нет разбора.
В ограничении 5 не был учтен Indir. Дописала.

полдаачатса

полдаачатса - нет разбора
Не было учтено, что ч в Dur не подвергается интервокальному озвончению.

ағырап - нет разбора

д.б. ағыра+conv1.

Сюда же: форма ағыра имеет вариант разбора ағыра-form2, Это неправильно, после form2 могут следовать только iter и irr.

сингармонизм после и

По грамматике так: в литературном языке, если последний гласный основы - И, рядность аффиксов определяется по предыдущему гласному (парир - парирға), а в сагайском диалекте будут передние аффиксы (парир - парирге). Однако литературный тоже берет передние аффиксы, если слово - русское: Давид - Давидтең, Иосий - Иосийдең, Елиаким - Елиакимнең. И понятно почему - в русском рядности-то нет: Давидтаң смотрелся бы нормально, а Елиакимнаң - весьма сомнительно.

Короче, надо ввести альтернативный вариант сингармонизма, где И в любой позиции передняя. Тогда и сагайские тексты будут разбираться заодно.

дистрибутив на -гла

У дистрибутива не работает вариант с узкой гласной: формы типа парғла (пар 'идти' + ғла Distr) разбираются, а типа килгле нет.

форма парча пока тоже не разбирается

@veramal NB: форма парча пока тоже не разбирается.
@adybo По-моему, парсер пока не учитывает спецформы от пар и кил.

Я починил проверку на пар- и кил-, однако форма парча от этого разбираться не стала, так как есть неоднозначность в правилах:

14. Показатель Dur1 и(р) заполняется только, если позиции 1, 3, 4 не заполнены, а в позиции 0 стоит пар- или кил- (но при этих основах может выбираться с тем же успехом и показатель Dur чА(Т), свободное варьирование).

и

12. Показатель Dur чА(Т) заполняется только, если заполнена хотя бы одна из позиций 2, 4, (т.е. Form1 или Perf).

Может быть, имеется в виду, что правило 14 отменяет правило 12? Тогда это нужно эксплицитно указать.

неизменяемые

Все-таки не вижу, где у нас написано правило номер 0: "Основы с пометой i не присоединяют ничего". Или есть возражения?

пирдек: пермиссив при чистой основе

пирдек - нет разбора
Не учли, что пермиссивная частица ТАК присоединяется не только к 3 и 1 лицу императива, но и ко второму - которое не выражено - в положительной и отрицательной форме. Исправила ограничение 22.

новая морфема: симулятив

Все-таки -ачых 'делающий вид' не раскладывается на СоnvA+ЧIК из-за морфонологии. Во-первых, у ЧIК во всех прочих сочетаниях Ч озвончается в интервокале, а здесь нет. Во-вторых, просто СonvA имеет отрицание -бин, а здесь будет -баачых. Согласны, что ее стоит отдельно завести?

муңар: распределительные числительные

У числительных есть разделительные формы. Первая из них очень похожа на множественное число, но не оно:

"-ар/-ер (после основ на согласные), -лар/-лер (после основ на гласные); пір 'один’ — пірер 'по одному’, алты 'шесть’— алтылар 'по шести’, читі 'семь’ — читілер 'по семи’, тогыс 'девять’ — тоғызар 'по девяти’, хырых 'сорок’ — хырығар 'по сорок’.

Вторая - вербализация в наречной форме от первой:
-арлап/-ерлеп (после основ на согласные), -ларлап/-лерлеп (после основ на гласные) (< -ар + -лап/-ер + -леп, -лар + -лап/-лер + -леп, в которых -лап/-леп исторически восходит к сложному аффиксу, состоящему из -ла/-ле, образующего глагол от имени, + -п — аффикса деепричастия): пір
'один’ — пірерлеп 'по одному’, 'в количестве одного’, пис 'пять’ — пизерлеп 'по пять’, 'впятером’, алты 'шесть’ — алтыларлап 'по шесть,’ 'в количестве шести’, 'вшестером’, он 'десять’ — онарлап 'по десяти’, 'десятками’." (ГХЯ:120).

Она редко, но все же встречается в реальности, вот из газетных подборок:
машиннай залдағы онарлап саннығ моторлар - 'многочисленные (т.е. 'десятками считанные') моторы машинного зала'
(изысканный пример на части речи, по-моему)

Сейчас они не разбираются парсером. Будем заводить морфемы или вгоним все это в словарь?Формы образуются от всех числительных, но их все же немного.

Dur composition rule wrong

12. Показатель Dur чА(Т) заполняется только, если заполнена хотя бы одна из позиций 2, 4, (т.е. Form1 или Perf). - это правило запрещает форму адалчатхан из одного из первых предложений романа про утес

Понедельник, 14 декабря 2015, 17:06 +03:00 от Шеймович Александра:
В грамматике действительно любое ча, чат (ча, чадыр, чатхан) по правилам присоединяется к "полной или усеченной форме деепричастия на -ып" (с. 201, 216)

Я понял. Правило 12. Показатель Dur чА(Т) не может быть заполнен, если при этом непосредственно перед ним обнаруживается морфема, оканчивающаяся на гласную.

еще из особенностей русских заимствований

Есть некоторые заимствованные слова с двумя Н в конце - например, "финн". Если действовать по правилам, то в генитиве, аблативе и творительном у них должно быть три Н подряд. Но на самом деле третья Н опускается, и пишется "финнiң", "финнең".
(Прототипом тут послужил Иоанн, но его нет в словаре. Впрочем, если в будущем научиться отделять окончания в незнакомых словах, то этот момент тоже стоит учесть.)

интервокальное неозвончение Т

Есть ряд глаголов, в которых Т остается глухим в интервокальной позиции.
АТАРҒА - стрелять, ПАТАРҒА - вязнуть, ХАТАРҒА - 1) засыхать 2) скручивать, УТАРҒА - выигрывать

Сейчас парсер эти формы не разбирает.

ээзi

ээзi - нет разбора, хотя ээ со всеми прочими аффиксами разбирается

заводтар

Не работает словоизменение русских слов с конечными несонорными звонкими. В словаре прописана глухая основа, но пока не у всех. Можно ориентироваться на помету russ - вроде бы она охватывает весь словарь. Конечные согласные Б, В, Д, Ж и З можно считать глухими, т.к. ими кончаются только русские слова (а Г не так).

полбиныбысхан: перфект после отрицания

полбиныбысхан - нет разбора, т.к. была ошибка в ограничении 4, поправила. Перфект и Conv.Neg могут быть в одной словоформе при любом раскладе (про эту пару даже есть отдельное ограничение 3).

чередование конечных -ст\-с в основе

истiп, специализі - не работают, т.к. не внедрены сандхи про чередование конечных -ст-с в основе. Основа, отличающаяся от основы словарной формы, выписана в словаре в поле ALTERNATEN.

Набросок правила для разведения Pl и PredPl

  1. Вопрос: Нужно ли PredPl разрешать присоединяться к чистой основе имени? По смыслу да, но в большинстве случаев этот разбор лишний. Мне кажется, лучше не плодить омонимию зазря и запретить.
  2. PredPl может стоять после: а) пок-теля времени (позиция 7 + TIр + ЧIК), б) пок-ля падежа или посессивности, в) некоторых лиц (1pl, Imp.3).
  3. Pl присоединяется ко всем именам, у глаголов – только к причастиям (Past, Fut, Neg.Fut, Hab, ?Cunc, ?Assum, ?Opt, ?Affirm) с посессивным показателем.

дистрибутив -гла

турғла - нет разбора, вместо этой формы парсер считает верной турхла
Почему, я не поняла.

парилар

парилар - нет разбора
Не учли, что PredPl сочетается с Dur1. Исправила ограничения 8 и 21.

датив после й

Не разбираются: хомай-га - плохой-dat, ай-ға - месяц-dat и т.п.
Потому что после й сейчас допускается только датив в форме а. Хотя из таблицы 15 про выбор падежных вариантов следует, что после Й должен быть га/ге.

нетривиальное место в -ып

У нас есть глаголы ис- и сис-, которые меняют основу и перед гласной вставляют -т, а перед согласной убирают. Как мы знаем, -ып тоже ориентируется на то, на что оканчивается основа - на гласную или на согласную. Когда -ып - настоящее деепричастие, получаются формы истiп\систiп. Но когда -ып - это Form, он может опускаться. И вот тут мы имеем в настоящем времени исче\сисче, а с дуративом вот сегодня попалось истiпчетсе. Красота?

уғаа - неправильная морфонология

много неправильных разборов вида ух/уғ+а+ғы
однако у atr ғ никогда не выпадает, после звонкой согласной и после гласной одинаковые варианты

Разбор приставок

@veramal:

Приставки типа "кип-" и "ап-" со значением Magn не выделяются парсером, даже если в слове есть дефис.

не работает Cont

парлаҷа / парлача не разбирается - возможно, из-за морфонемы L. дописала правило ее распределения в раздел о фонетике

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.