dialogue-evaluation / grameval2020 Goto Github PK

View Code? Open in Web Editor NEW

20.0 20.0 8.0 33.85 MB

Python 100.00%

grameval2020's People

Stargazers

Watchers

Forkers

olesar victorbocharov buriy wanderer2014 moshemm puggork khaymon

grameval2020's Issues

сломался кодалаб

Пишет вот такое:

WARNING: Your kernel does not support swap limit capabilities or the cgroup is not mounted. Memory limited without swap.
Traceback (most recent call last):
File "/tmp/codalab/tmpE1dxDY/run/program/evaluate.py", line 238, in
main()
File "/tmp/codalab/tmpE1dxDY/run/program/evaluate.py", line 119, in main
test_dic = extract_sents(open(os.path.join(test_dir,'GramEval_private_test.conllu'), 'r').read(), index_dic)
IOError: [Errno 2] No such file or directory: '/tmp/codalab/tmpE1dxDY/run/input/res/GramEval_private_test.conllu'

Одинаковый score разных файлов

Два из трёх отправленных файлов (1 и 2) получили одинаковый score, хотя в них различается 30% строк. Проверьте, пожалуйста, что я делаю не так.

md5sum файл время
a201c578dfaa75dbef78d16e61b310a2 1.conllu (02/24/2020 12:07:33)
af9cdadf4813e76cee34cabab2ff3879 2.conllu (02/24/2020 15:36:48)
c8148e00d1ce4bca526696a37caa2f42 3.conllu (02/24/2020 13:37:37)

Ошибки в разметке синтаксиса:

Является ли ошибкой (по-моему, да), и много ли ошибок вроде

1	Мечта	мечта	NOUN	_	Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing	4	nsubj	_	_
2	Серёжи	Серёжи	NOUN	_	Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing	1	nmod	_	_
3	-	-	PUNCT	_	_	4	punct	_	_
**4	жить	жить	VERB	_	Aspect=Imp|VerbForm=Inf|Voice=Act	0	**root	_	_
5	без	без	ADP	_	_	6	case	_	_
6	боли	боль	NOUN	_	Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing	4	obl	_	SpaceAfter=No
7	😭	😭	SYM	_	_	4	discourse	_	_

См., например SynTagRus:

8	их	их	DET	_	_	10	det	_	_
9	главная	главный	ADJ	_	Case=Nom|Degree=Pos|Gender=Fem|Number=Sing	10	amod	_	_
10	цель	цель	NOUN	_	Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing	0	root	_	_
11	-	-	PUNCT	_	_	12	punct	_	_
12	научиться	научиться	VERB	_	Aspect=Perf|VerbForm=Inf|Voice=Mid	10	csubj	_	_
13	работать	работать	VERB	_	Aspect=Imp|VerbForm=Inf|Voice=Act	12	xcomp	_	_
14	вместе	вместе	ADV	_	Degree=Pos	13	advmod	_	_

#3. Harmonization of MWE annotations and other patterns

Мультитокены в UD размечаются как несколько токенов и связаны отношением fixed. Задача: исправить разметку хозяина (HEAD) и типа отношения (DEPREL) в мультитокенах и некоторых других частотных конструкциях.

Список:

сравнительные конструкции “VP как X”, “A-ее чем X”: как, чем -- SCONJ, case right:
“один из X-ов” один -[nmod]->X-ов right:
“вместе с X-ом”, “рядом с X-ом” : вместе -[obl]-> X-ом right:
“от 3 до 5 тысяч”, “3-5 тысяч” : 3 -[nmod]-> 5, - <-[punct]- 5 right:
“больше/более/менее 60 человек”, “больше чем 60 человек”: более <-[advmod]- 60 , больше -[fixed]-> чем right:
“около двух недель”: около <-[case]- двух
обороты (MWE): *”но.CONJ и.CONJ”, *”что.PRON ли.PART”, *“хотя.PART бы.AUX”, “так.ADV что.SCONJ” (неправильно в GSD), “так.ADV как.SCONJ” (неправильно в GSD), “прежде.ADV чем.SCONJ” (неправильно в GSD),

Расхождения в разметке морфологии.

Уважаемые организаторы, не могли бы вы указать все отличия стандарта разметки соревнования от разметки SynTagRus, потому что большинство систем обучались именно на SynTagRus и тем самым следуют его аннотации. Пока найдены следующие отличия (на примере файла GramEval2020-GSD-train.conllu):

у некоторых прилагательных размечена одушевлённость:

5	за	за	ADP	IN	_	7	case	_	_
**6	новый	новый	ADJ	JJL	**Animacy=Inan|Case=Acc|Degree=Pos|Gender=Masc|Number=Sing	7	amod	_	_
7	клуб

но у некоторых -- нет:

2	изучение	изучение	NOUN	NN	Animacy=Inan|Case=Acc|Gender=Neut|Number=Sing	5	obl	_	_
**3	двойной	двойной	ADJ	JJL	**Case=Gen|Degree=Pos|Gender=Fem|Number=Sing	4	amod	_	_
4	специализации	специализация	NOUN	NN	Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing	2	nmod	_	_

порядковые числительные считаются прилагательными (upos=ADJ) и размечены по признакам прилагательного

**15	7	7	**ADJ	ORD	Case=Gen|Degree=Pos|Gender=Neut|Number=Sing	10	obl	_	_
16	января	январь	NOUN	NN	Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing	15	flat	_	_

в СинТагРусе как минимум часть аналогичных примеров размечена как NUM
3. у количественных числительных размечен падеж и NumType=Card
4. у некоторых глаголов (быть, стать) не размечен залог
5. у местоимений что и который размечены все признаки.

#4. Lemmatization in SynTagRus

Некоторые глаголы совершенного вида размечаются неправильно.

Задача: Просмотреть частотный список для VERB Aspect=Perf, составить список форма-лемма-фикс.леммы, напустить скрипт.

Расхождения в разметке синтаксиса

По аналогии с #12 и опираясь на #11, хотелось бы узнать ответы на следующие вопросы:

Какой алгоритм определения синтаксической вершины символов пунктуации (их много, поэтому ошибка здесь кардинально повлияет на качество системы).
Есть ли систематические отличия от СинТагРуса в разметке синтаксиса.

Ошибки в разметке social

Насколько можно доверять разметке train-выборки, например, social, если она содержит такие ошибки, как

1	@screened-137	@screened-137	X	_	_	7	vocative	_	_
2	Екатерина	Екатерина	PROPN	_	Animacy=Anim|Case=Nom|Gender=Fem|Number=Sing	7	vocative	_	SpaceAfter=No
3	,	,	PUNCT	_	_	2	punct	_	_
4	да	да	PART	_	_	7	parataxis	_	SpaceAfter=No
5	,	,	PUNCT	_	_	4	punct	_	_
6	это	это	PRON	_	Case=Nom|Gender=Neut|Number=Sing	7	nsubj	_	_
**7	джакузи	**джакузить	NOUN	_	Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing	0	root	_	_
8	на	на	ADP	_	_	10	case	_	_
9	личной	личный	ADJ	_	Case=Loc|Degree=Pos|Gender=Fem|Number=Sing	10	amod	_	_
10	террасе	терраса	NOUN	_	Animacy=Inan|Case=Loc|Gender=Fem|Number=Sing	7	nmod	_	_
11	апартаментов	апартамент	NOUN	_	Animacy=Inan|Case=Gen|Gender=Masc|Number=Plur	10	nmod	_	_
12	🙂	🙂	SYM	_	_	7	discourse	_	_

UAS или LAS?

При оценке public теста в отчёте был UAS. В private приходит LAS.

в отчёте conll18_ud_eval.py поехало форматирование

Нет разделения на колонки пробелами и перевода строки после шапки.
Проблема не большая, но читать не очень удобно.

#5. Validation of arcs and dep.labels in SynTagRus

UD-SynTagRus не проходит валидацию по правилам для UD v.2.5.

Задача: Запустить validation.py из репозитория UD tools, составить список принципиальных ошибок, сделать скрипт-фикс.

#7. Validation script check and update

Текущий скрипт измеряет точность UPOS, LEMMA, FEATures, UAS, LAS и alignment score.
Требуется создать дополнение, измеряющее MLAS (morphology-aware labeled attachment score) и AgreementScore.
Формат ввода/вывода тот же, что у скрипта в репозитории GramEval2020.

Для MLAS можно использовать/адаптировать скрипт https://universaldependencies.org/conll18/conll18_ud_eval.py для MLAS
(собственно, там и содержится описание, как что считается).

AgreementScore учитывает совпадение тегов значений в категориях Animacy, Case, Gender, Number в парах слов, связанных следующими отношениями и со следующими характеристиками:

NOUN/PROPN -amod-> ADJ/DET/VERB{VerbForm=Part}
NOUN/PROPN -acl-> VERB{VerbForm=Part}
NOUN/PROPN/PRON{Case=Nom} <-nsubj- VERB/AUX{VerbForm=Fin/PartRes,Tense=Past}
NOUN/PROPN/PRON{Case=Nom} <-nsubj- ADJ{Variant=Short}

Учитывается, что

значение тегов совпадает с gold
в gold категория Case, Gender, Number присутствует и совпадает у обоих элементов пары
значения всех доступных тегов в паре совпадает, пара получает бинарную оценку 0 или 1 (local score)

Все пары, которые включают некоторое слово, подсчитываются отдельно. Согласующиеся пары слов, не связанных синтаксическим отношением, не учитываются.

Пример

новые ADJ Animacy=Inan...Case=Acc...Gender=Masc...Number=Plur
люди  NOUN Animacy=Anim...Case=Nom...Gender=Masc...Number=Plur
# graded: no  yes  yes  yes, isGradedInGold = 1
# output: no + 0 + 1 + 1
# local score:  0

AgreementScore = total score = SUM(local scores) / SUM (isGradedInGold),
т. е. результат учитывается доля позитивных local scores среди всех согласуемых пар в gold.

paper submission deadline

когда?

#2. Оценка результатов системы на CodaLab

#6. 17th century lemmas

Лемматизировать недостающие данные 17 века

evaluation script странно считает фичи

Думаю, что evaluation script учитывает совпадение только тех фич, которые есть у токена в gold разметке. Попробовал добавить КО ВСЕМ токенам признаки Abbr и Foreign, и это увеличило оценку. Для токенов, у которых в gold разметке эти признаки есть - засчитано совпадение, для остальных - ничего не произошло.

Наверняка можно придумать и другие глупости, использующие эту особенность, т.е. поднимающие оценку в ответ на бессмысленную разметку.

Публикация тестовых данных

Здравствуйте, как вы смотрите на то чтобы выложить в этот репозиторий тестовые данные в дополнение к тренировочным и валидационным?

Можно ли сейчас не участнику соревнования скачать тестовые данные?

#8. A UDv.2-valid version of SynTagRus

UD_SynTagRus is currently not valid according to UD guidelines and validation.py script.
SynTagRus-GramEval2020 version is
-- UDv2-valid
-- lemmas improved
-- features improved
-- arcs corrected
-- minor tokenisation issues fixed (more tbd)

Please add LICENSE for data

Please add LICENSE.txt for data.
If different data entries have different licenses, please add in the readme.
Thank you.

//by default, no LICENSE means we can't use this data legally for any purpose.

submission в состоянии running больше 10 минут

сабж

#1 Harmonization of SynTagRus FEATs,LEMMAs,UPOS

Данные для обучения происходят из разных источников, поэтому наборы тегов, допустимые для конкретной формы в словоизменительной парадигме, разнятся, например:
UD-GSD:

которому   который   Case=Dat|Gender=Masc|Number=Sing

UD-SynTagRus:

которому   который   Case=Dat

Задача: написать скрипт, добавляющий/убирающий теги по условию <часть речи, морф. тег, (лексема)> в разметке UD 2.5.
input: файл(ы) UD-SynTagRus v.2.5
output: файл(ы) UD-SynTagRus v.2.6
parameters: файл conversion table (описание ниже)

Закрытая ли обучающая выборка?

Т.е. можно ли задействовать размеченные обучающие данные, которых нет в папке https://github.com/dialogue-evaluation/GramEval2020/tree/master/dataTrain ?

Или другие версии этих же файлов, взятые из источников?

Вопросы о Private Test submission

Когда откроется возможность подавать результаты обработки Private Test?
Сколько времени она будет открыта?
Сколько попыток можно будет сделать?
Которая из попыток будет засчитана (лучшая или последняя)?

Fix train-dev overlap in poetry dataset

train_GramEval2020-Taiga-poetry-train-fixed.conllu.zip

разметка пунктуации (см. #13)

Поскольку вопрос из #13 остался без ответа, а пунктуация существенно влияет на качество, продублирую его ещё раз в новой версии: в соответствии с какими правилами определяется вершина для символа пунктуации? Соотносится ли это с чем-нибудь из:

разметкой UD SynTagRus v 2.5
разметкой UD GSD
разметкой одного из файлов обучающей выборки? Какого именно, если да?
Каким-то списком инструкций? Например, верно ли, что если взять накрывающую дугу знака препинания, то он обязательно цепляется к одной из её вершин (это автоматически даёт проективность).

BibTex статьи организаторов

В телеграм канале дан BibTex статьи организаторов без указания имён авторов:

@inproceedings{grameval2020,
title={{GramEval 2020 Shared Task: Russian Full Morphology and Dependency Parsing}},
author={},
booktitle={Computational Linguistics and Intellectual Technologies: Papers from the Annual Conference ``Dialogue''},
year={2020}, volume = {20}
}

Так и должно быть?

17 century corpus issues

Коллеги, хотелось бы поднять вопрос консистентности исторического подкорпуса сорвевнования.

Нетрудно убедиться, что обучающая выборка состоит из текстов 2 типов:
1.Тексты в исторической орфографии (с 'ъ', 'ѣ' и т. п.), для токенов которых отсутствуют леммы (лемма каждого токена «_»).
2. Тексты в современной орфографии, для токенов которых есть леммы. Стоит отметить, что по какой-то причине все леммы для текстов этого типа записаны в исторической орфографии (с 'ъ', 'ѣ' и т. п.).
При этом, если все тексты dev относятся ко второму классу, то среди train текстов второго класса только порядка 40 процентов.
Ясно, что для любых моделей, которые содержат в себе символьные компоненты (в т. ч. BERT-подобные модели) тексты первого вида практически бесполезны для решения задач на текстах второго вида (в предположении что test так же, как и dev состоит только из текстов второго вида; хотелось бы получить подтверждение оргкомитета, что это действительно так).

Отдельный вопрос вызывает задача лемматизации – кажется, что ни на каком множестве
текстов нет достаточных данных для полноценного решения задачи (на текстах первого вида лемм нет, а на текстах второго вида леммы даны в отличающейся орфографии).

Понятно, что для хоть сколько-нибудь адекватного обучения нужен конвертер из исторической орфографии в современную или наоборот и что именно качеством такого конвертера будут, прежде всего, определяться результаты на историческом корпусе, что, в свою очередь внесет существенный вклад в общие результаты соревнования.
Такое смещение задачи с задачи морфологического и синтаксического анализа на задачу конвертации орфографии вызывает вопросы. Входит ли такая смена фокуса в намерения оргкомитета?

Если нет, то, наверное, было бы уместно привести все данные к одному консистентному формату, предпочтительнее всего, в современную орфографию с леммами в современной орфографии. Другой возможный вариант – публикация организаторами скрипта по конвертации из исторической орфографии в современную для того, чтобы участники могли сконцентрироваться на задачах морфологического и синтаксического анализа.

тексты разных жанров в private test слиты в один файл

Тексты разных жанров слиты в один файл в private test. В public test они были в отдельных файлах. Прошу прокомментировать это различие public и private и цель объединения нескольких жанров в один файл.

dialogue-evaluation / grameval2020 Goto Github PK

grameval2020's People

Stargazers

Watchers

Forkers

grameval2020's Issues

Recommend Projects

Recommend Topics

Recommend Org