dialogue-evaluation / factrueval-2016 Goto Github PK

View Code? Open in Web Editor NEW

56.0 10.0 31.0 2.98 MB

http://www.dialog-21.ru/evaluation/2016/letter/

License: MIT License

Python 100.00%

factrueval-2016's Introduction

factRuEval-2016

http://www.dialog-21.ru/evaluation/2016/letter/

###Статус

Оценка завершена. Результаты предварительной (run_1) и окончательной (run_2) оценок опубликованы в папке https://github.com/dialogue-evaluation/factRuEval-2016/tree/master/reports .

###Тестсет

В папке testset опубликована разметка оценочной коллекции для первых двух дорожек. Мы предполагаем, что в ней есть ошибки. Мы будем рады, если вы нам о них сообщите через раздел Issues. Просим вас создавать по одному issue на каждую ошибку. Это поможет быстро закрывать простые проблемы. Спасибо!

###Даты

до 23:00 26.02.2016 - регистрация прогонов
до 29.02.2016 - предварительные оценки
29.02.2016 - публикация разметки тестсета (в этом репозитории)
до 01.03.2016 (включительно) - подача статей на конференцию Диалог (статьи нужно отправлять сюда: [email protected])
до 23:00 04.03.2016 - принимаются сообщения об ошибках в тестсете
до 10.03.2016 - окончательне оценки (с учётом найденных ошибок)

scripts/
- t1_eval.py - компаратор для первой дорожки
- Readme.txt - инструкция к компаратору
devset/ - демонстрационная коллекция
- *.txt - тексты документов
- *.tokens - деление на токены и предложения
- *.spans - спаны (первый слой разметки)
- *.objects - упоминания объектов (второй слой разметки)
- *.coref - кореференция и идентификация (третий слой разметки)

Описание модели разметки: http://opencorpora.org/wiki/Nermanual/2/model

Формат демонстрационной разметки

Тексты документов (*.txt)

Текст предложений сохранён из источника. Предложения склеены через пробел. Абзацы - через двойной перевод строки.

Сегментация на токены и предложения (*.tokens)

Каждая строка - один токен. Предложения разделены пустой строкой.

Описание одного токена состоит из следующих полей:

id токена
позиция начала токена (от начала текста)
длина токена
текст токена

Разделитель полей - пробел. В токене пробела быть не может.

Спаны (*.spans)

Каждая строка - один спан. Разделитель полей - пробел.

Поля:

id спана
тип спана
позиция первого символа спана от начала текста
длина спана в символах
первый токен спана
длина спана в токенах

Справочно (после решётки):

все id входящих токенов
все тексты входящих в спан токенов

Упоминания объектов (*.objects)

Каждая строка - одно упоминание объекта. Разедлитель полей - пробел.

Поля:

id упоминания
тип упоминания
список идентификаторов входящих в упоминание спанов

Справочно (после решётки):

текст всех входящих в упоминание объекта спанов

Кореференция и идентификация (*.coref)

Каждая запись - один объект. Разделитель записей - пустая строка.

Первая строка записи состоит из следующих полей:

идентификатор объединённого объекта
список идентификаторов упоминаний объектов, входящих в объединённый объект

Последующий строки:

ключ
значение

Допустимые ключи:

firstname, surname, patronymic, nickname - у объектов типа Person
name - у Location, LocOrg, Org
wikidata - у всех

factrueval-2016's People

Contributors

Stargazers

Watchers

factrueval-2016's Issues

book_3581. Дорожка 1 без LocOrg

Организация размечена как локация и игнорируется компаратором
------STANDARD------
IGNORED LOC <3219; 3233> "музее мормоттан"

3962. Неправильно устанавливается связь

В разметке неправильно устанавливается следующая связь:

PER [patronymic : а, lastname : покровский, firstname : б] = PER [lastname : фон, lastname : вебера, firstname : к, patronymic : м]

Тип сделки "инвестиция"/"инвестиции"

Текст 475 – тип сделки «инвестиции», тексты 344 и 349 – тип сделки «инвестиция».
Что из этого верно?

3632. Третья дорожка

Организация - Управделами президента
job - пресс-секретарь

3632-5 Occupation
Who obj2936 Хреков Виктор
Job span88854 Пресс-секретарь Управделами президента
Where obj2944 берег Черного моря

Пресс-секретарь Управделами президента Виктор Хреков отказался от комментариев.

book_3976. Walt Disney

Walt Disney – не ассоциируется с Walt Disney Company, а выделяется в отдельную сущность персоны. Предложение, где Walt Disney – персона:

Walt Disney приобрела Lucasfilm и снимет седьмой эпизод «Звёздных войн»
0.00 PER [lastname : disney, firstname : walt]

Ошибочное выделение персоны в разметке.

book_3983. Объединение сущностей

PER [patronymic : владимирович, lastname : путин, firstname : владимир]: здесь нельзя однозначно определить, что «Владимирович» относится к Путину
PER [patronymic : ефимович, lastname : донской, firstname : сергей]: аналогично – неоднозначно, что «Ефимович» относится к Донскому

Экстралингвистическая информация

Добрый день! В некоторых фактах встречаются случаи, когда поля фактов заполняются на основании информации, не содержащейся в том же предложении или тексте, например:

29 апреля 2011 года Адриано Челентано, известный певец, актёр и общественный деятель, написал письмо в газету Fatto Quotidiano, в котором достаточно резко раскритиковал премьер-министра Сильвио Берлускони и обвинил его во лжи, заявив, что Берлускони не способен управлять большой страной. Также, в своём письме Челентано призвал итальянцев принять участие в референдуме, который должен состояться на Апеннинах 12 июня (документ 271),

[ occupation | who : берлускони сильвио | position : премьер-министра | where : апеннины | италия ]

Встретилось несколько таких вариантов разбора. Ошибка в разметке?

Спасибо!

компаратор для 3 дорожки

Добрый день!

Несколько вопросов по оценке результатов третьей дорожки:

В описании формата выдачи для фактов Occupation одним из полей было Job. В файлах .facts это Position. Что всё же правильно?
Т.н. нормализованные имена в полях фактов записываются непоследовательно, и это влияет на сравнение. Например (из подробной выдачи в *.report.txt),
0.43 0.43 1.00 [ occupation | who : миллер алексей | position : глава | where : газпром ] = [ occupation | job : глава | person : миллер алексей | where : оао газпром ](поле where заполнено коротким названием)
0.43 0.43 1.00 [ occupation | who : ху цзиньтао | position : председателя | where : китай ] = [ occupation | job : председатель | person : цзиньтао ху | where : кнр ](поле where заполнено, видимо, одним из равноправных названий)
0.43 0.43 1.00 [ occupation | who : эдуард | position : президентов | where : michelin ] = [ occupation | job : президент | person : мишлен эдуард | where : группа компаний michelin ](поле заполнено названием без дескриптора)
Объясните, пожалуйста, как в таких случаях действует компаратор. Сравниваются ли хотя бы разные варианты имен одной сущности?
Что показывают оценки Q_A и Q_Id в файлах .report.txt?

пустой book_1667.objects

Ошибки разметки 1

Насчёт Loc и LocOrg: некоторые размечающие, похоже, напутали. Обычные упоминания стран отмечают как LocOrg. Например, #98: Эстония ввела евро тогда, когда эта денежная единица переживает не лучшие времена: как известно, двум государствам еврозоны — Греции и Ирландии - все страны отмечены как LocOrg. Аналогично в #99, #115, #117 и т.д.

Похоже, при прогоне придётся не учитывать различия между Loc и LocOrg из-за большого количества брака в разметке.

Ошибки большой тестовой коллекции

Некоторые тексты имеют сбойные кодировки UTF-8: начинаются нормально, но затем сбой почти до конца, в конце немного нормально.
Например, 757, 1335, 1344, 1805 и др.

book_3980. Ростелеком

LOC [name : "ростелеком"]: правильно не LOC, а ORG

Дорожка 3, 3688

3688-0 Occupation
Who obj3564 Путин Владимир
Job span87327 президент
Where obj3567 Россия
Сложность повышенная

3688-4 Occupation
Who obj3574 Песков Дмитрий
Job span87351 Пресс-секретарь
Where obj3567 Россия
Сложность повышенная

В тексте нигде нет про то, что Путин работает в России, про Пескова тоже.

3667. Третья

В who должна быть персона

3667-1 Occupation
Who obj3278 Амурская область
Job span89190 главу
Where obj3283 правительство

3954. Карамба

Выделяется сущность

ORG [name : caramba tv]

Но, при этом, мы получаем штраф за отсутствие сущности

0.00 ORG [name : сайт caramba tv | ресурс сайт caramba tv | сайт caramba tv ресурс]

Правильно ли это? Ведь сайт - это не организация

book_3979. Опечатка в фамилии

0.00 PER [lastname : левиев, firstname : лев]: такая персона в тексте есть (опечатка в тексте в фамилии Льва Леваева)

Ошибки разметки 2 дорожки

book_74.coref

Дмитрий записан с опечаткой - ДмитИрий.
Ошибка переползает и в третью дорожку

Формат результата - вопросы

Правильно ли я понял, что формат результата описан в документе версии 1 от 24.12.2015 как файлы .task1, .task2 и .task3?
По поводу 2-й дорожки - результат будет сравниваться с данными из файлов .coref?
Почему из 57 текстов только 3 имеют coref, это намеренно?
В документации имя атрибута "имя персоны" задано как Firstname, а в coref - name, так какое правильно? Есть где-нибудь просто список корректных имён атрибутов?
Можете предоставить хотя бы для одного относительно большого текста пример файла .task2, чтобы там по возможности присутствовали все 3 типа объектов?
Спасибо!

3962. Названия опер

В разметке

0.00 PER [firstname : идоменей]
0.00 PER [firstname : пинто]

На самом деле, это названия опер: «Идоменей» и «Три Пинто». Может эти сущности вообще не учитывать?

book_3962. Россия-Франция

доктор искусствоведения Екатерина Купровская-Денисова (Россия-Франция)

В нашем раборе (дорожки 1 и 2) выделяется

0.00 LOC [name : россия-франция]

В разметке Россия и Франция выделены в две отдельные локации. Вопрос спорный, но мне кажется, что за выделение одной локации Россия-Франция вместо двух в данном контексте штрафовать не надо.

Сроки

Здравствуйте, а какие теперь сроки конкурса? По старому плану 17 числа надо было присылать результаты? Какие теперь сроки?

Список вопросов по логике NER

Добрый день!

Кажется ошибки разметки.
1.1. Документ 344 демо-коллекции. Насколько я могу судить тут случай неформатной разметки объекта ID= 13834. Он ссылается на спаны (Google), находящиеся в разных частях документа и не имеющих друг с другом никакой связи. Это единственный такой случай в демо-корпусе. Не уверен, что компаратор на такой разметке отработает корректно.
1.2. book_194.txt – «украинское правительство» не размечено.
«географические организации». Рассмотрим документ 349 демо-коллекции, фрагмент «Воскресное заседание кабинета министров глава правительства Израиля Биньямин Нетаньяху провел в Старом городе…». Выделен объект-организация «кабинета министров Израиля» (состоит из двух спанов – кабинет министров и Израиль). На мой взгляд это некорректно – либо нужно во всех контекстах при упоминании уникализируемых географией организаций выделять объект, либо везде же не нужно. Другими словами, в контексте «В России сегодня утром на заседании правительство» по этой логике тоже нужно выделять объект «правительство России». Либо и там и там не нужно. В эталоне преобладает вторая концепция, но хотелось бы подтверждения.
упоминание названий организаций и брендов.
3.1. Упоминание бренда или торговой марки компании или названия в «неорганизационном» контексте.
а) яркий пример – упоминание Google или Facebook. Демо-коллекция имеет специфические документы, в которых Google и Facebook действительно упоминаются как организации и везде соответственно размечены как объекты-организации. Исключение – документ 344, в котором «сайт Facebook» не размечен (но это тот самый подозрительный документ из пункта 1. с видимо некорректной разметкой). Значит ли это, что любое упоминание бренда/сайта компании приравнивается к упоминанию компании? В контекстах «выложил в Facebook», «легко найти в Google», тоже будут организации? - эталон вообще таких примеров не содержит, а ведь в русскоязычном новостном потоке таких случаев намного больше.
3.2. Упоминание сайтов. В эталоне есть пример, что «сайт Roem.ru» размечается как организация. Значит ли это, что любой урл с квалификатором «сайт» будет размечаться как организация? Или (в идеале) нужно привлекать знания о мире и убеждаться, что сайт Roem.ru – это например, торговая марка некоторой компании? Как действовать в случае упоминания «опубликовано в vk.com» «опубликовано в vk.com/user_name», «пишет Иванов на своем сайте Ivanov1234.ru»? Или же просто не будет штрафоваться несовпадение при наличии признаков url?
3.3. упоминания брендов. Например, BMW. «столкнулись два автомобиля BMW», «наладить выпуск автомобилей BMW», «производство BMW», «акции BMW», «совет директоров BMW». В каких случаях BMW будет считаться организацией?
география. В документе 100 в эталоне не размечен как география Химкинский лес в паттерне «движение в защиту Химкинского леса». В документе 252 и 347 не размечено США (нет объекта ни LOC, ни LOCORG). В документе 296 из географических объектов размечены только Цюрих, Сингапур и Турция. А Китай, Малайзия и Тайланд – размечены как чиcтый ORG. Видимо примеров такого типа в эталоне много. При этом в эталоне размечено много «ситуативной» географии – Солнце, Луна, Земля, МКС например – то, что система NER имеет право размечать или не размечать в соответствии со своими частными задачами. Наличие такого рода объектов заставляет подкручивать готовую систему NER под формат разметки либо сильно проигрывать (вот мы не считаем Венеру географией в Интерфаксе, потому что это не соответствует реальным задачам). На мой взгляд, за пропуск США штраф должен быть в 100 раз больше чем за пропуск ситуативной геогарфии.
Выделение персон из объектов, названных в честь персон. Действительно ли корректно выделение Юрия Долгорукого из памятника Юрию Долгорукому? А выделение Ломоносова из МГУ им. М.В. Ломоносова? А выделение Карла Маркса из фразы «на Карла Маркса столкнулись два трамвая»? Лично мой опыт говорит о том, что сложнейшая задача – это НЕ выделять такие персоны. Система NER, которая понимает что-то про фразы типа «еду я по Маркса» в результате проигрывает системе, которая знает только, что Маркс – это такая фамилия и выделяет ее всегда. И опять же придется подкручивать логику, чтобы не проиграть из-за формальных причин.
Принцип, по которому нужно отличать LOC и LOCORG мной не понят особенно на фоне частого отсутствия и LOC, и LOCORG в эталоне. Я подчеркиваю, что я прочел все обсуждения на эту тему. Можно ли считать, что любое упоминание географии в названии организации, кроме случаев, когда она является именем собственным (ресторан «Грузия») – это LOCORG? Т.е. «филиал Сбербанка в городе Крымск» - тут Крымск- это LOCORG? Или LOCORG - только когда локация выступает в роли самостоятельного объекта (правительство России», «Франция заявила права на Курилы»)? А как интерпретировать записи в book_301 эталона «отказался от участия в ядерном саммите в США» - тут США – LOCORG. Аналогично в документе book_399 «47 миллионов избирателей в Италии … призваны проголосовать..». Чем это отличается от фразы «он живет в США»? Кроме того, в book_354.txt, book_375 как LOCORG размечено слово «страна».
Организации, одновременно являющиеся и географическим местом – «аэропорт Домодедово», «порт Бронка». В обсуждении по разметке корпуса на opencorpora.org есть описание логики, про то, что если речь не идет об администрировании объекта, значит это локация. Но послушайте, это очень и очень спорно. Представьте, что вы делаете алерт-систему по важным упоминаниям организаций. В данном случае вы пропустите сообщения типа «в аэропорту Домодедово сломаны все самолеты», «в порту Бронка проводится расследование», наконец сообщения о террактах. Да, все организации где-то расположены. В зависимости от типа организации можно считать, что их упоминание – это упоминание места или наоборот только упоминание организации , или и того и другого. Но жесткая логика тут неприменима – она зависит от частных задач. Например, рассмотрим фразы «около завода ОАО Заря мы встретились с Варей» и «около завода Заря нашли лужу радиоактивных отходов» - они принципиально отличаются по важности для организации. Не дело NER системы судить о том, что это локационный контекст, ее дело выделять все, что «завод», «порт», «аэропорт» и т.п., снабжая координатами по необходимости.

book_3539

По этому файлу вопросы объединю в один issue, дабы не плодить темы:

PER [lastname : смирнов, lastname : сокольский]: разве не правильнее будет PER [lastname : смирнов-сокольский]
PER [firstname : мая]: правильно – «май»
0.00 PER [firstname : евгения, patronymic : степановна]: почему не защитано? Однозначно сопоставить Евгению Степановну и Евгению Скалацкую нельзя
0.00 PER [firstname : николай, patronymic : петрович]: аналогично не сопоставить Николая Петровича и Николая Вертинского
0.00 PER [lastname : ли]: почему не защитано? Вот фрагмент текста: <…>китайчат Ли<…>
0.00 LOC [name : китеж]: есть такая сущность
0.00 ORG [name : армия колчака]: есть такая сущность
0.00 ORG [name : гастрольбюро]: есть такая сущность
ORG [name : астория]: есть такая сущность. Фрагмент текста:

Он находился в своем 208-м номере «Астории».

Не понятно, почему в разметке Астория ставится в соответствие Австрии

Алгоритм компаратора

Здравствуйте.

Меня интересует способ подсчета целевой метрики. Рассмотрим текст book_369. Файл с упоминаниями выглядит так:
13924 Person 28199 28200 # Александра Дмитриева
13929 Location 28201 28202 28207 # книжном магазине Библио-Глобус магазине
13926 Location 28203 # Лубянке
13927 Person 28204 # Александр
13928 Person 28205 # Гука

Файл с нашим результатом извлечения именованных сущностей выглядит так:
PER 429 20
LOC 639 13
LOC 657 7
PER 666 9
PER 794 4

Если свериться с файлом с токенами, можно удостовериться, что границы нами выделенных именованных сущностей совпадают с эталонными, кроме второй именованной сущности. Мы выделили только "Библио-Глобус" без "книжном магазине". На этот счет в правилах разметки есть следующее:
Контактно стоящие слова-дескрипторы (ООО, союз, партия, …) перед именем собственным не считаются обязательными составными частями названия организации. Их можно включать или не включать. В цепочке ОАО «Молоко России» правильно выделенной сущностью типа Org будет одна из (в первом случае кавычки нужно включить, во втором — их включать не нужно):
 ОАО «Молоко России»
 Молоко России

Тем не менее, компаратор для локаций выводит такие значения:
loc 0.6667 0.6667 0.6667 1.33 2 2

Я правильно понимаю, что для случая с Библио-Глобусом, компаратор лишь частично засчитывает совпадение? Не нужно ли уточнить алгоритм компаратора в соответствии с инструкцией?

Прием результатов

Доброго времени суток!

Куда отправлять результаты прогонов? Архивом на почту?

book_3972. Не правильно выделились некоторые сущности

0.00 ORG [name : nyse euronext]
0.00 ORG [name : франкфуртская deutsche börse]

В разметке это почему-то локации

book_3962. Проблема с пробелами

Получили штраф из-за того, что выделили сущность

0.00 ORG [name : камерный музыкальный театр им. б.а. покровского]

А компаратор ожидал такую:

0.00 ORG [name : камерный музыкальный театр им . б . а . покровского]

Здесь как минимум нужно засчитывать оба варианта.

3954. Название шоу

В разметке выделяется организация:

0.00 ORG [name : "+100500" шоу | шоу "+100500" | +100500 интернет-шоу | +100500 шоу | интернет-шоу "+100500" | "+100500" интернет - шоу | интернет - шоу "+100500" | +100500 интернет - шоу | "+100500" | +100500 | "+100500" интернет-шоу | интернет-шоу +100500 | интернет - шоу +100500 | шоу +100500]

Разве название шоу - это организация?

Разметка 2

3629

lastname Кельвина

Ожидается, что будет Кельвин

book_3974. Лишняя сущность

В разметке выделена сущность

0.00 LOC [name : россия]

При том, что в тексте нет ни России, ни РФ и т.п.

Евросоюз. Тип сущности

В issue Список вопросов по логике NER #12 @FedorBykov задавал вопрос про тип сущности Евросоюз. Решили, что это именно ORG. В файлах 3940, 3744, 3820, 3746, 3910 TestSet'а Евросоюз (ЕС) - LOC. Исправьте, пожалуйста.

TestSet. Интернет, рунет: не организации

Исходя из определения (Если Х может быть местом работы человека или в ней можно состоять в качестве члена, то Х — это организация. Организации, членами которых являются страны или другие организации, тоже засчитываются) рунет – не организация, так же, как и интернет.
Противоречие с этим есть в разметках файлов book_3979, book_3757, book_3677. При этом, во многих других случаях интернет в качестве сущности не выделяется, что, на наш взгляд, правильно.

3562. Третья дорожка

3562-0 Occupation
Who obj3648 *Пан Ги *
Job span87528 генсеком
Where obj3647 ООН

3562-5 Meeting
Participant obj3648 *Пан Ги *
Participant obj3649 Карзай Хамид
Participant obj3662 Браун Гордон
Participant obj3659 Лавров Сергей
Participant obj3655 Клинтон Хилари

В эталоне просто Пан Ги (Не Пан Ги Мун), файл coref заполнен правильно, кажется.

Третья дорожка

1 124-0 Occupation
2 Who obj118 Гиффордс Гэбриэль
3 Position span22925 член
4 Where obj121 Палаты представителей Конгресса США
5

6 124-1 isPartOf
7 Company obj121 Палаты представителей Конгресса США
8 Company obj115 Конгресса США

В 124 тексте у компании неправильное нормализованное имя: "ПалатЫ" вместо "Палата". Во второй дорожке такой ошибки нет.

3555. Сущность, которой нет

Вторая дорожка. Штраф за отсутствие сущности

ORG [name : weather report]

Но в тексте нет ни weather, ни report...

Вопросы компарации 2-й дорожки

Вопрос №1. Правильно ли я понял: компаратор будет сравнивать .task2 и .coref, причём соответствие типов атрибутов следующее:
Firstname <-> firstname
Lastname <-> surname (!)
Patronymic <-> patronymic
Nickname <-> nickname
Name <-> name
В документации ещё упоминаются Type, Location, но они в coref не встречаются.
Поскольку в .coref тип объекта отсутствует, то компаратор будет брать тип первой встречи этого объекта в .objects, причём loc = locorg.

Вопрос №2. Непонятно вот что: значения атрибутов должны вроде быть нормализованными, но в .coref иногда они просто берутся как есть из текста (для LOC и ORG). Например, №124:
114 10519 10530
name штата Аризона
115 10520 10533 10546
name Конгресса США

Это ошибка разметки или компаратор как-то справится с такими случаями?

Вопрос №3. Наличие пробелов между спецсимволами учитываются? Например:
текст 259: name театр им . Йозефа Бойса - перед точкой пробел

TestSet. НЕименованные сущености

book_3980
ORG [name : правление банка], ORG [name : совет директоров госоператора]
book_3979
ORG [name : совет директоров компании]
Все это - неименованные сущности, соответственно, не должны выделяться как организации.
Обсуждение этого вопроса на примерах devset'а уже было (см. issue Нарицательные в разметке #17)

Корректность результата

Интересно, а как отличить машинный прогон от ручной корректировки? Правильно - никак! Если тексты для прогона даются на неделю, а вручную текст можно разметить в среднем за 2 мин (файлы task1 & task2), то один чел. за неделю "прогонит" через себя 1500 текстов. А если посадить несколько человек?

Для чистоты эксперимента было бы корректнее потребовать со стороны участников:

либо реализацию исполняемых модулей, запускаемых на проверяющей стороне;
либо реализацию web-сервиса с функцией обработки текста, если невозможно предоставление таких модулей;
либо сильно ограничить срок формирования результата (например, несколькими часами).

Что думаете?

Неконсистентная токенизация в devset

Например, в 282 Абу-Грейв -- один токен, а в 367 Жан-Мари -- три токена.

Нарицательные в разметке

Коллеги,
не могли бы вы пояснить логику появления отдельных нарицательных в разметке организаций и локаций. Должны они там быть, если мы именованные сущности извлекаем? Если по вашему мнению - да, то по каким правилам?

Например, book_489 - в Org попали "правительство" (2 раза) и "вооруженные силы", но при этом "полиция" осталась неразмеченной.

Другой пример - book_480, два раза выделен "концерн" и один раз "завод", хотя в тексте завод втречается три раза.

В book_503 выделены "город" и "столица".

И примеров таких много. Если речь идет о кореферентности, хотя пример с заводом и вооруженными силами это опровергает, то логично было бы ее увидеть и для персон, но для них такого пока не замечано.

Заранее спасибо за разъяснения.

Дорожка 2

3543

Вариант "подмосковное сколково" не считается допустимым
Org - Центр по разработке и коммерциализации новых технологий
Loc – *подмосковное Сколково *| Сколково
Инструкция – пункт 4, про локации
«
4. Прилагательные, указывающее на географическую или национальную принадлежность объекта нужно включать в состав сущности. Например, в цепочке «Западная Сибирь» нужно включать оба слова.
»

Как компаратор объясняет свои оценки

В выдаче компаратора я обнаружил только несколько столибов с цифрами на консоли (кстати, что есть три последние столбца - TP, In Std., In Test?)
Очевидно, что компаратор должен объяснять свои оценки - выдавать информацию о всех совпадениях-различиях и их весах, на основании которых вычислены оценки, иначе невозмножны ни настройка системы на особенности вычисления оценки, ни верификация полученных оценок ни их анализ?!
Александр Ермаков, ЭР СИ О

book_3966. Объединение сущностей

Вторая дорожка:
Оштрафовали за то, что мы не выделили:

0.00 ORG [name : онф]

При этом есть сущность

1.00 ORG [name : общероссийский народный фронт] = ORG [name : общероссийский народный фронт]

С которой в нашем случае и произошло объединение ОНФ. Считаю, что это правильно.

TestSet. Имена файлов

Правильно ли я понимаю, что в размеченном тестсете и в большом наборе для соревнования имена файлов отличаются? То есть, чтобы проверить свою собственную разметку по каждому прогону нужно сначала найти соответствия между текстовыми файлами, одинаковыми по содержанию, а затем переименовать все соотвествующие файлы .task ?

TestSet. Выделяется лишняя сущность США

Файлы book_3980, book_3979, book_3978, book_3977, book_3976, book_3974, book_3973.
LOC [name : сша]: Не должна выделяться такая сущность. США упоминается только в словосочетании доллары США . Более того, в аналогичной ситуации в демо-сете США не выделяется в отдельную сущность из сущности ВВС США (см. файл book_93.txt демо-сета)

Нормализация

Добрый день! Не очень понятна логика в порядке имён и фамилий для персон. Из инструкции можно подумать, что порядок должен быть сохранён как в тексте, однако в примерах иногда порядок непредсказуемо меняется, например:

В этот же день президент США Барак Обама заявил, что страна и народ до сих пор скорбят и не могут оправиться от шока, вызванного тем, что произошло в субботу.

124-2 Occupation
Person obj122 Обама Барак
Job span22937 президент
Company obj116 США

1 февраля на ступеньках будущего президентского центра наследия возле бизнес-центра «Демидов» открылся памятник первому президенту России Борису Николаевичу Ельцину.

253-0 Occupation
Person obj292 Николаевич Борис Ельцин
Job span33777 президенту
Company obj296 РФ

Кроме того, не всегда понятны принципы нормализации или её отсутствия:

259-11 Occupation
Person obj324 Майклсон Виктор
Job span27560 зав .
Company obj323 кафедра социальных коммуникаций и технологий РГГУ

В церемонии также приняли участие вдова Ельцина Наина Иосифовна, его друзья, представители федеральной власти, глава Свердловской области Александр Мишарин, руководители соседних регионов.

253-3 Occupation
Person obj310 Мишарин Александр
Job span33785 губернатора | span33825 глава
Company obj298 Свердловская область

Поясните, пожалуйста!

Спасибо!

book_3978. Не объединяются сущности bp и группа компаний bp

1.00 ORG [name : bp] = ORG [name : вр]
0.00 ORG [name : группа компаний bp]
Считаем, что эти сущности должны объединяться

3734. Третья дорожка

В эталоне

3734-11 Occupation
Who obj3763 Донецк
Job span86682 Министр иностранных дел
Where obj3760 Малайзия

Должна быть Анита Аман

3700. Дорожка 3

3700

у Путина указана должность и Россия в месте работы, также нигде в тексте нет.

Он там говорит о присоединении Крыма, но напрямую из текста не выводится

book_3966. Нарицательная сущность

В разметке есть нарицательная сущность, за невыделение которой получаем штраф:

0.00 ORG [name : рабочая группа]