В этом соревновании необходимо предсказать ответы на вопросы на хинди и тамильском языках. Ответы берутся непосредственно из ограниченного контекста.
Для каждого идентификатора в тестовом наборе вы должны предсказать строку, которая наилучшим образом отвечает на заданный вопрос, исходя из контекста. Необходимо обратить внимание, что выделенный текст должен быть заключен в кавычки и заполнен для корректной работы. Также нужно следить за знаками препинания и т.д.
Для решения задачи было выбрано дообучение модели XLM-roBERTa. В первую очередь потому, что она мультиязычна и поддерживает тамильский язык.
- Предобработка данных: структурирование последовательностей, обозначение начального и конечного токенов и индексов.
- Дообучение XLM-roBERTa.
Количество эпох - 1
Максимальная длина вопроса - 384
Максимальная длина ответа - 30
Number of folds - 5
Длина батча - 4
- Получение предсказаний