Расширенная версия корпуса RuATD представлена как Corpus of Artificial Texts (CoAT).
- HuggingFace: hf.co/datasets/RussianNLP/coat
- RuATD paper: arxiv.org/abs/2206.01583 (Dialogue 2022)
- CoAT paper: cambridge.org/core/journals/natural-language-processing/article/coat-corpus-of-artificial-texts (NLP 2025)
@article{shamardina2025coat,
title={CoAT: Corpus of artificial texts},
author={Shamardina, Tatiana and Saidov, Marat and Fenogenova, Alena and Tumanov, Aleksandr and Zemlyakova, Alina and Lebedeva, Anna and Gryaznova, Ekaterina and Shavrina, Tatiana and Mikhailov, Vladislav and Artemova, Ekaterina},
journal={Natural Language Processing},
volume={31},
number={1},
pages={150--175},
year={2025},
publisher={Cambridge University Press}
}
@article{shamardina2022findings,
title={Findings of the the ruatd shared task 2022 on artificial text detection in russian},
author={Shamardina, Tatiana and Mikhailov, Vladislav and Chernianskii, Daniil and Fenogenova, Alena and Saidov, Marat and Valeeva, Anastasiya and Shavrina, Tatiana and Smurov, Ivan and Tutubalina, Elena and Artemova, Ekaterina},
journal={arXiv preprint arXiv:2206.01583},
year={2022}
}
Современные модели генерации текстов показывают впечатляющие результаты: они могут сочинить стихотворение, изменить стиль текстов и даже написать осмысленное эссе на свободную тематику. Однако такие модели могут быть использованы в злонамеренных целях, например, для генерации фейковых новостей, отзывов на продукты и политического контента. Так, возникает новая задача: научиться отличать тексты, написанные человеком, от текстов, сгенерированных нейросетевыми языковыми моделями.
Соревнование RuATD (Russian Artificial Text Detection) посвящено задаче автоматического распознавания сгенерированных текстов и предлагает участникам рассмотреть две постановки:
- Определить, был ли текст сгенерирован автоматически или написан человеком;
- Определить, какая именно модель была использована для генерации данного текста.
С формальной точки зрения, первая задача является задачей бинарной классификации, а вторая – мультиклассовой классификации. Обучающие и тестовые данные размечены автоматически. Тексты, написанные человеком, собраны из открытых источников. Различные нейросетевые языковые модели – машинного перевода, парафразирования, суммаризации, упрощения и безусловной генерации текстов – использованы для генерации текстов.
Схема бинарной разметки содержит следующие обозначения:
- H – текст написан человеком
- M – текст сгенерирован автоматически
Схема мультиклассовой разметки содержит следующие обозначения:
- OPUS-MT – текст сгенерирован моделью машинного перевода OPUS
- ruGPT3-Large – текст сгенерирован моделью ruGPT3-Large
- и так далее
Файлы sample_submit_binary и sample_submit_multiple представляют формат данных для отправки на платформу соревнования.
Пример обучающих данных представлен в таблице ниже.
| H | M-MT (FR→RU) |
|---|---|
| Эх, у меня может быть и нет денег, но у меня всё ещё есть гордость. | Может, у меня нет денег, но у меня всегда есть гордость. |
| Меня покусали комары. | Меня похитили муски. |
| Я не могу чувствовать себя в гостинице как дома. | Я не могу чувствовать себя дома в отеле. |
| Эта книга показалась мне интересной. | Я нашёл эту интересную книгу. |
| Я был полон решимости помочь ему, даже рискуя собственной жизнью. | Я был готов помочь ему в опасности своей жизни. |
| Моя квартира находится меньше чем в пяти минутах пешком от станции. | Моя квартира находится на расстоянии менее пяти минут от станции. |
Для оценки решений в соревновании будет использована стандартная метрика оценки качества классификации — доля правильных ответов модели (accuracy).
Организаторы предоставляют два базовых решения задачи:
- tf-idf + логистическая регрессия
- дообучение модели ruBERT
Код базовых решений доступен в репозитории соревнования.
- Соревнование RuATD проводится на двух независимых платформах Kaggle: бинарная классификация (kaggle) и мультиклассовая классификация (kaggle).
- Участникам разрешается использовать любые технологии и дополнительные данные, кроме поиска в интернете и непосредственной разметки тестовых данных.
- Тестовые файлы содержат одновременно и публичные, и приватные данные. В ходе тестирования будет открыт публичный лидерборд, по завершению тестирования – приватный лидерборд.
- Тестирование будет завершено 25 февраля 2022, 9 утра (Московское время).
- Для подсчета итогового результата на приватном лидерборде участник может выбрать три своих лучших решения. Если участник ничего не отметил автоматически выбираются три лучших сабмита по метрикам на публичном лидерборде.
- Итоговые места присваиваются по результатам на приватном лидерборде (решения не прошедшие проверку в распределении мест не участвуют).
- С 25 февраля по 28 февраля будет проходить дополнительная стадия кросс-проверки полученных решений.
- Участники получат ссылку на опросник, в котором надо будет заполнить следующие поля:
- ответить на несколько вопросов об отправленном решении (для статьи организаторов на Диалог)
- предоставить ссылку на решение в открытом доступе
- или приложить код поданного решения.
- Полученные ссылки на решения организаторы распространят между участниками и попросят провести проверку. Мы попросим проверить следующие критерии:
- использует ли решение поиск в интернете или нет
- использует ли решение ручную разметку тестовых данных
- Организаторы обязаются так же участвовать в проверке решений и гарантируют, что каждое решение будет проверено.
- Решения, использующие поиск в интернете, будут дисквалифицированы и сняты с общих лидербордов.
- Все участники соревнования будут приглашены к подаче статей в сборник Диалога (вне зависимости от того, было ли дисквалифицировано решение).
- Статьи, посвященные дисквалицифированым решениям, получат дополнительную пометку, как проходящие вне общего конкурса.
- Конец декабря 2021 - начало января 2022 – публикация обучающих данных
- 17 января 2022 – открытие платформ тестирования
- 7 марта 2022, 9 утра (Мск) – закрытие тестирования
- 8 марта - предварительное подведение итогов
- 9-13 марта 2022 - кросспроверка и официальное подведение итогов
- 25 марта 2022 – завершаем прием статей
Екатерина Артемова (НИУ ВШЭ, Huawei Noah’s Ark Lab)
Анастасия Валеева (МФТИ)
Константин Николаев (НИУ ВШЭ)
Владислав Михайлов (SberDevices)
Марат Саидов (НИУ ВШЭ)
Иван Смуров (ABBYY, МФТИ)
Елена Тутубалина (Sber AI, НИУ ВШЭ)
Алена Феногенова (SberDevices)
Даниил Чернявский (Skolkovo Institute of Science and Technology)
Татьяна Шаврина (AIRI, SberDevices)
Татьяна Шамардина (ABBYY)