Как обучить модель отличать мысли студента от генераций нейронной сети ?

Как обучить модель отличать мысли студента от генераций нейронной сети ?


В 1950 году выдающийся английский математик Алан Тьюринг предложил заменить философский вопрос «Может ли машина мыслить ?» на практический эксперимент, которому дал название «Игра в имитацию». Суть игры предельно проста: судья ведет диалог с двумя собеседниками, которых не видит. Один из них человек, а второй – машина. Если в 50% случаев судья не смог определить кто перед ним человек или программа, то считается, что машина прошла тест. Тьюринг полагал, что для победы компьютеру достаточно имитировать лингвистические привычки людей, не нужно проявлять эмоции: сочувствовать или сопереживать.

Спустя 76 лет мы оказываемся в ситуации, когда «Игра в имитацию» перестала быть опытом. Теперь, к сожалению, детекция самостоятельности выполнения работ стала неотъемлемой частью образовательного процесса. Студент, используя нейросети, по сути, делегирует  машине роль собеседника, а преподаватель, сам того не подозревая, становится судьей.

Изначально Тьюринг предполагал, что судья внимателен и беспристрастен. Однако на деле преподаватель сталкивается с рядом факторов, которые Тьюринг не учитывал:

  • Человеческий фактор. Мы склонны верить грамотному тексту больше, чем небрежному, даже если первый написан нейросетью, а второй — талантливым, но спешащим студентом.
  • Эволюция имитации. Современные языковые модели научились не просто генерировать ответы, но и имитировать стиль студента: допускать ошибки, опечатки, использовать просторечные обороты.
  • Информационный шум. Когда нужно проверить много работ грань между имитацией и человеческой мыслью теряется.

В этих условиях классический тест Тьюринга перестает быть актуальным. Становятся необходимыми разработки, которые взяли бы на себя роль судьи, который способен  выявить статистические аномалии там, где не способны эксперты.

Как собрать идеальный датасет?

Любая нейронная сеть хороша настолько, насколько хороши данные, на которых она обучалась. Чтобы наш «судья» мог отличать студенческую работу от работы, написанной ии необходимо провести серию экспериментов по созданию идеальных наборов данных для обучения. Всего было исследовано 3 стратегии сбора данных.

  1. Архивы ВУЗов

Казалось бы, что это идеальная затея – обучить нейросеть на реальных работах студентов. Однако здесь кроется большая проблема, а именно дефицит качественных, проверенных экспертами работ. Обучать на такой малой выборке все равно, что учить человека распознавать тысячи сортов кофе, пробуя лишь 2 чашки.

  1. Заставить ИИ обучать ИИ

Когда данных для обучения не хватает, кажется, что самый простой выход — это просто попросить нейронку прикинуться студентом и написать необходимое количество работ для обучения другой нейронки. Однако и тут нас ожидала проблема. Стили написания работ ии и человеком существенно отличаются.  Мы провели интересный эксперимент: попросили так «прикинуться» студентами и написать работы GPT-4, Gemini, Grok, DeepSeek. Проведя сравнительное исследование, мы обнаружили, что при смешивании 60% текстов от GPT-4 и 40% от DeepSeek набор данных получается наиболее приближенным к тому, который дают нам исторические архивы ВУЗов

  1. Поиск «золотой» середины

Получается, что нельзя просто заставить ИИ написать данные для обучения, при этом также не хватит просто ВУЗовских архивов. В таком случае золотой серединой является смешать реальные студенческие работы и работы, написанные нейросетями. Экспериментальным путем мы выявили формулу: 40% работ студентов и 60% работ, написанных ИИ способны обеспечить достаточную выборку для качественного обучения нейронной сети.

 Давайте поразмышляем почему именно так. Студенческие 40% дают модели понимание человеческой речи, ее особенностей, несовершенств и ошибок.

Сгенерированные 60% помогают расширить имеющиеся данные, обеспечивая необходимый масштаб и разнообразие.

Такой микс позволил нам достичь максимальных показателей: точность системы взлетела, а лексическое богатство текстов (показатель TTR) стало оптимальным для обучения. Мы создали корпус из 477 эссе, который стал для нашей модели одновременно и учебником, и строгим экзаменатором.

Как мы обучали нейросеть оценивать и отличать студенческие работы от сгенерированных?

Когда база была собрана настал момент Х – создание самой модели, которая, обучаясь на предоставленных данных будет выставлять оценки и выносить вердикт самостоятельно была написана работа или сгенерирована при помощи ии.

В качестве основы была выбрана модель RuBERT-tiny2. Ее архитектура позволяет реализовать принцип многозадачного обучения, а также она идеально понимает нюансы русского языка. Представьте себе преподавателя на контрольной, который одновременно проверяет работы, а также пытается следить за группой не подсказывают ли студенты друг другу. Наша модель работает именно по такому принципу. Вместо того, чтобы создать две модели, реализующие функции оценки и детекции была создана одна модель, выполняющая эти функции параллельно.

Первой задачей модели является реализовать функцию педагога и оценить эссе по 5 критериям: логика и структура, языковая грамотность и стиль, глубина раскрытия темы, уместность примеров, оригинальность мысли. Она выставляет баллы так, как сделал бы опытный преподаватель.

Второй задачей является детекция самостоятельности написания работы. Параллельно с оценкой модель анализирует текст на предмет наличия «машинного следа». 

Эти задачи помогают друг другу. Когда модель обучается на гибридных данных она начинает понимать, как выстраивают логику повествования и стиль изложения студенты, а как нейронные сети. В архитектуру модели были добавлены специальные классификаторы, которые обрабатывают информацию из общего центра. В результате модель. Способна видеть текст как учебную работу и как объем статистических паттернов.

Оценка пригодности полученной модели

Для того, чтобы понять, насколько корректно полученная модель выставляет оценки и детектирует автора работы был проведен следующий эксперимент: модели было предложено оценить 9 новых эссе, которых не было в обучающей выборке, предварительно эссе были оценены преподавателями. В результате модель ошиблась в среднем на 0.6 – 0.8 балла. И это замечательный результат! Часто два преподавателя расходятся во мнениях гораздо сильнее. А точность модели в детекции сгенерированных работ составила 0.8, исходя из этого можно сделать вывод: модель достаточно пригодна для использования.

Выводы

В условиях, когда потоки студенческих работ исчисляются тысячами, ручная проверка неизбежно превращается в лотерею, зависящую от усталости или субъективности преподавателя. Наша работа доказывает, что гибридные модели могут стать тем самым «интеллектуальным фильтром», который необходим современному вузу. Мы создали инструмент, который делает систему прозрачной, а проверку почти мгновенной.

Оценить публикацию