Часть №2. Корреляция между областным и заключительным этапом
Особое удовольствие приносит поиск неявных допущений, на которых зиждутся наши решения. Например, республиканская олимпиада проходит в три этапа: районный, областной и заключительный. На областной этап проходят победители районного этапа, на заключительный - победители областного.
В данном случае мы, даже если сами того не осознаем, подразумеваем, что результат ученика на областной олимпиаде выступает показателем того, как ученик может выступить на заключительном этапе. Иными словами, мы допускаем, что лучше всего на заключительном этапе выступят те, кто лучше всего выступил на областном. Иначе с какой стати мы приглашаем победителей областного этапа? Понимаете насколько это фундаментальный вопрос?
В этом году, на удивление, впервые в истории РНПЦ Дарын опубликовал результаты областного этапа в интернете. Естественно, сделано это было для галочки, а не ради того, чтобы этими данными мог кто-то пользоваться. Поэтому половина протоколов была опубликована в PDF формате, часть нельзя было скачать, и все протоколы были в разном формате. Но, волевыми усилиями @Aoi_Kuro и @Miras был совершен OCR, все таблицы стандартизированы и приведены к единому формату, что сильно упростило задачу написания скрипта для анализа.
В итоге, я решил посягнуть на сами основы и проверить насколько оправдано упомянутое выше допущение и насколько результаты на областном этапе коррелируют с результатами на заключительном. Посчитал коэффициенты Пирсона. Сделал линейную регрессию. Результаты прикладываю. Хорошие ли данные сказать не могу, было бы неплохо иметь что-то в качестве эталона сравнения. Как минимум надеюсь будет ориентиром на будущее.




Потом думаю, а как выглядит картина для каждой области по отдельности? Поскольку с каждого класса каждой области проходит по 2-3 ученика, считать корреляцию для каждого класса не имеет смысла (почему?), поэтому посчитал для всех трех классов сразу. Результаты прикладываю.

Для каждой области так же строил графики линейной регрессии. Их слишком много для одного поста, поэтому желающих приглашаю посмотреть их в репозиторие на гитхабе (там же код анализа).
Возможно вас, как и меня, удивляет низкий коэффициент для НИШа, поэтому прикладываю для примера пару графиков:


