Maximum Likelihood Estimator

Есть некоторая задача, с уложенненой версией которой я никак не могу справиться.

Два редактора проверяют один и тот же текст. Первый редактор нашел в тексте {n}_1 ошибок, а второй редактор – {n}_2. При этом, количество ошибок найденных обоими редакторами – {n}_{1,2}. Оцените общее количество ошибок в тексте N.

Думаю, довольно несложно догадаться, что общее количество ошибок в тексте N оценивается вот так:

Спойлер
N=\frac{n_1n_2}{n_{1,2}}

так как:

p_1\approx\frac{n_1}{N}
\hat{p_1}={\frac{n_{1,2}}{n_2}}

Однако, для меня остается некоторой загадкой как решить такую задачу когда у нас больше, чем два редактора. Допустим, у нас есть три редактора, и каждый из них находит n_1, n_2 и n_3 ошибок в тексте, соотвественно. Также, мы можем найти количество общих ошибок между двумя любыми редакторами n_{i,j}, где i,j =1,2,3 и i\neq{j}. Также, нам может быть известно общее количество ошибок между всеми тремя редакторами – n_{1,2,3}.

Ресурс, где я нашел обобщение исходной задачи предлагает следующий ответ в виде рекурсирвного решения для задачи с m редакторами:

Спойлер
\hat{N}=\frac{n_f}{1-\prod_{i=1}^{m} (1-\hat{p_i})}
\hat{p_i}=\frac{n_i}{\hat{N}}

Буду признателен за любую помощь в разъяснении!

ЗЫ. Я не знал в какой раздел поместить эту задачу, ибо я не уверен насколько это есть школьная математика, а из оставшихся разделов только комбинаторика близка к статистике, но ведь всё равно не эквивалентна ей. Буду рад, если появится раздел для статистики <3

Заметил, что забыл упомянуть один момент в конечном ответе:

n_f – количество ошибок, обнаруженных как минимум одним из редакторов

1 лайк

А че, а почему? Почему не n_1+n_2-n_{1,2}?

Так мы же не имеем права утвержать, что редакторы вместе нашли абсолютно все ошибки в тексте. То есть, условно, я нашел 15, вы нашли 25, но общих найденных у нас всего 10. Это говорит о том, что я проглядел как минимум 15, а Вы – 5. При этом вероятно, что есть еще какое-то количество ошибок в тексте, которые ни Вы, ни я не обнаружили. (А если бы n_1=n_2=n_{1,2}, то и N был бы равен n_{1,2})

Так, в тексте выше мы принмаем, что вероятность того, что первый редактор найдет определенную ошибку – p_1. Нахождение каждой ошибки это независимое событие, которое определяется вероятностью p_1 (aka Bernoulli random variable). И отсюда пляшем.

Ну а вообще нахождение ошибок одним редактором это биноминальное распледеление

X \sim B(n,p)

, где n – количетсво ошибок в тексте, а p – вероятность того, что редактор найдет ошибку

Так, наша задача сводится к тому, что для следующей системы:

X_1 \sim B(N,p_1)
X_2 \sim B(N,p_2)

Нам надо оценить параметр N (попутно мы оцениваем и параметры p_i)

1 лайк

а, я подумал, что n_i это просто числа, а не случайные переменные

1 лайк

Если нам это известно, то почему мы не можем повторить логику двух редакторов и сказать что:

\frac{n_1n_2n_3}{N^2}=n_{1,2,3}
1 лайк