Stein's estimator
Sep. 16th, 2020 01:48 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
https://en.wikipedia.org/wiki/James%E2%80%93Stein_estimator
Кароч, вот есть у нас нормальное распределение, сигма единица, среднее неизвестно. Делаем одно измерение, получаем точку x.
Как мы оценим среднее по этой точке? Да ее и взять, какие еще варианты. Ну или двумерное пространство, берем какую-нибудь точку, это и будет оценка.
А вот теперь трехмерное пространство. И тут точка x не годится! Советуют брать точку x-x/|x|. Сдвинуть надо. В случае n-мерного пространства берите x - (n-2)*x/|x|.
Вот что за бред, да? Одновременно оцениваем количеств мух в столовке номер шесть, среднюю оценку по философии Возрождения в Тюбингенском университете, и возраст судьи в штате Гаваи. После чего СДВИГАЕМ.
Такие дела. Противоречит массе интуитивных идей - однородности пространства, например.
Интересно, в физике это применимо?
Кароч, вот есть у нас нормальное распределение, сигма единица, среднее неизвестно. Делаем одно измерение, получаем точку x.
Как мы оценим среднее по этой точке? Да ее и взять, какие еще варианты. Ну или двумерное пространство, берем какую-нибудь точку, это и будет оценка.
А вот теперь трехмерное пространство. И тут точка x не годится! Советуют брать точку x-x/|x|. Сдвинуть надо. В случае n-мерного пространства берите x - (n-2)*x/|x|.
Вот что за бред, да? Одновременно оцениваем количеств мух в столовке номер шесть, среднюю оценку по философии Возрождения в Тюбингенском университете, и возраст судьи в штате Гаваи. После чего СДВИГАЕМ.
Такие дела. Противоречит массе интуитивных идей - однородности пространства, например.
Интересно, в физике это применимо?
no subject
Date: 2020-09-16 09:24 pm (UTC)Это потому что возраст судьи зависит от мух в столовке.
no subject
Date: 2020-09-16 10:14 pm (UTC)Да, в любую сторону можно сдвигать, верно.
классика матстатистики, епта
Date: 2020-09-17 01:19 am (UTC)Re: классика матстатистики, епта
Date: 2020-09-17 01:46 am (UTC)Картинку вижу, но не понимаю. Тем более, что двигать-то можно в любую сторону.
Re: классика матстатистики, епта
Date: 2020-09-17 03:15 am (UTC)Например, в отличие от классической оценки максимального правдоподобия (то есть, самой случайной точки), оценка Джеймса-Стайна смещена (biased): ее матожидание не равно искомому среднему гауссианы. То есть, если мы ищем наилучщую несмещенную оценку, то смело оцениваем среднее дедовским способом, в полном соответствии с заветами Крамера и Рао.
Re: классика матстатистики, епта
Date: 2020-09-17 03:20 am (UTC)Re: классика матстатистики, епта
Date: 2020-09-17 03:24 am (UTC)no subject
Date: 2020-09-17 01:42 am (UTC)В физике же это явно присутствует в signal processing, когда значения сигмы ясны из характеристик канала, поэтому сглаживание помогает, и в теорфизике, которую я знаю плохо и по которой сказать ничего не могу. Фактически, вы пользуетесь тем фактом, что у вас есть псевдослучайная выборка из распределения с известным параметром, и именно благодаря знанию этого параметра вы можете выжать дополнительную информацию.
В вашем примере никакй однородности пространства нет, так как вы явно задвигаете, что все ваши переменные заведомо (а не эмпирически - это важно!) имеют нулевую корреляцию и одинаковую сигму. Заведомо нулевые корреляции можно получить или в хитром процессе, или в теорфизических выкладках - на практике у вас этого знания нет, из-за чего эстиматор и ломается в реальном мире.
no subject
Date: 2020-09-17 01:47 am (UTC)Все равно поразительно.
no subject
Date: 2020-09-17 01:54 am (UTC)Но, повторюсь, для этого вам нужно потратить время на изучение распределения погрешностей, и - это важно! - они должны быть нормальными, а не чем-то более хитрым.
В вашем примере, предполагается, что вы долго изучали совместное распределение мух, оценку по истории Возрождения, и возраст судьи в Гавайах, и знаете совместное распределение. Если вы этого распределения не знаете - то вы ничего не выигрываете, так как эстиматор ломается на сигме.
no subject
Date: 2020-09-17 01:55 am (UTC)Скажем, в одномерном случае вероятность того, что случайное значение отклонилось от среднего меньше, чем на единицу, около 68%. То есть больше половины. Практически все остальное будет не дальше, чем 3 сигмы. Смотрим на картинку и сравниваем расстояния, а так же площади областей под интегралами. А в двухмерном случае мы интегрируем не по отрезку, а по квадрату вокруг среднего, со стороной 2. Соответсвующее остальное теперь будет размазано по бОльшему квадрату со стороной 6. (Насколько оно остальное - еще посчитать нужно.) То есть место, где достигается это среднее, с возрастанием размерности снижается по объему (объем здесь в обобщеном смысле) к остальному.
Мне интересно - а в статистистическом софте это где-нибудь имплементировано?
no subject
Date: 2020-09-17 02:27 am (UTC)с физикой тут крупнейшие нелады с самого начала.
даже не вникая в вопрос, ставим двойку или даже кол.
х имеет свою размерность, а х/|x| это безразмерное число.
вычислять x-x/|x|это все равно, что складывать километры и килограммы
no subject
Date: 2020-09-17 03:05 am (UTC)no subject
Date: 2020-09-17 03:35 am (UTC)ну просто ничего общего. тут тебе и сигма в квадрате
и n-2 и все дела
no subject
Date: 2020-09-17 04:35 am (UTC)Не, это я ошибся. Все норм с размерностями, надо умножать на сигма квадрат и делить на икс квадрат.
no subject
Date: 2020-09-18 03:11 am (UTC)Какая размерность у |x| при x=(2 мухи, 4.7 балла, 57 лет)?
no subject
Date: 2020-09-18 03:41 am (UTC)при повороте они перемешаются.
кстати, в этом одна из проблем системы единиц SI, там электрическое поле
и магнитное оказались с разными размерностями, т.е. полный анекдот.
почти как в вашем примере
no subject
Date: 2020-09-18 03:49 am (UTC)Нормировать надо, тогда размерности не будет.
no subject
Date: 2020-09-17 06:36 am (UTC)Кажется странной, очень.
А Вы проверяли все рассуждения сами? Начиная с посылок. Может, там в неявном виде что-то засунуто?
Мне самому трудно - трудоёмко. Всё-таки в нормальной математике я не практиковался лет 30, надо будет всё себе разжёвывать.
no subject
Date: 2020-09-17 03:28 pm (UTC)Доказательство длинное (ссылка в статье), с изысканными формулами и интегралами. По идее, ничего сложного, но проверять все это... сто раз уже проверили, с пятидесятых.
no subject
Date: 2020-09-17 04:27 pm (UTC)Но в посылках, в привязке этих посылок к интуитивно понимаемому реальному миру - возможно, там что-то сомнительное.
no subject
Date: 2020-09-17 09:25 am (UTC)no subject
Date: 2020-09-17 09:57 am (UTC)no subject
Date: 2020-09-17 07:12 pm (UTC)Если измерение x не превышает уровня шума, то скорее всего вы померили шум.