juan_gandhi: (Default)
[personal profile] juan_gandhi
 https://en.wikipedia.org/wiki/James%E2%80%93Stein_estimator

Кароч, вот есть у нас нормальное распределение, сигма единица, среднее неизвестно. Делаем одно измерение, получаем точку x.

Как мы оценим среднее по этой точке? Да ее и взять, какие еще варианты. Ну или двумерное пространство, берем какую-нибудь точку, это и будет оценка.

А вот теперь трехмерное пространство. И тут точка x не годится! Советуют брать точку x-x/|x|. Сдвинуть надо. В случае n-мерного пространства берите x - (n-2)*x/|x|.

Вот что за бред, да? Одновременно оцениваем количеств мух в столовке номер шесть, среднюю оценку по философии Возрождения в Тюбингенском университете, и возраст судьи в штате Гаваи. После чего СДВИГАЕМ.

Такие дела. Противоречит массе интуитивных идей - однородности пространства, например.

Интересно, в физике это применимо?

Date: 2020-09-16 09:24 pm (UTC)
perdakot: (Default)
From: [personal profile] perdakot
Одновременно оцениваем количеств мух в столовке номер шесть, среднюю оценку по философии Возрождения в Тюбингенском университете, и возраст судьи в штате Гаваи. После чего СДВИГАЕМ.

Это потому что возраст судьи зависит от мух в столовке.
(reply from suspended user)
ded_maxim: (Default)
From: [personal profile] ded_maxim
Тут вот даётся геометрическая картинка: https://projecteuclid.org/euclid.ss/1331729980
ded_maxim: (Default)
From: [personal profile] ded_maxim
Тут без знания аксиоматики матстатистики сложно, на самом деле. Это ж не диплернинг, тут математику знать надо.

Например, в отличие от классической оценки максимального правдоподобия (то есть, самой случайной точки), оценка Джеймса-Стайна смещена (biased): ее матожидание не равно искомому среднему гауссианы. То есть, если мы ищем наилучщую несмещенную оценку, то смело оцениваем среднее дедовским способом, в полном соответствии с заветами Крамера и Рао.
ded_maxim: (Default)
From: [personal profile] ded_maxim
В байесовском подходе, кстати, этих заморочек не возникает: полагаем неизвестное среднее случайной величиной с каким-нибудь априорным распределением и минимизируем среднеквадратичную ошибку по всем возможным оценочным функциям. Если априорное распределение тоже гауссовское, то все опаньки, оптимальная оценочная функция получается в явном виде методом множителей Лагранжа. А тут вся фишка в том, что феномен Джеймса-Стайна имеет место в частотном (frequentist) подходе, где есть понятие допустимости (admissibility) оценочной процедуры: для любого возможного значения оцениваемого параметра, любая другая оценка будет хуже в смысле матожидания заданной целевой функции с этим значением параметра.
ded_maxim: (Default)
From: [personal profile] ded_maxim
Кстати, о подобных вещах еще Роббинс (который Курант и Роббинс) писал: https://projecteuclid.org/euclid.bsmsp/1200500224

Date: 2020-09-17 01:42 am (UTC)
skittishfox: (Default)
From: [personal profile] skittishfox
Это в основном в физике и применяется, так как, если вы заметили, в сдвиге явно задаётся значение дисперсии, которое считается а) известным и б) равным для всех величин. В прикладной статистике такие условия практически никогда не выполняются.

В физике же это явно присутствует в signal processing, когда значения сигмы ясны из характеристик канала, поэтому сглаживание помогает, и в теорфизике, которую я знаю плохо и по которой сказать ничего не могу. Фактически, вы пользуетесь тем фактом, что у вас есть псевдослучайная выборка из распределения с известным параметром, и именно благодаря знанию этого параметра вы можете выжать дополнительную информацию.

В вашем примере никакй однородности пространства нет, так как вы явно задвигаете, что все ваши переменные заведомо (а не эмпирически - это важно!) имеют нулевую корреляцию и одинаковую сигму. Заведомо нулевые корреляции можно получить или в хитром процессе, или в теорфизических выкладках - на практике у вас этого знания нет, из-за чего эстиматор и ломается в реальном мире.

Date: 2020-09-17 01:54 am (UTC)
skittishfox: (Default)
From: [personal profile] skittishfox
Да, и не забывайте, что независимые случайные величины можно легко получить из зависимых случайных величин с Гауссовым распределениям путём линейной трансформации на principal components. Грубо говоря, если у вас есть РЛС, у которой погрешности по трём координатам зависимы, но распределение которых известно с хорошей точностью, вы можете использовать этот факт, чтобы получить более хорошую оценку координат объекта в трёх измерениях.

Но, повторюсь, для этого вам нужно потратить время на изучение распределения погрешностей, и - это важно! - они должны быть нормальными, а не чем-то более хитрым.

В вашем примере, предполагается, что вы долго изучали совместное распределение мух, оценку по истории Возрождения, и возраст судьи в Гавайах, и знаете совместное распределение. Если вы этого распределения не знаете - то вы ничего не выигрываете, так как эстиматор ломается на сигме.

Date: 2020-09-17 01:55 am (UTC)
math_mommy: (Default)
From: [personal profile] math_mommy
С возрастанием размерности на все большей части области определения значение плотности вероятности существенно меньше среднего.
Скажем, в одномерном случае вероятность того, что случайное значение отклонилось от среднего меньше, чем на единицу, около 68%. То есть больше половины. Практически все остальное будет не дальше, чем 3 сигмы. Смотрим на картинку и сравниваем расстояния, а так же площади областей под интегралами. А в двухмерном случае мы интегрируем не по отрезку, а по квадрату вокруг среднего, со стороной 2. Соответсвующее остальное теперь будет размазано по бОльшему квадрату со стороной 6. (Насколько оно остальное - еще посчитать нужно.) То есть место, где достигается это среднее, с возрастанием размерности снижается по объему (объем здесь в обобщеном смысле) к остальному.
Мне интересно - а в статистистическом софте это где-нибудь имплементировано?

Date: 2020-09-17 02:27 am (UTC)
alexanderr: (Default)
From: [personal profile] alexanderr

с физикой тут крупнейшие нелады с самого начала.

даже не вникая в вопрос, ставим двойку или даже кол.

х имеет свою размерность, а х/|x| это безразмерное число.
вычислять x-x/|x|это все равно, что складывать километры и килограммы

Date: 2020-09-17 03:05 am (UTC)
ded_maxim: (Default)
From: [personal profile] ded_maxim
Во первых, там делится не на |x|, а на |x|^2 (в начальном посте ошибка). А во-вторых, x/|x|^2 умножается на (n-2)sigma^2, так что размерность икса никуда не девается.
Edited Date: 2020-09-17 03:07 am (UTC)

Date: 2020-09-17 03:35 am (UTC)
alexanderr: (Default)
From: [personal profile] alexanderr
ага, т.е. речь идет о совсем другой формуле!
ну просто ничего общего. тут тебе и сигма в квадрате
и n-2 и все дела

Date: 2020-09-18 03:11 am (UTC)
perdakot: (Default)
From: [personal profile] perdakot
х/|x| это безразмерное число

Какая размерность у |x| при x=(2 мухи, 4.7 балла, 57 лет)?

Date: 2020-09-18 03:41 am (UTC)
alexanderr: (Default)
From: [personal profile] alexanderr
ну, составлять вектор из величин разной размерности это тоже неправильно.
при повороте они перемешаются.

кстати, в этом одна из проблем системы единиц SI, там электрическое поле
и магнитное оказались с разными размерностями, т.е. полный анекдот.
почти как в вашем примере

Date: 2020-09-17 06:36 am (UTC)
gonchar: (Default)
From: [personal profile] gonchar
Не знал про такую штуку.
Кажется странной, очень.

А Вы проверяли все рассуждения сами? Начиная с посылок. Может, там в неявном виде что-то засунуто?

Мне самому трудно - трудоёмко. Всё-таки в нормальной математике я не практиковался лет 30, надо будет всё себе разжёвывать.

Date: 2020-09-17 04:27 pm (UTC)
gonchar: (Default)
From: [personal profile] gonchar
Вряд ли ошибка в формальном доказательстве.
Но в посылках, в привязке этих посылок к интуитивно понимаемому реальному миру - возможно, там что-то сомнительное.

Date: 2020-09-17 09:25 am (UTC)
e2pii1: (Default)
From: [personal profile] e2pii1
Интересный эффект. В английской вики есть про него.

Date: 2020-09-17 09:57 am (UTC)
norian: (Default)
From: [personal profile] norian
статистика вообще неприменима к одной точке, ей нужны большие множества для построения моделей


Date: 2020-09-17 07:12 pm (UTC)
From: [personal profile] caztd
Природа таки тяготеет к нулю, да.
Если измерение x не превышает уровня шума, то скорее всего вы померили шум.

Profile

juan_gandhi: (Default)
Juan-Carlos Gandhi

May 2025

S M T W T F S
    1 2 3
456 7 8 9 10
11 121314151617
18192021222324
25262728293031

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated May. 15th, 2025 06:10 pm
Powered by Dreamwidth Studios