Архив номеров

Оценивание в эпоху перемен: стоит ли меняться? Часть 1. Зачем неопределенности нормальность?

В последние годы идет широкая дискуссия среди метрологов и специалистов по реализации измерений (например, химиков-аналитиков) относительно того, надо ли оценивать качество результатов измерений с помощью концепции погрешности, или с помощью более модного направления, получившего название «неопределенность»? В этой дискуссии было высказано множество аргументов за и против и того, и другого подхода. В частности, в работе [1] проведено сравнение этих способов обработки данных на примере конкретной задачи, стоявшей перед аналитическим центром «РОСА». Хорошо видно, что оба подхода имеют разные сильные и слабые стороны. Так, неопределенность лучше учитывает компоненты, вносящие вклад в оценку, но требует гораздо больших усилий и дает более широкие диапазоны самой неопределенности. При этом оба подхода так или иначе опираются на законы распределения случайных величин, в первую очередь на так называемый нормальный закон, или закон Гаусса.

Много лет назад (в 1809 г.) великий немецкий математик Карл-Фридрих Гаусс (1777‒1855) опубликовал работу, в которой было представлено то самое «нормальное» распределение (НР), которое позднее стало связываться с его именем. Это был ответ на обра­щение берлинских астрономов. Они пытались построить уравнение, которое могло бы описать траекторию движения Луны по небу, и столкнулись с тем, что каждую ночь, когда они направляют телескоп в некоторую точку на небесной сфере, результаты получаются немного разными, из-за чего возникла не­которая неопределенность. В результате они попросили Гаусса помочь им правильно обработать результаты траекторных измерений...

Гаусс понял задачу так: есть некий закон природы, который характеризуется тем, что при попытке повторить результат наблюдений в строго фиксированных условиях результаты измерений отклоняются от неизвестного, но несомненно сущест­вующего «истинного» значения, причем чем больше отклонение, тем реже оно встречается. Опираясь на такое представление, Гаусс видел свою задачу в том, чтобы найти удобную для вычислений формулу, что он и сделал.

В результате появилось уравнение, которое действительно существенно облегчало вычисления, особенно после построения таб­лиц этого распределения, которое стали называть НР, или распределением Гаусса. Постепенно по мере все более широкого применения НР возникла некоторая подмена: вместо формулы, удобно описывающей результаты наблюдений, появился некий закон, которому обязаны подчиняться любые результаты наблюдений. Появилось то, что можно назвать «аксиомой нормальности».

Конечно, Гаусс понимал, что его формула не универсальна. Уже существовали распределения не непрерывных, как у Гаусса, а дискретных величин, например, распределение Бернулли. Но с ростом числа измерений, замена дискретного распределения непрерывным давала все меньшую ошибку, которую на практике вполне можно было не учитывать. В жизни все бывает не так просто, как в грубых схемах обзоров и заметок.

Насколько известно, первым нарисовал колоколообразную кривую нормального распределения и изучил некоторые ее свойства британский математик Абрахам де Муавр (1667‒1754) задолго до Гаусса, еще в 1733 г. А после выхода статьи Гаусса на него обиделся великий французский математик Адриан Мари Лежандр (1752‒1833), который обвинил Гаусса в плагиате. Другой великий французский математик Пьер Симон де Лаплас (1749‒1827), служивший посредником в споре Лежандра с Гауссом, в 1812 г. уточнил результаты Гаусса.

Но через много лет выяснилось, что у Гаусса был еще один конкурент — малоизвестный американский математик Роберт Адриан Эдрейн (1775‒1843), который опуб­ликовал свои результаты еще в 1808 г. Причем, само НР во всех этих спорах было связано с методом наименьших квадратов. Тем не менее молва сделала именно Гаусса автором, и лишь иногда говорят: «Нормальное распределение Гаусса‒Лежандра».

И эта формула завоевала мир и держит его в своих объятьях более 200 лет.

Почему это случилось?

Нам кажется, что ответ прост. Представьте себе, что вы специалист в какой-то конкретной области. Вам часто приходится обрабатывать результаты ваших наблюдений или измерений. Если бы не Гаусс, вам пришлось бы самому разрабатывать метод обработки ваших результатов, и вряд ли у вас получилось бы лучше, чем у Гаусса. А тут пришел Гаусс и сказал: «Делайте всегда так!».

Это же замечательно. Не нужно изучать новую специальность, не нужно искать какого-то специалиста, который бы вам помог. Можно всегда действовать по шаблону. В своей специальности у вас и так всегда много проблем, которые требуют времени и усилий. Вот ими и надо заниматься в первую очередь, а для обработки данных, слава богу, есть Гаусс. Есть же, в конце концов, принцип разделения труда, к которому мы все привыкли. А еще есть принцип бритвы Оккама, советующий не усложнять без необходимости. Но со временем необходимость все же появилась…

Откуда и почему начали появляться вопросы?

В 1901 г. в Великобритании начал издаваться журнал «Biomet­rika». Одним из его основателей был знаменитый британский статистик Карл Пирсон. Он полагал, что новый журнал будет собирать и публиковать работы, подтверждающие теорию происхождения видов, созданную Чарльзом Дарвином. Создатели этого журнала уже понимали, что нельзя обойтись только нормальным законом. Поэтому Пирсон построил систему распределений. Она учитывала четыре момента распределения случайной величины: первый момент — среднее арифметическое, второй момент — дисперсию, третий момент — асимметрию и четвертый — эксцесс.

Нормальное распределение в этом ряду возникало в случае, если для описания распределения было достаточно использовать только первые два момента — среднее и дисперсию. На рисунке показана плоскость треть­его (β1) и четвертого (β2) моментов, с помощью которой статистики обычно демонстрируют диапазон изменения параметров кривых Пирсона (см., например, [3]). Здесь нам важно обратить внимание читателя на следующее: НР — это всего лишь одна точка (выделена черным на рисунке) с координатами (0,3).

Множество других возможных законов распределения запол­няет пространство между синей и пунктирной линиями, и оно содержит бесконечное число таких законов. А еще есть система уравнений Джонсона, а потом есть бесконечное число суперпозиций и композиций законов распределения и так далее. Другими словами, реальность нашего мира никак не укладывается в Прокрустово ложе НР.

Попутно выяснилось, что оценивание моментов более высоких порядков часто получается накладно. Для разумной оценки асимметрии нужны сотни наблюдений, а эксцесс требует уже тысяч наблюдений. Такие утверждения связаны с тем, что, чем выше степень момента случайной величины, тем более «разнузданно» ведут себя отклонения. Таким образом, практики поняли, что, с одной стороны, с Гауссом не все так уж хорошо, а с другой стороны, отказ от него ведет к трудностям. Поэтому возникла попытка спасти НР, сделав его применение более обоснованным. Для этого предлагалось ввести проверку гипотезы нормальности с помощью критерия Пирсона «хи-квадрат».

Это был большой шаг вперед, но, как всегда в прикладной статистике, оказалось, что если критерий не отвергает гипотезу о нормальности, это вовсе не означает, что имеет место именно НР. Эмпирические данные могут не противоречить множеству других законов распределения, которые будут столь же «истинными», как и НР, но все они будут давать заметно различающиеся значения вероятностей на хвос­тах, что обычно представляет основной интерес для практики.

Поэтому ответ всегда полу­чается неопределенным, кроме, конечно, того случая, когда гипотеза нормальности отвергается. Дьёрдь Пойя как-то заметил: «Природа говорит „нет“ громовым голосом, а вместо „да“ что-то невнятно промямливает». Несмотря на грандиозность замысла, идея Пирсона провалилась. А журнал имел успех и продолжает выходить поныне.

К тому времени люди успели накопить большой опыт работы с иными распределениями, кроме нормального. Стало понятно, что, например, распад изотопов описывается распределением Пуассона, а размеры частиц горной породы после измельчения в шаровой мельнице под­чиняются закону распределения, хоть и нормальному, но для ло­гарифмов данных. Такое распределение стали называть логнормальным.

Поскольку работа с нормальным распределением казалась пределом мечтаний, люди обнаружили, что с помощью подходящего преобразования практически любые данные можно сделать, если не точно, то приближенно, нормальными. Но радость этого открытия быстро иссякла, когда стало понятно, что оценки, которые легко получаются для преобразованных величин, к сожалению, оказываются смещенными, а обратное преобразование все возвращает назад.

Это значит, что наилучшая в каком-то смысле оценка, полученная для преобразованной случайной величины, не будет соответствовать наилучшей оценке для исходных данных, которую мы могли бы получить, если бы сумели получить их без преоб­разований, преодолев технические трудности. Выход, правда, есть: надо научиться говорить на языке преобразований, тогда не будет нужды возвращаться к исходным данным. Примеры такого рода известны, но те, кому это удавалось, вполне могли рассчитывать на Нобелевскую премию, как это случилось, например, со шведским химиком Сванте Аррениусом, создавшим теорию химической кинетики. Так что этот путь тоже не очень перспективен.

Мир лихорадочно искал выхода из сложившейся ненормальной ситуации. Первым внес свой вклад выдающийся британский ученый сэр Рональд Фишер. Он предложил метод максимума правдоподобия, который позволял находить оценки параметров любого наперед заданного распределения, правда, уже не вручную, а с помощью иногда довольно слож­ного алгоритма. Выделенные курсивом слова означают, что мы априори знаем закон распределения интересующей нас величины и уверены в его неизменности. Беда заключается только в том, что такой исключительно высокий уровень знаний об объекте, то есть уровень априорной информации, на практике встречается чрезвычайно редко. Конечно, если заранее известно, что закон именно нормальный, то все будет хорошо.

Одновременно шли параллельные процессы. С одной стороны, постоянно усложнялись объекты исследования, а с другой стороны, столь же быстро росли требования к точности получаемых результатов. Собственно, началось это еще в конце XIX в. Человек, который был вынужден писать под псевдонимом Стьюдент (Уильям Сили Госсет (1876‒1937)), изучая концентрацию сахаров в хмеле, важных в процессе брожения при производстве пива, обнаружил, что если число наблюдений мало, скажем, в пределах десяти, то «хвосты» нормального распределения приподнимаются, увеличивая вероятность наступления редких событий. Такая разновидность нормального распределения получила название распределения Стьюдента.

А в 30-х гг. прошлого века Рихард Фон Мизес (1883‒1953) в Австрии установил, что приблизительно при числе наблюдений, превышающем тридцать, с практической точки зрения можно считать, что эмпирическое распределение становится неотличимым от теоретического. Если, конечно, точно известно, что оно нормальное. Сильный удар по представлениям об универсальности нормального закона нанесли работы Николаса Нассима Талеба (род. в 1960 г.), особенно «Черный лебедь. Под знаком непредсказуемости» (2007), в котором ярко показана опасность стандартного подхода к макро­экономике.
Что же делать, если закон распределения неизвестен, а данные надо обрабатывать?

Прежде всего приходит в голову подход, берущий начало далеко в XVIII в., когда англиканский священник преподобный Томас Байес (1702‒1761) предложил формулу условной вероятности (опубликована посмертно в 1763 г.), из которой через много лет возник байесовский метод оценивания. Если не увлекаться формулами, то можно грубо сказать, что он основан на идее о том, что задавшись изначально каким угодно распределением, да хоть нормальным, можно приступить к сбору данных, систематически проверяя гипотезу о том, согласуются ли накопленные к текущему моменту данные с заданным распределением. Как только наступит момент, а он рано или поздно наступит обязательно, когда при выбранных вероятностях уже нельзя будет считать, что собранные данные согласуются с выбранным распределением, тогда процесс сбора данных временно приостанавливается, мы говорим, что мы пошутили, и предлагаем какое-нибудь другое распределение. И сбор данных продолжается до тех пор, пока очередное распределение не постигнет та же участь, что и предыдущее.

Так, последовательно перебирая гипотезы о законе распределения, можно, если хватит жизни, дойти до распределения, которое уже не имеет смысла отбрасывать. Этот процесс Карл Раймунд Поппер (1902‒1994) назвал «фальсификацией» гипотез о распределениях. Внешне он выглядит вполне респектабельно, но на поверку, никогда не хватает времени или каких-нибудь еще ресурсов, чтобы воплотить его в жизнь.

По мере роста вычислительных мощностей стали появляться подходы, которые ранее были просто немыслимы. Один из них связан с идеей «робастности». Этот термин был предложен Джорджем И.П. Боксом (1919–2013) в 1950 г. Его идея заключается в том, что, поскольку все равно никогда не удается добиться строгой нормальности, можно попытаться получить интересующие нас оценки так, чтобы они как можно меньше зависели вообще от вида закона распределения. Можно, например, представить себе оценки, которые были бы наилучшими в некотором заранее заданном смысле, если точно известно, что распределение либо нормально, либо логнормально. За возникающую дополнительную неопределенность приходится платить дополнительными вычислениями. Обобщая эту идею, Джон Уайдлер Тьюки (1915‒2000) построил оценку среднего, которая будет наилучшей для широкого класса распределений. Он назвал ее «гофер» оценкой (то есть непотопляемой), поскольку, согласно Библии, из дерева этой породы был сделан Ноев Ковчег. Через несколько лет Генити Тагути (1924–2012) переиначил идею робастности для защиты оценок от влияния других переменных не в связи с законами распределения.

В середине прошлого века американский инженер Фрэнк Уилкоксон (1892‒1965) предложил систематический подход к построению оценок, которые не требуют параметрического описания закона распределения. Полвека ушло на превращение этого подхода в полноценную альтернативу параметрической статистики, и теперь мы имеем возможность всякий раз, как только возникает сомнение в законе распределения (а когда оно не возникает?), вместо мучительных размышлений о надежности наших представлений о фактическом законе распределения просто использовать непараметрические методы. Конечно, важно отдавать себе отчет в том, в какую игру мы играем. Дело в том, что индийский статистик Рагу Радж Бахадур (1924‒1997) показал, что, если данные строго подчиняются нормальному закону, а мы применяем непараметрические методы, то их эффективность в сравнении с классическим параметрическим подходом будет в «пи» раз хуже. Практически это значит, что оценки неопределенности данных будут в три раза шире классических.

Эту мысль можно выразить и иначе: для получения результатов, сравнимых с классическими, нам потребуется примерно на порядок больше параллельных данных. Казалось бы, это неравенст­во раз и навсегда отвратит нас от непараметрического подхода. Но есть и обратная сторона: если мы применяем параметрический подход к данным с неизвестным распределением, то потери эффективности оценок могут отличаться не в лучшую сторону как угодно сильно (в разы, на порядки, и так далее). Поскольку вероятность того, что мы имеем дело с нормальным распределением ничтожно мала, хотя и не равна нулю, выбор непараметрического подхода, на наш взгляд, очевиден.

К сказанному стоит еще добавить, что классический подход совершенно бессилен для существенно дискретных данных, таких, например, как экспертные суждения. Метрология избегает работы с данными такого рода, предпочитая «физические» измерения, что несостоятельно. После знаменитой дискуссии Нильса Хенрика Давида Бора (1885‒1962) с Альбертом Эйнштейном (1879‒­1955) стало ясно, что не удается исключить измерительный инструмент, а следовательно, и человека из процесса измерений, даже самых автоматизированных. Значит доля экспертного суждения, или, если угодно, субъективизма, неизбежно связана с любым измерением. А для непараметрического подхода дискретность не служит препятствием. Вообще, эти инструменты работают со всеми типами измерительных шкал, от шкалы номиналов, через шкалу порядка, шкалу интервалов, до шкалы, которую любят метрологи, где царят хорошо определенные количественные показатели с непрерывными областями определения.

Какие же альтернативы есть у пользователя?

Традиционный путь: свято верить в нормальность распределения всего на свете — аксиома нормальности. Путь скептицизма: ни во что не верить, а все проверять. Мы же предлагаем третий путь: никогда не верить в нормальность, ничего не проверять, и всегда пользоваться непараметрический подходом. Традиционный путь — самый легкий. Вы ни от кого не зависите, всегда знаете, что надо делать, все получается быстро и с разумными затратами. «Аксиома» нормальности, что и говорить, удобная штука!

У скептиков жизнь тяжелая. Спасибо, помогает Пирсон. Он давно предложил процедуру проверки статистических гипотез, прежде всего гипотезы о нормальности распределения. Получается гораздо более обосновано, чем у легкомысленных традицио­налистов. Вот только гораздо накладнее. Приходится тратить массу времени и денег. Судите сами. Представьте себе, что вы проводите химический анализ какого-то вещества. Обычно рекомендуется сделать два-три параллельных анализа, да еще в условиях повторяемости, а не воспроизводимости. Но это — смешно, никакой Пирсон вам не поможет. Ему надо не меньше 30 параллельных, после подсказки Фон Мизеса, да еще в условиях воспроизводимости. А это значит, что надо менять оборудование, оператора, время и так далее. Согласитесь, что это гораздо дольше, дороже и сложнее.

Но что при этом выигрываем? Допустим, что Пирсон, или кто-нибудь из его последователей, скажет вам, что проверяемое распределение не противоречит гипотезе нормальности. Ну и что? Не противоречит, еще не значит, что имеет место. Но, разве вы делали анализ для того, чтобы проверить нормальность? Нет, ваша цель заключалась в том, чтобы узнать концентрацию определенного компонента и чтобы сообщить ее вашему клиенту, который на основании этого примет важные и ответственные решения. Вот только загвоздка в том, что для снижения риска, связанного с решением, нужно знать, какова же неопределенность полученного результата. Как раз для этого вполне годятся непарамет­рические методы [2].

Важным достоинством непараметрических методов является их существенная устойчивость против грубых ошибок, которые принято называть «дикими» измерениями, а также против описок, опечаток и других проявлений человеческой ненадежности. Проще всего показать это на простом примере. Пусть, например, числа 1, 2, 3, 4, 5 — результаты параллельных измерений некоторого показателя. Нормальная теория предлагает нам найти среднее арифметическое значение. Для этого надо сложить все результаты (это будет 15), и поделить на число измерений, в данном случае — 5. Получится 3, что и есть среднее арифметическое этих данных. В непараметрическом подходе обычно вместо среднего используют медиану, которая представляет собой середину ряда полученных значений, упорядоченных по возрастанию, как в нашем случае, или по убыванию. Причем, если число измерений нечетное, то медиана принадлежит ряду измерений, который часто называют «вариационным» рядом, а если число полученных результатов четное, то медианой будет служить середина между двумя ближайшими к центру значениями. Значит, в нашем примере это будет число 3.

Теперь представьте себе, что при повторении этого ряда наблюдений у вас получились следующие результаты: 1, 2, 3, 4, 35. Конечно, последнее значение — скорее всего результат грубой ошибки. И при столь малом числе результатов он резко бросается в глаза. Но когда у вас сотни, или даже тысячи данных, такой промах не всегда легко заметить. А если вы его не заметили, то среднее арифметическое будет уже равно 9, тогда как медиана не изменится! Для любой параметрической процедуры или оценки существует один или даже несколько непараметрических аналогов.

Точно так же, вместо дисперсии или квадратичной ошибки можно использовать выборочный размах, или более устойчивый интерквартильный размах. Джон Тьюки в США предложил удобный способ представления распределений с помощью простого приема визуализации данных, который он назвал «ящиком с усами» (ЯСУ). Ко всему вышесказанному следует добавить еще один вопрос, исключительной важности. Дело в том, что когда мы делаем несколько измерений, скажем, 10, 20 50, и так далее, возникает вопрос, на который мало кто обращает внимание: однородны ли эти результаты? Или, принадлежат ли они одной и той же системе измерений? Никто ведь не застрахован от того, что в системе после, например, четвертого замера, что-то изменилось…

Для ответа на этот вопрос нужно воспользоваться еще одним, мало используемым метрологами инструментом, который называется контрольная карта Шухарта. О том, как это делать и что это дает, мы расскажем в следующих частях данной работы. Там же мы рассмотрим примеры построения ЯСУ и сравним результаты анализа реальных данных при различных подходах к неопределенности.

Использованная литература:

  1. Грачёва Ю.В. Погрешность или неопределенность? Вот в чем вопрос … / Контроль качества продукции. — 2019. — № 9. — С. 22.
  2. Холлендер М., Вулф Д.А. Непараметрические методы статистики / Пер. с англ.; Науч. ред. Ю.П. Адлера и Ю.Н. Тюрина. — М.: Финансы и статистика, 1983. — 518 с.
  3. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. — М.: Наука, 1983. — 416 с. 

«Контроль качества продукции» Сентябрь 2019

Рубрика: Испытания, измерения, анализ
Автор(ы): Ю. Адлер, В. Шпер
01.09.2019

448
Поделиться:

Подписка