Статистика (функция выборки)

Материал из Википедии — свободной энциклопедии

Статистика — измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения элементов выборки.

Определение

Пусть задана случайная выборка наблюдений . Как правило, поскольку речь идёт о задачах математической статистики, распределение элементов этой выборки известно исследователю не полностью (например, содержит неизвестные числовые параметры).

Статистикой называется произвольная измеримая функция выборки , которая не зависит от неизвестных параметров распределения.

Условие измеримости статистики означает, что эта функция является

борелевские множества
на прямой.

Наиболее содержательный аспект данного понятия, отличающий его от прочих случайных величин, зависящих от выборки, заключается в том, что от неизвестных параметров эта функция не зависит, то есть исследователь может по имеющимся в его распоряжении данным найти значение этой функции, а, следовательно — основывать на этом значении

оценки
и прочие статистические выводы.

Пример

Предположим, что имеется числовая выборка , элементы которой имеют нормальное распределение . Допустим, что значение параметра (математического ожидания) известно, то есть это некоторое конкретное число, а значение среднеквадратичного отклонения неизвестно (и его требуется оценить). Для этого может быть использована следующая статистика:

Однако если значение параметра также неизвестно, то данная функция не является статистикой. В этом случае её по-прежнему можно исследовать теоретически (например, доказывать, что математическое ожидание равно ), однако вычислить её числовое значение нельзя, поэтому для получения непосредственных статистических выводов она не может быть использована. В этом случае оценка параметра строится другим способом (см. ниже).

Ниже приведены примеры некоторых часто используемых статистик. Все они предполагают, что наблюдения являются числовыми, .

В последние годы активно развивается также статистика объектов нечисловой природы.

Статистики, используемые для оценки моментов (выборочные моменты)

  • Выборочное среднее:
  • Выборочная дисперсия:
    .
  • Несмещённая оценка дисперсии:
  • Выборочный момент -го порядка (выборочное среднее — момент первого порядка):
    .
  • Выборочный центральный момент -го порядка (выборочная дисперсия — центральный момент второго порядка):
    .
  • Несмещённые оценки центральных моментов:
    ;
    ;
    .

Выборочный коэффициент асимметрии

Выборочный коэффициент асимметрии:

.

Если плотность распределения симметрична, то . Если левый хвост распределения «тяжелее», то , если «тяжелее» правый хвост — то .

Выборочный коэффициент асимметрии используется для проверки распределения на симметричность, а также для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Выборочный коэффициент эксцесса

Выборочный коэффициент эксцесса:

.

Нормальное распределение имеет нулевой эксцесс: .

Если хвосты распределения «легче», а пик «острее», чем у нормального распределения, то .

Если хвосты распределения «тяжелее», а пик более «приплюснутый», чем у нормального распределения, то .

Выборочный коэффициент эксцесса часто используется для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.

Статистики, связанные с эмпирическим распределением

Эмпирическое распределение
случайной величины , построенное по случайной выборке , есть функция:

.

При любом фиксированном значение можно рассматривать как статистику.

Порядковые статистики

Порядковые статистики основаны на вычислении вариационного ряда, который получается из исходной выборки путём упорядочивания её элементов по возрастанию:

.

Значение называется -й порядковой статистикой.

  • Выборочный -квантиль при :
  • Размах выборки:
    .
  • Выборочная медиана:
    .

Ранговые статистики

Значение называется рангом элемента выборки , если .

Ранговой статистикой называется любая статистика, которая является функцией от рангов элементов , а не от их значений . Переход от значений к их рангам позволяет строить непараметрические статистические критерии, которые не опираются на априорные предположения о функции распределения выборки. Они имеют гораздо более широкую область применения, чем параметрические статистические критерии.

Средний ранг

Аналогом выборочного среднего является средний ранг:

Линейные ранговые статистики

Многие используемые на практике ранговые статистики принадлежат семейству линейных ранговых статистик, либо асимптотически приближаются к линейным при . Линейная ранговая статистика в общем случае имеет вид:

,

где  — произвольная заданная числовая матрица размера .

Литература

Ссылки