(Приблизительно) Моделирование Центральной предельной теоремы в Excel - манекены

Чтобы помочь вам понять статистический анализ с помощью Excel, он помогает моделировать Центральную предельную теорему. Это почти не звучит правильно. Как может население, которое обычно не распределяется, приводит к распределению распределенной выборки?

Чтобы дать вам представление о том, как работает Центральная предельная теорема, существует симуляция. Эта симуляция создает нечто вроде распределения выборки среднего значения для очень маленькой выборки, основанной на популяции, которая обычно не распространяется. Как вы увидите, хотя население не является нормальным распределением, и хотя образец мал, распределение выборки среднего значения выглядит довольно похоже на нормальное распределение.

Представьте себе огромную популяцию, которая состоит всего из трех баллов - 1, 2 и 3 - и каждый из них, по всей вероятности, появится в выборке. Представьте также, что вы можете случайно выбрать выборку из трех баллов из этой группы.

Все возможные образцы трех баллов (и их средства) из населения, состоящего из баллов 1, 2 и 3

Образец	Среднее	Образец	Среднее	Образец	Среднее значение
1, 1, 1	1. 00	2, 1, 1	1. 33	3, 1, 1	1. 67
1, 1, 2	1. 33	2, 1, 2	1. 67	3, 1, 2	2. 00
1, 1, 3	1. 67	2, 1, 3	2. 00	3, 1, 3	2. 33
1, 2, 1	1. 33	2, 2, 1	1. 67	3, 2, 1	2. 00
1, 2, 2	1. 67	2, 2, 2	2. 00	3, 2, 2	2. 33
1, 2, 3	2. 00	2, 2, 3	2. 33	3, 2, 3	2. 67
1, 3, 1	1. 67	2, 3, 1	2. 00	3, 3, 1	2. 33
1, 3, 2	2. 00	2, 3, 2	2. 33	3, 3, 2	2. 67
1, 3, 3	2. 33	2, 3, 3	2. 67	3, 3, 3	3. 00

Если вы внимательно посмотрите на таблицу, вы можете почти увидеть, что должно произойти в симуляции. Примерное среднее значение, которое появляется чаще всего, равно 2. 00. Образец означает, что наименее часто встречаются 1. 00 и 3. 00. Хммм …

В симуляции оценка была случайным образом выбрана из популяции, а затем случайным образом выбирает два Больше. Эта группа из трех баллов является образцом. Затем вы вычисляете среднее значение этого образца. Этот процесс повторяли для всего 60 образцов, в результате чего было использовано 60 образцов. Наконец, вы рисуете распределение средств выборки.

Как выглядит симулированное распределение выборки среднего значения? На рисунке ниже показан рабочий лист, который отвечает на этот вопрос.

На листе каждая строка является образцом.Столбцы с меткой x1, x2 и x3 показывают три оценки для каждого образца. Столбец E показывает среднее значение для выборки в каждой строке. В столбце G показаны все возможные значения для среднего значения выборки, а в столбце H показано, как часто каждое среднее значение появляется в 60 выборках. Столбцы G и H и график показывают, что распределение имеет максимальную частоту, когда среднее значение выборки равно 2. 00. Частоты, отступающие в качестве средства выборки, все больше и больше удаляются от 2.00.

Дело в том, что население не похоже на нормальное распределение и размер выборки очень мал. Даже при этих ограничениях распределение выборок среднего значения по 60 образцам начинает очень напоминать нормальное распределение.

Как насчет параметров, которые предсказывает Центральная предельная теорема для распределения выборки? Начните с населения. Население означает 2. 00, а стандартное отклонение населения. 67. (Этот тип населения требует немного причудливой математики для определения параметров.)

В отношении распределения выборки. Среднее значение 60 означает 1. 98, а их стандартное отклонение (оценка стандартной ошибки среднего). 48. Эти числа тесно приближаются к параметрам предсказания Центральной предельной теоремы для распределения выборки среднего значения, 2.00 (равного среднему по численности) и. 47 (стандартное отклонение, 67, разделенное на квадратный корень из 3, размер выборки).

Если вы заинтересованы в этом симуляции, выполните следующие действия:

Выберите ячейку для вашего первого случайно выбранного номера.

Выберите ячейку B2.
Используйте функцию рабочего листа RANDBETWEEN , чтобы выбрать 1, 2 или 3.

Это имитирует рисование числа из населения, состоящего из чисел 1, 2 и 3, где у вас есть равная вероятность выбора каждого номера. Вы можете выбрать ФОРМУЛЫ | Math & Trig | RANDBETWEEN и используйте диалоговое окно «Аргументы функций» или просто введите = RANDBETWEEN (1, 3) в B2 и нажмите Enter. Первый аргумент - это наименьшее число, возвращаемое RANDBETWEEN, а второй аргумент - наибольшее число.
Выберите ячейку справа от исходной ячейки и выберите другое случайное число между 1 и 3. Сделайте это снова для третьего случайного числа в ячейке справа от второго.

Самый простой способ сделать это - автозавершить две ячейки справа от исходной ячейки. На этом листе эти две ячейки являются C2 и D2.
Рассмотрим эти три ячейки как образец и вычислить их среднее значение в ячейке справа от третьей ячейки.

Самый простой способ сделать это: введите = AVERAGE (B2: D2) в ячейку E2 и нажмите Enter.
Повторите этот процесс для множества образцов, которые вы хотите включить в симуляцию. Пусть каждая строка соответствует образцу.

Здесь использовалось 60 образцов. Быстрый и простой способ сделать это - выбрать первую строку из трех случайно выбранных чисел и их среднее значение, а затем автозаполнение оставшихся строк. Набор средств выборки в столбце E представляет собой моделируемое распределение выборки среднего значения.Используйте СРЕДНЯЯ и STDEV. P , чтобы найти его среднее и стандартное отклонение.

Чтобы увидеть, как выглядит это симулированное распределение выборки, используйте функцию массива FREQUENCY для средства выборки в столбце E. Выполните следующие шаги:

Введите возможные значения среднего значения выборки в массив,

Для этого можно использовать столбец G. Вы можете выразить возможные значения среднего значения пробы в форме фракции (3/3, 4/3, 5/3, 6/3, 7/3, 8/3 и 9/3), как и те, которые были введены в ячейки G2 - G8. Excel преобразует их в десятичную форму. Убедитесь, что эти ячейки находятся в формате Number.
Выберите массив для частот возможных значений среднего значения выборки.

Вы можете использовать столбец H для хранения частот, выбирая ячейки H2 через H8.
В меню «Статистические функции» выберите FREQUENCY , чтобы открыть диалоговое окно «Аргументы функций» для FREQUENCY
В диалоговом окне «Аргументы функций» введите соответствующие значения для аргументов.

В поле Data_array введите ячейки, в которых содержатся средства выборки. В этом примере это E2: E61.
Определите массив, который содержит возможные значения среднего значения выборки.

FREQUENCY содержит этот массив в поле Bins_array. Для этого листа G2: G8 переходит в поле Bins_array. После того как вы идентифицируете оба массива, диалоговое окно «Аргументы функций» показывает частоты внутри пары фигурных скобок.
Нажмите Ctrl + Shift + Enter, чтобы закрыть диалоговое окно «Аргументы функций» и показать частоты.

Используйте комбинацию клавиш, потому что FREQUENCY - это функция массива.
Наконец, выделив H2: H8, выберите Вставить | Рекомендуемые диаграммы и выберите макет кластерной колонки, чтобы получить график частот. Ваш график, вероятно, будет несколько отличаться от моего, потому что вы, вероятно, столкнетесь с разным случайным числом.

Кстати, Excel повторяет случайный процесс выбора, когда вы делаете то, что заставляет Excel пересчитывать рабочий лист. Эффект заключается в том, что цифры могут измениться, когда вы работаете с этим. (То есть, вы перезапускаете симуляцию.) Например, если вы вернетесь и снова запустите одну из строк, числа меняются и график изменяется.