![]() |
Статистика - это математическая теория,позволяющая познать мир через опыт. В.Томпсон |
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
А интересно было бы установить, как связаны между собой выпадения всех номеров в числовой лотерее... Проще говоря, какой номер выпадет после того, который появился в предыдущем тираже. И так - по каждому выпавшему номеру. Ведь таким образом можно делать прогноз. Попытаемся найти ответ на этот интересный вопрос с помощью стандартных процедур математической статистики. В частности, с помощью старого доброго и могучего метода - корреляционного анализа.
Корреляционный
анализ
В исследовании корреляций
(зависимостей, связей...) вы не
влияете (или, по крайней мере,
пытаетесь не влиять) на переменные,
а только измеряете их и хотите
найти зависимости (корреляции)
между некоторыми измеренными
переменными.
Вообще говоря, конечная цель всякого исследования или научного анализа состоит в нахождение связей (зависимостей) между переменными. Философия науки учит, что не существует иного способа представления знания, кроме как в терминах зависимостей между количествами или качествами, выраженными какими-либо переменными. Таким образом, любое исследование, любое развитие чего-либо всегда заключается в нахождении новых связей между переменными. Исследование корреляций по существу состоит в измерении таких зависимостей непосредственным образом.
Корреляционный анализ используется для количественной оценки взаимосвязи двух наборов данных, представленных в безразмерном виде. Коэффициент корреляции выборки представляет собой ковариацию двух наборов данных, деленную на произведение их стандартных отклонений:
![]()
где:
![]()
![]()
![]()
- среднее
значение величины (набора данных,
выборки) и стандартное отклонение
(сигма); сигма в квадрате -
дисперсия. Чем больше размер
выборки, тем более надежна оценка
среднего. Чем больше изменчивость
данных (больше разброс), тем оценка
менее надежна.
Корреляционный анализ дает
возможность установить,
ассоциированы ли наборы данных по
величине, то есть, большие значения
из одного набора данных связаны с
большими значениями другого набора
(положительная корреляция), или,
наоборот, малые значения одного
набора связаны с большими
значениями другого (отрицательная
корреляция), или данные двух
диапазонов никак не связаны
(корреляция близка к нулю).
Приведем дополнительные пояснения,
так как понятие корреляции (проще
говоря - связи) между двумя рядами
переменных за кажущейся простотой
скрывает массу неочевидных
возможностей.
Положительная
корреляция.
Связь между двумя переменными
может быть следующей - когда
значения одной переменной
возрастают, значения другой
переменной также возрастают. Это и
показывает положительный
коэффициент корреляции. Про такие
переменные говорят, что они
положительно коррелированны.
Отрицательная
корреляция.
Две переменные могут быть связаны
таким образом, что при возрастании
значений одной из них значения
другой убывают. Это и показывает
отрицательный коэффициент
корреляции. Про такие переменные
говорят, что они отрицательно
коррелированы.
Ложные
корреляции.
Это корреляции, которые вызваны
влиянием одной или нескольких
"других" переменных. Например,
можно обнаружить сильную
положительную связь (корреляцию)
между разрушениями, вызванными
пожаром, и числом пожарных,
тушивших пожар. Следует ли
заключить, что пожарные вызывают
разрушения? Конечно, наиболее
вероятное объяснение этой
корреляции состоит в том, что
размер пожара (внешняя переменная,
которую забыли включить в
исследование) оказывает влияние,
как на масштаб разрушений, так и на
числе привлеченных пожарных (т.е.
чем больше пожар, тем большее
количество пожарных вызывается на
его тушение). Хотя этот пример
довольно прозрачен, в реальности
при исследовании корреляций
альтернативные причинные
объяснения часто даже не
рассматриваются. При этом главная
проблема заключается в том, что мы
обычно не знаем даже того, что
"скрытый" агент существует.
Однако в случаях, когда мы не знаем,
какие именно переменные
рассматривать, мы можем
использовать частные корреляции,
чтобы управлять влиянием выбранных
переменных (т.е. задавать их
конкретные значения).
Частная
корреляция.
Корреляция между двумя
переменными, вычисленная после
устранения влияния всех других
переменных, называется частной
корреляцией. Например, длина волос
может коррелировать с ростом
человека (чем выше человек, тем
короче волосы), однако эта
зависимость становится слабой или
совсем исчезает, если устранить
влияние пола наблюдаемых людей,
поскольку женщины обычно ниже
ростом и чаще имеют более длинные
волосы, чем мужчины.
Корреляция
Пирсона.
Наиболее часто используемый
коэффициент корреляции Пирсона r
(Pearson, 1896) называется также линейной
корреляцией (термин корреляция
впервые ввел Galton, 1888), т.к. измеряет
степень линейных связей между
переменными. Можно сказать, что
корреляция определяет степень, с
которой значения двух переменных
пропорциональны друг другу. Важно,
что значение коэффициента
корреляции не зависит от масштаба
измерения. Например, корреляция
между ростом и весом будет одной и
той же, независимо от того,
проводились измерения в дюймах и
фунтах или в сантиметрах и
килограммах. Пропорциональность
означает просто линейную
зависимость. Корреляция
высокая, если на графике
зависимость можно представить
прямой линией (с положительным или
отрицательным углом наклона). Проведенная прямая
называется прямой регрессии или
прямой, построенной методом
наименьших квадратов. Последний
термин связан с тем, что сумма
квадратов расстояний (вычисленная
по оси Y) от наблюдаемых точек до
прямой является минимальной из
всех возможных. Заметим, что
использование квадратов
расстояний приводит к тому, что на
оценки параметров сильно влияют
выбросы. Корреляция Пирсона
предполагает, что две
рассматриваемые переменные
измерены, по крайней мере, в
интервальной шкале. Коэффициент
корреляции Пирсона вычисляется
следующим образом:

Здесь индексы возле X и Y не стоят, поскольку они могут быть как простыми переменными, так и массивами переменных (наш случай).
Поскольку выше мы использовали и другие понятия математической статистики, поясним их.
Ковариационный
анализ
Используется для вычисления
среднего произведения отклонений
точек данных от относительных
средних. Ковариация является мерой
связи между двумя диапазонами
данных.
И опишем еще две величины.
Ассиметрия и эксцесс.
Асимметрия или коэффициент асимметрии (термин был впервые введен Пирсоном, 1895) является мерой несимметричности распределения. Если этот коэффициент отчетливо отличается от 0, распределение является асимметричным. Плотность нормального распределения симметрична относительно среднего.

Несимметричное
распределение. Если вы разобьете
такое распределение пополам в
точке среднего (или медианы), то
распределения значений с двух
сторон от этой центральной точки
будут неодинаковыми (т.е.
несимметричными). Такое
распределение можно назвать
"скошенным".
Например, если асимметрия
(показывающая отклонение
распределения от симметричного)
существенно отличается от 0, то
распределение несимметрично, в то
время как нормальное распределение
абсолютно симметрично. Итак, у
симметричного распределения
асимметрия равна 0. Асимметрия
распределения с длинным правым
хвостом положительна. Если
распределение имеет длинный левый
хвост, то его асимметрия
отрицательна.
Эксцесс (термин был впервые введен
Пирсоном, 1905) или точнее,
коэффициент эксцесса измеряет
"пикообразность"
распределения. Если эксцесс
значимо отличен от 0, то функция
плотности либо имеет более
закругленный , либо более острый
пик, чем пик плотности нормального
распределения. Функция плотности
нормального распределения имеет
эксцесс равный 0. Оценка эксцесса
(выборочный эксцесс) вычисляется по
формуле:

Кратко описав основные понятия (за подробностями можно обратиться к учебникам по статистике или на известный ресурс Статистический портал компании STATSOFT), которые нам понадобятся в дальнейшем, зададим главный вопрос: а какие именно данные (выборки, переменные и т.д.) мы будем анализировать с помощью корреляционного анализа? Какие это ряды переменных? Между чем и чем искать связи, их порочащие, так сказать?
Автор предлагает обратить внимание на фрагменты следующих выборок:
| Лотерея типа 6/45 "Мегалот", 157-167 тиражи | Лотерея типа 6/45 "Супер-лото", 197-207 тиражи |
... 157
000000000000000100100010000001000000001000010 |
... 197
000000000000000010000010000001010000001000001 |
Это не что иное, как фрагменты "карт боевых действий" (термин почти устоялся). Сами карты замечательно строит программа UALOTAN, которая имеется в Клубе (раздел "ПРОГРАММЫ"). В строке тиража единичками представлено выпадение номеров. Столбцы представляют собой историю выпадений каждого (!) номера во всех тиражах. Вот эти выборки мы и будем анализировать, определять коэффициенты корреляции между ними. Общая задача формулируется следующим образом: найти коэффициенты корреляции каждого номера со всеми остальными (вид такая матрица имеет диагональный). Применительно к прогнозированию, поставим задачу так: найти минимум 6 номеров, которые имеют максимальные коэффициенты корреляции с номерами (их тоже, естественно, 6 для данного типа лотереи; можно, конечно, взять и больше номеров для прогноза), которые выпали в предыдущем тираже. В итоге получим вот такую таблицу:
| КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ ДЛЯ НОМЕРОВ ПОСЛЕДНЕГО ТИРАЖА | |||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||
Желтым цветом выделены номера с максимальным (положительным) коэффициентом корреляции с каждым из 6-и выпавших номеров. Единицы во внимание не принимаются, так как это корреляция номера с самим собой и служит для полноты и контроля вычислений.
Вычисленные описанным выше способом коэффициенты корреляции Пирсона практически равны "обычным". "Поведение" всех их графиков (990 пар) еще подлежит дополнительному исследованию, но аппроксимации прямой линией многие коэффициенты корреляции поддаются, что говорит о существовании корреляции.
Таким образом, прогноз на 168 тираж лотереи "Мегалот" состоит из номеров: 23, 25, 20, 11, 44, 42. Естественно, что из таблицы можно выбрать и большее число номеров, соответственно величинам коэффициентов корреляции. И наоборот, номера с минимальными (отрицательными) коэффициентами корреляций не должны появиться в тираже прогноза. Это следующие номера (голубой цвет): 37, 13, 05, 40, 37, 12. С одним из номеров, а именно 37 сразу два номера из 167-го тиража имеют минимальные корреляции. Таким образом прогноз на 168 тираж состоит только из 5-и номеров: 37, 13, 05, 40, 12. Безусловно, как одних, так и других номеров следует брать больше чем 6. Ведь связи эти "слабые". Интересно, что в 168-ом тираже (36, 18, 44, 28, 41, 37) выпало по одному номеру из обеих "крыльев" корреляционных коэффициентов. Однако, чаще всего все происходит соответственно теории.
Аналогично, прогноз на 208 тираж "Супер-лото": 31, 04, 27, 12, 35, 12. Не должны выпасть номера: 09, 03, 08, 32, 05, 17. Фактически в 208-ом тираже выпали номера: 04, 11, 14, 18, 35, 40.
Конечно, для пущей убедительности можно было бы привести более результативные прогнозы изложенным методом. Но в математике следует придерживаться точности. В этом направлении еще стоит поработать. В частности, проверить уровень значимости (надежности) получаемых результатов. Покомбинировать варианты. Следует помнить и о количестве тиражей, взятом для анализа. Оно, это количество, в данном случае сравнительно с существующим количеством комбинаций этого типа лотерей (более 8-и миллионов) крайне незначительно.
Вспомним о корреляциях Пирсона. Чтобы не верить Автору на слово - коэффициенты корреляции Пирсона действительно можно аппроксимировать (и очень легко) прямой линией - посмотрите на графики трех первых попавшихся под руку пар. Это - "Супер-Лото" на протяжении тиражей 180-220. Вывод - корреляция сильная. Следует только изучить поведение всех пар, а их ровно 990 штук...

На истину в последней инстанции данный материал, конечно, не претендует, а предлагается для обсуждения. Результаты прогнозирования корреляционным методом на всем интервале прошлых тиражей интересны тем, что заметно отличаются для каждой лотереи. Очевидно, в этом случае речь идет уже о характеристиках лотерейного оборудования. Имеется и соответствующая программа для описанных выше расчетов.
И в окончание темы обработки результатов лотерейных тиражей с помощью методов математической статистики приведем графики функций распределения для трех лотерей: "Мегалот" (165 тиражей), "Супер-Лото" (207 тиражей) и "Кено" (700 тиражей). Анализировался так называемый фактор выпадения для каждого номера: общее количество выпадений номера за N тиражей, деленное на N. Пример: номер 1 в "Супер-Лото" за 207 тиражей выпал 26 раз, тогда фактор выпадения для номера 1 равен 0.126. Тогда его: дисперсия = .11036; стандартное отклонение = .33221; ассиметрия = 2.27599; эксцесс = 3.15093. И т.д. Определялись средние ассиметрия и эксцесс распределения. Предполагалось, что распределение имеет нормальный характер. Вид функции распределения в этом случае:


P.S. Значения
асимметрии и эксцесса, равные НУЛЮ -
характеризуют нормальное
распределение.
Асимметрия распределения с длинным
правым хвостом положительна.
Если распределение имеет длинный
левый хвост, то его асимметрия
отрицательна.
Далее, если эксцесс (показывающий
"остроту пика" распределения)
существенно отличен от 0, то
распределение имеет или более
закругленный пик, чем нормальное,
или, напротив, имеет более острый
пик (возможно, имеется несколько
пиков).
Обычно, если эксцесс положителен,
то пик заострен, если
отрицательный, то пик закруглен.
Хотя значения ассиметрии и эксцесса для каждой лотереи и отличны от нуля, но визуально, во всяком случае, они не видны. А может потому, что распределение не нормально...
| ВЕРНУТЬСЯ В НАЧАЛО РАЗДЕЛА "АНАЛИЗ" |