Начинаю новый проект. На тему исследования натолкнула задействованная в данный момент выборка музыкантов-инструменталистов, которая была поделена на две экспериментальные группы для проверки гипотезы о ведущей планете, имеющей птолемеевский аспект с Фортуной. Подробности можно посмотреть здесь.
Возникшая идея состояла в том, чтобы первую экспериментальную группу поделить на несколько самостоятельных экспериментальных групп и использовать их для исследования какой-нибудь темы. Это бы дало возможность, с одной стороны, наглядно увидеть ложные сигналы, возникающие при использовании единственной экспериментальной группы и часто принимаемые как имеющие особый астрологический смысл, а, с другой стороны, наличие нескольких экспериментальных групп позволило бы отследить наличие настоящего фактора, если бы таковой имел место быть в действительности.
Поэтому, соблазнившись такой мыслью, методом случайного отбора, первая экспериментальная группа была преобразована в 7 экспериментальных групп: 6 групп по 100 человек и последняя - 117 человек. Для каждой экспериментальной группы методом случайного перемешивания исходных данных (день-месяц, год, время, место рождения) была сформирована своя генеральная совокупность по 100000 записей, полностью отражающая характеристики рождения в соответствующей экспериментальной группе.
Оставалось выбрать тему исследования. В качестве такой темы я выбрал стихии и решил выяснить, связаны ли стихии с музыкантами-инстументалистами или нет и, если связаны, то можно ли оптимизировать эту связь за счет подбора элементов карты, стихию которых следует учитывать.
Элементы карты, выбранные для первоначального исследования: планеты септенера, СУ, Лилит, Асц и МС.
В настоящее время ведется статистическая обработка этих групп, материалы по которой останутся за пределами публикации в этой теме. По ее завершении начнется этап анализа, который и будет доступен для ознакомления в этой теме.
Решил начать со стихии Воды, т.к. по моим разумениям стихия Воды более соответствует музыке, чем другие стихии.
Вначале несколько слов о способе получения оценок. В каждой карте генеральной совокупности (ГС) определялось число элементов, находящийся в стихии Воды. По этим данным строилось распределение числа карт в зависимости от числа элементов карты, находящихся в стихии Воды. На основании этого распределения рассчитывалось ожидаемое распределение для экспериментальной группы. Аналогичным способом определялось фактическое распределение в экспериментальной группе (ЭГ). Полученные распределения (фактическое и ожидаемое) использовались для вычисления статистики Хи2, которая служит мерой различия этих распределений.
Таким образом были получены 7 значений Хи2 для 7 экспериментальных групп. Вот эти результаты:
О чем они говорят? Во-первых, о том, что в случае единичного проводимого эксперимента можно получить совершенно противоположные результаты. Так, например, если этой единичной экспериментальной группой оказалась бы 3ЭГ, то можно было бы сделать вывод о том, что между стихией воды и музыкантами-инструменталистами нет никакой статистической связи, т.к. фактическое распределение практически не отличается от ожидаемого и нулевая гипотеза верна.
А если бы этой единичной экспериментальной группой оказалась бы 2ЭГ, то последовал бы вывод, что нулевую гипотезу об отсутствии связи следует отвергнуть с возможностью ошибиться в этом решении с вероятностью менее 5% и принять альтернативную гипотезу о том, что эта связь имеет место быть.
Во-вторых, эти результаты говорят о том, что истина, скорее всего, находится где-то между этими двумя крайностями. Предположим на некоторое время, что перед нами результаты единичных экспериментов, проведенные семью разными исследователями в разное время с разными наборами данных.
Что предположительно извлечет каждый из них из проведенного эксперимента? Первый скажет о том, что в среднем на каждые 100 проведенных экспериментов в двадцатиодном из них чисто случайно будут появляться результаты со значением Хи2 равными или большими тому, что он получил. Второй скажет о том, что полученное им значение Хи2, или даже большее, чисто случайно может появиться только в 13 экспериментах из 1000…. И так аналогично по всем другим исследованиям в соответствии с полученной, каждым исследователем, вероятностью Р.
Другими словами, единичный эксперимент – только отправная точка для проведения серии экспериментов. Только серийность позволит с большей определенностью ответить на вопрос: являются ли результаты эксперимента чистой случайностью или в них содержится нечто, указывающее на наличие статистической связи.
Посмотрим теперь на результаты экспериментов с точки зрения серии условно-независимых испытаний. Условно потому, что для строгой независимости источник исходных данных не должным быть одним и тем же. Под источником данных я имею в виду АДБ. Но, поскольку я не ставлю перед собой цели доказывать работоспособность астрологии мужам от науки, постольку и сами испытания я буду полагать как независимые.
Предварительную (грубую) оценку результатов серии экспериментов можно получить следующим образом. Упорядочим по возрастанию значения Хи2 и расположим их на линии графика распределения Хи2 для соответствующего числа степеней свободы.
О чем может рассказать этот график? Он может рассказать об ожидаемом числе результатов и их фактическом количестве. А это значит, что можно грубо прикинуть, соответствует ли полученное количество результатов ожидаемому их числу.
При Хи2>=0, т.е. на всем графике у нас располагаются результаты 7 экспериментов. Найдем вероятность, соответствующую 6 результатам из 7. Она будет равна 0,86. На рисунке, представленном ниже, есть вертикальная линия, пересекающая распределение Хи2 в точке с этим значением вероятности. И, действительно, справа от нее мы видим 6 результатов.
Продолжим. Найдем вероятность для 5 результатов из 7. Она будет равна 0,71. На рисунке справа от линии мы должны были бы увидеть 5 результатов, но там их на один больше, т.е. 6.
Найдем вероятность для 4 результатов из 7. Она составит 0,57. Справа от линии мы должны были бы увидеть 4 результата, но там их 6.
Вероятность для 3 из 7 результатов равна 0,43. Справа от линии мы должны были бы увидеть 3 результата, но там их 5.
Вероятность для 2 из 7 результатов составляет 0,29. Справа от линии мы должны были бы увидеть 2 результата, но там их 4.
И, наконец, для 1 из 7 результатов вероятность равна 0,14. Справа от линии мы должны были бы увидеть 1 результат, но там их 2.
Т.е. мы систематически наблюдаем превышение фактического числа результатов над ожидаемым. И это хороший знак.
Произведем оценку этих наблюдаемых различий. При справедливости нулевой гипотезы среднее значение различий совместно с его доверительным интервалом должно содержать нулевую отметку.
Итак, имеем следующие данные:
0, +1, +2, +2, +2, +1
Среднее значение составляет: 1,(3)
Ст.отклонение: 0,816
Ст.ошибка среднего: 0,816/6=0,136
t-критическое (для а=0,01 и df=5): 4,032
99% доверительный интервал для среднего: (0,785; 1,882)
Как видим, среднее значение различий между фактическим и ожидаемым числом результатов с учетом 99% доверительного интервала не захватывает нулевую точку. Следовательно, эти различия являются статистически значимыми.
Для оценки этой значимости найдем значение t-распределения Стьюдента:
t = 1,(3) / 0,136 = 9,798
что, соответственно, дает вероятность равную 0,000189 или 1 случай из 5304.
Следовательно, нулевую гипотезу можно отвергнуть с минимальным риском ошибиться в этом решении и смело принять альтернативную гипотезу о том, стихия Воды имеет статистически значимую связь с музыкантами-инструменталистами.
Так как обычно рекомендуют оценивать результаты эксперимента разными способами, то и я поступлю также и, в скором времени, проведу оценку результатов еще двумя способами.
Для второго способа оценки результатов серии экспериментов добавим на исходный график новые данные о вероятностях фактических результатов.
Видно, что эмпирические данные имеют сильное смещение вправо. Теперь задача будет состоять в том, чтобы аппроксимировать эти данные с помощью кривой Хи2 распределения, сдвигая ее вправо до тех пор, пока суммарная разность квадратов вероятностей между эмпирическими данными и аппроксимирующей ее кривой не достигнет минимума, а коэффициент достоверности аппроксимации R2, соответственно, максимума.
В текущем положении суммарная разность квадратов вероятностей составляет 0,461, а коэффициент достоверности аппроксимации R2=0,194.
Обнаружил ошибку при вычислении ст.ошибки среднего.
После исправления:
Ст.ошибка среднего: 0,816/√6=0,(3)
t-критическое (для а=0,01 и df=5): 4,032
99% доверительный интервал для среднего: (-0,011; 2,667)
В этом случае среднее значение различий между фактическим и ожидаемым числом результатов с учетом 99% доверительного интервала захватывает нулевую точку. Оценка значимости составит:
t = 1,(3) / 0,(3) = 4,000
что, соответственно, дает вероятность равную 0,010323 или 1 случай из 97.
Т.е. нулевую гипотезу можно отвергнуть и принять альтернативную, но уже с ошибкой менее 1%.
На рисунке, представленном ниже, показана аппроксимация эмпирических данных кривой Хи2 распределения. При этом величина смещения кривой составила +2,08 единиц. Суммарная разность квадратов достигла минимальной величины, равной 0,082. Коэффициент достоверности аппроксимации равен 0,856.
Оценка значимости этой величины смещения производилась методом Монте-Карло и получилась величиной, лежащей в промежутке от 0,057 до 0,072.
Поскольку первый способ оценки является несколько грубоватым, а второй дает более достоверную оценку, то у нас нет твердых оснований отвергать нулевую гипотезу. К тому же и третий способ оценки результатов серии экспериментов, основанный на оценке разброса результатов (дисперсии), дает значимость на уровне 0,056. В совокупности все эти оценки приводит к тому выводу, что нулевую гипотезу об отсутствии статистической связи стихии Воды с музыкантами-инструменталистами на уровне Р<0.05 отклонять не следует.
Но, на этом исследование возможного существования статистической связи между стихией Воды и музыкантами-инстументалистами не заканчивается. Далее будут обследованы разные уровни представительства стихии Воды в каждой экспериментальной группе, а именно:
1-ый уровень составят карты в которых нет элементов, расположенных в стихии Воды, или имеется только один элемент
2-ой уровень составят карты в которых имеется два элемента в стихии Воды
3-ий уровень – три элемента в стихии Воды
4-ый уровень – четыре элемента в стихии Воды
5-ый уровень – пять и более элементов в стихии Воды
Наибольший интерес вызывает 4-ый уровень, набравший наибольшее значение Хи2 и имеющий уровень значимости критерия менее 5%. Поэтому рассмотрим его подробнее.
Две трети всей суммарной величины Хи2 приходятся на 4-ую и 6-ую экспериментальные группы. Величина Хи2 в двух из 7 экспериментов может превысить порог 2,976 с вероятностью 11%, что не позволяет исключить возможности того, что такой расклад мог получился и чисто случайно.
Однако, если понизить порог до 1,540, то его преодолевают уже 4 группы из 7 и случайно такое возможно с вероятностью 4,2%. Опустив порог Хи2 до 1,235 окажется, что его смогут преодолеть 5 из 7 групп, с вероятностью случайного возникновения данной ситуации 1,7%.
А вот дальнейшее понижение порога Хи2 (до 0,273) окажется нецелесообразным, т.к. резко возрастет вероятность (до 16%) того, что 6 из 7 групп преодолеют этот порог совершенно случайно.
Все это говорит о том, что 5% уровень значимости критерия – вещь весьма и весьма условная. В данном случае, самым оптимальным уровнем значимости критерия является 26,7%. С одной стороны, это означает больший уровень «ложных сигналов», т.е. увеличение ошибки 1 рода, а с другой стороны, у нас увеличивается воспроизводимость результата, она же мощность критерия, которая в данном случае достигает 71,4% и уменьшается вероятность ошибки 2 рода – пропуск «полезных сигналов».
Отсюда можно сделать вывод, что 4-ый уровень представительства стихии Воды в карте является статистически значимым при Р<26,7%. Нулевую гипотезу следует отвергнуть и принять альтернативную частную гипотезу о том, что 4 элемента карты, расположенные в стихии Воды, имеют статистическую связь с музыкантами-инструменталистами.
Теперь имеет смысл обратиться к первичной статистике, которую я не выкладывал, дабы не загромождать аналитику. Посмотрим как обстоят дела на 4-ом уровне по фактическому числу карт музыкантов-интрументалистов и ожидаемому их числу в семи экспериментальных группах.
Согласно принятому ранее порогу значимости критерия Хи2, вторая и третья группы должны быть отброшены как не преодолевшие порог. В оставшихся пяти группах мы наблюдаем устойчивое уклонение в минус, т.е. музыканты-интрументалисты стараются избегать иметь в своей натальной карте 4 элемента в стихии Воды.
Поскольку Солнце не участвует в определении стихий, то 4 из 10 – это 40% Воды в карте. Такая доля стихии Воды им почему то особенно не нравится.
Далее мне предстоит провести черновую работу с оставшимися 5-ю группами, чтобы выяснить наличие доминирующих элементов в стихии Воды, которые музыканты-инструменталисты так стараются избегать.
Далее мне предстоит провести черновую работу с оставшимися 5-ю группами, чтобы выяснить наличие доминирующих элементов в стихии Воды, которые музыканты-инструменталисты так стараются избегать.
О найденной ошибке и последствиях после ее устранения
Вчера обнаружил ошибку первичной стат.обработки в 7 экспериментальной группе. Ожидаемое распределение числа карт в зависимости от числа элементов в стихии Воды было неверно рассчитано. Ошибку устранил и величина Хи2 для 7ЭГ стала меньше. К каким последствиям это привело?
На уровне анализа экспериментальных групп в целом это не вызвало никаких критических изменений и сохранило предварительный вывод о соответствии наблюдаемых различий нулевой гипотезе.
Изменения коснулись данных по уровням представительства стихий. Теперь они выглядят несколько иначе:
Оптимальный критический порог Хи2 теперь определяется на уровне 1,54. Его преодолевают 4 группы из 7. Случайно такое возможно с вероятностью 4,2%. Р-уровень значимости критерия при этом условии составил 21,5%. Мощность критерия упала до 57%.
В результате отбор по критерию проходят только 4 экспериментальные группы. 2-ая, 3-я и 7-ая – отсеиваются.
Первичная статистика числа карт приобретает следующий вид:
Таким образом, только в оставшихся 4-х группах будет проводится поэлементный анализ и выясняться причины избегания музыкантами-исполнителями наличия в карте 4 элементов, расположенных в стихии Воды.
Итак, вот что показал поэлементный анализ на 4-ом уровне представительства водной стихии в картах музыкантов-инструменталистов. Напомню, 4-ый уровень соответствует наличию только 4-х элементов карты, расположенных в стихии Воды.
Оценим значимость этих результатов. 4 группы из 4 могут случайно превысить порог Хи2=0,370 с вероятностью 0,087. 3 группы из 4 могут случайно превысить порог 2,22 с вероятностью 0,009. 2 группы из 4 могут случайно превысить порог 2,373 с вероятностью 0,077 и 1 группа из 4 может случайно превысить порог 2,547 с вероятностью 0,374.
Оптимальным и самым надежным порогом является значение Хи2=2,22, которое имеет р-уровень значимости 13,6% (что, как видим, опять же больше, чем пресловутые 5%). При этом мощность критерия составляет (3 из 4) - 75% или, что тоже самое, уровень воспроизводимости результатов.
Таким образом, данные по Сатурну можно рассматривать как статистически значимые.