Математика
Предварительный просмотр:
Министерство образования и науки Челябинской области
Государственное бюджетное профессиональное образовательное учреждение
«Миасский педагогический колледж»
Кафедра математических и естественнонаучных дисциплин
Методы математической статистики
Реферат
Выполнила студентка 202 группы специальность 44.02.01
«Дошкольное образование»,
квалификация «Воспитатель детей
дошкольного возраста»
Ярушкина Валерия Алексеевна
Научный руководитель:
Бромбина Т.П.
преподаватель высшей квалификационной категории
Миасс
2017
Содержание:
Введение………………………………………………………………………….3
Математическая статистика…………………………………………………4
Методы математической статистики…………………………………5
Заключение…………………………………………………………………….14
Введение
Математической статистикой называется наука, занимающаяся разработкой методов получения, описания и обработки опытных данных с целью изучения закономерностей случайных массовых явлений.
В математической статистике можно выделить два направления: описательную статистику и индуктивную статистику (статистический вывод). Описательная статистика занимается накоплением, систематизацией и представлением опытных данных в удобной форме. Индуктивная статистика на основе этих данных позволяет сделать определенные выводы относительно объектов, о которых собраны данные, или оценки их параметров.
Математическая статистика — наука, разрабатывающая математические методы систематизации и использования статистических данных для научных и практических выводов.
Во многих своих разделах математическая статистика опирается на теорию вероятностей, дающую возможность оценить надёжность и точность выводов, делаемых на основании ограниченного статистического материала (напр., оценить необходимый объём выборки для получения результатов требуемой точности при выборочном обследовании).
Математическая статистика — раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений. В зависимости от математической природы конкретных результатов наблюдений статистика математическая делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы.
Выделяют описательную статистику, теорию оценивания и теорию проверки гипотез. Описательная статистика есть совокупность эмпирических методов, используемых для визуализации и интерпретации данных (расчет выборочных характеристик, таблицы, диаграммы, графики и т. д.), как правило, не требующих предположений о вероятностной природе данных. Некоторые методы описательной статистики предполагают использование возможностей современных компьютеров. К ним относятся, в частности, кластерный анализ, нацеленный на выделение групп объектов, похожих друг на друга, и многомерное шкалирование, позволяющее наглядно представить объекты на плоскости.
Методы оценивания и проверки гипотез опираются на вероятностные модели происхождения данных. Эти модели делятся на параметрические и непараметрические. В параметрических моделях предполагается, что характеристики изучаемых объектов описываются посредством распределений, зависящих от (одного или нескольких) числовых параметров. Непараметрические модели не связаны со спецификацией параметрического семейства для распределения изучаемых характеристик. В математической статистике оценивают параметры и функции от них, представляющие важные характеристики распределений (например, математическое ожидание, медиана, стандартное отклонение, квантили и др.), плотности и функции распределения и пр. Используют точечныеи интервальные оценки.
Методы математической статистики
1. Описание данных - компактное описание имеющихся данных с помощью различных агрегированных (обобщенных) показателей и графиков. К этому классу можно отнести также задачу определения необходимого объема выборки (минимального числа исследуемых объектов), необходимого для того, чтобы сделать обоснованные выводы.
В практике научных исследований обычно имеется совокупность наблюдений (десятки, сотни, а иногда - тысячи результатов измерений индивидуальных характеристик), поэтому возникает задача компактного описания имеющихся данных. Для этого используют методы описательной статистики- описания результатов с помощью различных агрегированных показателей и графиков. Перечислим некоторые из них.
Для результатов измерений в шкале отношенийпоказатели описательной статистики можно разбить на несколько групп:
- показатели положенияописывают положение экспериментальных данных на числовой оси. Примеры таких данных
- максимальный и минимальный элементы выборки, среднее значение, медиана, модаи др.;
- показатели разбросаописывают степень разброса данных относительно своего центра (среднего значения). К ним относятся: выборочная дисперсия, разность между минимальным и максимальным элементами (размах, интервал выборки) и др.
Таблица 6.1 – Задачи анализа экспериментальных данных
ЗАДАЧА | Описание данных | Изучение сходства/различий | Исследование зависимостей | Снижение размерности | Классификация |
МЕТОДЫ | - описательная статистика; - определение необходимого объема выборки | Статистические критерии: χКрамера-Уэлча, Вилкоксона-Манна-Уитни, Фишера | - корреляционный анализ; - дисперсионный анализ; - регрессионный анализ | - факторный анализ; - метод главных компонент | - дискриминантный анализ; - кластерный анализ; - группировка |
- показатели асимметрии:положение медианы относительно среднего (величина разности их значений) и др.
- гистограммаи др.
Данные показатели используются для наглядного представления и первичного («визуального») анализа результатов измерений характеристик экспериментальной и контрольной группы.
2. Изучение сходства/различий(сравнение двух выборок). Например, требуется установить, достоверно ли различие конечных состояний экспериментальной и контрольной группы в эксперименте. Или, например, задача заключается в установлении совпадений или различий характеристик двух выборок (например, требуется установить, что средние значения доходов населения в двух регионах (или средние значения производительности труда в двух отраслях народного хозяйства и т.д.) совпадают или различаются). Для этого формулируются статистические гипотезы:
- гипотеза об отсутствии различий (так называемая нулевая гипотеза);
- гипотеза о значимости (достоверности) различий (так называемая альтернативная гипотеза).
Для принятия решения о том, какую из гипотез (нулевую или альтернативную) следует принять, используют решающие правила - статистические критерии. То есть, на основании информации о результатах наблюдений (характеристиках членов экспериментальной и контрольной группы) по известным формулам вычисляется число, называемое эмпирическим значением критерия. Это число сравнивается с известным (например, заданным таблично в соответствующих книгах по математической статистике эталонным числом, называемым критическим значением критерия.
Критические значения приводятся, как правило, для нескольких уровней значимости. Уровнем значимости называется вероятность ошибки, заключающейся в непринятии нулевой гипотезы, когда она верна, то есть вероятность того, что различия сочтены существенными, а они на самом деле случайны.
Обычно используют уровни значимости (обозначаемые а), равные вероятности 0,05, или 0,01, или 0,001. Или, переводя в проценты, выборки не различаются с вероятностями 5 %, 1 %, 0,1 %. Соответственно, вероятности того, что выборки различаются составят 0,95, 0,99, 0,999, или в процентах -95 %, 99 % и 99,9 %. В экономических, педагогических, психологических, медико-биологических экспериментальных исследованиях обычно ограничиваются значением 0,05, то есть допускается не более чем 5 %-ая возможность ошибки (95 % уровень достоверности различий). В естественных, технических науках чаще требуются уровни достоверности различий 99 % или 99,9 %.
Если полученное исследователем эмпирическое значение критерия оказывается меньше или равно критическому, то принимается нулевая гипотеза - считается, что на заданном уровне значимости (то есть при том значении а, для которого рассчитано критическое значение критерия) характеристики экспериментальной и контрольной групп совпадают. В противном случае, если эмпирическое значение критерия оказывается строго больше критического, то нулевая гипотеза отвергается и принимается альтернативная гипотеза - характеристики экспериментальной и контрольной группы считаются различными с достоверностью различий 1 - а. Например, если а = 0,05 и принята альтернативная гипотеза, то достоверность различий равна 0,95 или 95%.
Другими словами, чем меньше эмпирическое значение критерия (чем левее оно находится от критического значения), тем больше степень совпадения характеристик сравниваемых объектов. И наоборот, чем больше эмпирическое значение критерия (чем правее оно находится от критического значения), тем сильнее различаются характеристики сравниваемых объектов.
Итак, если мы ограничимся уровнем значимости α = 0,05, то, если эмпирическое значение критерия оказывается меньше или равно критическому, то можно сделать вывод, что «характеристики экспериментальной и контрольной групп совпадают на уровне значимости 0,05». Если эмпирическое значение критерия оказывается строго больше критического, то можно сделать вывод, что «достоверность различий характеристик экспериментальной и контрольной групп равна 95 %».
Приведем алгоритм выбора статистического критерия (см. табл. 6.2). Во-первых, необходимо определить, какая
Таблица 6.2 – Алгоритм выбора статистического критерия
Шкала | Статистический критерий |
измерений | |
Отношений | Крамера-Уэлча, Вилкоксона-Манна-Уитни |
Порядковая | χВилкоксона-Манна-Уитни, |
Номинальная | χ2 |
Дихотомическая | Фишера |
шкала измерений используется - отношений, порядковая или номинальная.
Для шкалы отношений целесообразно использовать критерий Крамера-Уэлча. Если число различающихся между собой значений3 в сравниваемых выборках велико (более десяти)4, то возможно использование критерия Вилкоксона- Манна-Уитни.
Для порядковой шкалы χцелесообразно использовать критерий Вилкоксона-Манна-Уитни, возможно также использование критерия 2.
Для номинальной шкалы χследует использовать критерий 2.
Для дихотомической шкалы (номинальной шкалы с двумя возможными значениями) следует использовать критерий Фишера.
3. Исследование зависимостей. Следующим шагом после изучения сходства/различий является установление факта наличия/отсутствия зависимости между показателями и количественное описание этих зависимостей. Для этих целей используются, соответственно, корреляционный и дисперсионный анализ, а такжерегрессионный анализ.
Корреляционный анализ. Корреляция (correlation) - связь между двумя или более переменными (в последнем случае корреляция называется множественной). Цель корреляционного анализа - установление наличия или отсутствия этой связи, то есть установление факта зависимости каких-либо явлений, процессов друг от друга или их независимости.
В случае, когда имеются две переменные, значения которых измерены в шкале отношений5, используется коэффициент линейной корреляции Пирсона r, который принимает значения от -1 до +1 (нулевое его значение свидетельствует об отсутствии корреляции6) - см. Рис. 6.1, на котором каждая точка соответствует отдельному объекту, описываемому двумя переменным - х и у. Термин «линейный» свидетельствует о том, что исследуется наличие линейной связи между переменными – еслиr(х, у) = 1, то одна переменная линейно зависит от другой (и, естественно, наоборот), то есть существуют константы а и b, причем, а > 0, такие что у = а х + b.
На рис. 6.1, а и в изображены ситуации, когда все экспериментальные точки лежат на прямой (абсолютное значение коэффициента линейной корреляции равно единице). В ситуации, изображенной на рис. 6.1, б, однозначно провести прямую через экспериментальные точки невозможно (коэффициент линейной корреляции равен нулю).
Если экспериментальные точки сгруппированы около некоторой прямой - см. рис. 6.1, г и д, то коэффициент линейной корреляции принимает значения, отличные от нуля, причем чем «ближе» точки к прямой, тем выше абсолютное значение коэффициента линейной корреляции. То есть, чем выше абсолютное значение коэффициента Пирсона, тем сильнее исследуемые переменные линейно связаны между собой.
Рисунок 6.1 – Величины коэффициента линейной корреляции в различных ситуациях
Для данных, измеренных в порядковой шкале, следует использовать коэффициент ранговой корреляции Спирмена (он может применяться и для данных, измеренных в интервальной шкале, так как является непараметрическим и улавливает тенденцию - изменения переменных в одном направлении), который обозначаетсяsи определяется сравнениемрангов - номеров значений сравниваемых переменных в их упорядочении.
Коэффициент корреляции Спирмена является менее чувствительным, чем коэффициент корреляции Пирсона (так как первый в случае измерений в шкале отношений учитывает лишь упорядочение элементов выборки). В то же время, он позволяет выявлять корреляцию между монотонно нелинейно связанными переменными (для которых коэффициент Пирсона может показывать незначительную корреляцию.
Отметим, что большое (близкое к плюс единице или к минус единице) значение коэффициента корреляции говорит о связи переменных, но ничего не говорит о причинно- следственных отношениях между ними. Так, например, из высокой корреляции температуры воздуха за окном и времени суток нельзя делать вывод о том, что движение солнца обусловлено изменениями температуры воздуха. Поэтому для установления причин связей между какими-либо явлениями, процессами необходимы дополнительные исследования по содержательной интерпретации этих связей.
Дисперсионный анализ. Изучение наличия или отсутствия зависимости между переменными можно также проводить и с помощью дисперсионного анализа. Его суть заключается в следующем. Дисперсия характеризует «разброс» значений переменной. Переменные связаны, если для объектов, отличающихся значениями одной переменной, отличаются и значения другой переменной. Значит, нужно для всех объектов, имеющих одно и то же значение одной переменной (называемойнезависимой переменной), посмотреть, насколько различаются (насколько велика дисперсия) значения другой (или других) переменной, называемой зависимой переменной. Дисперсионный анализ как раз и дает возможность сравнить отношение дисперсии зависимой переменной (межгрупповой дисперсии) с дисперсией внутри групп объектов, характеризуемых одними и теми же значениями независимой переменной (внутригрупповой дисперсией).
Другими словами, дисперсионный анализ «работает» следующим образом. Выдвигается гипотеза о наличии зависимости между переменными: например, между возрастом и уровнем образования сотрудников некоторой организации. Выделяются группы элементов выборки (сотрудников) с одинаковыми значениями независимой переменной - возраста, то есть сотрудников одного возраста (или принадлежащих выделенному возрастному диапазону). Если гипотеза о зависимости уровня образования от возраста верна, то значения зависимой переменной (уровня образования) внутри каждой такой группы должны различаться не очень сильно (внутри- групповая дисперсия уровня образования должна быть мала). Напротив, значения зависимой переменной для различающихся по возрасту групп сотрудников должны различаться сильно (межгрупповая дисперсия уровня образования должна быть велика). То есть, переменные зависимы, если отношение межгрупповой дисперсии к внутригрупповой велико. Если же гипотеза о наличии зависимости между переменными не верна, то это отношение должно быть мало.
Регрессионный анализ. Если корреляционный и дисперсионный анализ дают ответ на вопрос, существует ли взаимосвязь между переменными, то регрессионный анализ предназначен для того, чтобы найти «явный вид» функциональной зависимости между переменными. Для этого предполагается, что зависимая переменная (иногда называемая откликом) определяется известной функцией (иногда говорят - моделью), зависящей от зависимой переменной или переменных (иногда называемых факторами) и некоторого параметра. Требуется найти такие значения этого параметра, чтобы полученная зависимость (модель) наилучшим образом описывала имеющиеся экспериментальные данные. Например, в простой7 линейной регрессии предполагается, что зависимая переменная у является линейной функцией у = а х + b от независимой переменной х. Требуется найти значения параметров а и b, при которых прямая а х + Ъ будет наилучшим образом описывать (аппроксимировать) экспериментальные точки (х1, у1), (х2, у2), ..., (хn, уn).
Можно использовать полиномиальную регрессию, в которой предполагается, что зависимая переменная является полиномом (многочленом) некоторой степени от независимой переменной (напомним, что линейная зависимость является полиномом первой степени). Например, полиномом второй степени (знакомая всем из школьного курса алгебры парабола) будет зависимость вида у = а х2 + b х + с и задачей регрессии будет нахождение коэффициентов а, b и с.
Выше мы рассмотрели простую регрессию (по одной независимой переменной) - линейную и нелинейную. Возможно также использование множественной регрессии- определения зависимости одной переменной от нескольких факторов (независимых переменных).
Регрессионный анализ, помимо того, что он позволяет количественно описывать зависимость между переменными, дает возможность прогнозировать значения зависимых переменных - подставляя в найденную формулу значения независимых переменных, можно получать прогноз значений зависимых. При этом следует помнить, что построенная модель «локальна», то есть, получена для некоторых вполне конкретных значений переменных. Экстраполяция результатов модели на более широкие области значений переменных может привести к ошибочным выводам.
4. Снижение размерности. Часто в результате экспериментальных исследований возникают большие массивы информации. Например, если каждый из исследуемых объектов описывается по нескольким критериям (измеряются значения нескольких переменных - признаков), то результатом измерений будет таблица с числом ячеек, равным произведению числа объектов на число признаков (показателей, характеристик). Возникает вопрос, а все ли переменные являются информативными. Конечно, исследователю желательно было бы выявить существенные переменные (это важно с содержательной точки зрения) и сконцентрировать внимание на них. Кроме того, всегда желательно сокращать объемы обрабатываемой информации (не теряя при этом сути). Чем тут могут помочь статистические методы?
Существует целый класс задач снижения размерности, цель которых как раз и заключается в уменьшении числа анализируемых переменных либо посредством выделения существенных переменных, либо/и построения новых показателей (на основании полученных в результате эксперимента).
Для снижения размерности используется факторный анализ, а основными методами являются кратко рассматриваемый ниже метод главных компонент и многомерноешкалирование.
Метод главных компонент заключается в получении нескольких новых показателей - главных компонент, являющихся линейными комбинациями исходных показателей (напомним, что линейной комбинацией называется взвешенная сумма), полученных в результате эксперимента. Главные компоненты упорядочиваются в порядке убывания той дисперсии, которую они «объясняют». Первая главная компонента объясняет большую часть дисперсии, чем вторая, вторая - большую, чем третья и т.д. Понятно, что чем больше главных компонент будет учитываться, тем большую часть изменений можно будет объяснить.
Преимущество метода главных компонент заключается в том, что зачастую первые несколько главных компонент (одна-две-три) объясняют большую часть (например, 80-90 %) изменений большого числа (десятков, а иногда и сотен) показателей. Кроме того, может оказаться, что в первые несколько главных компонент входят не все исходные параметры. Тогда можно сделать вывод о том, какие параметры являются существенными, и на них следует обратить внимание в первую очередь.
Решив задачи описания данных, установления сходства/отличий, проанализировав качественно и количественно зависимости между переменными и выявив существенные переменные, можно анализировать соотношение групп переменных и пытаться прогнозировать значения одних переменных в зависимости от значений других переменных или времени развития того или иного процесса.
5. Классификация. Обширную группу задач анализа данных, основывающихся на применении статистических методов, составляют так называемые задачи классификации. В близких смыслах (в зависимости от предметной области) используются также термины: «группировка», «систематизация», «таксономия», «диагностика», «прогноз», «принятие решений», «распознавание образов». Обсудим некоторые различия между этими терминами. Предложено выделить три подобласти теории классификации: дискриминация (дискриминантный анализ), кластеризация (кластерный анализ) и группировка. Здесь мы кратко остановимся на сути этих методов.
В дискриминантном анализе классы предполагаются заданными (например, обучающими выборками, для элементов которых известно, каким классам они принадлежат: например, больной-здоровый, правильно-неправильно, легкая степень заболевания - средняя - тяжелая и т.д.). Задача заключается в том, чтобы каждый вновь появляющийся объект отнести к одному из этих классов. У термина «дискриминация» имеется множество синонимов: диагностика (например, в медицине требуется поставить диагноз из конечного списка возможных диагнозов, если известны определенные характеристики пациента и известно, какие диагнозы ставились пациентам, вошедшим в обучающую выборку), распознавание образов с учителем, автоматическая (или статистическая) классификация с учителем и т.д.
Если в дискриминантном анализе классы заданы, то кластеризация и группировка предназначены для выявления и выделения классов. Синонимами являются: построение классификации, таксономия, распознавание образов без учителя, автоматическая классификация без учителя и т. д.
Задача кластерного анализа заключается в выделении по эмпирическим данным резко различающихся групп (кластеров) объектов, которые схожи между собой внутри каждой из групп.
Заключение
Статистика — это прежде всего способ мышления, и для ее применения нужно лишь иметь немного здравого смысла и знать основы математики.(Мак-Коннелл)
В нашей повседневной жизни мы, сами о том не догадываясь, постоянно занимаемся статистикой. Хотим ли мы спланировать бюджет, оценить усилия, которые потребуются для усвоения какого-то курса, с учетом полученных до сих пор отметок, предусмотреть вероятность хорошей и плохой погоды по метеорологической сводке или вообще оценить, как повлияет то или иное событие на наше личное или совместное будущее, — нам постоянно приходится отбирать, классифицировать и упорядочивать информацию, связывать ее с другими данными так, чтобы можно было сделать выводы, позволяющие принять верное решение.
Все эти виды деятельности мало отличаются от тех операций, которые лежат в основе научного исследования и состоят в синтезе данных, полученных на различных группах объектов в том или ином эксперименте, в их сравнении с целью выяснить черты различия между ними, в их сопоставлении с целью выявить показатели, изменяющиеся в одном направлении, и, наконец, в предсказании определенных фактов на основании тех выводов, к которым приводят полученные результаты. Именно в этом заключается цель статистики в науках вообще, особенно в гуманитарных. В последних нет ничего абсолютно достоверного, и без статистики выводы в большинстве случаев были бы чисто интуитивными и не могли бы составлять солидную основу для интерпретации данных, полученных в других исследованиях. Если данные, полученные в эксперименте, качественного характера, то правильность делаемых на основе их выводов полностью зависит от интуиции, эрудиции и профессионализма исследователя, а также от логики его рассуждений. Если же эти данные количественного типа, то сначала проводят их первичную, а затем вторичную статистическую обработку.