• Главная
  • Блог
  • Пользователи
  • Форум
  • Литературное творчество
  • Музыкальное творчество
  • Научно-техническое творчество
  • Художественно-прикладное творчество

Начальная статистическая обработка информации

Опубликовано Смирнова Ирина Николаевна вкл 06.11.2021 - 11:56
Смирнова Ирина Николаевна
Автор: 
Гапеенко Дмитрий

Исследовательский проект на научную конференцию

Скачать:

ВложениеРазмер
Microsoft Office document icon nachalnaya_statisticheskaya_obrabotka_informatsii.doc621.5 КБ

Предварительный просмотр:

Начальная статистическая обработка информации
или как я работал статистиком.

г. Калуга

Автор: Гапеенко Дмитрий (МБОУ “Лицей № 48 ” г. Калуги, 10 “А” класс)

Введение.

        “Математика имеет репутацию самой отвлеченной науки. В то же время никто не смеет считать ее бесполезной наукой, наоборот – это самая нужная наука. И вот получается, казалось бы, противоречивое положение: с одной стороны – самая отвлеченная и оторванная от жизни наука, а с другой стороны – самая нужная наука. Это кажущееся противоречие объясняется тем, что математика имеет два аспекта: теоретический, где она рассуждает о самых общих и далеких от жизни вещах, и прикладной, где она касается самых практически необходимых вещей.”

        Это был отрывок из статьи академика П. С. Александрова “Математика и человеческая культура”. Математика является учебным предметом, которому придается чрезвычайно большое значение на всех ступенях общего образования. Но, к сожалению, в школе больше изучается теоретическая (или, как ее еще называют, чистая) математика и почти совсем не рассматриваются ее приложения.

        В школьной программе по математике с 5 класса изучается раздел “Элементы статистики и теории вероятностей”. В своей работе я хочу показать возможности практического применения методов математической статистики, рассмотрев задачи, возникающие в реальной жизни. Для обработки результатов исследования я использовал приложение Microsoft Excel.

Что такое статистика?

Статистика знает всё.

И. Ильф, Е. Петров “Двенадцать стульев”.

В энциклопедическом словаре можно найти следующее толкование интересующего нас слова. Статистика (от лат. status – состояние) – получение, обработка, анализ и публикация информации, характеризующей количественные закономерности жизни общества в неразрывной связи с их качественным содержанием. В естественных науках понятие “статистика” означает анализ массовых явлений, основанный на применении методов теории вероятностей.

Таким образом, статистика занимается подбором и анализом интересующей людей количественной информации. Так что именно статистика помогает учителю вывести итоговую оценку по предмету ученику, который в течение года демонстрировал различный уровень знаний, получая при этом разные оценки. Статистика помогает определить, например, рейтинг теннисиста в мировой классификации, подсчитав и проанализировав его результаты в различных турнирах. Однако наибольшую пользу приносит статистика при изучении массовых явлений. Почему, например, медики утверждают, что курение опасно для здоровья человека? К выводу о вреде курения врачи всего мира пришли не сразу, а лишь после анализа множества наблюдений за здоровьем курящих людей, сравнивая частоту заболеваний различными болезнями среди курящих и некурящих людей.

После рассмотрения последнего примера может возникнуть вопрос: насколько правомочен вывод о вреде курения для всех людей планеты, если исследования проводились на относительно небольшой (в сравнении с миллиардным населением планеты) группе людей? Но именно так и поступают в статистических исследованиях: рассматривают и изучают многочисленную часть объектов из всех объектов явления (ее называют выборкой). При этом все объекты называют генеральной совокупностью. По результатам наблюдения за массовой выборкой делают выводы обо всей генеральной совокупности.

Занимаясь темой “Начальная статистическая обработка информации”, я получил от моего учителя Смирновой И. Н. задание: выяснить какие суммы тратят учащиеся 7-х классов, питаясь в школьном буфете.

В результате сбора всех данных, полученная информация была необозримой. Человеческий мозг слабоват для анализа таких объемов информации. Единственный выход – это преобразовать первоначальные данные, получить несколько характеристик начальной информации и в дальнейшем уже оперировать с этими характеристиками.

Цель начальной статистической обработки информации – представить информацию статистического исследования в компактной, обозримой и понятной форме.

Задача о питании школьников.

        Еще раз сформулирую задачу, полученную моего учителя: выяснить, какие суммы тратят учащиеся 7-х классов, питаясь в буфете лицея.

Уже на этапе сбора данных для статистического исследования возникает масса непростых проблем, от решения которых во многом будет зависеть объективность полученной информации и достоверность выводов, которые потом будут сделаны на ее основе. Как, например, организовать социологический опрос, чтобы полученные в нем данные отражали реальную картину? Сколько человек нужно опросить? Как организовать их выбор?

Для того чтобы выборка была репрезентативной, я решил провести опрос ≈50% случайно отобранных учеников из каждого класса после 5 урока. Им всем задавался один вопрос: “Какую сумму ты сегодня потратил в школьном буфете?” Опрос дал следующие результаты:

10,15,10,15,0,15,20,0,10,15,20,5,0,20,20,15,10,8,20,20,7,6,10,10,8,4,0,15,13,6,8,0,10,10,6,7,13,11,5,4,5,15,10,7,9,6,8,0,0,9,0,20,8,20.

        С моим учителем математики Смирновой И. Н. мы решили рассмотреть следующие задачи начальной статистической обработки информации:

  1. Расположить данные в возрастающем порядке (т.е. записать ранжированные варианты).
  2. Определить 25-й, 50-й и 90-й перцентили, нижний, средний и верхний квартили.
  3. По ранжированным данным составить дискретный вариационный ряд распределения частот.
  4. Составить дискретный вариационный ряд частостей.
  5. Составить интервальный вариационный ряд частот.
  6. Построить полигон дискретного вариационного ряда частостей.
  7. Построить гистограмму интервального вариационного ряда частот.
  8. Построить кумуляту дискретного вариационного ряда частот.
  9. Вычислить моду для дискретного вариационного ряда частот.
  10. Найти медиану и моду для интервального вариационного ряда частот.
  11. Рассчитать среднюю сумму потраченных денег для дискретного и интервального рядов.
  12. Найти дисперсию и среднее квадратичное отклонение.
  13. Вычислить коэффициент вариации.

РЕШЕНИЕ:

  1. Ранжируем данные:

n

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

xi

0

0

0

0

0

0

0

0

4

4

5

5

5

6

6

6

6

7

7

7

8

8

8

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

8

8

9

9

10

10

10

10

10

10

10

10

10

11

13

13

15

15

15

15

15

15

46

47

48

49

50

51

52

53

54

15

20

20

20

20

20

20

20

20

.

  1. Квантили вариационного ряда – это варианты, занимающие определенное место в вариационном ряду. К числу квантилей, наиболее часто используемых в статистическом анализе, относят перцентили, квартили, децили и медиану, которые характеризуют структуру вариационного ряда.
    Определим 25-й, 50-й и 90-й перцентили для этого вариационного ряда.
    Для определения 25-го перцентиля необходимо сначала найти его позицию в вариационном ряду:
    . По определению Р-перцентиля имеем:
    . Эта позиция находится между 13-м и 14-м вариантами. 13-й по порядку вариант в ранжированном ряду равен 5, 14-й – 6. Значение перцентиля находится в точке, которая делит расстояние между 5 и 6 в отношении 0,75 к 1, т.е. расстояние от 5 до 25-го перцентиля составляет 0,75 от длины отрезка между 5 и 6. Итак, 25-й перцентиль равен 5,75.
    Для того чтобы найти 50-й перцентиль, мы должны определить значение варианта, соответствующего позиции:
    . Среди ранжированных вариантов значение 27-го по порядку варианта равно 9, а значение 28-го варианта тоже равно 10, отсюда, 50-й перцентиль равен 9,5. Имеем: .
    Аналогично определим 90-й перцентиль (
    ) как значение варианта, соответствующего позиции . Значение 49-го варианта равно 20, а 50-го  - тоже 20. Следовательно .
    Первый (нижний) квартиль – это 25-й перцентиль, т.е. значение признака в вариационном ряду, слева от которого лежит 25% всех вариантов.
    Второй (средний) квартиль – это 50-й перцентиль, он же медиана (
    ) .
    Третий (верхний) квартиль – это точка, слева от которой находится 75% вариантов ряда. Сначала определим позицию, которой соответствует эта точка:
    . Значит значение верхнего квартиля равно 15.
  2. Абсолютные числа, показывающие, сколько раз встречаются те или иные варианты в ряду, называются частотами.

Значения признака (xi)

0

4

5

6

7

8

9

10

11

13

15

20

Количество учащихся (mi)

8

2

3

4

3

5

2

9

1

2

7

8

В полученном ряду .

  1. Отношение частоты того или иного варианта к сумме всех частот ряда называется частостью или относительной частотой.
    Запишем дискретный вариационный ряд частостей (табл. 1.2).
    , .

xi

0

4

5

6

7

8

9

10

11

13

15

20

wi (≈ )

0,15

0,04

0,06

0,07

0,06

0,09

0,04

0,17

0,02

0,04

0,13

0,15

  1. Даже для малого объема выборки аккуратное “причесывание” информации – довольно кропотливая вещь. Есть более краткий, но менее точный способ –  представление информации в виде интервального вариационного ряда.
    Рекомендуемое число интервалов согласно формуле Стэрджеса
    .
    Находим оптимальную ширину интервалов разбиения (
    ki): .
    Теперь построим вариационный ряд границ интервалов группирования, т.е. к
    xmin прибавляем 3 и получаем первый интервал от 0 до 3. Последующие интервалы получаются прибавлением к концу предыдущего интервала ширины интервала ki. Затем подсчитываем количество вариантов mi, попавших в каждый интервал.
    При построении интервальных рядов в каждый промежуточный интервал можно включать варианты, числовые значения которых больше нижней границы интервала и меньше или равны верхней границы (или наоборот).

Интервалы

[0; 3]

(3; 6]

(6; 9]

(9; 12]

(12; 15]

(15; 18]

(18; 21]

mi

8

9

10

10

9

0

8

Если в промежуточный интервал включаются варианты, числовые значения которых больше или равны нижней границы и меньше верхней границы, то частоты (или частости) интервалов будут другими (см. табл. 1.4)

Интервалы

[0; 3)

[3; 6)

[6; 9)

[9; 12)

[12; 15)

[15; 18)

[18; 21)

mi

8

5

12

12

2

7

8

С одной стороны, в интервальном ряду потеряна первоначальная точная информация, с другой стороны, наглядно видна качественная оценка распределения данных.

  1. Наглядным способом представления вариационного ряда является графический. Дискретный вариационный ряд можно представить в виде полигона распределения частот (частостей), а интервальный вариационный ряд можно представить с помощью гистограммы.

Построим полигон дискретного вариационного ряда частостей (см. табл. 1.2). Для построения полигона распределения дискретного вариационного ряда на оси абсцисс откладываются варианты, а на оси ординат – частоты (или частости). Полученные точки соединяют отрезками. (Диаграмма построена в программе Excel.)

  1. При построении гистограммы частот для ряда по данным табл. 1.4 на оси абсцисс откладывают не точки, а отрезки, изображающие интервалы, а вместо ординат, соответствующих частотам определенных вариантов, строят прямоугольники с высотой, пропорциональной частотам интервалов.

Гистограмма интервального вариационного ряда.

  1. Дискретные и интервальные вариационные ряды графически можно представить в виде кумуляты.
    Предварительно для построения кумуляты дискретного вариационного ряда по данным табл. 1.2 запишем
    накопленные частости (накопленная частость показывает, сколько наблюдалась вариантов со значением признака, меньшим или равным определенного значения x) в восходящем порядке, т.е. вариационный ряд преобразуется в кумулятивный (табл. 1.5).

xi

Частости mi (≈ %)

Накопленные частости vi (≈ %)

0

14,81

14,81

4

3,70

18,52

5

5,56

24,07

6

7,41

31,48

7

5,56

37,04

8

9,26

46,30

9

3,70

50,00

10

16,67

66,67

11

1,85

68,52

13

3,70

72,22

15

12,96

85,19

20

14,81

100

На оси абсцисс прямоугольной системы координат откладываются значения признака, а по оси ординат – соответствующие им накопленные частости (или частоты). Кумулята дискретного вариационного ряда представляет собой ступенчатую разрывную линию, имеющую конечные разрывы в точках, соответствующих значениям признака, вариантам.

  1. Мода дискретного ряда (см. табл. 1.1) равна 10. Значение признака, равное 10, встречается наиболее часто (соответствующая ему частота равна 9). Следовательно, М0=10.
  2. Определим моду для интервального ряда (см. табл. 1.4). Ряд имеет два модальных интервала: 6 – 9 и 9 – 12, так как этим интервалам соответствуют наибольшие частоты – 12. Далее вычисляем М0 по формуле , где  - нижняя граница модального интервала;  - частота модального интервала;  - частота интервала, предшествующего модальному;  - частота интервала последующего за модальным; k – величина модального интервала. Тогда . . Мода интервального ряда равна 9.
    При нахождении медианы для интервального вариационного ряда (см. табл. 1.4) сначала определяем интервал, содержащий медиану: (9; 12) – медианный интервал. Теперь вычислим
    Me – по формуле , где  - нижняя граница медианного интервала;  - величина медианного интервала;  - накопленная частота интервала, предшествующего медианному;  - половина суммы всех частот;  - частота медианного интервала.
    .
  3. Самая известная и наиболее употребляемая в статистическом анализе характеристика вариационного ряда – это средняя арифметическая. Средняя величина даёт обобщающую характеристику признака изучаемой совокупности, но она не раскрывает строения совокупности, которое весьма существенно для его познания.

Рассчитаем среднюю сумму потраченных денег для дискретного вариационного ряда в табл. 1.1 по формуле .
.
А для интервального вариационного ряда по данным табл. 1.4 в формуле для нахождения
 в качестве значений признака принимаются середины интервалов. Теперь расчет средней арифметической примет вид:
.

  1. Средняя арифметическая характеризует вариационный ряд одним числом, но не отражает вариацию, т.е. изменчивость признака. Средняя арифметическая квадрата отклонения значений признака от их средней арифметической называется дисперсией вариационного ряда. Значение корня квадратного из дисперсии называется средним квадратичным отклонением – оно показывает на сколько в среднем отклоняются конкретные варианты от их  среднего значения. Чем меньше значение дисперсии и среднего квадратичного отклонения, тем однороднее совокупность и тем более типичной будет средняя величина.

Для расчета дисперсии в интервальном вариационном ряде (см. табл. 1.4) используем формулу , заменяя  серединами интервалов.


Расчет средней арифметической и дисперсии удобно осуществлять при помощи расчетной таблицы в Excel.

xi

mi

(xi - x)2mi

x

10,2

1,5

8

605,52

4,5

5

162,45

7,5

12

87,48

10,5

12

1,08

13,5

2

21,78

16,5

7

277,83

19,5

8

691,92

Σ

54

1848,06


Найдем дисперсию дискретного вариационного ряда по формуле
, где .


, и среднее квадратичное отклонение (руб.)

  1. Среднее квадратичное отклонение – это абсолютная мера рассеяния вариантов ряда. Существует и относительная мера рассеяния – коэффициент вариации. Коэффициент вариации представляет собой процентное отношение среднего квадратичного отклонения к средней арифметической, т.е. .
    Коэффициент вариации используют не только для сравнительной оценки вариации единиц совокупности, но и как характеристику однородности совокупности. Совокупность считается количественно однородной, если коэффициент вариации не превышает 33%. В нашем случае V
    ≈ 64,2%, что говорит о неоднородности значений признака.

Выводы:

  1. В среднем учащиеся тратят в буфете 10 р., а 72% учащихся тратят меньше 13 р. Небольшая сумма потраченных денег говорит о том, что нецелесообразно заказывать горячее питание для всех школьников, так как большинство обходится малым.
  2. Почти 30 % учащихся тратят в буфете от 15 р. до 20 р. Надо убедить родителей этих учащихся перейти на горячее питание, что более полезно, чем еда из буфета. На родительском собрании в качестве иллюстраций проведенного исследования можно показать полученные диаграммы.
  3. Работникам буфета предоставить гистограмму интервального вариационного ряда распределения относительных частот, что поможет им определить необходимое количество товаров по разным ценам.
  4. Мода дискретного ряда равна 10 р., а интервального – 9 р. Работникам буфета можно рекомендовать привозить больше продуктов за эту цену.
  5. Дисперсия вариационного ряда ≈ 6 р. Это говорит о том, что разброс количества потраченных денег высок, и ассортимент продуктов в  буфете должен быть разнообразен.

Заключение.

Статистика имеет многовековую историю. Уже в древнем мире вели статистический учет населения. Однако произвольные толкования статистических данных, отсутствие строгой научной базы статистических прогнозов позволили в конце XIX века английскому премьер-министру Б. Дизраэли заметить: “Есть три вида лжи: обычная ложь, наглая ложь и статистика”. В XX веке появилась математическая статистика – наука, основанная на законах теории вероятностей. Соединение накопленных к этому времени практических методов обработки данных с математическим аппаратом теории вероятностей превратило эти две отрасли человеческого знания в мощный инструмент для исследования законов природы и общества.

Разбираться в азах статистики необходимо каждому человеку хотя бы ради того, чтобы не “попасться на удочку” пристрастных или нечистоплотных высказываний прессы, средств массовой информации, отдельных политиков или экономистов.

Изучая литературу по статистике, я узнал, что статистический анализ применяется не только в естественных и экономических науках и при организации производства, но и в гуманитарных науках:

  • В археологии выяснение эпох захоронений, национальной принадлежности производится с привлечением статистических методов.
  • Статистический подход используется для расшифровки надписей на языках давно умерших.
  • Искусство шифрования записей и их дешифровки также основано на использовании статистических закономерностей языка
  • Изучение повторяемости слов и букв, распределение ударений в словах используется для установления литературных подделок и установления авторства.
  • Расположение букв на клавиатуре определяется статистическим изучением частоты сочетаний букв в данном языке.
  • Исследованию ударений в русских поэтических произведениях посвящен ряд работ академика А. Н. Колмогорова. Такого рода изучение позволяет приблизиться к пониманию строения речи, общих закономерностей ее красоты, а возможно и некоторых закономерностей мышления.

Сейчас я учусь в 10 физико-математическом классе и я еще не знаю точно, какую профессию я выберу, но я уверена, что в моей будущей профессии мне обязательно пригодится знание основ статистики. 


Список литературы.

  1. Виленкин Н. Я., Потапов В. Г., Задачник-практикум по теории вероятностей с элементами комбинаторики и математической статистики. Просвещение, 1979.
  2. Макарычев Ю. Н., Миндюк Н. Г., Элементы статистики и теории вероятностей 7 – 9 классы. Просвещение, 2005.
  3. Ниворожкина Л. И., Морозова Э. А., Математическая статистика с элементами теории вероятностей в задачах. МарТ, 2005.
  4. Бунимович Е. А., Булычев В. А., Вероятность и статистика 5 – 9.Дрофа, 2005.
  5. Мордкович А. Г., Семенов П. В., События. Вероятности. Статистическая обработка данных 7 – 9. Мнемозина, 2005.
  6. Дьяконов В. П., Maple 7. Учебный курс. Питер, 2002.
  7. Спрент П., Зачем нужна статистика. Квант, № 10-1992.
  8. Гнеденко Б. В., Статистическое мышление и школьное математическое образование. Математика в школе, №1-1968.


Поделиться:

Гораздо больше риска в приобретении знаний, чем в покупке съестного

Кто грамотней?

Филимоновская игрушка

Под парусами

Карты планет и спутников Солнечной системы