Основные этапы разработки педагогического теста
материал

Коваль Наталья Николаевна

Источник: Т.И. Шамова, С.Н. Белова, И.В, Ильина, Г.Н. Подчалимова, А.Н. Худин. Современные средства оценивания результатов обучения в школе Педагогическое общество России, Москва, 2007

 

Скачать:


Предварительный просмотр:

Основные этапы разработки педагогического теста

В разработке педагогических тестов можно выделить три этапа: планирование, написание заданий, анализ заданий.  

Во избежание несбалансированности и диспропорции охватываемых тестом тем составлению заданий должна предшествовать его спецификация. Спецификация - это определение основных характеристик теста. Спецификация включает в себя (В.С.Аванесов):

• название теста;

• общую цель разработки;

• перечисление задач, решаемых с помощью теста;

• общее описание содержания теста (составные части теста и разделы дисциплины, охватываемые им);

• план теста;

• характеристику содержания каждого задания - что оно измеряет;

• среднее время выполнения задания и ориентировочную меру выполнимости (% ожидаемых правильных ответов) в выборочной совокупности испытуемых;

• характеристику ответов к каждому заданию (меру привлекательности каждого задания в заданиях с выбором);

• количество форм, заданий и инструкций (примеры заданий и инструкции к ним);

• оценки за выполнение заданий;

• краткие рекомендации по апробации теста; объем и основные характеристики выборки испытуемых;

• ‘ определяемые характеристики качества заданий; методы исследования;

• ожидаемую интерпретацию тестовых результатов (критериально ориентированную. нормативно-ориентированную или содержательную интерпретацию).

Разработка тестов как измерительных инструментов связана с требованиями к расчету показателей качества тестов и требования к их оснащению. Такими показателями качества являются прежде всего выборка, надежность и валидность тестового инструментария.

Для успешного расчета необходимой выборки стандартизации дидактического теста используется ряд понятий, достаточно тесно взаимосвязанных.

Генеральная совокупность - множество элементов, объединенных общей характеристикой, указывающих на их принадлежность к единой системе и изучаемых в рамках какого-либо обследования и- определенных территориально-временных границах.

Генеральная совокупность применительно к педагогической сфере представляет собой именно ту совокупность (школ, учащихся, районов, городов и т.д.). на которую исследователь (диагност) хочет распространить выводы проведенного им педагогического исследования (тестирования).

Выборочная совокупность - часть генеральной совокупности, объекты которой являются основными объектами обследования. Она отбирается с помощью специальных методик и правил таким образом, чтобы ее характеристики отражали основные свойства генеральной совокупности.

В педагогической и психологической диагностике анализ основных характеристик выборочной совокупности, отбор методов ее комплектования имеют большое значение в процессе стандартизации и валидизации тестовых методик при разработке тестовых программ.

Основа выборки - система взаимосвязанных элементов генеральной совокупности, удовлетворяющих требованиям полноты, точности, адекватности. Выборка должна удовлетворять следующим требованиям:

а) полноты - в составе генеральной совокупности должны находиться все ее элементы, иначе выборка будет смещена;

б) точности - информация по каждой единице наблюдения должна быть реальной. Если, например, основой выборки служат списки учащихся, то они должны быть уточнены, чтобы в них не попали выбывшие учащиеся;

в) отсутствия дублирования - каждая единица наблюдения не должна повторяться, т.е. попадать в список дважды;

г) адекватности - основа выборки должна соответствовать целям и задачам обследования. По существу проблема адекватности основы выборки - это проблема правильного определения (конструирования) генеральной совокупности;

д) удобства работы - единицы наблюдения, входящие в генеральную совокупность, необходимо пронумеровать, а фамилии и инициалы четко вписать в общий список.

Объем выборки зависит от числа признаков, относительно которых она производится, и должен быть велик настолько, чтобы в каждую выделенную группировку попало достаточное количество элементов (3-5).

Достаточно надежный тест позволяет получить устойчивую оценку способностей испытуемых той группы, к которой он применяется.

Надежность теста как средства измерений определяется отсутствием ошибок измерения тестовых баллов и тем, в какой мере результаты измерений воспроизводятся при многократном использовании теста по отношению к данной группе испытуемых. Ошибки измерения возникают в связи с усталостью испытуемого, нервным напряжением, содержанием включенных в тест заданий, ошибочными ответами, неправильной интерпретацией инструкций и попытками угадать ответ. Эти ошибки снижают индивидуальные результаты испытуемого и надежность теста.

Чтобы оценить вклад различных источников в ошибку измерения, необходимо использовать разные способы оценки надежности. Прежде всего это ретестовая надежность. Для этого тест используют второй раз, и коэффициент надежности в этом случае равен корреляции между результатами, полученными на одних и тех же испытуемых в каждом из случаев проведения теста. Конечно же, какой-то процент колебаний результатов теста может быть вызван не только результатами теста, но и некоторыми отвлекающими моментами: самочувствием, эмоциональным состоянием и т.д. Тем не менее чем выше ретестовая надежность, тем менее чувствительны результаты к обычным изменениям состояния испытуемого и обстановке тестирования.

Ретестовая надежность зависит от интервала времени, в котором она происходит. С увеличением времени данный вид надежности уменьшается. С другой стороны, если промежуток времени невелик, то испытуемые припоминают свои прежние ответы. В этом случае обследуемые указывают примерно одинаковые правильные и неправильные ответы и коэффициент корреляции окажется обманчиво высоким.

Другой способ определения надежности - метод расщепления. В этом случае каждый испытуемый получает два результата при разбивке теста на две сопоставимые части. При такой методике надежность является мерой согласованности выборок содержания. Временная стабильность показателей в ней не представлена, так как применяется только один сеанс тестирования. Благодаря этому метод расщепления иногда называют коэффициентом внутренней согласованности.

Еще одним способом определения надежности является надежность взаимозаменяющих форм. При этом те же самые испытуемые первый раз тестируются с помощью одной формы теста, второй раз - с помощью другой, сравнимой формы. Корреляция между показателями, полученными по этим двум формам, и служит коэффициентом надежности теста. При этом измеряется как временная стабильность теста, так и согласованность ответов по двум выборкам заданий.

Кроме указанных видов надежности можно выделить также метод Кью дера - Ричардсона и другие статистические методы, описанные в специальной литературе.

А.Н. Майоров определяет целый ряд факторов, оказывающих влияние на надежность тестового инструментария.

1. Величина теста. Чем длиннее тест, тем он надежнее. Выше отмечалось, что общая оценка теста состоит из истинной составляющей и ошибочной. Истинная составляющая, несомненно, больше ошибочной, и чем больше заданий в тесте, тем скорее сумма истинной составляющей будет возрастать, а ошибочной, соответственно, уменьшаться.

2. Непонятность и двусмысленность заданий. Непонятные и двусмысленные задания приводят к тому, что ответы на них даются случайным образом. То есть в двух тестированиях будут получены разные результаты, таким образом, корреляция между результатами тестирований снизится и, следовательно, надежность будет низкой.

3. Источники, связанные с испытуемыми: невнимательность, состояние здоровья и т.д. Все эти факторы снижают надежность тестирования. Однако в том случае, когда выборка для апробации теста достаточно велика, а инструкция для проведения четко определяет условия проведения, то многого из перечисленного удается избежать.

4. Субъективное оценивание. Результаты выполнения заданий должны оцениваться одинаково разными проверяющими. Другими словами, правильный ответ в тесте должен быть однозначным. В том случае, если это требование будет нарушено, то будут допускаться различия между оценками разных проверяющих и между оценками одного проверяющего в разных случаях. Как следствие различных оценок корреляция между результатами выполнения тестирования будет уменьшена и надежность теста будет невысокой.

5. Ошибки в подсчетах. В том случае, если задания имеют однозначную схему оценивания, причиной неудовлетворительной надежности могут стать случайные ошибки при подсчете баллов, их суммировании.

6. Инструкции для учащихся. В том случае, если задания имеют не-ясные, двусмысленные инструкции, то результаты двух тестирований будут существенно различаться, а надежность окажется невысокой.

7. Инструкции к тесту могут быть причиной низкой надежности. Инструкции должны обеспечивать одинаковость процедуры проведения тестирования. быть понятными и недвусмысленными. Если условия проведения тестирования в одном случае отличаются от другого, то и корреляция результатов тестирования в этих случаях будет невысокой.

8. Случайное угадывание правильных ответов также является причиной снижения надежности теста.

Одной надежности для обоснования качества теста недостаточно. Еще одной важнейшей характеристикой теста является его валидность. Валидность - понятие, которое указывает, что и насколько хорошо тест измеряет. Цель процедуры установления валидности - выявить, как выполнение теста соотносится с другими независимо наблюдаемыми фактами исследуемых характеристик поведения или качеств личности. Конкретных методик определения валидности много. Отечественные и зарубежные исследователи различают три основных вида валидности: валидность по содержанию. конструктивная и критериальная валидность.

Критериальная валидность теста - характеристика теста, которая говорит о том, в какой мере данный тест можно использовать для оценки успеваемости учащегося. Если речь идет о тестах достижений, то критериальная валидность определяется тем, в какой мере результаты данного теста могут быть использованы для выводов об успеваемости испытуемого. Существует несколько видов эмпирических данных, на основании которых можно подтвердить критериальную валидность теста:

• оценки учащегося, его место в списке класса, ранжированность по успеваемости;

• результаты других тестов;

• отзывы педагогов.

Существуют также другие, более сложные способы выражения данного вида корреляции.

Конструктивная валидность теста - гарантия, что тест измеряет то качество, которое имеет реальное психологическое содержание. Интеллект, самоуважение и креативность - примеры таких психологических конструктов. Свидетельства в пользу конструктивной валидности теста могут принимать самые различные формы. Один из подходов состоит в том, чтобы показать, что результаты выполнения заданий, составляющих один тест, взаимозависимы, и, следовательно, в ходе тестирования измеряется одно и то же качество. Для проверки существования связи между заданиями часто используют методы анализа корреляций и факторного анализа. Другой подход состоит в том, чтобы показать, что тест ведет себя так, как должно было бы вести себя измеряемое качество. Например, можно предполагать, что результаты теста на креативность будут сильнее коррелировать с результатами теста на художественную одаренность, чем с результатами теста на академическую успеваемость.

Содержательная валидность теста-степень, а которой задания теста отражают содержание определенной предметной области. О содержательной валидности теста обычно судят по плану теста и методам, которые используются при его разработке. Для определения данного вида валидности уместно задаться следующими вопросами. Была ли разумна процедура отбора, призванная обеспечить включение в тест нужного материала? Обеспечивает ли эта процедура возможность судить по выполнению отобранных заданий об уровне знаний испытуемого в данной области и овладении им специфическими для данной области навыками?

Следует отметить роль и значение невербальных материалов в тестировании. Существует множество способов представления заданий в невербальной форме или же в вербально-невербальной. Причем в таких формах могут быть представлены не только сами задания, но и варианты ответов. Вопрос или задание могут быть сформулированы в виде фразы, текста, рисунка, схемы, цифры, символа, графика и т.д.

Преимущества применения такого материла очевидны: задания становятся более разнообразными, значительно менее утомительными и даже интересными для испытуемых, особенно младшего возраста. Существует и более существенная цель использования невербальных материалов в тестировании.

Она заключается в том, что для целого ряда предметов использование невербальных материалов чрезвычайно эффективно. Это связано с тем, что часть содержания образования представляет собой невербальные материалы.

Источник: Т.И. Шамова, С.Н. Белова, И.В, Ильина, Г.Н. Подчалимова, А.Н. Худин. Современные средства оценивания результатов обучения в школе Педагогическое общество России, Москва, 2007


По теме: методические разработки, презентации и конспекты

Методическая разработка уроков по темам "Основные этапы развития жизни на Земле", "Краткая история развития органического мира".

Рассмотрены основные этапы развития жизни на Земле, краткая история развития органического мира, ароморфозы  животных и растений...

Презентация к уроку "Основные этапы разработки и исследования моделей на компьютере"

Презентация к уроку "Основные этапы разработки и исследования моделей на компьютере" может быть использована в 9, 11 классах. УМК Угринович Н.Д....

Основные этапы разработки и исследования моделей на компьютере (11 класс)

Архив содержитРазвернутый конспеут урока ПрезентацияПриложенияДанный материал может быть предложен для изучения в 11 классе на уроках информатики...

Основные этапы разработки и исследования моделей на компьютере.

Урок разработан на основе ФГОС, с использованием ЭОР  и  конструктора LegoWedo...

Основные этапы разработки и исследования моделей на компьютере

Данная разработка включает в себя:- презентацию с теоретическими сведениями об этапах моделирования на компьютере (по учебнику Угриновича Н.Д. 9 класс) на простом примере вычисления площади трапеции. ...

Конспект и презентация к уроку информатики и ИКТ в 11 классе по теме " Основные этапы разработки и исследования моделей на компьютере."

Конспект и презентация  к уроку информатики и ИКТ для закрепления и обобщения понимания у учащихся этапов моделирования на примере построения модели «Расчет геометрических параметров объекта» в с...

«Основные этапы эволюции человека» - тренировочные тесты биологии в 8 классе

Цель: показать взаимосвязь биологических и социальных факторов антропогенеза; выделить основные этапы в эволюции человека; научить анализировать факты в определённой логической последовательности; сти...