Агапов А.М., эксперт Программы ПКБО
Квазиадаптивная версия тестов SAM.
На протяжении нескольких лет мы занимаемся развитием теста учебно-предметных компетенций SAM (Student Achievement Monitoring) и теоретической рамки, на основе которой он построен. Рамка SAM основана на модели культурного развития Л.С. Выготского и призвана фиксировать освоение предметных понятий на одном из трёх уровней: формальном, рефлексивном и функциональном. Каждому из этих уровней соответствует определённый тип и структура задания в тесте. Тройка заданий различного уровня, направленные на проверку освоения одного понятия, образуют содержательный блок.
Формальный уровень
Общим критерием формального уровня овладения предметным содержанием является ориентация на внешние характеристики задачной ситуации и образцов решения. Действие данного уровня включает отнесение задачи по внешним признакам к известному классу (типу), за которым закреплена готовая схема (алгоритм, прием, правило) решения.
Индикаторами действия первого уровня являются задачи, подобные тем, которые используются учителями для презентации и первичной отработки отдельных способов действия. Задачи такого рода уже по своему внешнему виду опознаются учащимися как относящиеся к определенному классу с известной схемой решения (например, в математике: задачи «на сложение чисел с переходом через разряд», «на встречное движение» и т. д.). Такие задачи называют стандартными, или типовыми. Они отличаются относительной элементарностью содержания, однозначностью условий, прозрачностью формулировок.
К первому уровню можно отнести и формально более сложные задачи, построенные на основе типовых. Например, задачи, в которых даны несколько ситуаций или объектов, и требуется определить те, к которым некоторое правило действия применимо (либо, наоборот, не применимо).
Или задачи, условия которых содержат готовый образец решения, который нужно воспроизвести на сходном материале, т. е. осуществить простейший перенос.
Во всех указанных случаях предметные отношения, существенные для решения, увязаны с внешними характеристиками задачной ситуации и как таковые не требуют сознательного (рефлексивного) установления.
Рефлексивный уровень
Общим критерием рефлексивного овладения предметным материалом является способность ориентироваться на существенные отношения, связывающие элементы задачной ситуации. Действие этого уровня включает анализ условий с выделением (моделированием) структуры существенных отношений («скелета» задачи) и определением на этом основании конкретной схемы решения. Т. е. действие строится в опоре на внутренний (сущностный) план.
Индикаторами данного уровня являются задачи, которые не решаются непосредственным применением стандартных правил или процедур и требуют самостоятельно построить схему (программу) действия на основе анализа условий и выявления существенных отношений. К числу таковых можно отнести задачи, решение которых предполагает использование средств моделирования существенных отношений (схем, чертежей, формул и др.), то или иное преобразование условий для приведения задачи к более удобному или стандартному виду, обращение типовых схем действия (переключение с прямого на обратный ход мысли, например: от искомого к условиям) и т. п.
Функциональный уровень
Общим критерием освоения материала на третьем уровне является способность полагать в качестве ориентира область вариативных возможностей общего способа действия – функциональное поле. Ключевым моментом действия на данном уровне выступает реконструкция и примеривание этого поля к условиям задачи, т. е. мысленный эксперимент.
Первая, исходная версия теста SAM разрабатывалась для диагностики учебно-предметных компетенций на материале русского языка и математики. Тест по каждому предмету состоял из 45 заданий, объединённых в трёхуровневые блоки. Тесты охватывали содержание программы начальной школы.
Основной претензией к полученному диагностическому инструменту была трудозатратность его применения. SAM проектировался как международное сопоставительное исследование на пространстве СНГ, и, соответственно, к нему предъявлялись достаточно высокие требования в части его валидности и надёжности. Это, в свою очередь, привело к необходимости увеличивать количество заданий и время на выполнение теста. В исходной версии на его выполнение отводилось не менее двух часов.
Учитывая, что тест рассчитан на конец начальной школы, то есть, либо конец четвёртого, либо начало пятого класса, школы испытывали трудности в организации тестирования: выделить такое время в расписании под один предмет редко бывает возможно, в начальной школе редко встречаются сдвоенные уроки, а учебный план трудно корректировать на ходу. В связи с этим появился запрос на проектирование такой версии теста, которая требовала бы не более одного академического часа на выполнение по каждому предмету, но при этом давала информацию учителю и школе о ситуации в классе. Таким образом, была поставлена задача проектирования и исследования сокращённых версий теста.
Первая такая версия содержала всего 15 заданий, отобранных статистическими методами, как наиболее связанные с результатом по исходному тесту, а при подсчёте результатов заданиям присваивались соответствующие веса для улучшения прогноза. Такая сокращённая версия теста удовлетворительно предсказывала результат исходного, но всё-таки недостаточно для массового применения и качественной интерпретации результатов.
Проблему сокращения трудозатрат на проведение тестирования при сохранении психометрических характеристик теста могло бы решить проектирование компьютерного адаптивного тестирования (КАТ). Это такая форма компьютерного тестирования, в которой каждое следующее задание, предлагаемое испытуемому, зависит от результатов решения предыдущих заданий: в зависимости от успеха или неуспеха испытуемый получает соответственно более трудное или более лёгкое задание, что позволяет уточнить его уровень подготовленности, не перегружая его лишними заданиями.
Проектирование таких инструментов сложно технически и организационно. Они требуют внушительного банка заданий, чтобы иметь возможность подбирать задания в соответствии с индивидуальной траекторией каждого испытуемого, разработки специальной платформы, на которой они будут размещены. Также очевидно, что такое тестирование может проводиться только в компьютерной форме, что автоматически сужает и смещает потенциальную выборку, поскольку проходить такое тестирование могут только испытуемые, имеющие свободный доступ к компьютеру, либо образовательные организации, располагающие достаточным количеством часов в компьютерном классе.
В связи с этим была поставлена задача разработки бумажной версии теста, которая использовала бы тот же принцип, что и КАТ, то есть, освобождала бы испытуемого от необходимости выполнять задания, которые не дают информации о его подготовленности – то есть, либо очень лёгких заданий для сильных учеников, либо слишком сложных для слабых.
Выше мы упоминали, что одним из препятствий в процессе проведения тестирования была необходимость организовывать сдвоенные уроки в начальной школе, где этого обычно не происходит. Однако, два урока, разнесённые во времени – более выполнимая задача для образовательных организаций, участвующих в тестировании. Эти идеи привели к разработке следующего формата его проведения.
Исходный тест, включавший 45 заданий, разделяется на 3 равных части, выполняющих разную функцию.
Первая часть – «распределяющая». Она состоит из заданий, наилучшим образом предсказывающая попадание испытуемого в верхнюю или нижнюю половину рейтинга (r=0,8). Этот подтест не обязан точно рейтинговать испытуемых или оценивать их подготовленность, его функция – отделить «скорее сильных» от «скорее слабых». Эта часть теста выполняется в течение одного урока, то есть, на решение заданий у испытуемых чуть больше времени, чем было в исходной версии, что позволяет сократить число искажений, связанных с нехваткой времени.
Вторая часть – «лёгкая». Это задания, демонстрирующие наилучшую различительную способность для «слабых» испытуемых. Очевидно, что экстремально трудные задания могут давать информацию о различиях в подготовленности «сильных» учеников, но они, по сути, бесполезны, в нижней части рейтинга, где их никто не решает. В свою очередь, менее трудные задания не дают нужной информации о «сильных» испытуемых, поскольку решаются практически всеми, но могут помочь в различении внутри слабой группы.
Третья часть (скорее, более корректно было бы называть её другой версией второй части) – «трудная», то есть, набор заданий, наилучшим образом различающий «сильных» испытуемых.
По результатам распределяющего теста испытуемый попадает либо в «сильную», либо в «слабую» группу, и на втором шаге получает соответствующую вторую часть теста. Задания подобраны таким образом, что ожидаемый результат по «трудной» части теста для «слабых» детей – 2 балла из 15, а результат «сильных» детей по «лёгкой» части – 11 из 15. То есть, попадание испытуемого в ту или иную группу позволяет довольно уверенно предсказывать его результат по части заданий, и избавляет его от необходимости эти задания выполнять.
Для формирования вариантов использовались данные апробации исходного теста. Различные версии сокращённого теста сравнивались между собой по предсказательной силе, то есть по тому, насколько прогноз, сделанный по каждому из подтестов, приближен к баллу за исходный тест. Первая версия сокращённого теста, которая состояла из 15 заданий и была рассчитана на выполнение в течение одного урока, как было сказано выше, позволяла сделать общий вывод о подготовленности испытуемых, но «ошибалась» в достаточно большом количестве случаев – порядка 6% испытуемых при имитационном моделировании получали результат сокращённого теста, отличающийся от исходного более чем на 5 баллов (из 45).
В случае квазиадаптивной версии доля таких испытуемых не превышала 0,5%. Это не только меньше, чем на предыдущем шаге, но и меньше по отношению к лучшему набору из такого же количества заданий, выполненному единовременно, без применения адаптивности. Помимо этого, область, в которой такой тест «ошибается» легче локализовать. В простой сокращённой версии расхождение может встретиться как среди высоких, так и среди низких значений финального балла, тогда как в квазиадаптивной версии ошибка сосредоточена в основном в верхней части рейтинга и обуславливается допущением, что «сильные» испытуемые одинаково хорошо выполняют «лёгкую» часть, в то время как в реальности они могут в ней ошибаться в силу разных случайных факторов.
Полученные результаты позволяют сделать очередной шаг в сторону создания точного, надёжного и удобного в использовании измерительного инструмента для оценки учебно-предметных компетенций. Мы рассчитываем, что этот инструмент будет принят педагогами, в силу более мягких организационных требований по сравнению с полной версией SAM, и, в то же время, будет предоставлять такую же качественную обратную связь заказчикам исследований на всех уровнях – от администрации образовательных организаций до страновых министерств и международных организаций. Мы продолжаем работу над улучшением и расширением диагностического инструментария в теоретической рамка SAM на основе обратной связи пользователей тестирования.
Современные образовательные стандарты требуют от учителей применения эффективных педагогических технологий, которые обеспечивают достижение высоких результатов…
Онлайн-обучение стремительно ворвалось в нашу жизнь и заставило университеты искать новые ответы на то, что…
Предлагаем познакомиться с двумя инструментами оценки и мониторинга прогресса 4Кнавыков (коммуникация, креативность, критическое мышление, кооперация)…
Правительство РФ утвердило перечень мероприятий по оценке качества образования и правила проведения этих мероприятий. Постановление…
Развивать современные формы внутришкольной оценки Болотов и Вальдман перечислили такие элементы внутришкольной оценки в дополнение…
Принято считать, что дистанционное обучение делает образование доступным для каждого ученика, независимо от того, живет…