Семейство вероятностных моделей Раша

Владимир Николаевич Дружинин «Психология и психодиагностика общих способностей.»

Опять-таки, все затруднения мы вводим лишь на основе глубинной аналогии между «внешними» и «внутренними» планами поведения.

Если пользоваться формализованным языком, то единственное, чем варьирует экспериментатор — это трудность задания, а у испытуемого есть лишь одно средство ее преодолеть — проявить свои способности. Независимость объективного уровня трудности задания от способностей испытуемого являлась основной предпо­сылкой при создании в 1952 году датским математиком Г.Рашем [2,3] модели теста, на основе которой было создано семейство вероятностных моделей Раша.

Модель имеет две основные версии: мультипли­кативную и аддитивную.

В соответствии с этой моделью, правильность решения теста определяется либо высоким уровнем способности, либо низким уровнем трудности задания.

В специальной литературе приведены компьютерные алгоритмы и программы, позволяющие на основе эмпирических результатов рассчитать как объективную трудность задания, так и «способность» каждого испытуемого [2,3].

Сам Г.Раш использовал свою модель при создании критериальных тестов и ввел единицу измерения, называемую логит, которая измеряет в одной шкале как трудность задания, так и способность испытуемого.

В.С.Аванесов [4] предложил использовать несколько модификаций модели Г.Раша: модель, учитывающую вероятность угадывания правильного ответа и более сложную модель, учитывающую влияние на успешность решения теста других способностей.

Как бы там ни было, но интуитивно психологи при создании тестов всегда строили задания таким образом, чтобы они варьировались по трудности и были направлены на измерение не более чем одной способности.

Третий этап конструирования теста является этапом отбраковки непригодных заданий, а не творческим процессом их создания.

Но именно с этим этапом связано традиционное мнение о конструировании теста и весь существующий на настоящее время аппарат эмпирико-статистической теории теста, предназначенный для оценки валидности и надежности теста и отдельных его заданий.

Процедура валидизации и проверки на надежность, гомогенность (однородность), дифференцирующую силу, прогностичность и т.д. сводится к отбраковке заданий теста и представляет собой итерационную процедуру доведения теста до потребного уровня качества за счет замены заданий, их модификации, а также изменения процедуры проведения и интерпретации данных тестирования.

Все существующие тесты интеллекта можно условно разделть на две группы: 1) тесты «скорости» и 2) тесты «уровня». Если при проведении первых вводится жесткий лимит времени, то при проведении вторых, хотя есть ограничение времени выполнения теста или субтеста, но главная нагрузка на испытуемого — возрастание трудности заданий. Встречаются варианты тестов, где используются оба вида затруднений.

Тесты «скорости» представляют собой несколько однотипных и близких по уровню сложности заданий. Испытуемый должен решить их за определенное время. Показателем успешности в тестах служит число правильно решенных заданий. Уровень сложности их должен быть близок 0,5, то есть задание решает правильно половина людей выборки, на которой апробируется тест.

В тестах «уровня», как уже было отмечено, время, которое дается испытуемому, значительно превышает время, необходимое среднему испытуемому для решения теста. Создатель теста полагает, что испытуемый, не справивщийся с заданием за определенное время, не решит его никогда.

В качестве «измерительной линейки интеллекта» в тестах «уровня» используется уровень сложности тестового задания.

Главное затруднение вызывает оценка сложности задания. Согласно модели Раша, сложность оценивается экспериментально, следовательно, имеет статистический характер. Кроме того, возникает необходимость оценить: 1) минимально необходимое число заданий для каждого уровня сложности, 2) необходимое число уровней сложности, 3) достоверность различий оценок сложности заданий, принадлежащих разным уровням.

Эти проблемы решены в работе Ф.М.Юсупова [5], который предложил вероятностную модель прогнозирова­ния параметров теста «уровня». Расчеты показывают, что в тестовом задании целесообразно брать от 6 до 10 вари­антов ответа, чтобы минимизировать вероятность случайного решения.

Число заданий в тесте уровня не должно быть слишком велико, чтобы значения показателей сложности соседних по уровню сложности заданий надежно различались. Кроме того, нужно учесть случайность выбора правиль­ного ответа.

При 6 вариантах ответа в каждом тестовом задании количество заданий не может быть более 6 — 7.

Таблица 3. Расчетные значения показателей сложности тестовых заданий

N задания

Показа­тель слож­ности

0,035

0,146

0,309

0,5

0,69

0,834

0,97

Модель, предложенная Ф.М.Юсуповым, позволяет спрогнозировать минимальный объем выборки, которой можно апробировать тест: 5-6 человек.

Соответствующая модель для расчета параметров теста с эквивалентными заданиями (тест «скорость») предложена в работе В.Н. Дружинина [6].

Эмпирически проверка теста интеллекта на валид­ность и надежность — процедура стандартная и хорошо отра­жена в соответствующих методических руководствах [1].

Главное, что следует заметить: все разработанные тесты рассматривают интеллект как некоторую непре­рыв­ную величину, по аналогии с ростом или весом, которой люди характеризуются в разной степени.

Полагается, что как большинство биологических и социальных параметров, интеллект характеризуется нормальным распределением людей вдоль оси континуума.

Рис. 6.

Можно предположить, что существующие тесты интел­лекта, включающие в себя задания разной сложности, захватывают разные участки этого континуума. Парадок­сально, что это не отражается на характеристиках распределения людей по результатам тестирования! Возможно, к этому приводит искусственный подбор заданий и процедура нормализации шкалы.

Число баллов в каждом тесте интеллекта имеет верхнюю и нижнюю границы, а не простирается в беско­нечность, следовательно, уместно говорить лишь о квази­нормальности любого распределения людей по отношению к шкале тестового балла.

При подсчете баллов во всех тестах используется кумулятивная аддитивная модель: суммируются баллы, набранные за выполнение каждого отдельного задания, несмотря на их содержательную разнородность.

На первый взгляд, пользоваться гипотезой о прямой зависимости вероятности решения задачи от уровня способности, с определенными оговорками, можно лишь для тестов с эквивалентными заданиями. В тестах «уровня» более целесообразно было бы применять шкалу трудности, измеряя способность самым сложным заданием, которое решил испытуемый. Однако решение зависит от массы случайных факторов, начиная с угадывания, кончая индиви­дуальной интерпретацией тестовой задачи испы­туемым.