Standard setting and internal validation of a novel approach adopted for assessing speaking

In 2016, Euroexam International launched a complex and ambitious project to redesign the rating process and practice of its subjectively scored papers. As part of the project, a series of level-specific performance checklists were developed for speaking and writing. This paper reports on the standard setting and internal validation procedures for B2 speaking in English as a foreign language (EFL) as executed in Spring, 2020. The participants of the study were 8 EFL teachers and oral examiners from international backgrounds with varying degrees of expertise in language testing. The method adopted for standard setting was the Body of Work method. The participants were allocated into either of two groups working independently on a random sample of 32 audio-recorded live speaking paper performances in a counterbalanced design. The study found that (a) a level-specific 30-item checklist for EFL speaking at B2 can adequately replace the operational rating scales for pass/fail decisions; (b) the granular nature of the checklist renders it more capable of covering the targeted content areas; and (c) the explicit checklist statements support fairness, transparency and accountability.

    KEYWORDS:
  • assessing speaking
  • speaking assessment
  • checklist
  • standard setting
  • validation
  • transparency
  • EFL
  • English as a foreign language
  • Euroexam
  • Установление стандартов и внутренняя валидация нового подхода, принятого для оценки разговорной речи

    В 2016 году Euroexam International запустила сложный и амбициозный проект по изменению процесса выставления оценок и практики проведения субъективно оцениваемых работ. В рамках этого проекта была разработана серия контрольных списков для говорения и письма, учитывающих конкретные уровни. В данной работе представлен отчет о процедурах установления стандартов и внутренней валидации для B2 по говорению на английском языке как иностранном (EFL – English as a foreign language), проведенных весной 2020 года. В исследовании приняли участие 8 преподавателей английского языка как иностранного и устных экзаменаторов из разных стран с разной степенью опыта в языковом тестировании. Для установления стандартов был использован метод «Свод работ». Участники были разделены на две группы, работающие независимо друг от друга над случайной выборкой из 32 аудиозаписей живых выступлений в сбалансированном формате. Исследование показало, что (а) контрольный список для оценки уровня владения разговорной речью на уровне B2 по 30 пунктам может адекватно заменить оперативные рейтинговые шкалы для принятия решений о зачете/незачете; (б) гранулированный характер контрольного списка делает его более способным охватить целевые области содержания; и (в) четкие утверждения контрольного списка поддерживают справедливость, прозрачность и подотчетность.




    TRAINING, LANGUAGE AND CULTURE

    More articles in this issue

    Volume 4 Issue 4