extranet_wykladowcow extranet_studentow poczta Wyższa Szkoła Finansów i Zarządzania w Warszawie

Kontakt

Wyższa Szkoła Technologii Informatycznych,
01-030 Warszawa, ul.Pawia 55
tel. (0-22) 536-54-83, (0-22) 536-54-84
fax (0-22) 536-54-64
e-mail: rekrutacja@vizja.net

Testy wiadomości

1. Typy zadań testowych

Test wiadomości jest zbiorem zadań, których cechą wspólną jest to, że wiążą się one tematycznie z jednym obszarem wiedzy. Test może zawierać zadania otwarte lub zamknięte (patrz pkt 5). Wśród zamkniętych zadań występuje siedem podstawowych typów zadań testowych. Największą popularnośią cieszą się zadania pojedynczego dopełnienia, zwane także zadaniami pojedynczego lub jednokrotnego wyboru. Budowa takiego zadania jest bardzo prosta. Zadanie składa się z pytania, lub niekompletnego stwierdzenia oraz kilku możliwych uzupełnień lub możliwych odpowiedzi. Badany musi wybrać jedną odpowiedź Zadania tego typu można utrudnić:

  • Wprowadzając dodatkową odpowiedź w jednej z postaci:
    • wszystkie odpowiedzi są prawidłowe.
    • brak prawidłowej odpowiedzi
  • Formułując tak odpowiedzi, aby wszystkie poza jedną były prawdziwe. Zadaniem egzaminowanego jest określenie odpowiedzi fałszywej.

 

Rozszerzeniem zadań jednokrotnego wyboru są zadania wielokrotnego wyboru, w których mogą występować jedna, dwie, trzy lub nawet wszystkie prawidłowe odpowiedzi, np.
http://www.menis.gov.pl/bezpieczna/procedury/regulaminy_11.php
Należy podkreślić, że podane powyżej słownictwo nie jest standardowe. Pod pojęciem zadań wielokrotnego wyboru rozumie się także zadania, w których występuje zarówno jedna, jak i kilka prawidłowych odpowiedzi patrz pkt 5. Szczególnym przypadkiem zadań pojedynczego dopełnienia są zadania typu "prawda - fałsz". Typ ten wymaga tylko jednej z dwóch odpowiedzi "prawda", jeżeli dane stwierdzenie jest prawdziwe i "fałsz", jeżeli dane stwierdzenie jest fałszywe. Tego typu zadania zachęcają do pamięciowego opanowywaniu materiału, jednakże największą ich wadą jest duża możliwość udzielania prawidłowych odpowiedzi przez zgadywanie. W standardowym sposobie oceniania, dotyczącym zwłaszcza zadań pojedynczego wyboru, za każdą prawidłową odpowiedź przydziela się 1 pkt, a za każdą fałszywą - 0 pkt. W testach jednokrotnego wyboru można spotkać inne zasady oceniania, np.: http://www.afrotax.com.pl/prawo/br5.htm

  • Odpowiedź prawidłowa - dwa punkty.
  • Odpowiedź nieprawidłowa - minus jeden punkt.
  • Brak odpowiedzi - zero punktów

 

W przypadku zadań z większą liczbą prawidłowych odpowiedzi stosowane są różne zasady oceniania, uzależnione od liczby prawidłowych odpowiedzi, ich poprawnego podania oraz udzielonych odpowiedzi nieprawidłowych. I tak w czasie odczytywania i dekodowania udzielonych odpowiedzi wprowadza się pojęcie odpowiedzi "nadmiarowych", jako odpowiedzi, w których występuje więcej niż ustalona liczba podawanych odpowiedzi prawidłowych. W zależności od ustalonej zasady oceniania za takie odpowiedzi przyznaje się: 0 pkt, liczbę punktów wynikającą z liczby poprawnych odpowiedzi składowych oraz liczbę punktów ujemnych wynikającą z liczby błędnych odpowiedzi składowych. Należy także przewidzieć sposób oceniania w przypadku podania jako prawidłowe wszystkich możliwych odpowiedzi. Z reguły przyjmuje się jako obowiązujące podawanie liczby prawidłowych odpowiedzi w poszczególnych zadaniach. Przy występowaniu w jednym teście zadań, o różnych liczbach prawidłowych odpowiedzi, konieczne jest określenie dla każdego z nich odpowiedniego współczynnika wagowego.

Przykład 1

Uwzględniając, że sumaryczny wynik testu dla każdej osoby uzyskuje się przez zsumowanie wszystkich punktów z zadań, rozpatruje się pytanie z 5 odpowiedziami (A, B, C, D i E) i rozpatruje cztery możliwości liczby odpowiedzi prawidłowych:

  • Jedna odpowiedź - możliwe jest 5 możliwych odpowiedzi prawidłowych: A, B, C, D lub E - stąd za udzieloną prawidłową odpowiedź przyznaje się 5 punktów.
  • Dwie odpowiedzi - występuje 10 możliwych odpowiedzi prawidłowych: AB, AC, AD, AE, BC, BD, BE, CD, CE i DC - stąd za udzieloną prawidłową odpowiedź przyznaje się 10 punktów.
  • Trzy odpowiedzi - analogicznie jak powyżej występuje 10 możliwych odpowiedzi prawidłowych - stąd za udzieloną prawidłową odpowiedź przyznaje się 10 punktów
  • Cztery odpowiedzi - występuje 5 możliwych odpowiedzi prawidłowych: BCDE, ACDE, ABDE, ABCE i ABCD, czyli w przypadku jej udzielenia przyznaje się 5 punktów.

 

Postępując analogicznie w przypadku występowania pytania z dwoma odpowiedziami: A lub B - za udzielenie prawidłowej odpowiedzi przyznaje się 2 punkty. Współczynniki wagowe do poszczególnych pytań można wprowadzać też w zależności od poziomu trudności pytań. W tym miejscu należy podkreślić, że przedstawione dalej metody oceny poszczególnych zadań testowych, jak i całego testu dotyczą zadań jednokrotnego wyboru.

Uwaga:

Możliwe warianty prawidłowych odpowiedzi tworzą tzw. kombinacje, które są jednym z podstawowych pojęć kombinatoryki. k-elementowa kombinacją n-elementowego zbioru Z (gdzie k <= n), nazywamy każdy k-elementowy podzbiór zbioru Z.

 

Liczba k-elementowych kombinacji zbioru n elementów, oznaczana symbolem jest równa:

 

2.Wymagania stawiane testom

Test wiadomości, tak jak inne rodzaje testów (testów zdolności i testów osobowości) musi być poprawnie skonstruowany i stosowany. Od każdego testów wymaga się, aby był [1]:

  • Wystandaryzowany, tzn. miał ujednolicony sposób stosowania. Uzyskuje się to poprzez opracowanie instrukcji oraz klucza, określającego sposób oceny odpowiedzi. Standaryzacja testu zapewnia, że będzie on stosowany każdorazowo w ten sam sposób.
  • Obiektywny, tzn. posiadający jednoznaczną zasadę przeliczania wyników surowych na wyniki określonej skali standardowej, w której są wyrażone normy dla danego testu. Tak, więc badacz nie powinien mieć wpływu na wynik, jaki uzyska osoba badana w teście.
  • Znormalizowany - odnosił wynik badania do ustalonego układu odniesienia
  • Rzetelny, tzn. mierzył to, co ma mierzyć.

 

Rzetelność ocenia się w pierwszej kolejności na poziomie pojedynczych zadań. Podstawą jest odnoszenie odpowiedzi na to pytanie do odpowiedzi udzielonych w całym teście. Poniżej podano dwa zbliżone sposoby podejścia.
Dla każdego pytania oblicza się:
Lp - liczby poprawnych odpowiedzi na pozostałe pytania udzielonych przez osoby z poprawną odpowiedzią na dane pytanie.
Lq - liczby poprawnych odpowiedzi na pozostałe pytania udzielonych przez osoby z błędną odpowiedzią na dane pytanie.
Mp - średni wynik osób, które udzieliły poprawnej odpowiedzi na dane pytanie.
Mq - średni wynik osób, które udzieliły błędnej odpowiedzi na dane pytanie.

Intuicyjnie jest oczywiste, że pytanie można uznać za rzetelne, jeżeli Lp > Lq oraz Mp > Mq.
Formalną ocenę rzetelności poszczególnych zadań, w oparciu o dwa ostatnie wskaźniki, ocenia się za pomocą współczynnika korelacji dwuseryjnej:


 

gdzie:

Mp - średni wynik ogólny osób, które udzielały odpowiedzi zgodnie z kluczem na daną pozycję, tzn. udzieliły odpowiedzi prawidłowej
Mq - średni wynik ogólny osób, które udzielały odpowiedzi niezgodnie z kluczem na daną pozycję, tzn. udzieliły odpowiedzi błędnej
s - odchylenie standardowe wyników testu w całej badanej próbie
p - proporcja osób, które odpowiedziały zgodnie z kluczem na daną pozycję
q - proporcja osób, które odpowiedziały niezgodnie z kluczem na daną pozycję
y - rzędna rozkładu normalnego, odpowiadająca punktowi p

Współczynnik korelacji dwuseryjnej przyjmuje wartości z przedziału [-1,+1], gdy rozkład wyników nie odbiega od rozkładu normalnego.
Współczynnik ten mierzy poziom korelacji pomiędzy wynikami pojedynczego zadania (pytania), a wynikiem sumarycznym testu. Zatem z oceny sumarycznej powinny być eliminowane pytania o małych wartościach współczynnika korelacji dwuseryjnej.
W kategoriach teorii weryfikacji hipotez problem ten jest następujący:


 

Dla weryfikacji wysuniętych hipotez oblicza się następujące wielkości:


gdzie k - liczebność próby
Na podstawie wartości powyższych wielkości oblicza się statystykę:

 

i porównuje z wartością zα. Wartość zα wyznacza się w sposób następujący:

 

gdzie:

- funkcja odwrotna do dystrybuanty zmiennej losowej o rozkładzie normalnym N(0,1)
α - przyjęty poziom istotności

Innymi słowy

 

gdzie:

    f(x) - funkcja gęstości zmiennej losowej o rozkładzie normalnym N(0,1)


Zasada wnioskowania jest następująca:

  • Jeżeli z < zα , to hipoteza H0 jest odrzucana
  • Jeżeli z ≥ zα to brak jest podstaw do odrzucenia hipotezy H0

Opisany sposób postępowania ilustruje poniższy rysunek.

 

Przykład 2

Na podstawie 17 elementowej próby otrzymano wartość współczynnika korelacji rbi = -0,06.
Weryfikuje się hipotezy:

 

Dla weryfikacji wysuniętych hipotez oblicza się następujące wielkości:

 

Na podstawie wartości powyższych wielkości oblicza się statystykę:

 

Dla α = 0,01 z0,01 = -2,32. Otrzymano zatem, że z = 1,67 > -2,32 = z0,01 czyli brak jest podstaw do odrzucenia hipotezy H0

Zbiorczą ocenę rzetelności tekstu określa współczynnik 20 Kudera - Richardsona:

 

gdzie:

n - liczba pozycji w teście
st2 - wariancja ogólna wyników testu
si2 - wariancja i-tej pozycji testu si2 = pi*qi
pi - proporcja osób, które odpowiedziały zgodnie z kluczem na i-tą pozycję testu
qi - proporcja osób, które odpowiedziały nie zgodnie z kluczem na i-tą pozycję testu

Współczynnik 20 Kudera-Richardsona przyjmuje wartości z przedziału [0,+1] i jest tym większy im:

  • Większe są korelacje pomiędzy poszczególnymi pozycjami testu.
  • Większe są wariancje poszczególnych pozycji.
  • Bardziej zbliżona jest trudność poszczególnych pozycji.

Przyjmuje się, że do oceny indywidualnej test posiada wystarczającą rzetelność, jeżeli współczynnik 20 Kudera-Richardsona nie jest mniejszy niż 0,80.

  • Trafny - mierzył dokładnie to, do pomiaru, czego badacz go przeznaczył. Trafność testu wiąże się więc z rzetelnością testu. Trafność można ocenić w oparciu o ocenę korelacji jego wyników z określonym kryterium zewnętrznym. W takim ujęciu i przy założeniu wiarygodności wyników kryterium zewnętrznego test ma tym wyższą trafność, im jest większa zgodność oceny wiadomości przy jego pomocy z wynikami tego kryterium.

 

3. Teoretyczne informacje uzupełniające

W prawidłowo skonstruowanym teście powinny znaleźć się zadania o znanej trudności. Trudność zadania jest to taka jego własność, od której zależy procent osób odpowiadających na nie prawidłowo. Jeżeli egzaminatorowi zależy na selekcji w dolnym krańcu skali, np. identyfikując osoby z mniejszą wiedzą, to wskaźnik trudności powinien być rzędu 90% - 80%. Dla selekcji osób o wysokiej wiedzy pytania powinny charakteryzować niskie współczynniki trudności . pytania powinny być trudne. W przypadku braku potrzeb selekcji na końcach skali najbardziej odpowiednim wskaźnikiem trudności jest poziom 50%. Łatwość pytania czy testu jest pojęciem przeciwnym do trudności.

W oparciu o te pojęcia odnoszące się do pojedynczego pytania można także określić rzetelność pytania. W tym celu porządkuje się osoby egzaminowane według sumarycznej liczby uzyskanych punktów, co umożliwia dokonanie podziału na dwie połowy. W następnej kolejności wyznacza się:
PG - łatwość pytania w górnej połowie
PD - łatwość pytania w dolnej połowie

Intuicyjnie jest oczywiste, że jeżeli PG > PD, to pytanie może zostać uznane za rzetelne.
W rozpatrywanym typie zadań testowych przyjmuje się dwa założenia:

  • Jeżeli badany zna prawidłową odpowiedź, to ją wskazuje.
  • Jeżeli badany nie zna prawidłowej odpowiedzi, to ją najczęściej zgaduje.

Tak więc, sumaryczna liczba prawidłowych odpowiedzi składa się z dwóch w/w rodzajów odpowiedzi. Szanse odgadnięcia prawidłowej odpowiedzi zależą odwrotnie proporcjonalnie od liczby dystraktorów (dystraktorem nazywa się też tylko odpowiedzi błędne). Podstawowym sposobem osłabienia wpływu czynnika zgadywania jest zwiększenie liczby dystraktorów.

W przypadku, gdy część osób nie udzieliła odpowiedzi na niektóre zadania lub tez limit czasu był zbyt mały, konieczne jest wprowadzenie poprawki na zgadywanie:

 

gdzie:

Pn - liczba odpowiedzi niezgadywanych
P - ogólna liczba odpowiedzi
B - liczba błędnych odpowiedzi
k - liczba dystraktorów w zadaniu

 

Przy konstrukcji testu powinno się [1]:

  • Używać prostych i poprawnych pod względem gramatycznym sformułowań.
  • Nie używać sformułowań w postaci "pułapek".
  • Nie używać takich zwrotów, jak: rzadko, często, dużo, mało, niewiele, bardziej, mniej . dla jednej osoby "rzadko" oznacza raz na miesiąc, a dla innej np. raz na tydzień.
  • Unikać pojęć kategorycznych typu: zawsze, nigdy, nikt, wszystko. W praktyce niewiele stwierdzeń jest zawsze prawdziwych lub zawsze fałszywych.
  • Formułować zadania bezpośrednio dotyczące danej dziedziny wiedzy. W szczególności nie powinno się pytać o mało istotne szczegóły. Zadania powinny dotyczyć istotnych aspektów danej problematyki.
  • Zadania powinien cechować zbliżony stopień trudności. Test składający się z zadań bardzo łatwych i bardzo trudnych jest złym testem.
  • Dla każdego fragmentu danej dziedziny powinny być dobierane zadania takiego rodzaju, który będzie najlepiej oddawał specyfikę tej właśnie dziedziny.
  • W zadaniach pojedynczego dopełnienia poszczególne odpowiedzi powinny nosić pozory prawdziwości. Naiwne lub bezsensowne odpowiedzi mogą znacznie obniżyć stopień trudności zadania.

W pozycji [4] piśmiennictwa podano typy i przykłady zadań wyboru wielokrotnego oraz zasady budowania takich zadań.

4. Przykłady wyników analizy testu wiadomości

W poniższej tabelach podano przykładowe wyniki i prawidłowe odpowiedzi dla testu składającego się z 12 pytań jednokrotnego wyboru z 5 możliwymi odpowiedziami. Odpowiedzi udzielało 17 osób [4].


Przykładowe wyniki i prawidłowe odpowiedzi pochodzą z pozycji piśmiennictwa, oznaczonej [4]. Dokonano w nich nieznacznych zmian. Poniżej zamieszczono otrzymane wyniki analizy


I. UDZIELONE ODPOWIEDZI

II. ANALIZA PYTAŃ
III. ANALIZA TESTU

Rozkład uzyskanych punktów

Komentarz do uzyskanych wyników jest następujący [4]:

  • Zadania 1, 4 i 7 są stosunkowo często opuszczane (braki odpowiedzi). Jeżeli nie są to zadania pamięciowe, to może ich treść nie jest zrozumiała dla niektórych egzaminowanych?
  • Wszystkie zadania są łatwe lub bardzo łatwe z wyjątkiem zadania 1, które jest trudne. Czy rzeczywiście autor chciał zacząć test od tak trudnego zadania?
  • Pytania 2 i 6 praktycznie nie różnicują egzaminowanych, 16 z nich na 17 udzieliło na nie prawidłowej odpowiedzi.
  • Najbardziej różnicują egzaminowanych pytania 1 i 11.
  • Pytanie 9 charakteryzuje ujemna wartość współczynnika korelacji dwuseryjnej, co powinno skutkować jego wykluczeniem z oceny sumarycznej.

 

W poniższej tabelce oceniono zbiorczo wszystkie pytania wykorzystując kryteria podane w części II wyników. Znakiem .-. oznaczono negatywną ocenę z punktu danego kryterium (ocenę składową). Ocena łączna oparta jest o oceny składowe.

Ujemną ocenę łączną otrzymało aż 7 z 12 pytań! Świadczy to o niskiej rzetelności testu jako całości, co potwierdza niewielka wartość współczynnika 20 Kudera-Richardsona.
Uwaga:

Przy ocenie współczynnika korelacji dwuseryjnej (część II wyników), prowadzonej w oparciu o obliczony estymator weryfikowane są hipotezy opisane w punkcie 2:

H0 : Rbi = r0
H1 : Rbi < r0

W programie dla poziomu istotności α = 0.01 obliczana jest wartość r0 , która określa granicę odrzucania hipotezy H0 .

Kilka obliczonych wartości r0 dla wybranych rbi oraz podano poniżej.
Przykładowo, jeżeli otrzymano estymator współczynnika korelacji dwuseryjnej rbi = -0.1, to na poziomie istotności α = 0.01 graniczną wartością przy weryfikacji hipotez jest liczba 0.48.

Innymi słowy w oparciu o estymator rbi = -0.1 na poziomie istotności α = 0.01 wnioskuje się, że współczynnik korelacji dwuseryjnej Rbi nie jest mniejszy niż 0.48.


5. Podstawowe słownictwo -

http://www.wsipnet.pl/oswiata/os_slownik.php
Dystraktory Błędne odpowiedzi w zadaniach wielokrotnego wyboru.
Frakcja opuszczeń zadania Stosunek liczby uczniów, którzy opuścili zadanie, do liczby uczniów, którzy brali udział w testowaniu. Zadanie opuszczone, to każde zadanie pozostawione bez odpowiedzi, jeżeli na którekolwiek z zadań o wyższej numeracji została udzielona odpowiedź. Frakcja opuszczeń nie powinna przekraczać 0,15, gdy jest większa zadanie może nie być poprawne dydaktycznie.
Histogram Histogram, inaczej rozkład częstości, jest to graficzne przedstawienie liczby obserwacji dla każdej wartości skali. Histogram przedstawia jeden zbiór wyników, mogą to być wyniki uczniów w jednej klasie, wyniki klas w jednej szkole, w województwie czy kraju). Histogram może mieć: rozkład normalny, spłaszczony, wypiętrzony, skośny, dwumodalny. Analiza rozkładu pozwala na sformułowanie określonych wniosków, np:
  • Rozkład spłaszczony to rozkład liczebności charakteryzujący się dużym rozrzutem zaobserwowanych wartości zmiennej oraz słabo zaznaczającą się tendencją centralną. Wyniki testowania przybierają rozkład spłaszczony, gdy zadania testowe wykazują umiarkowane różnice trudności i wysoką interlokację.
  • Rozkład wypiętrzony to rozkład liczebności charakteryzujący się małym rozrzutem zaobserwowanych wartości zmiennej oraz silnie zaznaczającą się tendencją centralną. Wyniki testowania przybierają rozkład wypiętrzony, gdy zadania testowe wykazują duże różnice trudności i niską interkorelację.
  • Rozkład skośny to rozkład liczebności charakteryzujący się skupieniem zaobserwowanych wartości zmiennej w pobliżu wartości najwyższych lub najniższych. W pierwszym przypadku nazywamy układ "ujemnie skośnym", a w drugim - "dodatnio skośnym". Ujemna skośność rozkładu wyników testowania wiąże się zwykle z wysoką łatwością zadań testowych dla badanych, a skośność dodatnia - z wysoka ich trudnością.
  • Rozkład dwumodalny to rozkład liczebności charakteryzujący się dwoma punktami skupienia zaobserwowanej wartości zmiennej. Wyniki testowania przybierają rozkład dwumodalny, gdy zadania testowe mają wyrównaną trudność i bardzo wysoką interlokację. Może on także świadczyć o różnorodności badanych pod względem osiągnięć szkolnych (o istnieniu dwu grup uczniów o odmiennych poziomach osiągnięć).
  • Jest pożądany w przypadku testów selekcyjnych.
Łatwość zadania Stosunek liczby punktów uzyskanych za rozwiązanie zadania przez uczniów biorących udział w testowaniu do maksymalnej liczby punktów możliwej do uzyskania przez tę liczbę uczniów. Zadanie jest:
  • bardzo trudne jeśli łatwość zawarta jest między 0,00-0 ,19,
  • trudne jeśli łatwość zawarta jest między 0,20-0,49,
  • umiarkowanie trudne jeśli łatwość zawarta jest między 0,50-0,69
  • łatwe jeśli łatwość zawarta jest między 0,70-0,89,
  • bardzo łatwe jeśli łatwość zawarta jest między 0,90-1,00.
Mediana Wynik środkowy zbioru wyników badania określonej grupy uczniów (klasy, szkoły, województwa, kraju), uporządkowanych w kolejności malejącej lub rosnącej: pozycja skali pomiarowej dzieląca badana grupę uczniów na dwie połowy.
Moc różnicująca zadania Zdolność zadania do rozróżniania uczniów według ich ogólnych osiągnięć z wybranego zakresu programowego. Jeżeli dane zadanie rozwiązują zarówno uczniowie dobrzy, jak słabi (lub go nie rozwiązują), to ma ono niewielką moc różnicującą. Zadanie testowe ma dużą moc różnicującą, jeżeli rozwiązują je tylko uczniowie najlepsi.
Modalna Wynik najczęściej występujący w badanej grupie.
Najniższy wynik Najniższy wynik uzyskany w badanej grupie.
Najwyższy wynik Najwyższy wynik uzyskany w badanej grupie.
Obiektywizm oceniania Zgodność wyników oceniania z rzeczywistymi osiągnięciami uczniów, ustalona według wymagań programowych. Informacje o osiągnięciach uczniów pochodzą także z innych źródeł niż test, więc jeżeli test jest obiektywny, to jego wyniki nie powinny odbiegać od danych o osiągnięciach ucznia, pochodzących z innych źródeł.
Odchylenie standardowe Miara rozrzutu wyników pozwalająca na ustalenie przedziału wyników.
Rozstęp Różnica pomiędzy najwyższym a najniższym wynikiem.
Rzetelność egzaminu Powtarzalność wyników egzaminu w tych samych warunkach, wiarygodność egzaminu, dotyczy zaufania do wyników egzaminu niezależnie od tego, czy to, co jest sprawdzane rzeczywiście jest zgodne z tym, co egzamin miał sprawdzać; znajomość stopnia rzetelności jest jednym z warunków koniecznych właściwego wykorzystywania danych uzyskanych w toku egzaminu; obok stosowności składa się na trafność egzaminu.
Rzetelność sprawdzania i oceniania Powtarzalność wyników sprawdzania i oceniania osiągnięć tych samych uczniów. Rzetelny test cechuje się zgodnością wyników, uzyskanych przez tych samych badanych, w testowaniu dokonanym w różnym czasie, wersjami równoległymi testu. Wersje równoległe to sprawdziany, mierzące te same umiejętności i wiedzę, za pomocą analogicznych zadań. Rzetelność to inaczej konsekwencja, z jaką test mierzy to, co mierzy.
Średni wynik Średnia arytmetyczna wszystkich wyników uzyskanych przez badana grupę uczniów.
Testy standaryzowane Standaryzacja ma na celu zapewnienie tego, że zadania testowe będą w taki sam sposób rozumiane i w takim samym (czy bardzo zbliżonym) stopniu trudne dla uczniów w różnych szkołach, nauczanych przez różnych nauczycieli, a system przeliczenia punktów na oceny pozwoli na porównywalne i powtarzalne ocenianie badanych kompetencji uczniów.
Trafność egzaminu Stopień zgodności tego co sprawdza egzamin z jego celami; stopień właściwej użyteczności wyników, to jest uzyskanych w jego toku informacji dla uczestników i organizatorów egzaminu, systemu oświatowego i społeczeństwa; podstawowa konieczna właściwość egzaminu zależna od stosowności i rzetelności.
Trafność sprawdzania i oceniania Użyteczność wyników sprawdzania i oceniania, oparta na porównaniu treści sprawdzania z programem nauczania (Czy test mierzy to, co mierzyć powinien?). Prawdziwie trafny test to taki, który mierzy wszystko to i tylko to, co miał mierzyć.
Wzorcowa odpowiedź Odpowiedź najbardziej poprawna i wyczerpująca na przedstawione w zadaniu pytanie lub polecenie, spełniająca wszystkie przedstawione w sytuacji zadaniowej warunki i okoliczności.
Zadanie egzaminacyjne Najmniejsza, względnie niezależna i osobno punktowana, część egzaminu (testu egzaminacyjnego), wymagająca od badanego udzielenia samodzielnej odpowiedzi; obejmuje opis wybranej sytuacji, pytanie lub polecenie i ewentualnie gotowe odpowiedzi do wyboru lub wskazówki ukierunkowujące pracę ucznia. Zadania egzaminacyjne mogą być otwarte lub zamknięte.
Zadanie otwarte Zadania w których nie są narzucone formy, czy postacie możliwych odpowiedzi.
Zadanie wielokrotnego wyboru Zadanie takie wymaga od ucznia wybrania jednej lub więcej odpowiedzi spośród kilku podanych w zadaniu; zadanie składa się z trzonu i odpowiedzi (zwykle 3-5); trzon zawiera opis sytuacji (słownych lub graficznych) oraz pytanie, polecenie lub niedokończone zdanie; odpowiedziami mogą być wyrazy, zdania, zwroty, wyrażenia matematyczne, symbole fizyko-chemiczne, rysunki itp.
Zadanie zamknięte Zadanie takie wymaga wybrania jednej (rzadziej kilku) z gotowych odpowiedzi. Opis hasła dotyczy interpretacji wyników egzaminów zewnętrznych.

6. Cechy egzaminów testowych

Standaryzacja wymagań - takie same pytania zadawane są wszystkim osobom egzaminowanym;

  • Mierzalna ocena prawidłowości udzielanych odpowiedzi poprzez odniesienie do jednoznacznie określonych odpowiedzi prawidłowych;
  • Możliwość szybkiej oceny wyników egzaminu poprzez wspomaganie informatyczne - wczytywanie udzielonych odpowiedzi + ocena prawidłowości odpowiedzi + sporządzanie list z wynikami.

Podane powyżej cechy egzaminów testowych powodują powszechne ich stosowanie.

7. Podstawowe warianty informatycznego wspomagania egzaminowania testowego

 

Lp. Istota wariantu Zalety Wady
1. Wykorzystanie sieci komputerów personalnych do generowania pytań i rejestrowania odpowiedzi
  • Możliwość asynchronicznego egzaminowania w różnym zakresie
  • Udzielane odpowiedzi od razu są zapamiętane
  • Duży koszt
  • mała przepustowość
2. Wyświetlanie pytań na ekranie, odpowiedzi udzielane na kartach
  • Najmniejszy koszt
  • Duża przepustowość
  • Konieczność odpowiadania zgodnie z rytmem wyświetlania pytań
  • Kłopotliwe generowanie różnych wersji testu
  • Konieczność wczytywania odpowiedzi
3. Pytania w książeczkach testowych, odpowiedzi udzielane na kartach
  • Możliwość udzielania odpowiedzi w dowolnej kolejności i w dowolnym tempie
  • Duża przepustowość
  • Możliwość stosowania różnych wersji testu
  • Konieczność drukowania książeczek testowych
  • Konieczność wczytywania odpowiedzi

W czasie odczytywania i dekodowania udzielonych odpowiedzi wprowadza się pojęcie odpowiedzi .nadmiarowych., jako odpowiedzi, w których występuje więcej niż ustalona liczba podawanych odpowiedzi prawidłowych. W zależności od ustalonej zasady oceniania za takie odpowiedzi przyznaje się: 0 pkt, liczbę punktów wynikającą z liczby poprawnych odpowiedzi składowych oraz liczbę punktów ujemnych wynikającą z liczby błędnych odpowiedzi składowych.

Na poniższym rysunku przedstawiono istotę informatycznego wspomagania egzaminowania testowego.

Opis dostępnych programów, które są wykorzystywane w I etapie obliczeń, dzięki któremu zapisuje się udzielone odpowiedzi w postaci określonego pliku komputerowego podano w kolejno zamieszczonych publikacjach:

  • Pakiet do prowadzenia testów z wykorzystaniem sieci komputerów PC.
  • Pakiet do prowadzenia testów z wykorzystaniem kart odpowiedzi.

 

W II etapie obliczeń dla obu w/w wariantów, prowadzonych na uzyskanych odpowiedziach oraz wcześniej przygotowanych odpowiedziach prawidłowych wykorzystuje się analogiczny pakiet, opisany w drugiej części następnej publikacji. Zamieszczone w punkcie 4 wyniki zostały uzyskane przy wykorzystaniu jednego z programów tego pakietu (L - Analiza testu), którego podstawowa funkcjonalność została scharakteryzowana w punkcie 2 i 3 niniejszej publikacji.

Piśmiennictwo:

  1. Brzeziński Jerzy: Elementy metodologii badań psychologicznych, PWN, Warszawa 1978.
  2. Brzeziński Jerzy: Metodologia badań psychologicznych, PWN, Warszawa 2003.
  3. Góralski Andrzej: Metody opisu i wnioskowania statystycznego w psychologii i pedagogice, PWN, Warszawa 1987.
  4. Niemiecko Bolesław: Pomiar wyników kształcenia, WSiP, Warszawa 1999.