Test wiadomości jest zbiorem zadań, których cechą wspólną jest to, że wiążą się one tematycznie z jednym obszarem wiedzy. Test może zawierać zadania otwarte lub zamknięte (patrz pkt 5). Wśród zamkniętych zadań występuje siedem podstawowych typów zadań testowych. Największą popularnośią cieszą się zadania pojedynczego dopełnienia, zwane także zadaniami pojedynczego lub jednokrotnego wyboru. Budowa takiego zadania jest bardzo prosta. Zadanie składa się z pytania, lub niekompletnego stwierdzenia oraz kilku możliwych uzupełnień lub możliwych odpowiedzi. Badany musi wybrać jedną odpowiedź Zadania tego typu można utrudnić:
Rozszerzeniem zadań jednokrotnego wyboru są zadania wielokrotnego wyboru, w których mogą występować jedna, dwie, trzy lub nawet wszystkie prawidłowe odpowiedzi, np.
http://www.menis.gov.pl/bezpieczna/procedury/regulaminy_11.php
Należy podkreślić, że podane powyżej słownictwo nie jest standardowe. Pod pojęciem zadań wielokrotnego wyboru rozumie się także zadania, w których występuje zarówno jedna, jak i kilka prawidłowych odpowiedzi patrz pkt 5. Szczególnym przypadkiem zadań pojedynczego dopełnienia są zadania typu "prawda - fałsz". Typ ten wymaga tylko jednej z dwóch odpowiedzi "prawda", jeżeli dane stwierdzenie jest prawdziwe i "fałsz", jeżeli dane stwierdzenie jest fałszywe. Tego typu zadania zachęcają do pamięciowego opanowywaniu materiału, jednakże największą ich wadą jest duża możliwość udzielania prawidłowych odpowiedzi przez zgadywanie. W standardowym sposobie oceniania, dotyczącym zwłaszcza zadań pojedynczego wyboru, za każdą prawidłową odpowiedź przydziela się 1 pkt, a za każdą fałszywą - 0 pkt. W testach jednokrotnego wyboru można spotkać inne zasady oceniania, np.: http://www.afrotax.com.pl/prawo/br5.htm
W przypadku zadań z większą liczbą prawidłowych odpowiedzi stosowane są różne zasady oceniania, uzależnione od liczby prawidłowych odpowiedzi, ich poprawnego podania oraz udzielonych odpowiedzi nieprawidłowych. I tak w czasie odczytywania i dekodowania udzielonych odpowiedzi wprowadza się pojęcie odpowiedzi "nadmiarowych", jako odpowiedzi, w których występuje więcej niż ustalona liczba podawanych odpowiedzi prawidłowych. W zależności od ustalonej zasady oceniania za takie odpowiedzi przyznaje się: 0 pkt, liczbę punktów wynikającą z liczby poprawnych odpowiedzi składowych oraz liczbę punktów ujemnych wynikającą z liczby błędnych odpowiedzi składowych. Należy także przewidzieć sposób oceniania w przypadku podania jako prawidłowe wszystkich możliwych odpowiedzi. Z reguły przyjmuje się jako obowiązujące podawanie liczby prawidłowych odpowiedzi w poszczególnych zadaniach. Przy występowaniu w jednym teście zadań, o różnych liczbach prawidłowych odpowiedzi, konieczne jest określenie dla każdego z nich odpowiedniego współczynnika wagowego.
Uwzględniając, że sumaryczny wynik testu dla każdej osoby uzyskuje się przez zsumowanie wszystkich punktów z zadań, rozpatruje się pytanie z 5 odpowiedziami (A, B, C, D i E) i rozpatruje cztery możliwości liczby odpowiedzi prawidłowych:
Postępując analogicznie w przypadku występowania pytania z dwoma odpowiedziami: A lub B - za udzielenie prawidłowej odpowiedzi przyznaje się 2 punkty. Współczynniki wagowe do poszczególnych pytań można wprowadzać też w zależności od poziomu trudności pytań. W tym miejscu należy podkreślić, że przedstawione dalej metody oceny poszczególnych zadań testowych, jak i całego testu dotyczą zadań jednokrotnego wyboru.
Uwaga:
Możliwe warianty prawidłowych odpowiedzi tworzą tzw. kombinacje, które są jednym z podstawowych pojęć kombinatoryki. k-elementowa kombinacją n-elementowego zbioru Z (gdzie k <= n), nazywamy każdy k-elementowy podzbiór zbioru Z.
Liczba k-elementowych kombinacji zbioru n elementów, oznaczana symbolem
jest równa:
Test wiadomości, tak jak inne rodzaje testów (testów zdolności i testów osobowości) musi być poprawnie skonstruowany i stosowany. Od każdego testów wymaga się, aby był [1]:
Rzetelność ocenia się w pierwszej kolejności na poziomie pojedynczych zadań. Podstawą jest odnoszenie odpowiedzi na to pytanie do odpowiedzi udzielonych w całym teście. Poniżej podano dwa zbliżone sposoby podejścia.
Dla każdego pytania oblicza się:
Lp - liczby poprawnych odpowiedzi na pozostałe pytania udzielonych przez osoby z poprawną odpowiedzią na dane pytanie.
Lq - liczby poprawnych odpowiedzi na pozostałe pytania udzielonych przez osoby z błędną odpowiedzią na dane pytanie.
Mp - średni wynik osób, które udzieliły poprawnej odpowiedzi na dane pytanie.
Mq - średni wynik osób, które udzieliły błędnej odpowiedzi na dane pytanie.
Intuicyjnie jest oczywiste, że pytanie można uznać za rzetelne, jeżeli Lp > Lq oraz Mp > Mq.
Formalną ocenę rzetelności poszczególnych zadań, w oparciu o dwa ostatnie wskaźniki, ocenia się za pomocą współczynnika korelacji dwuseryjnej:

gdzie:
Mp - średni wynik ogólny osób, które udzielały odpowiedzi zgodnie z kluczem na daną pozycję, tzn. udzieliły odpowiedzi prawidłowej
Mq - średni wynik ogólny osób, które udzielały odpowiedzi niezgodnie z kluczem na daną pozycję, tzn. udzieliły odpowiedzi błędnej
s - odchylenie standardowe wyników testu w całej badanej próbie
p - proporcja osób, które odpowiedziały zgodnie z kluczem na daną pozycję
q - proporcja osób, które odpowiedziały niezgodnie z kluczem na daną pozycję
y - rzędna rozkładu normalnego, odpowiadająca punktowi p
Współczynnik korelacji dwuseryjnej przyjmuje wartości z przedziału [-1,+1], gdy rozkład wyników nie odbiega od rozkładu normalnego.
Współczynnik ten mierzy poziom korelacji pomiędzy wynikami pojedynczego zadania (pytania), a wynikiem sumarycznym testu. Zatem z oceny sumarycznej powinny być eliminowane pytania o małych wartościach współczynnika korelacji dwuseryjnej.
W kategoriach teorii weryfikacji hipotez problem ten jest następujący:

Dla weryfikacji wysuniętych hipotez oblicza się następujące wielkości:

gdzie k - liczebność próby
Na podstawie wartości powyższych wielkości oblicza się statystykę:

i porównuje z wartością zα. Wartość zα wyznacza się w sposób następujący:

gdzie:
- funkcja odwrotna do dystrybuanty zmiennej losowej o rozkładzie normalnym N(0,1)
α - przyjęty poziom istotności
Innymi słowy

gdzie:
f(x) - funkcja gęstości zmiennej losowej o rozkładzie normalnym N(0,1)
Zasada wnioskowania jest następująca:
Opisany sposób postępowania ilustruje poniższy rysunek.

Na podstawie 17 elementowej próby otrzymano wartość współczynnika korelacji rbi = -0,06.
Weryfikuje się hipotezy:
Dla weryfikacji wysuniętych hipotez oblicza się następujące wielkości:

Na podstawie wartości powyższych wielkości oblicza się statystykę:

Dla α = 0,01 z0,01 = -2,32. Otrzymano zatem, że z = 1,67 > -2,32 = z0,01 czyli brak jest podstaw do odrzucenia hipotezy H0
Zbiorczą ocenę rzetelności tekstu określa współczynnik 20 Kudera - Richardsona:

gdzie:
n - liczba pozycji w teście
st2 - wariancja ogólna wyników testu
si2 - wariancja i-tej pozycji testu si2 = pi*qi
pi - proporcja osób, które odpowiedziały zgodnie z kluczem na i-tą pozycję testu
qi - proporcja osób, które odpowiedziały nie zgodnie z kluczem na i-tą pozycję testu
Współczynnik 20 Kudera-Richardsona przyjmuje wartości z przedziału [0,+1] i jest tym większy im:
Przyjmuje się, że do oceny indywidualnej test posiada wystarczającą rzetelność, jeżeli współczynnik 20 Kudera-Richardsona nie jest mniejszy niż 0,80.
W prawidłowo skonstruowanym teście powinny znaleźć się zadania o znanej trudności. Trudność zadania jest to taka jego własność, od której zależy procent osób odpowiadających na nie prawidłowo. Jeżeli egzaminatorowi zależy na selekcji w dolnym krańcu skali, np. identyfikując osoby z mniejszą wiedzą, to wskaźnik trudności powinien być rzędu 90% - 80%. Dla selekcji osób o wysokiej wiedzy pytania powinny charakteryzować niskie współczynniki trudności . pytania powinny być trudne. W przypadku braku potrzeb selekcji na końcach skali najbardziej odpowiednim wskaźnikiem trudności jest poziom 50%. Łatwość pytania czy testu jest pojęciem przeciwnym do trudności.
W oparciu o te pojęcia odnoszące się do pojedynczego pytania można także określić rzetelność pytania. W tym celu porządkuje się osoby egzaminowane według sumarycznej liczby uzyskanych punktów, co umożliwia dokonanie podziału na dwie połowy. W następnej kolejności wyznacza się:
PG - łatwość pytania w górnej połowie
PD - łatwość pytania w dolnej połowie
Intuicyjnie jest oczywiste, że jeżeli PG > PD, to pytanie może zostać uznane za rzetelne.
W rozpatrywanym typie zadań testowych przyjmuje się dwa założenia:
Tak więc, sumaryczna liczba prawidłowych odpowiedzi składa się z dwóch w/w rodzajów odpowiedzi. Szanse odgadnięcia prawidłowej odpowiedzi zależą odwrotnie proporcjonalnie od liczby dystraktorów (dystraktorem nazywa się też tylko odpowiedzi błędne). Podstawowym sposobem osłabienia wpływu czynnika zgadywania jest zwiększenie liczby dystraktorów.
W przypadku, gdy część osób nie udzieliła odpowiedzi na niektóre zadania lub tez limit czasu był zbyt mały, konieczne jest wprowadzenie poprawki na zgadywanie:

gdzie:
Pn - liczba odpowiedzi niezgadywanych
P - ogólna liczba odpowiedzi
B - liczba błędnych odpowiedzi
k - liczba dystraktorów w zadaniu
Przy konstrukcji testu powinno się [1]:
W pozycji [4] piśmiennictwa podano typy i przykłady zadań wyboru wielokrotnego oraz zasady budowania takich zadań.
W poniższej tabelach podano przykładowe wyniki i prawidłowe odpowiedzi dla testu składającego się z 12 pytań jednokrotnego wyboru z 5 możliwymi odpowiedziami. Odpowiedzi udzielało 17 osób [4].


Przykładowe wyniki i prawidłowe odpowiedzi pochodzą z pozycji piśmiennictwa, oznaczonej [4]. Dokonano w nich nieznacznych zmian. Poniżej zamieszczono otrzymane wyniki analizy


III. ANALIZA TESTU
Komentarz do uzyskanych wyników jest następujący [4]:
W poniższej tabelce oceniono zbiorczo wszystkie pytania wykorzystując kryteria podane w części II wyników. Znakiem .-. oznaczono negatywną ocenę z punktu danego kryterium (ocenę składową). Ocena łączna oparta jest o oceny składowe.
Ujemną ocenę łączną otrzymało aż 7 z 12 pytań! Świadczy to o niskiej rzetelności testu jako całości, co potwierdza niewielka wartość współczynnika 20 Kudera-Richardsona.
Uwaga:
Przy ocenie współczynnika korelacji dwuseryjnej (część II wyników), prowadzonej w oparciu o obliczony estymator weryfikowane są hipotezy opisane w punkcie 2:
H0 : Rbi = r0
H1 : Rbi < r0
W programie dla poziomu istotności α = 0.01 obliczana jest wartość r0 , która określa granicę odrzucania hipotezy H0 .
Kilka obliczonych wartości r0 dla wybranych rbi oraz
podano poniżej.
Przykładowo, jeżeli otrzymano estymator współczynnika korelacji dwuseryjnej rbi = -0.1, to na poziomie istotności α = 0.01 graniczną wartością przy weryfikacji hipotez jest liczba 0.48.
Innymi słowy w oparciu o estymator rbi = -0.1 na poziomie istotności α = 0.01 wnioskuje się, że współczynnik korelacji dwuseryjnej Rbi nie jest mniejszy niż 0.48.
| Dystraktory | Błędne odpowiedzi w zadaniach wielokrotnego wyboru. |
| Frakcja opuszczeń zadania | Stosunek liczby uczniów, którzy opuścili zadanie, do liczby uczniów, którzy brali udział w testowaniu. Zadanie opuszczone, to każde zadanie pozostawione bez odpowiedzi, jeżeli na którekolwiek z zadań o wyższej numeracji została udzielona odpowiedź. Frakcja opuszczeń nie powinna przekraczać 0,15, gdy jest większa zadanie może nie być poprawne dydaktycznie. |
| Histogram | Histogram, inaczej rozkład częstości, jest to graficzne przedstawienie liczby obserwacji dla każdej wartości skali. Histogram przedstawia jeden zbiór wyników, mogą to być wyniki uczniów w jednej klasie, wyniki klas w jednej szkole, w województwie czy kraju). Histogram może mieć: rozkład normalny, spłaszczony, wypiętrzony, skośny, dwumodalny. Analiza rozkładu pozwala na sformułowanie określonych wniosków, np:
|
| Łatwość zadania | Stosunek liczby punktów uzyskanych za rozwiązanie zadania przez uczniów biorących udział w testowaniu do maksymalnej liczby punktów możliwej do uzyskania przez tę liczbę uczniów. Zadanie jest:
|
| Mediana | Wynik środkowy zbioru wyników badania określonej grupy uczniów (klasy, szkoły, województwa, kraju), uporządkowanych w kolejności malejącej lub rosnącej: pozycja skali pomiarowej dzieląca badana grupę uczniów na dwie połowy. |
| Moc różnicująca zadania | Zdolność zadania do rozróżniania uczniów według ich ogólnych osiągnięć z wybranego zakresu programowego. Jeżeli dane zadanie rozwiązują zarówno uczniowie dobrzy, jak słabi (lub go nie rozwiązują), to ma ono niewielką moc różnicującą. Zadanie testowe ma dużą moc różnicującą, jeżeli rozwiązują je tylko uczniowie najlepsi. |
| Modalna | Wynik najczęściej występujący w badanej grupie. |
| Najniższy wynik | Najniższy wynik uzyskany w badanej grupie. |
| Najwyższy wynik | Najwyższy wynik uzyskany w badanej grupie. |
| Obiektywizm oceniania | Zgodność wyników oceniania z rzeczywistymi osiągnięciami uczniów, ustalona według wymagań programowych. Informacje o osiągnięciach uczniów pochodzą także z innych źródeł niż test, więc jeżeli test jest obiektywny, to jego wyniki nie powinny odbiegać od danych o osiągnięciach ucznia, pochodzących z innych źródeł. |
| Odchylenie standardowe | Miara rozrzutu wyników pozwalająca na ustalenie przedziału wyników. |
| Rozstęp | Różnica pomiędzy najwyższym a najniższym wynikiem. |
| Rzetelność egzaminu | Powtarzalność wyników egzaminu w tych samych warunkach, wiarygodność egzaminu, dotyczy zaufania do wyników egzaminu niezależnie od tego, czy to, co jest sprawdzane rzeczywiście jest zgodne z tym, co egzamin miał sprawdzać; znajomość stopnia rzetelności jest jednym z warunków koniecznych właściwego wykorzystywania danych uzyskanych w toku egzaminu; obok stosowności składa się na trafność egzaminu. |
| Rzetelność sprawdzania i oceniania | Powtarzalność wyników sprawdzania i oceniania osiągnięć tych samych uczniów. Rzetelny test cechuje się zgodnością wyników, uzyskanych przez tych samych badanych, w testowaniu dokonanym w różnym czasie, wersjami równoległymi testu. Wersje równoległe to sprawdziany, mierzące te same umiejętności i wiedzę, za pomocą analogicznych zadań. Rzetelność to inaczej konsekwencja, z jaką test mierzy to, co mierzy. |
| Średni wynik | Średnia arytmetyczna wszystkich wyników uzyskanych przez badana grupę uczniów. |
| Testy standaryzowane | Standaryzacja ma na celu zapewnienie tego, że zadania testowe będą w taki sam sposób rozumiane i w takim samym (czy bardzo zbliżonym) stopniu trudne dla uczniów w różnych szkołach, nauczanych przez różnych nauczycieli, a system przeliczenia punktów na oceny pozwoli na porównywalne i powtarzalne ocenianie badanych kompetencji uczniów. |
| Trafność egzaminu | Stopień zgodności tego co sprawdza egzamin z jego celami; stopień właściwej użyteczności wyników, to jest uzyskanych w jego toku informacji dla uczestników i organizatorów egzaminu, systemu oświatowego i społeczeństwa; podstawowa konieczna właściwość egzaminu zależna od stosowności i rzetelności. |
| Trafność sprawdzania i oceniania | Użyteczność wyników sprawdzania i oceniania, oparta na porównaniu treści sprawdzania z programem nauczania (Czy test mierzy to, co mierzyć powinien?). Prawdziwie trafny test to taki, który mierzy wszystko to i tylko to, co miał mierzyć. |
| Wzorcowa odpowiedź | Odpowiedź najbardziej poprawna i wyczerpująca na przedstawione w zadaniu pytanie lub polecenie, spełniająca wszystkie przedstawione w sytuacji zadaniowej warunki i okoliczności. |
| Zadanie egzaminacyjne | Najmniejsza, względnie niezależna i osobno punktowana, część egzaminu (testu egzaminacyjnego), wymagająca od badanego udzielenia samodzielnej odpowiedzi; obejmuje opis wybranej sytuacji, pytanie lub polecenie i ewentualnie gotowe odpowiedzi do wyboru lub wskazówki ukierunkowujące pracę ucznia. Zadania egzaminacyjne mogą być otwarte lub zamknięte. |
| Zadanie otwarte | Zadania w których nie są narzucone formy, czy postacie możliwych odpowiedzi. |
| Zadanie wielokrotnego wyboru | Zadanie takie wymaga od ucznia wybrania jednej lub więcej odpowiedzi spośród kilku podanych w zadaniu; zadanie składa się z trzonu i odpowiedzi (zwykle 3-5); trzon zawiera opis sytuacji (słownych lub graficznych) oraz pytanie, polecenie lub niedokończone zdanie; odpowiedziami mogą być wyrazy, zdania, zwroty, wyrażenia matematyczne, symbole fizyko-chemiczne, rysunki itp. |
| Zadanie zamknięte | Zadanie takie wymaga wybrania jednej (rzadziej kilku) z gotowych odpowiedzi. Opis hasła dotyczy interpretacji wyników egzaminów zewnętrznych. |
Standaryzacja wymagań - takie same pytania zadawane są wszystkim osobom egzaminowanym;
Podane powyżej cechy egzaminów testowych powodują powszechne ich stosowanie.
| Lp. | Istota wariantu | Zalety | Wady |
| 1. | Wykorzystanie sieci komputerów personalnych do generowania pytań i rejestrowania odpowiedzi |
|
|
| 2. | Wyświetlanie pytań na ekranie, odpowiedzi udzielane na kartach |
|
|
| 3. | Pytania w książeczkach testowych, odpowiedzi udzielane na kartach |
|
|
W czasie odczytywania i dekodowania udzielonych odpowiedzi wprowadza się pojęcie odpowiedzi .nadmiarowych., jako odpowiedzi, w których występuje więcej niż ustalona liczba podawanych odpowiedzi prawidłowych. W zależności od ustalonej zasady oceniania za takie odpowiedzi przyznaje się: 0 pkt, liczbę punktów wynikającą z liczby poprawnych odpowiedzi składowych oraz liczbę punktów ujemnych wynikającą z liczby błędnych odpowiedzi składowych.
Na poniższym rysunku przedstawiono istotę informatycznego wspomagania egzaminowania testowego.

Opis dostępnych programów, które są wykorzystywane w I etapie obliczeń, dzięki któremu zapisuje się udzielone odpowiedzi w postaci określonego pliku komputerowego podano w kolejno zamieszczonych publikacjach:
W II etapie obliczeń dla obu w/w wariantów, prowadzonych na uzyskanych odpowiedziach oraz wcześniej przygotowanych odpowiedziach prawidłowych wykorzystuje się analogiczny pakiet, opisany w drugiej części następnej publikacji. Zamieszczone w punkcie 4 wyniki zostały uzyskane przy wykorzystaniu jednego z programów tego pakietu (L - Analiza testu), którego podstawowa funkcjonalność została scharakteryzowana w punkcie 2 i 3 niniejszej publikacji.
Piśmiennictwo: