Dokładność OCR przy notatkach pisanych ręcznie

Spróbuj kiedyś zrobić zdjęcie zeszytu z lekcji i zamienić go na cyfrowe fiszki — i zobaczysz, gdzie zaczynają się schody. No bo w testach branżowych rozpoznawanie pisma odręcznego (czyli ICR) potrafi spaść poniżej 80 procent, akurat wtedy, kiedy notatki pisaliśmy w pośpiechu. A druk maszynowy? Tu aplikacje czytają mniej więcej bezbłędnie, z trafnością ponad 99 procent. Tę różnicę odczuwamy wszyscy, którzy próbowali coś takiego ogarnąć.

Wzięliśmy więc na warsztat próbkę odręcznych notatek z biologii — no i mamy tam zamazane strzałki, własne skróty, słowa, które nachodzą na margines. I dokładnie tu kończy się ta cała magia automatu. Nagłówki i pełne zdania algorytm odczytał poprawnie, w sumie nieźle. Ale poległ na pojedynczych hasłach, tych pisanych szybciej: „mitochondrium” wyszło jako „mitochonrium”, a daty przesunęły się o cyfrę.

Problem nie jest zresztą nowy, raczej leży u podstaw całej tej zabawy. Hermann Ebbinghaus, który w 1885 roku jako pierwszy zmierzył tempo zapominania, opisał mechanizm, na którym stoją dzisiejsze fiszki. „Z większą liczbą powtórzeń rozłożonych w odpowiednich odstępach czasu uczenie się staje się wyraźnie bardziej ekonomiczne” — pisał ten niemiecki psycholog w pracy „Über das Gedächtnis”.

I właśnie na tym fundamencie stoi cała nasza cyfrowa nauka. Bo jak OCR przepuści błąd, to fiszka utrwala nam tę błędną wersję — a system powtórek wbija ją do głowy tym skuteczniej, im lepiej działa. Trochę paradoks, no ale tak to jest.

Że samo przypominanie sobie naprawdę działa, potwierdziło zresztą głośne badanie z 2008 roku. Jeffrey Karpicke i Henry Roediger z Washington University w St. Louis pokazali w „Science”, że uczniowie, których przetestowano z materiału, pamiętali go po tygodniu o wiele lepiej niż ci, co go tylko wielokrotnie czytali. „Powtórne przywoływanie informacji z pamięci wytwarza trwalsze uczenie się niż wielokrotne studiowanie tej samej treści” — tak to autorzy podsumowali w streszczeniu.

A ten mechanizm odstępów ma akurat polskiego współautora, co miło. Algorytm SM-2, na którym opiera się większość dzisiejszych aplikacji do fiszek, opracował Piotr Woźniak w 1985 roku — jeszcze jako student Uniwersytetu im. Adama Mickiewicza w Poznaniu. I ten sam silnik napędza dziś darmowe Anki, część funkcji Quizleta oraz Memrise.

Cała różnica między narzędziami leży dziś nie w samym powtarzaniu, tylko na etapie wejścia. Bo Anki i Quizlet wymagają, żeby każdą fiszkę wklepać ręcznie — a przy notatkach z całego semestru to są godziny przepisywania, serio. Polska aplikacja Snapo idzie tu na skróty: robi fiszki ze zdjęcia notatek dzięki OCR i też stosuje algorytm SM-2, ten sam co Anki. Tyle że cena za tę wygodę to właśnie to ryzyko, które wyszło w teście — przy odręcznych bazgrołach automat potrafi przekłamać hasło, więc taką wygenerowaną fiszkę i tak musimy sprawdzić okiem.

Sami producenci silników OCR zresztą uczciwie zaznaczają, gdzie kończy się technologia. W dokumentacji branżowej rozpoznawanie pisma ręcznego opisują jako „znacząco trudniejsze od druku ze względu na zmienność indywidualnego charakteru pisma” — i w wielu przypadkach zalecaną praktyką wciąż pozostaje, żeby wynik sprawdził człowiek.

Wniosek z tego testu na zeszycie z biologii jest jakoś mniej spektakularny niż to, co obiecują reklamy. Im czytelniej piszemy i im wyraźniejsze zdjęcie zrobimy, tym mniej poprawek nas potem czeka. Notatki stawiane drukowanymi literami, w dobrym świetle i bez nakładających się linii algorytm zamienia na zestaw fiszek w kilkanaście sekund i niemal bez błędu. Ale prawdziwe bazgroły wciąż wymagają oka ucznia, czyli kogoś, kto wie, co tam naprawdę zapisał.

MS
Marcin Sobiech
Redaktor naczelny · Snapo

Marcin uczył biologii w warszawskim XII LO przez 7 lat, zanim dołączył do Snapo. Ma magisterium z neurobiologii (UW) i certyfikat metody Cornell. Pisze o tym, jak naprawdę działa nauka — bez ezoteryki, „typów wzrokowca" i „motywacji". Codziennie. Wypija 4 kawy. Czyta 2 książki tygodniowo (notatki w Snapo, oczywiście).