• Start
  • Rozwiązania
  • Automatyzacja Biura / Praca Grupowa
  • Cyfryzacja dokumentów papierowych OCR
  • Cyfryzacja dokumentów papierowych OCR

    OCR (optical character recognition) to temat, z którym spotka się każde przedsiębiorstwo wkraczające na drogę e-gospodarki. Dotyczy to zarówno tych firm, które z własnej inicjatywy chcą wybrać ten kierunek jak i takich instytucji, które zostały do tego zmuszone, np. przez czynniki zewnętrzne.
     

    Poprzez rozumienie wąskiej cyfryzacji mamy na myśli przede wszystkim przekształcanie dokumentów papierowych w formę elektroniczną. Natomiast jeżeli chodzi o pełną cyfryzację organizacji, to następuje całkowite wyeliminowanie dokumentów papierowych, jako niezbędnej formy prawnego usankcjonowania zdarzenia gospodarczego.
     

    Sam proces przekształcenia dokumentu jest stosunkowo prosty i wymaga jedynie zaangażowania ze strony użytkownika. Po zeskanowaniu, dokument zostaje zapisany na zasobie dyskowym. Pliki najczęściej są dystrybuowane za pomocą poczty elektronicznej, katalogów sieciowych lub z wykorzystaniem systemu obiegu dokumentów.


    Niezależnie od sposobu przekazywania dokumentu, treść jego nie jest dostępna do indeksowania, wyszukiwania czy przetwarzania przez inne systemy, a jedynie do wglądu.

    W związku z tym, przedstawiamy praktyczne rozwiązanie digitalizacji zbioru umów papierowych z wykorzystaniem OCR, które znalazło zastosowanie u jednego z naszych klientów. Poszczególne etapy procesu obrazuje poniższy schemat.

     

     



    Dokumenty rejestrowane są w systemie eDokumenty w kontenerach określanych sprawami. Zanim dokument zostanie zeskanowany, to na pierwszej stronie zostaje umieszczona naklejka z kodem kreskowym, dostępnym z określonej puli kodów. Następnie za pomocą zwykłego skanera biurkowego, kod kreskowy zostaje wczytany do odpowiedniego pola na formatce sprawy. Jest to bardzo istotny element, a pole pełni funkcję porządkową dla skanowanych dokumentów. Co ważne, wszystkie dokumenty, na których znajduje się kod z numerem większym od zeskanowanego, będą przyporządkowane do tej sprawy.
     

    Co ważne, na skanerze są skonfigurowane różne foldery sieciowe przydatne do zapisu plików obrazków skanowanych dokumentów.
     

    Wszystkie foldery są połączone z systemem eDokumenty. Co to daje w praktyce? Otóż po zeskanowaniu nowego pliku i umieszczeniu go w określonym folderze, system odczytuje z niego kod kreskowy, a następnie zmienia jego nazwę na zeskanowany kod.
     

    Jeżeli w systemie eDokumenty pojawia się dokumenty typu umowa, to na podstawie kodu kreskowego zostają one wpisane i dołączone do odpowiedniej sprawy oraz Klienta. Następnym etapem jest przeniesienie pliku do tzw. hot-folderu, systemu klasy OCR firmy Abby. System Fine Reader przekształca zeskanowany obraz na tekst, który zostaje zapisany do dokumentu w systemie eDokumenty. System indeksuje zocerowaną treść pod kątem wyszukiwarki.
     

    Przedstawiony schemat został opisany w uproszczeniu, ponieważ cały proces może być bardziej rozbudowany, co zależy oczywiście od użytkownika. Każdy folder skonfigurowany ze skanerem, może być w różny sposób obsłużony przez system. Dla przykładu, faktury od konkretnego kontrahenta, które uznajemy za powtarzające się dokumenty, mogą zostać zdefiniowane specjalnym szablonem. Dzięki temu zastosowaniu układ dokumentu zostaje rozpoznany, a system jest w stanie uzupełnić dane w eDokumentach opierając się o zeskanowaną treść.
     

    Poniżej przedstawiamy przykład wyszukiwania w systemie eDokumenty frazy „Formularze”, zawartej w treści zeskanowanych dokumentów. Wyniki wyszukiwania wskazują poszczególne dokumenty w historii systemu: