Siemanko :D
Mam w zamiarze napisanie programu do odczytywania faktur tak jak na tym filmiku
.
Program ten miałby wypisać wszystkie produkty ich ceny itp. tylko nie mam pomysłu jak się za to zabrać w prosty sposób, skąd taki program miałby wiedzieć że produkt to produkt i że ta cena jest akurat do tego produktu a nie do innego.
Byłbym wdzięczny gdybyście mi napisali w jaki sposób wy byście sie za to zabrali i czego użyli aby stworzyć taką aplikacje w jak najprostszy sposób.
Pozdrawiam Darek
Ja bym zaczął od zapoznania się z tą tematyką: https://pl.wikipedia.org/wiki/OCR
Jak widzisz bez sztucznej inteligencji (sieci neuronowe) się nie obejdzie. Nie ma prostego sposobu, żeby zrobić coś takiego.
Samo rozpoznawanie tekstu nie jest problemem, problemem jest to jak powiedzieć maszynie że produkt to produkt :P
Podejrzewam, że to rozpoznaje jeden konkretny typ faktury. A skoro tak, to wystarczy "patrzeć" w odpowiednie miejsce.
kafar610 napisał(a):
Samo rozpoznawanie tekstu nie jest problemem, problemem jest to jak powiedzieć maszynie że produkt to produkt :P
To akurat jest proste. W tej samej linii mamy zawsze informacje o ilościach sztuk, jednostce miary, % VATu, cenie netto, brutto za daną pozycję. Można to wykorzystać by określić, że w danym wierszu jest produkt. Wówczas musimy mieć informacje o położeniu tekstu zamiast samego jego wyodrębnienia. Schody zaczynają się w fakturach kiedy mamy np. nierozliczone dokumenty na końcu lub tak jak w PLAYu kiedy mamy na początku tabelę z usługami, a później jest to w kolejnych tabelach rozbite na detale - usług Internetowe w pierwszej, w następnej pakiety, odsetki etc.
Potrzebne są szablony faktur, dla każdej firmy wystawiającej faktury (a ściślej dla każdego formatu faktur) tworzysz szablon, w którym określasz, w jakim obszarze co jest. Możesz rozpoznawanie szablonu zrobić ręcznie lub automatycznie.
Oprócz rozpoznawania musisz filtrować śmieci lub w przypadku kwot zamieniać O na 0, I na 1 itp,
Automatyczne rozpoznawanie szablonu sprawdzisz po charakterystycznym elemencie, np. na każdej fakturze z Play będzie słowo "Play" w określonym miejscu/ Po tym sprawdzisz dopasowanie szablonu do faktury. Do sprawdzania dopasowania można wykorzystać miarę Levensteina między rozpoznanym słowem, a słowem wzorcowym.