MỤC LỤC MỤC LỤC .1 MỞ ĐẦU 2 CHƯƠNG 1 TỔNG QUAN HỆ PHÂN TÍCH TÀI LIỆU .4 1.1. Giới thiệu chung một hệ phân tích trang tài liệu .4 1.2. Sơ lược về nhận dạng ký tự quang học (OCR) 7 1.3. Kết luận chương .8 CHƯƠNG 2 THUẬT TOÁN TÁCH BẢNG T-RECS 9 2.1. Giới thiệu 9 2.2. Thuật toán phân đoạn khởi tạo .11 !"#$ $%&''( ()*!+,- .)*,/"#0 2.3. Các bước xử lý khối sau khi phân đoạn .16 ("1 !2 (3 456,"17 (()8,94 : 2.4. Phân tích khối 21 .;1<=,>5"1< 2.5. Xác định cấu trúc các cột, hàng 22 2.6. Kết luận chương .22 CHƯƠNG 3 THỰC NGHIỆM .24 3.1. T-Recs++ .24 (?@. (ABCD. ((A1"EF@,0 KẾT LUẬN .28 DANH MỤC CÁC TÀI LIỆU THAM KHẢO………………………………… .30 MỞ ĐẦU )6GG",GH+I>51!56"B<*,G H!J! K<LKMN@<*1<"O<P6<@56QF<R *@,5STL,GH6G6M)*B5@5UV 66G!M<LE!6<@I,6<@"BW!C!<*,6 8X!QF<R!+8"UG!OIIWF56HY BEYND@ H6<@!I,S!HZ<6Z +[B6<@I6<@KG!!569,GE\ 8KZ A@ H566<@8,S!H<6G+!O]!* B<*6<@KG6+[*KZ,68+ GQKIG!O!=,GH^GDQF<R,@ H6<@_ !X=5@<KG*<@I6<@9KG`!E\E,GE\!+<* ,GH@*<@%a6=",GH!56 +!JEG!M5K!M5@<*B&HL IW8,1<b6<@9*5@KG"O<P!!<L ,565D5G5cV1<<*PT <!!< *&TO!+*5@,65@bHGDdG <C 5Le*P6<@6G<6K<B G "BK<*=KGI,<*"B6I"BM 5*&IG5D!88!<*,O!4566,G Hf!8=6GG"6<@KG!E\6@*<@ 56!<*,GH;BW!C<65K!M<*I6<@9 KG!!56,GHVX!QF<R56HY*BE YA6<@KG!!56,GHVGLX8"UI @W56"BS<A@*<@XG+!*!4 "!+8"UI"!8!,B!G+ 9@*<@"B4,K!I"B4B56KZ54H *<@5c!*GLg54H!5UIL!MI* <@I55!G+!Z&KZ+@L@*<@ND 6G@ H6<@!56+!+EG *5K!ML A56h,C,!J8g@EY i%!+"R]I"R]5GI+GL5cVX MLT!+@!HQ@16GA1h, gNfi%dN@),e\j5UI +Gi,&Ik%&&55<6*h,O l66<@<6*6"856T ! G@ H6<@W56j"R]I !"15U)6GG6<@"BW!CX<65U,68 VP,j*!1j"R]IID5`IC!PI +55)<66KZ8 6<@IP,5@IV56B8T*<@ mJ8KMCII!B1 ! GGL*LTL*5K!M!85cVS+# 5DK<I!HQIH@E*C!B1 ! G5cV6W56XZ nP,.XG56D6G CD6G_YKZ,@ H6<@IC <5M"R]EYdi%e C!,&Co <Ld,oe!!MQK#,?;&&dpp7e!!/ L<6$%&GL!+!HQKZD VMn`W56!MQK $%&'' 1>C(D6GCDF@,qT-Recs++>!+ 3X"<L8,_<5K!M!!<56!* 5K!MVP!+ H@E*EG 56LTC<!15*C6Gr`!! ( CHƯƠNG 1 TỔNG QUAN HỆ PHÂN TÍCH TÀI LIỆU 1.1. Giới thiệu chung một hệ phân tích trang tài liệu Một hệ phân tích tài liệu ảnh 8!,@1P,*56 "s,68+S6<@!+<KG!B,6,G H8+!Y!56+!9!+,*<@Ah, H6 <@,6M!!8<6X,M,);R]^Ydi%eI X,M,8"U"R]9<6<@i% Z>8"U56D,",6<@C6G `,B8,_6XH8,@ H6<@ AS!H,@ H6<@<68"U!1 5UI!16<@568"UHY!B ,6>,,1Z8+,@ H6<@6 XdtDe3XTK<6QF<R5UI<LE!5@QF<R!1 5Uq"R]Ij"R]I9uF<R5UP,B5@qQ!4 !L6<@d!LG!QL6<@6<@!!/ "B!Z"]@E\569,GE\eID,I!5UI V5UI9561><65Ud8+L,H <B*I"HB*e#C"R]EY di%e3XT<6QF<R!1<6!19!"v C!PI!"v *!5UID5`I<BB BGwx"S"s H565UI!1X 6<@!H56!+[,6<@!4 "IgyI,<w Z8+Q&,Q\(5HSS+!W! G!+KG!]X 5@ H6<@q e 3X<6<@5U5UV<6,5@!M!9 ,GHI56,HZ!#,GHIX,M," I56!88+!4Z<6"BCH5 Z8+P,!45UI*<@56r8 . +<65U5=GZ8"H"I8+9 ,K,v"@!,5`"s<A@ H6<@`Z<6<@I8"UHY !XTU568"UG+9,!4,GH 6G,!4" e AHS"<6,G <]!>!+ <I_Q 56!4W)*,G6G!J89*"zI 6GGGLXC!8<6QF<RMCIC56 GLXH!QC (e tC**5@O!+! Gd5@<* <KGI5cVPMeI5@6<@4 ,KBIBI1<G,H 6<@4&<6*5K!MOND5G ZX!"BS56WF=,*"s H 6<@)*5HSL!JT56!<]]+ *C<,@ H6<@ tD xC!P"15@QF<R6<@ @ H6<@`6G6+56+L<6Z`8 @QF<R6<@gI@1i%`!FSJ!+<*I D,",56Hc96<@<*LKG"s H1H ,6<@Z*+,cd{,eL@IG!4 ,6<@56\<6<@!8C!P8+!!569 TG5`=G568+G!OI<ZxFS,GH uF<R6<@ uF<R5U )"R] EY$i% 3 HC !PD6G uF<R!1 uF<R !"v uF<R5>56 + NU u!4!LIV 5UI"15UI !5U mgI !I8 N>!B - 8+G+6<@5=G66<@!@F!<*,G H6<@!<*5@I6<@"sBG `!G+!O66<@!@F=, @EI@ 5@<*56[6,!CEG,5M6A/>6<@`6G 6!QF<R56<*M,GHL]8KM@ 1",66<@KG<6C@<6,5@@E56__=6 <@KG5c`<6C@<6,5@5Z,56"z*NK!M #! G<6<6,ZH*6<@KG56,GHQF<R tD QF<R,@ H6<@I!"|,C!P<6,HS5" E!99 tD,QF<R,@ H6<@(x" *<@!I6<@EQF<R!+,56 H!/ 56!89X5U56L` 3 H!/ AB6<@ nKG*<@ uF<R!+, 0 6<@ 3 H56 !1 3 H56 5U : 2 !+, 2-::D"R]I,j"R]8 "H-Q:!+, -::!"v56!5! 69:!:::!+, :::5>!B5"H9 :Q:!::Q::!+, -::Q-!/! g56! :Q-!/5> tC!P56<BB BGI55 2-::Q:!/ "R] -::Q:"R]I:! 5UIL!MH 56L!MS 1.2. Sơ lược về nhận dạng ký tự quang học (OCR) )"R]EYdi%e<6X1<a6I!8 ,S!Hi%<6!j"R]9*"R] *8KM"+5"L]"R] !5=M"+"}56"H~I<B*56\Z 5G9A/>"R]8+5&M8<`= 5c8*EG_Q!4!+9"R]3+*L ,GH!+"R]*<6,@,5SY ,i% )T!155K!M6G!8<6o"8+X HQ::•"R]5GDi%5c+!!!M6G ;8"U!15i%+@E,1!/!+,x]U1<56"H ~B**I"B6"+*5GI"R] 1<MI\4!TI!+,[55KZ<6,ED /"8"UtD(W,HS*1€:•561€0•K[X,<c" Z!5=GA9r8+66<61Ig1 !@IG66<6"R]*/8+<c** 561 tD( "R]5=G`K[X,<c 2 tD. x`"B[6D!+ 561.I 8\1<ML f!8ED`6#L"8"UC""R]<M"M ,j1<M\dtD.e"R]1<M\<6!MKD56,R ‚_"d"R]1eI"1,"R]15,"R]*5 ,95_D`K"8 1.3. Kết luận chương C6G!J,B_Y6X,@ H6<@ 56LC<5M"R]EYdi%eC&`,B C=$%& 7 CHƯƠNG 2 THUẬT TOÁN TÁCH BẢNG T-RECS 2.1. Giới thiệu )6GG,SL,@1EYdi%e!JQC KMI"BW<6*\G+!O!C,6<@,6 <@5UP,9,6C*8V565@Q!4!Z *KZ!/6<@",1@ HKZ 56Q!4H<H!1,1,M ,c5pI,1"<!56,1KZO !5UIVL!MGt2567!M,L@1 +[*KZL AS!H*@1KZ"BW!C<6G+ ,6<@6,6<@!@F,6C*V<6Q G]*E DQF<R"gq]!\SI!W,S56 < ƒq%&{&&&&{f!85@EY<6"|,&6 <@rHY*KZ!"|,59!8 ;!M!5K!MKZ6<@8T*<@ +`8"qTK!8<6Q!4HQ KZIP,BI6G!Y<6phân đoạn hay nhận dạng cấu trúc. T<6]56DK"}"1!J! _Q56!!1"15M,KZC^D 6G!YL<6gán nhãn lôgíc, phân tích cấu trúc hay phân tích sơ đồ trình bày. D,+*KZ!J8! G!M KG,!+,1I!8<6C6G!MKZ =Q!4K@ I8+<6"_I!"v g%56x,,&ƒq%&{&&&&{,B,@ KZ8"UQ!4!,6," „FS…f?"!8,1C"<]56!H "_*!+ƒq%&{&&&&{ p A1C"Q!4KZ=EG_!"v A1!8<6,B?&&56;,Gƒq%&{&&&& {IB!JS H54H!"v!+!KZI G†ƒq%&{&&&&{WE ,!"HJ56 "1" !<6,*<@!X56IGtG,ƒq%&{&&&& {FSCDP matching. V56;DQ&,Q\ dEG_!"v56"_e!+Q!4KZ #1<aC`D6G! G!8<6"BQ&,Q\! KT,<! 6!+Q!4,6`!569 >,"1<dg9>,*<@`!56 >,"1eZ`"B!D,*!/!+ @5> *<@de",6D,*!/!+D,9>,"1 <569!8Q G]KZL&Cdưới lên(bottom - up) A!M[KGG9C6G!8<6Z`"BS 56"+!g!5`8G<6"_! *"1!+KZ mX56<6D*9,! 5UmX<6IVIBP,B !5U`XMQF<RV5U 6<@ID*9L9V5U56 !5U"9!88,BL9!5U 6<@ C6G`,B6TU$%&, X!X,B !"#$X1GmXL<`D6G !"#,?;&&-!MQK56!8W* ,6 !?;&&`&<` D6G !d$%&''e!+8+HQ *<@P, )*!+,56r!WX!X C3X&C6G<`W,1QF<R" !d&e!+"_S* !"# : . 56L T C<!15*C6Gr`!! ( CHƯƠNG 1 T NG QUAN HỆ PHÂN T CH T I LIỆU 1.1. Giới thiệu chung m t hệ phân t ch trang t i liệu M t hệ phân t ch t i liệu ảnh 8!,@1P,*56. bước 4) thì t ng i lên m t và quay trở lại bước 1. 2e Dừng thủ t c lại nếu không t m thấy t nào chưa được đánh dấu trong t i liệu. tD0,B"E",#K9"1