Tiến hành thực nghiệm

3.3.1. Mục tiêu

Phần thực nghiệm của luận văn nhằm làm rõ các vấn đề:

Chạy chương trình FSCANNER với các bộ dữ liệu thực nghiệm ở trên. Đánh giá về ảnh hưởng chỉ số DPI khi quét đối với chất lượng nhận dạng. DPI là chữ viết tắt của “ dots per inch”: Số chấm trên một inch (1inch=2,54cm). Việc xác định ngưỡng DPI thích hợp khi quét là cần thiết vì nó ảnh hưởng trực tiếp tới chất lượng nhận dạng OCR, do đó ảnh hưởng tới quá trình số hóa văn bản.

Đánh giá về ảnh hưởng ảnh quét bị nghiêng đối với chất lượng nhận dạng. Việc xác định góc xoay nghiêng cho phép nhận dạng được là cần thiết, vì nếu ảnh bị nghiêng quá sẽ không thể nhận dạng được, dẫn đến việc không thực hiện được số hóa văn bản đó.

3.3.2. Cách thực hiện

Để thực hiện các tiêu chí đánh giá trên, tác giả tiến hành chia bộ dữ liệu thành các phần tương ứng với từng tiêu chí đánh giá và thực hiện chạy chương trình:

Thực hiện nhận dạng OCR với các ảnh quét ở 7 mức DPI khác nhau: 100DPI; 150DPI; 200DPI; 240DPI; 300DPI; 400DPI; 600DPI.

Thực hiện nhận dạng OCR với các ảnh quét 300 DPI ở các góc xoay khác nhau so với ảnh quét ban đầu tương ứng mức 00 .

3.4. Kết quả thực nghiệm

Bảng 3.1. Số từ nhận dạng đúng với các mức DPI khác nhau của ảnh quét

Mức DPI 100 dpi 150 dpi 200 dpi 240 dpi 300 dpi 400 dpi 600 dpi

Số từ nhận dạng đúng 332 2875 3230 3305 3386 3481 3481

Tổng số từ nhận dạng 4196 4196 4196 4196 4196 4196 4196

Trong bảng 3.1, mức DPI gồm 7 mức khác nhau: 100 dpi, 150dpi, 200dpi, 240dpi, 300dpi, 400dpi, 600dpi. Mỗi ảnh quét ở các mức dpi khác nhau được nhận dạng và đếm số từ nhận dạng đúng so với tổng số từ nhận dạng. Tại hình 3.5 là biểu đồ tỉ lệ % số từ nhận dạng đúng ở 7 mức dpi tại bảng 3.1.

Hình 3.5. Biểu đồ tỉ lệ % số từ nhận dạng đúng ở 7 mức DPI

Trong bảng 3.2, góc xoay là góc mà ảnh quét xoay lệch trái so với ảnh quét gốc (ảnh gốc coi như đặt đúng là 00), với mỗi ảnh quét lệch so với ảnh quét gốc một góc xoay từ -10 đến -150 sẽ được nhận dạng và đếm số từ đúng so với tổng số từ.

Bảng 3.2. Số từ nhận dạng đúng với các góc xoay (lệch trái so với ảnh quét gốc) của ảnh quét Góc xoay ảnh gốc (≈00) -1 0 -20 -30 -40 -50 -60 -70 -80 -150 Số từ đúng 3386 3373 2736 1693 711 496 498 365 49 53 Tổng số từ 4196 4196 4196 4196 4196 4196 4196 4196 4196 4196 0% 10% 20% 30% 40% 50% 60% 70% 80% 90%

100 dpi 150 dpi 200 dpi 240 dpi 300 dpi 400 dpi 600 dpi

Tỉ lệ % số từ nhận dạng đúng

Biểu đồ tỉ lệ % số từ nhận dạng đúng ở 7 mức DPI

Mức DPI Tỉ lệ %

Hình 3.6 là biểu đồ tỉ lệ % số từ nhận dạng đúng ở các góc xoay lệch trái so với ảnh quét gốc, tương ứng với bảng 3.2

Hình 3.6. Biểu đồ tỉ lệ % số từ nhận dạng đúng ở các góc xoay lệch trái

Trong bảng 3.3, góc xoay là góc mà ảnh quét xoay lệch phải so với ảnh quét gốc (ảnh gốc coi như đặt đúng là 00), với mỗi ảnh quét lệch so với ảnh quét gốc một góc xoay từ 10 đến 160 sẽ được nhận dạng và đếm số từ đúng so với tổng số từ.

Bảng 3.3. Số từ nhận dạng đúng với các góc xoay (lệch phải so với ảnh quét gốc) của ảnh quét Góc xoay ảnh gốc (≈00) 10 20 30 40 50 60 70 80 110 120 150 160 Số từ đúng 3386 3312 3236 3011 2581 1795 856 168 4 68 1 48 44 Tổng số từ 4196 4196 4196 4196 4196 4196 4196 4196 4196 4196 4196 4196 4196

Hình 3.7 là biểu đồ tỉ lệ % số từ nhận dạng đúng ở các góc xoay lệch phải so với ảnh quét gốc, tương ứng với bảng 3.3

Biểu đồ tỉ lệ % số từ nhận dạng đúng ở các góc xoay lệch trái

Góc xoay Tỉlệ %

Biểu đồ tỉ lệ % số từ nhận dạng đúng ở các góc xoay lệch trái

Góc xoay Tỉlệ %

Hình 3.7. Biểu đồ tỉ lệ % số từ nhận dạng đúng ở các góc xoay lệch trái

3.5. Đánh giá kết quả

Từ các kết quả thực nghiệm thu được ở trên ta có thể rút ra một số nhận xét sau:

Độ chính xác nhận dạng tăng khi tăng chỉ số DPI. Với chỉ số DPI là 100 cho kết quả nhận dạng rất thấp. Với mức 240 DPI đến 300 DPI cho kết quả khá tốt, thời gian quét và dung lượng file quét không quá cao. Với mức 400 DPI và 600 DPI cũng cho kết quả khá tốt xong thời gian quét và dung lượng file là cao.

Chương trình nhận dạng cho kết quả đúng trên 60% khi xoay nghiêng ảnh quét gốc (là ảnh quét xấp xỉ mức 00 ) từ -20 đến 40 ; Với góc xoay dao động trong khoảng -10 đến 20 cho kết quả nhận dạng chính xác 80%.

Tổng kết chương 3

Trong chương 3, chúng tôi trình bày về cách chạy chương trình của hệ thống FSCANNER, quy trình tiến hành thực nghiệm chọn chỉ số dpi và góc xoay ảnh quét, từ đó rút ra đánh giá chọn ngưỡng dpi và góc xoay thích hợp để nâng cao hiệu quả nhận dạng OCR.

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% Tỉ lệ % số từ nhận dạng đúng Biểu đồ tỉ lệ % số từ nhận dạng đúng ở các góc xoay lệch phải

Góc xoay Tỉ lệ %

KẾT LUẬN

Trên đây chúng tôi đã trình bày về bài toán xử lý ngôn ngữ tự nhiên trong số hóa văn bản và sơ đồ hoạt động của hệ thống số hóa văn bản FSCANNER. Đầu vào của hệ thống là các ảnh quét của các văn bản hành chính như báo cáo, quyết định, nghị định,... Sau đó bước nhận dạng OCR chuyển các ảnh kí tự in/viết tay sang dạng tài liệu văn bản có thể chỉnh sửa được. Trong quá trình nhận dạng OCR có thể còn lỗi, bước soát lỗi chính tả tiếng Việt giúp cho kết quả nhận dạng chính xác hơn. Cuối cùng là bước trích rút metadata tự động để phục vụ cho quá trình tách bộ, lập chỉ mục và giúp cho việc tìm kiếm có định hướng thuận tiện và dễ dàng.

Hiện nay có nhiều sản phẩm nhận dạng chữ in tiếng Việt có chất lượng cao và hệ thống FSCANNER đã sử dụng gọi hàm API có sẵn cho khâu nhận dạng OCR, vì vậy trong luận văn có tìm hiểu một số kỹ thuật nhận dạng OCR, đưa ra bảng so sánh một số sản phẩm phần mềm nhận dạng chữ in tiếng Việt hiện nay. Vì hệ thống FSCANNER gọi hàm API có sẵn nên muốn nâng cao chất lượng nhận dạng OCR, chúng tôi đã thực nghiệm để chọn ngưỡng dpi và góc xoay phù hợp nhất cho ảnh quét đầu vào trước khi OCR.

Kỹ thuật sửa lỗi chính tả tiếng Việt của hệ thống FSCANNER dựa trên mô hình ngôn ngữ n-gram. Cụ thể là áp dụng xác suất thống kê và quá trình máy tự học để tách từ bằng 2-gram.

Đối với kỹ thuật trích rút metadata, chúng tôi tập trung vào việc đề xuất xây dựng metadata cho văn bản được số hóa. Từ đó những tổ chức có nhu cầu số hóa có thể lựa chọn những trường metadata phù hợp. Việc đề xuất các trường metadata cho số hóa văn bản đã được nhóm nghiên cứu của Viện CNTT-ĐHQGHN ứng dụng chạy trong hệ thống FSCANNER.

Trong khuôn khổ của luận văn, chúng tôi mới tìm hiểu về các kỹ thuật xử lý ngôn ngữ, hệ thống hóa các nội dung lý thuyết về các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản. Trong tương lai hướng nghiên cứu có thể xây dựng chương trình nhận dạng OCR riêng cho hệ thống, đi sâu hơn vào kỹ thuật trích rút metadata và đánh giá phương pháp trích rút metadata của hệ thống với các phương pháp trích rút metadata khác. Hướng tới hoàn thiện hệ thống số hóa văn bản.

TÀI LIỆU THAM KHẢO Tiếng Việt

1. Hồ Tú Bảo, Lương Chi Mai (2005), “Về xử lý tiếng Việt trong Công nghệ thông tin”. http://www.jaist.ac.jp/~bao/Writings/VLSPwhitepaper%20-%20Final.pdf 2. Bộ Giáo dục (1984), Quy định về chính tả tiếng Việt và thuật ngữ tiếng Việt.

http://thuvienphapluat.vn/archive/Quyet-dinh-240-QD-nam-1984-chinh-ta-thuat- ngu-tieng-Viet-sach-giao-khoa-bao-van-ban-nganh-giao-duc-vb216818.aspx 3. Bộ Giáo dục và Đào tạo (2002), Quy định tạm thời về chính tả trong sách giáo

khoa mới, Nhà Xuất bản giáo dục.

4. Bộ Giáo dục và Đào tạo (2003), Quy định tạm thời về viết hoa tên riêng trong sách giáo khoa.

5. Bộ nội vụ (2011), Thông tư hướng dẫn thể thức và kỹ thuật trình bày văn bản hành chính.

6. Bộ Thông tin và truyền thông (2011), Thông tư quy định về việc tạo lập, sử dụng và lưu trữ dữ liệu đặc tả trên trang thông tin điện tử hoặc cổng thông tin điện tử của cơ quan nhà nước.

7. http://xephangvanban.com/ThongtinSukien.aspx?id1=12&id2=15 8. http://xephangvanban.com/ThongtinSukien.aspx?id1=12&id2=16

9. http://vtc.vn/394-255965/giat-minh-thuc-trang-loi-chinh-ta-tieng-viet.htm

10. Lê Trung Hiếu, Lê Anh Vũ, Lê Trung Kiên (2013), “Áp dụng xác suất thống kê và quá trình máy tự học cho bài toán phân tách từ văn bản tiếng Việt”, Tạp chí khoa học và công nghệ trường Đại học Duy Tân, (1), tr.32-38.

11. Lê Minh Hoàng, Ngô Quốc Tạo, Lương Chi Mai (2002), “Ứng dụng mô hình Markov ẩn trong nhận dạng chữ”, Tạp chí khoa học và công nghệ, tập 40, số ĐB, tr.31-40.

12.Phạm Anh Phương, Ngô Quốc Tạo, Lương Chi Mai (2009), “Kết hợp các bộ phận phân lớp SVM cho việc nhận dạng chữ việt viết tay rời rạc”, Tạp chí tin học và điều khiển, tập 25, (1) ,tr.88-97.

13. Ngô Văn Sỹ (2008), “Nhận dạng ký tự quang học bằng mạng nơron” , Tạp chí khoa học và công nghệ Đại Học Đà nẵng, (4), tr.20-24.

14. Văn phòng chính phủ (1998), Quy định tạm thời về viết hoa trong văn bản của Chính phủ và của Văn phòng Chính phủ.

15. Cortes, Corinna, Vapnik, Vladimir (1995), Support-Vector Networks, Machine Learning

16. H. Han, C.L. Giles, E. Manavoglu, H. Zha, Z. Zhang, E.A. Fox (2003), Automatic document metadata extraction using support vector machines, In: Proceedings of the 3rd ACM/IEEECS Joint Conference on Digital Libraries, International Conference on Digital Libraries, pp. 37–48. IEEE Computer Society Press, Washington, DC.

17. Hao, C. X. (2000), Vietnamese - Some Questions on Phonetics, Syntax and Semantics, Education Publishing House, Hanoi.

18. http://dublincore.org/documents/dces

19.http://help.abbyy.com/FineReader/FineReader12/Vietnamese/Overview/overvie.ht m;

20. http://www.kodakcapturepro.co.uk/products/kodak-capture-pro 21. http://www.nuance.com

22. John C.Platt, Nello Cristianini, John Shawe-Taylor (1999), Large Margin DAGs for Multiclass Classification, NIPS

23. K. Nakagawa, A. Nomura, and M. Suzuki (2004), “Extraction of Logical Structure from Articles in Mathematics”, MKM, LNCS 3119, pp. 276-289, Springer Berlin Heidelberg from Articles in Mathematics.

24. F. Peng, A. McCallum (2006), “Accurate Information Extraction from Research Papers using Conditional Random Fields”, Information Processing and Management: an International Journal, pp. 963 – 979.

25. Rabiner L.R (1989), "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition" , Proceedings of IEEE, VOL.77, NO.2, pp. 257-286.

26. Rohit Verma, Dr. Jahid Ali (2012), “A-Survey of Feature Extraction and Classification Techniques in OCR Systems”, International Journal Applications & Information Technology, Vol.I, Issue III (ISSN: 2278-7720).

Mô hình ngôn ngữ N-gram

Giới thiệu về metadata và chuẩn DublinCore