.5 kết quả tìm kiếm từ

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Trang 76)

3.4. Một số kết quả

Stt Từ tra cứu Tên tài liệu Số lượng từ tìm thấy đúng Số lượng từ tìm thấy sai 1 language lib81.jpg 1 0 lib19.jpg 1 0 lib33.jpg 1 0 lib27.jpg 1 0 2 very lib2.jpg 1 0 lib13.jpg 1 0 3 MOS lib2.jpg 2 0 lib5.jpg 1 0 lib6.jpg 1 0 4 details lib13.jpg 1 0 5 technology lib1.jpg 2 0 lib3.jpg 1 0 6 potential lib56.jpg 1 0 7 religion lib80.jpg 1 0 8 advent lib79.jpg 1 0 lib49.jpg 1 0 lib33.jpg 1 0 9 CMOS lib1.jpg 2 0 lib2.jpg 1 0 lib3.jpg 1 0 10 class lib2.jpg 1 0 lib3.jpg 1 0 lib4.jpg 1 0 lib5.jpg 1 0 lib6.jpg 1 0 Bảng 3.1 kết quả tìm kiếm từ

3.5. Đánh giá

Đánh giá độ chính xác của tìm kiếm từ trong ảnh tài liệu sử dụng :

Độ chính xác (precison) là tỉ lệ số bản ghi liên quan đã tìm trên tổng số bản ghi liên quan và số bản ghi không liên quan đã được tìm.

Khả năng thu hồi (recall) là tỉ lệ số tài liệu đã tìm trên tổng số tài liệu liên quan có trong CSDL.

Độ chính xác và khả năng thu hồi được biểu diễn dưới dạng tỷ lệ phần trăm. Việc đánh giá được dựa trên 100 hình ảnh tài liệu, tìm kiếm ngẫu nhiên 30 từ. 1. details 2. potential 3.religion 4. technology 5. advent 6. smoothing 7. culture 8. world 9. between 10. further 11. number 12. Greek 13. might 14. century 15. homage 16. period 17. taxes 18. living 19. growth 20. churches 21. neural 22. foreign 23. smaller 24. extensively 25. eventually 26. diplomatic 27. demands 28. political 29. region 30. break

Bảng 3.2 ba mươi từ ngẫu nhiên được dùng trong đánh giá

Số thứ tự chữ 1 2 3 4 5 6 7 8 9 10

Độ chính xác 100 100 100 75 80 50 100 100 100 100

Khả năng thu hồi 100 100 100 100 98 100 100 79 100 100

Số thứ tự chữ 11 12 13 14 15 16 17 18 19 20

Độ chính xác 100 98 100 100 38 100 50 100 100 100

Khả năng thu hồi 100 98 100 100 98 100 100 100 100 100

Số thứ tự chữ 21 22 23 24 25 26 27 28 29 30

Độ chính xác 100 100 100 20 80 100 100 100 100 50

Khả năng thu hồi 100 100 100 100 98 100 100 100 100 90

Bảng 3.3 Giá trị độ chính xác và khả năng thu hồi của ba mươi từ ngẫu nhiên được dùng trong đánh giá

Độ chính xác và khả năng thu hồi các giá trị đạt được như mô tả trong biểu đồ hình 3.7.

Độ chính xác và khả năng thu hồi cho thử nghiệm này lần lượt là 88.0% và 98.7% .

0 20 40 60 80 100 120 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Độ chính xác 0 20 40 60 80 100 120 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Khả năng thu hồi

KẾT LUẬN

Trong quá trình nghiên cứu và thực hiện luận văn, với sự giúp đỡ và hướng dẫn của thầy giáo hướng dẫn, bạn bè. Học viên nhận thấy đã đạt được một số kết quả chính sau:

+ Nắm bắt được các bước chính trong tìm kiếm từ trong hình ảnh tài liệu, hiểu được các khái niệm cơ bản trong xử lý ảnh. Thấy được vai trò quan trọng của xử lý ảnh đối với một hệ tìm kiếm, đó là bước tiền xử lý nhằm nâng cao chất lượng của ảnh.

+ Tìm hiểu và nghiên cứu tổng quát hoá các phương pháp trích chọn đặc trưng hình ảnh tài liệu, cũng như nắm được các phương pháp đối sánh hình ảnh từ tương ứng. Từ đó đưa ra được các giải pháp cho bài toán đặt ra trong luận văn.

+ Đã áp dụng thành công các kiến thức tìm hiểu được vào cài đặt thử nghiệm chương trình tìm kiếm từ trong hình ảnh tài liệu.

Tuy nhiên, do kiến thức còn hạn chế, thời gian hạn hẹp nên trong quá tìm hiểu và xây dựng hệ thống, vẫn còn tồn tại những hạn chế:

+ Hệ thống chỉ thực hiện công việc công việc tìm kiếm từ đạt hiểu quả cao trên ngôn ngữ la tinh. Đối với những ngôn ngữ khác như chữ tượng hình của các nước như Nhật Bản, Trung Quốc, Ấn Độ.v.v. ..Hệ thống không thể tìm kiếm chính xác.

+ Việc tìm kiếm từ còn hạn chế khi độ đo tương tự về từ chưa thực sự hợp lý. Cụ thể là người dùng phải nhập đúng từ theo chữ viết thường hay chữ viết hoa. Ngoài ra hệ thống cũng không tìm được những từ có một phần giống nhau.

Để tăng cường khả năng tìm kiếm của hệ thống và mở rộng phạm vi của ứng dụng, những nhược điểm nêu trên cần được khắc phục. Hướng phát triển tiếp theo của hệ thống là phải:

+ Sử dụng nhiều đặc trưng hơn để mô tả từ, đặc biệt là các các đặc trưng về moment.

+Sử dụng thủ tục đối sánh dựa trên Dynamic Time Warping , đây là phương pháp căn lề các vector đặc trưng, do đó có thể tìm kiếm các từ có một phần liên quan.

+Ngoài ra, hệ thống sẽ cải thiện thay vì tìm kiếm trên một từ, sẽ có thể tìm kiếm trên nhiều từ.

Cuối cùng, em rất mong sự đóng góp ý kiến của các thầy cô, bạn bè để xây dựng hệ thống hoàn thiện hơn.

DANH MỤC TÀI LIỆU THAM KHẢO Tiếng việt

[1]. PGS.TS.Đỗ Năng Toàn,TS.Phạm Việt Bình,Giáo trình xử lý ảnh”, Khoa Công Nghệ Thông Tin, Đại Học Thái Nguyên.

[2]. PGS.TS. Nguyễn Quang Hoan, “Giáo Trình Xử lý ảnh”, Học viện Công Nghệ Bưu Chính Viễn Thông.

Tiếng anh

[3]. Nobuyuki Otsu, “A threshold selection method from gray-level histograms”.

[4]. Manesh B. Kokare, M.S.Shirdhonkar, “Document Image Retrieval: An Overview”.

[5]. Kavallieratou, E. Fakotakis, N. Kokkinakis, “An unconstrained handwriting recognition system”.

[6]. Konstantinos Zagoris, Kavallieratou Ergrina, Nikos Papamarkos,

“Developing Document Image Retrieval System”.

[7]. Shapiro, Stockman,“Computer Vision”.

[8]. Chew Lim Tan, Weihua Huang, Zhaohui Yu, Yi Xu, “Imaged Document Text Retrieval without OCR”.

[9]. Kobus Barnard , Nikhil V. Shirahatti, “A method for comparing content based image retrieval method”.

[10]. Anand Kumar, C.V. Jawahar, R. Manmatha, "Efficient Search in Document Image Collections”.

[11]. Mark S. Nixon, Alberto S. Aguado, “Feature Extraction and Image Processing”.

[12]. Million Meshesha, C. V. Jawahar, “Matching word images for content-based retrieval from printed document images”.

[13]. K. Zagoris, N. Papamarkos , C. Chamzas, “Web Document Image Retrieval System Based on Word Spotting

[14]. Toni M. Rath, R. Manmatha, “Word Image Matching Using Dynamic Time Warping”.

[15]. Yue Lu, Chew Lim Tan, “Information Retrieval in Document Image Databases”

Danh mục các Website tham khảo

[16]. http://codeproject.com

[17]. http://en.wikipedia.org/wiki/Euclidean_geometry

[18]. http://labbookpages.co.uk/software/imgProc/otsuThreshold.html [19]. http://orpheus.ee.duth.gr/irs2_5/

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Trang 76)

Tải bản đầy đủ (PDF)

(82 trang)