Nghiên cứu về đánh dấu văn bản chữ viết tay tiếng Việt với giải thuật Dynamic Time Warping

111 230 0
Nghiên cứu về đánh dấu văn bản chữ viết tay tiếng Việt với giải thuật Dynamic Time Warping

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Các văn bản giấy trong các thư viện truyền thống dần được thay thế bởi cáctài liệu dạng tệp số, lưu trữ trong ổ cứng máy tính với nhiều định dạng như: .doc,.pdf... Trong quá trình số hóa, có rất nhiều văn bản viết tay lâu năm như: di chúccủa chủ tịch Hồ Chí Minh, bản thảo tập thơ viết tay Hoa Lúa của Thi sĩ Hữu Loan...với mong muốn giữ trọn giá trị nguyên văn của các tác phẩm này và khai thác đượcgiá trị nội dung, lưu trữ sao cho phù hợp với nhu cầu lập chỉ mục và tìm kiếm làmột thách thức lớn đặt ra. Trước mắt người ta chỉ có thể lưu giữ các ảnh thông quaviệc scan từng trang tài liệu. Nói một cách khác, đó là quá trình thủ công sao chépy văn từ tài liệu giấy vào máy tính được thực hiện bởi bàn tay con người. Vì vậy,nguồn tài nguyên bỏ ra về thời gian và tiền bạc để thực hiện công việc này là rấtđắt đỏ.Trong nghiên cứu này, đề xuất sử dụng một phương pháp tiếp cận; đó là đánhdấu từ Word Spotting trong tài liệu tiếng Việt viết tay. Đầu tiên, phải chuyển tấtcả hình ảnh văn bản viết tay về dạng nhị phân (trắng và đen) bằng phương phápphân ngưỡng với giá trị ngưỡng thích hợp. Tiếp đến, bằng các bộ lọc đơn giản nhưlọc trung vị 20 để khữ các nhiễu muối tiêu, các vết bẩn và vết mực mờ 33 34.Dựa vào độ đo của giải thuật Dynamic Time Warping mà phân cụm với số kcụm(tùy chọn) với phương thức gom cụm kmedoids. Kết quả của quá trình gom cụm,sẽ nhận được kcụm tượng trưng cho k mẫu unigram từ; giá trị trọng tâm centroidscủa mỗi mẫu sẽ được sử dụng cho quá trình so khớp (matching) của các nghiêncứu sau đó.

LỜI CAM ĐOAN Tôi xin cam đoan Luận văn Thạc sĩ Công nghệ Thông tin đề tài “Nghiên cứu đánh dấu văn chữ viết tay tiếng Việt với giải thuật Dynamic Time Warping” hoàn thành kết nghiên cứu thân Các công việc nghiên cứu nội dung thực luận văn chưa nộp để lấy cấp từ trường hay tổ chức nào; ngoại trừ phần sở lý thuyết kết từ giáo trình, báo cáo khoa học tham khảo, ghi rõ phần tài liệu tham khảo luận văn Cần Thơ, ngày 27 tháng 10 năm 2017 Học viên thực (Ký ghi rõ họ tên) NGÔ GIANG THANH i LỜI CẢM ƠN Trong trình học tập, nghiên cứu thực luận văn Cao học, em nhận giúp đỡ nhiệt tình từ quý thầy cơ, bạn bè gia đình Em xin bày tỏ lòng biết ơn sâu sắc tới: Hai thầy hướng dẫn PGS TS Trần Cao Đệ TS Lê Văn Lâm, thầy không hướng dẫn em nghiên cứu tận tâm mà giúp đỡ em nhiệt tình việc Chính điều tạo niềm tin, động lực cho em hồn thành đề tài nghiên cứu Các thầy Khoa Cơng nghệ Thông tin Truyền thông, trường Đại học Cần Thơ, năm qua thầy cô truyền đạt nhiều kiến thức kinh nghiệm quý giá giúp em trưởng thành sống, học tập nghiên cứu Con xin cảm ơn cha mẹ nguồn động lực động viên, khích lệ gặp khó khăn Ln chỗ vựa vững cho đứng lên vấp ngã Mình cảm ơn người bạn thân giúp đỡ, ủng hộ bên cạnh suốt thời gian gặp phải khó khăn Một lần xin kính chúc quý người dồi sức khỏe, thành công công việc sống Chân thành cảm ơn./ Cần Thơ, ngày 27 tháng 10 năm 2017 Học viên thực (Ký ghi rõ họ tên) NGÔ GIANG THANH ii MỤC LỤC Trang CHƯƠNG TỔNG QUAN 1.1 Lý chọn đề tài 1.2 Các vấn đề liên quan Các hệ thống có Kỹ thuật đánh dấu từ - Word Spotting Mơ hình tổng quan nghiên cứu .4 1.3 Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu Phạm vi nghiên cứu 1.4 Mục tiêu đề tài .6 1.5 Phạm vi đề tài 1.6 Ý nghĩa thực tiễn đề tài nghiên cứu 1.7 Phương pháp nghiên cứu .8 1.8 Cấu trúc luận văn CHƯƠNG CƠ SỞ LÝ THUYẾT 10 2.1 Xử lý ảnh gì? 10 2.2 Thu nhận biểu diễn ảnh 11 Các thiết bị thu nhận ảnh 11 Mơ hình lưu trữ Raster .11 Một số khái niệm 12 2.3 Nhiễu khữ nhiễu 13 2.4 Một số phép toán logic ảnh 14 iii Phép toán NOT .14 Phép toán AND 14 Phép toán OR 14 2.5 Phân ngưỡng 15 Phân ngưỡng 15 Nhị phân Otsu 15 2.6 Phép cuộn mẫu 17 2.7 Bộ lọc Gaussian 18 2.8 Bộ lọc trung vị .18 Định nghĩa mệnh đề .19 Kỹ thuật lọc trung vị .19 2.9 Các phép tốn xử lý hình thái học 20 Phép toán Dilation 20 Phép toán Erosion 21 Phép toán Gradient 22 2.10 Gom cụm liệu .22 Gom cụm gì? 22 Chuẩn hóa liệu 23 Phương pháp phân hoạch 24 Cách thức đánh giá kết gom cụm .25 2.11 Thưviện OpenCV .25 Tổng quan 25 OpenCV 3.x ngôn ngữ C++ Visual Studio 2015 26 Các thuộc tính phương thức .27 iv 2.12 Ngôn ngữ R R Studio 32 Vài nét R R Studio 32 Thưviện gom cụm liệu 33 2.13 Đặc điểm tiếng Việt mơ hình unigram 33 Đặc điểm tiếng Việt 33 Mơ hình từ đơn .34 2.14 Trích chọn đặc trưng 35 Tổng quan 35 Projection Profile 36 Word Profile 36 2.15 Euclidean Distance Mapping .37 Cơng thức tính khoảng cách 37 Giải thuật EDM 38 2.16 Dynamic Time Warping 38 Vài nét Dynamic Time Warping 38 Lược tả kỹ thuật DTW 39 Cận Lemire 41 2.17 Kết luận chương 43 CHƯƠNG NỘI DUNG NGHIÊN CỨU 45 3.1 Tiền xử lý – Preprocessing 45 Mơ hình tiền xử lý hình ảnh .45 Giải thuật tách dòng 47 Giải thuật tách từ 58 Giải thuật chuẩn hóa từ 61 v 3.2 Gom cụm liệu 65 Các chiến lược đề xuất .65 Cách thức lưu trữ liệu đặc trưng 66 Kiểm chứng tốc độ tính tốn DTW 66 3.3 Các module xây dựng 67 3.4 Kết luận chương 68 CHƯƠNG CÁC THỰC NGHIỆM VÀ ĐÁNH GIÁ .69 4.1 Cách thức thu thập nội dung liệu 69 Đặc điểm tập liệu dùng để kiểm chứng 69 Nội dung trang viết tay .69 4.2 Các thực nghiệm đánh giá .70 Giải thuật phân tách đoạn tách từ 70 Giải thuật chuẩn hóa từ 75 Quá trình gom cụm liệu .79 Cải tiến tốc độ tính tốn DTW 85 4.3 Kết luận chương 86 CHƯƠNG KẾT LUẬN VÀ KIẾN NGHỊ .90 5.1 Kết đạt 90 5.2 Các hạn chế hướng phát triển 90 TÀI LIỆU THAM KHẢO 93 PHỤ LỤC 96 vi DANH MỤC BẢNG Trang Bảng 2.1: Giải thuật k-medoids 24 Bảng 2.2: Liệt kê phương thức nhập xuất OpenCV 28 Bảng 2.3: Liệt kê phương thức logic dilation OpenCV 30 Bảng 2.4: Liệt kê phương thức khác OpenCV 31 Bảng 2.5: Giải thuật LB_Improved Nearest-Neighbor 42 Bảng 3.1: Input/Output giải thuật tiền xử lý hình ảnh 46 Bảng 3.2: Input/Output giải thuật khởi tạo làm mượt y-projection 47 Bảng 3.3: Input/Output giải thuật xác định thung lũng 52 Bảng 3.4: Input/Output giải thuật kẽ dòng 54 Bảng 3.5: Input/Output giải thuật tách từ 59 Bảng 3.6: Giải thuật ước lượng giá trị AST 62 Bảng 3.7: Giải thuật loại bỏ đường gạch ngang 62 Bảng 3.8: Giải thuật phát đường Baseline 63 Bảng 3.9: Giải thuật xóa đường gạch 64 Bảng 3.10: Giải thuật tính giá trị CoM 65 Bảng 3.11: Mô tả sơ lược chức modules xây dựng 67 Bảng 4.1: Kết tách dòng từ tập liệu 73 Bảng 4.2: Một số trường hợp tách từ bị lỗi 75 Bảng 4.3: Kết thực nghiệm module chuẩn hóa từ 77 Bảng 4.4: Một số trường hợp gặp phải chuẩn hóa từ 78 Bảng 4.5: Danh sách top 12 từ viết nhiều tập liệu 79 Bảng 4.6: Kết gom cụm với đặc trưng Projection Profile 80 vii Bảng 4.7: Kết gom cụm với đặc trưng Word Profile 81 Bảng 4.8: Kết gom cụm với k số cụm tùy chọn liệu tác giả 82 Bảng 4.9: Kết gom cụm với k số cụm tùy chọn liệu tác giả 82 Bảng 4.10: Kết gom cụm liệu tác giả với FastDTW 83 Bảng 4.11: Thời gian tính tốn (giây) so sánh đôi liệu 85 Bảng 4.12: Số lần gọi tới hàm DTW 85 viii DANH MỤC HÌNH ẢNH Trang Hình 1.1: Mơ hình tổng quan nghiên cứu Hình 1.2: Minh họa mục tiêu đạt nghiên cứu Hình 2.1: Quá trình xử lý ảnh 10 Hình 2.2: Sơ đồ tổng quát hệ thống xử lý ảnh 10 Hình 2.3: Ma trận liệu mơ hình Raster 12 Hình 2.4: Quá trình hiển thị chỉnh sửa, lưu trữ ảnh thơng qua DIB 12 Hình 2.5: Ví dụ giá trị mức xám điểm ảnh ảnh số 13 Hình 2.6: Ví dụ khữ nhiễu ảnh số 13 Hình 2.7: Phép tốn NOT ảnh 14 Hình 2.8: Phép tốn AND hai ảnh 14 Hình 2.9: Phép toán OR 15 Hình 2.10: Ví dụ phương pháp nhị phân Otsu 16 Hình 2.11: Lọc nhiễu lọc trung vị 19 Hình 2.12: Các cấu trúc nối kết sử dụng thông dụng 21 Hình 2.13: Ví dụ cách tính Dilation 21 Hình 2.14: Ví dụ cách tính Erosion 21 Hình 2.15: Xử lý Gradient với phần tử liên thơng 3x3 gồm nối kết 22 Hình 2.16: Gom cụm liệu 23 Hình 2.17: Logo nhận diện thư viện OpenCV 26 Hình 2.18: Ví dụ unigram chữ viết Tay 34 Hình 2.19: Từ đặc trưng Projection Profile 36 Hình 2.20: Upper Word trích chọn chuẩn hóa 37 ix Hình 2.21: Lower Word trích chọn chuẩn hóa 37 Hình 2.22: Ví dụ phương pháp so khớp EDM 38 Hình 2.23: Minh họa cách thức so khớp giải thuật DTW 39 Hình 2.24: Các ràng buộc Dynamic Time Warping 40 Hình 2.25: Minh họa đường U(x) L(x) tạo từ chuỗi x 41 Hình 2.26: Minh họa bước tính LB_Improved 43 Hình 3.1: Các bước giai đoạn tiền xử lý văn viết tay 45 Hình 3.2: Lưu đồ bước tiền xử lý hình ảnh tiếng Việt viết tay 46 Hình 3.3: Lưu đồ giải thuật bước khởi tạo làm mượt cho y-projection 48 Hình 3.4: Minh họa khởi tạo y-projection cho đoạn văn viết tay 49 Hình 3.5: Minh họa y-projection MAF y-projection 50 Hình 3.6: Minh họa định nghĩa thung lũng y-projection 50 Hình 3.7: Lưu đồ giải thuật xác định thung lũng 51 Hình 3.8: Lưu đồ giải thuật hàm identify_valley 52 Hình 3.9: Minh họa giải thuật nối kết thung lũng 53 Hình 3.10: Sơ lược bước kẽ dòng 54 Hình 3.11: Lưu đồ giải thuật lấy thành phần liên thông 56 Hình 3.12: Minh họa giải thuật lấy phần liên thông 57 Hình 3.13: Thành phần liên thơng 57 Hình 3.14: Minh họa trường hợp kẽ dòng chạm 58 Hình 3.15: Minh họa kết tách chữ 58 Hình 3.16: Lưu đồ giải thuật tách từ 60 Hình 3.17: Các thành phần từ 61 Hình 3.18: Các giải thuật chuẩn hóa unigram từ 61 x Bảng 4.8: Kết gom cụm với k số cụm tùy chọn liệu tác giả ID Entropy KPP WP EDM EDM cụm PP Thời gian thực thi (giây) WP PP WP PP WP DTW DTW EDM EDM DTW DTW 10 1.319 1.283 1.169 1.012 0.390 0.290 0.470 0.470 20 1.502 1.241 1.178 0.915 0.580 0.740 3.650 3.120 40 1.844 1.774 1.298 1.561 1.640 1.250 25.33 33.01 80 2.403 2.049 1.861 1.856 3.170 5.100 223.9 347.9 Ghi chú: PP = Đặc trưng Projection Profile, WP = Đặc trưng Word Profile DTW: Được sử dụng LB_Improved kết hợp FastDTW với w=10% (w độ rộng đường ràng buộc Sakoe-Chiba) Bảng 4.9: Kết gom cụm với k số cụm tùy chọn liệu tác giả ID Entropy KPP WP EDM EDM cụm PP Thời gian thực thi (giây) WP PP WP PP WP DTW DTW EDM EDM DTW DTW 10 0.841 0.904 0.732 1.239 0.280 0.280 0.860 0.730 20 1.621 1.318 1.490 1.139 0.550 0.570 5.290 4.220 40 1.866 1.725 1.947 1.503 1.470 1.610 39.68 49.78 80 2.444 2.060 2.424 2.028 3.510 5.160 285.4 331.0 Ghi chú: PP = Đặc trưng Projection Profile, WP = Đặc trưng Word Profile DTW: Được sử dụng LB_Improved kết hợp FastDTW với w=10% (w độ rộng đường ràng buộc Sakoe-Chiba) Ngoài ra, nghiên cứu tiến hành chạy kiểm chứng với trường hợp sử dụng hàm FastDTW cho gom cụm thay cho phương pháp tính cận LB_Improved thu kết Bảng 4.10 82 Bảng 4.10: Kết gom cụm liệu tác giả với FastDTW ID Entropy Kcụm Thời gian thực thi (giây) A1 PP A1 WP A2 PP A2 WP A1 PP A1 WP A2 PP A2 WP DTW DTW DTW DTW DTW DTW DTW DTW 10 1.169 1.012 0.732 1.239 10.17 9.03 18.20 15.58 20 1.178 0.915 1.490 1.139 144.05 121.3 125.7 124.3 40 1.298 1.561 1.947 1.503 441 503 679 712 80 1.861 1.856 2.424 2.028 2204 2941 2766 3381 Ghi chú: A1 = Tác giả A2 = Tác giả PP = Đặc trưng Projection Profile, WP = Đặc trưng Word Profile DTW: FastDTW với w=10% (w độ rộng đường ràng buộc Sakoe-Chiba) Từ liệu Bảng 4.8, Bảng 4.9 vẽ biểu đồ Hình 4.9, Hình 4.10 a) Dữ liệu tác giả với độ đo EDM, LB DTW b) Dữ liệu tác giả với độ đo EDM, LB DTW c) Dữ liệu tác giả với FastDTW, LB DTW d) Dữ liệu tác giả với FastDTW, LB DTW Hình 4.9: Tốc độ tính tốn độ đo gom cụm 83 a) Dữ liệu tác giả với đặc trưng WP b) Dữ liệu tác giả với đặc trưng PP c) Dữ liệu tác giả với đặc trưng WP d) Dữ liệu tác giả với đặc trưng PP Hình 4.10: So sánh thơng số entropy độ đo 4.2.3.3 Đánh giá Chiến lược gom cụm 1: Cả hai độ đo sử dụng giải thuật gom cụm chiến lược tỏ hiệu kết thời gian tính tốn Đối với tập liệu nhỏ (tổng số lượng 50 đến 200 từ) số k-cụm độ đo EDM DTW khơng có chênh lệch lớn mặt thời gian thực thi Về hiệu gom cụm, độ đo DTW thể hiệu thông số entropy (Bảng 4.6, Bảng 4.7) nhỏ so với độ đo EDM Chiến lược gom cụm 2: Dựa vào biểu đồ - Hình 4.9 thấy đường tăng trưởng tốc độ tính tốn độ đo DTW (trong hai tập liệu không áp dụng phương pháp tính cận dưới) tăng nhanh Phương pháp tính cận Lemire tỏ hiệu (kết tương tự thời gian tính tốn nhanh gần 10 lần) so với cách tính FastDTW Về mặt hiệu gom cụm - Hình 4.10, thơng số Entropy DTW thấp EDM chứng tỏ, độ đo DTW gom cụm hiệu 84 Cải tiến tốc độ tính tốn DTW 4.2.4.1 Chiến lược kiểm chứng Dữ liệu gồm 2693 unigram từ phân tách, trích chọn đặc trưng (Projection Profile Word Profile) Giả sử độ dài dãy đặc trưng chuẩn hóa Và chia làm lần chạy kiểm chứng đặc trưng Sử dụng hai hàm FastDTW NN_LB_Improved để chạy thực thi so khớp theo đôi với giá trị w=10% độ dài dãy (w độ rộng đường ràng buộc toàn cục Sakoe-Chiba) 4.2.4.2 Kết thực nghiệm Bảng 4.11: Thời gian tính tốn (giây) so sánh đơi liệu Số unigram 500 Fast Đặc trưng 1000 Fast LB DTW 1500 LB DTW Fast DTW 2693 LB Fast LB DTW Projection Profile 12.50 10.45 67.02 39.70 150.24 77.05 474.09 212.36 Word Profile 13.90 3.64 61.11 16.35 134.01 29.73 434.66 81.91 Chú thích: LB = Nearest- Neighbor với cận Lemire Lower Bound Bảng 4.12: Số lần gọi tới hàm DTW Số unigram 500 Fast Đặc trưng Projection Profile Word Profile DTW 249,500 1000 LB 88,342 37,516 Fast LB DTW 999,000 1500 332,124 110,823 Fast DTW 2,248,500 2693 LB 57,8825 189,289 Fast DTW 7,249,556 LB 1,446,615 456,610 Chú thích: LB = Nearest- Neighbor với cận Lemire Lower Bound 4.2.4.3 Đánh giá Phương pháp cận Lemire kết hợp với tìm láng giềng lân cận hạn chế việc gọi tới hàm tính DTW tiến trình Tốc độ tính tốn phương pháp nhanh gấp 3-4 lần việc gọi trực tiếp DTW lần so khớp 85 Hình 4.11: Thời gian tính tốn DTW Lemire LB 4.3 Kết luận chương Nghiên cứu tiến hành thu thập 17 trang văn viết tay tác giả; gồm 2693 unigram từ thuộc 80 mẫu từ Các kiểm chứng thực nghiệm có liên quan đến nội dung nghiên cứu trình bày, bao gồm: - Tiền xử lý, phân tách dòng từ: có độ xác cao 97% tách dòng 84% tách từ - Về chuẩn hóa từ: Phát chuẩn hóa với đa số trường hợp - Về gom cụm liệu cải tiến tốc độ độ đo DTW: FastDTW tỏ hiệu mặt tính tốn (tốc độ) kết hợp với phương pháp tính cận Lemire; hiệu gom cụm chứng minh tốt so với độ đo EDM 86 Nghiên cứu đề xuất xây dựng ứng dụng, nhằm hỗ trợ việc xử lý văn viết tay tiếng việt cách hướng tiếp cận đánh dấu từ Hình 4.12 Ứng dụng đáp ứng nhu cầu người dùng, là: tạo liệu truy vấn theo hình thức gom cụm, mục tài liệu truy vấn thông tin trang hình ảnh văn viết tay (tiếng Việt) Bên cạnh đó, thay sử dụng DTW (FastDTW với ràng buộc đường Sakoe-Chiba), đề xuất thêm kỹ thuật cắt tỉa theo cận Lemire nhằm hạn chế số lần tính DTW so khớp cặp đơi; để tăng tốc độ tính tốn Ngồi ra, với thực nghiệm gom cụm liệu theo k-số tác giả unigram từ tìm câu trả lời Who (ai viết từ đó?) đạt kết gom cụm tốt Nghiên cứu hy vọng giúp ích cho nghiên cứu khác liên quan đến vấn đề so khớp nhận diện chữtay Hình 4.13 mơ hình đề xuất xây dựng tương ứng với nghiên cứu 87 Lập mục tạo CSDL truy vấn Truy vấn trực tiếp hình ảnh theo mơ hình unigram từ viết tay tiếng Việt Số hóa camera scanner Biến đổi hình thái Gaussian Blur Khữ nhiễu (tùy chọn) Nhị phân Otsu (tùy chọn) Tách từ Tách dòng Chuẩn hóa Trích chọn đặc trưng Gom cụm k-mẫu Nhận chuỗi truy vấn Dán nhãn Lấy mẫu tương ứng CSDL truy vấn chuỗi truy vấn CSDL mục Tính FastDTW kết hợp cận Lemire Improved Kết đầu Hình ảnh, chuỗi ký tự… Hình 4.12: Mơ hình đánh dấu từ đề xuất xây dựng 88 Tạo CSDL truy vấn So khớp chữ ký Số hóa camera scanner Biến đổi hình thái Gaussian Blur Khữ nhiễu (tùy chọn) Nhị phân Otsu (tùy chọn) Chuẩn hóa Trích chọn đặc trưng Gom cụm k-người ký Nhận ảnh chữ ký Dán nhãn Lấy k-mẫu chữ ký CSDL truy vấn Tính FastDTW kết hợp cận Lemire Improved Kết đầu Tên người ký, độ trùng khớp… Hình 4.13: Mơ hình tra cứu so khớp với chữtay 89 CHƯƠNG KẾT LUẬN VÀ KIẾN NGHỊ 5.1 Kết đạt Luận văn trình bày đầy đủ bước để tiến hành đánh dấu từ văn tiếng Việt viết tay Nghiên cứu kết hợp lọc lọc trung vị, nhị phân Otsu để tiền xử lý khữ bỏ nhiễu mực mờ, vết bẩn nhiễu muối tiêu trang văn viết tay Bên cạnh đó, dựa vào yprojection cột trang văn bản, kết hợp với phép “làm mượt” Moving Average Filter; Tiến hành kẽ dòng tách từ (trên x-projection) dòng vừa phân tách Kết phần thực nghiệm cho độ xác cao 97% với tách dòng 84% với tách từ Với trọng số CoM đường Baseline phát nghiêng (skew) xuất unigram từ Cũng xuất đường gạch ngang (straight-line) từ Từ đó, có cách xử lý phù hợp Phần thực nghiệm q trình chuẩn hóa từ thể điều Cuối cùng, với giải thuật gom cụm dựa độ đo DTW EDM với tập liệu chữ viết tay tiếng Việt tự xây dựng Nghiên cứu thể hiệu độ đo DTW so với độ đo EDM q trình gom cụm Dựa vào k-cụm này, dán nhãn tay Từ đó, lập mục dựa nhãn Song song, đặc trưng trọng số mẫu liệu quan trọng đại diện cho cụm phục vụ cho trình truy vấn hệ thống truy vấn Bên cạnh đó, cải tiến tốc độ tính tốn giải thuật DTW trình bày chương lý thuyết chương kiểm chứng thực nghiệm Cuối chương 4, mơ hình đề xuất cho đề tài có tính ứng dụng tương lai 5.2 Các hạn chế hướng phát triển Kết đạt đề tài đáp ứng yêu cầu đặt Tuy nhiên, nghiên cứu vài hạn chế cần khắc phục phát triển nghiên cứu kế tiếp: 90 - Tập liệu chữ viết tay xây dựng nhỏ, số lượng mẫu khiêm tốn (80 mẫu) Với mục tiêu dựa theo đặc trưng chữ viết tay tác giả, chữ họ nghiêng (slant) thẳng đứng để phân biệt gom cụm Vì vậy, hướng thu thập tập liệu tương lai dựa theo số tác giả số lượng tập mẫu từ đa dạng - Trường hợp tách từ chữ viết dày đặc, nghiêng (slant skew) bị nhiễu cho kết không tốt Các nghiên cứu sau (nếu có) cần đưa phương pháp cải tiến nhằm xử lý cho giai đoạn tốt - Khi chuẩn hóa xoay từ bị nghiêng kết hợp với loại bỏ đường gạch ngang, không giải độ nghiêng (skew) từ lớn kết hợp với đường gạch ngang nghiêng Đề xuất phương pháp loại bỏ dấu (hỏi, ngã, nặng, huyền, sắc, dấu chữ ă/â/ư/ơ/ô/ê) khỏi từ, trước tiến hành chuẩn hóa Điều cải tiến xác giá trị AST CoM - Xử lý mẫu giấy kẽ dòng li học sinh, nghiên cứu chưa đề cập đến việc xử lý mẫu giấy kẽ dòng li học sinh Tuy vậy, việc tiếp cập với mẫu giấy kẽ dòng ô li với giải thuật trình bày nghiên cứu nhau; cộng thêm xử lý lọc bỏ đường kẽ dọc ngang (ô li) mẫu giấy với giải thuật tính x-projection y-projection trình bày sử dụng phép biến đổi Hough Theo đánh giá, việc xác định đường phân tách dòng mẫu giấy ô li dễ dàng mẫu giấy A4 trắng sử dụng nghiên cứu - Vấn đề xác định hệ số k-cụm tiến hành gom cụm nhóm từ giống nhau, giai đoạn thực nghiệm kiểm chứng nghiên cứu, tiến hành lựa chọn hệ số k=10, 20, 40, 80 cho trình gom cụm Tuy nhiên, số không (không thể xác định trước được) tiến hành xử lý tồn tài liệu Vì vậy, đề xuất cho nghiên cứu sử dụng phương pháp gom cụm liệu theo kiểu thứ bậc (Hierarchical), cách thức giải vấn đề xác định hệ số k nêu Tuy vậy, cần lưu ý đến tốc độ cách gom cụm với kiểu thứ bậc 91 - Như trình bày cuối chương 4, chúng tơi chờ đợi đề tài hướng ứng dụng dựa vào mô hình đề xuất “Xây dựng ứng dụng xử lý văn viết tay tiếng Việt, hỗ trợ công tác lập mục tìm kiếm trực tiếp trang hình ảnh” 92 TÀI LIỆU THAM KHẢO [1] Aach J; Church G, "Aligning gene expression time series with time warping algorithms," in Bioinformatics, vol 17, 2001, pp 495-508 [2] Anjani Pandey and Mahima Shukla, "Analysis And Implementation Of KMean And K-Medoids Algorithm For Large Dataset To Increase Scalability And Efficiency," in Binary Journal of Data Mining & Networking 5, 2015, pp 30-32 [3] Arivazhagan M; Srinivasan H; Srihari S, "A statistical approach to line segmentation in handwritten documents," in Electronic Imaging 2007, 2007, pp 65000T-65000T-11 [4] Belongie Serge; Jitendra Malik; Jan Puzicha., "Shape matching and object recognition using shape contexts.," in IEEE transactions on pattern analysis and machine intelligence 24.4, 2002, pp 509-522 [5] Blumenstein M; Cheng C K; Liu X Y, "New preprocessing techniques for handwritten word recognition," in Proceedings of the Second IASTED International Conference on Visualization, Imaging and Image Processing, 2002, pp 480-484 [6] Catalin I Tomai ; Bin Zhang; Venu Govindaraju, "Transcript mapping for historic handwritten document images," in 8th Int’l Workshop on Frontiers in Handwriting Recognition, 2002, pp 413–418 [7] Crawley M.J, Statistics: An Introduction using R.: Wiley, 2005 [8] Daniel Lemire, "Faster retrieval with a two-pass dynamic-time-warping lower bound," in Pattern Recognition, 2009, pp 2169 - 2180 [9] Dinh Dien; Hoang Kiem; Nguyen Van toan, "Vietnamese Word Segmentation," in 6th Natural Language Processing Pacific Rim Sympoium 2001 (NLPRS- 2001), 2001 [10] Đỗ Toàn Năng; Phạm Việt Bình, Xử Lý Ảnh Thái Nguyên: Đại học Thái Nguyên, 2007 [11] Đồng Thị Bích Thủy; Hồ Bảo Quốc, "Ứng dụng xử lý ngôn ngữ tự nhiên hệ tìm kiếm thơng tin văn tiếng Việt," , Đại học Khoa học Tự nhiên TP HCM, 2008 [12] E G Caiani, A Porta, and et al., "Warped-average template technique to track on a cycle-by-cycle basis the cardiac filling phases on left ventricular volume," in Computers in Cardiology, 1998, pp 73-76 93 [13] Eamonn Keogh and Chotirat A Ratanamahatana, "Exact indexing of dynamic time warping," in Knowledge and Information Systems 7, 2005, pp 358-386 [14] Fumitada Itakura, "Minimum prediction residual principle applied to speech recognition," in Acoustics, Speech and Signal Processing, IEEE Transactions on, 1975, pp 67-72 [15] Gary Bradski; Adrian Kaehler, Learning OpenCV: Computer vision with the OpenCV library.: O'Reilly Media, 2008 [16] Gavrila D M; Davis L S, "Towards 3-d model-based tracking and recognition of human movement: a multi-view approach," in International workshop on automatic face-and gesture-recognition, 1995, pp 272-277 [17] Hiroaki Sakoe; Seibi Chiba, "Dynamic programming algorithm optimization for spoken word recognition," in Acoustics, Speech and Signal Processing, IEEE Transactions on, 1978, pp 43-49 [18] Hui Xiong, Junjie Wu, and Jian Chen, "Adapting the Right Measures for Kmeans Clustering," in KDD’09, Paris, France, July 2009 [19] Huỳnh Quốc Thịnh, "Nhận Dạng Chữ Viết Tay," Đại học Cần Thơ, Cần Thơ, Luận văn Thạc sĩ Công nghệ Thông Tin 2011 [20] Hwang H; Haddad R A, "Adaptive median filters: new algorithms and results," in Image Processing, IEEE Transactions, 1995, pp 499-502 [21] Ihaka R and Gentleman R., "A language for data analysis and graphics," in Journal of Computational and Graphical Statistics, 1996, pp 299-314 [22] K Gollmer and C Posten, "Detection of distorted pattern using dynamic time warping algorithm and application for supervision of bioprocesses," in Online fault detection and supervision in chemical process industries, 1995 [23] Kane S; Lehman A; Partridge E, "Indexing George Washington’s handwritten manuscripts," in Technical report, 1997, pp 43–64 [24] Kane Shaun; Andrew Lehman; Elizabeth Partridge , "Indexing George Washington’s handwritten manuscripts," in Center for Intelligent Information Retrieval, University of Massachusetts, Amherst, MA 1003, 2001 [25] M Schmill, Tim Oates, and P Cohen, "Learned models for continuous planning," in Proceedings of Uncertainty, vol 99, 1999, pp 278-282 94 [26] Manmatha R; Han Chengfeng; Riseman E M; Croft W B., "Indexing handwriting using word matching," in Digital Libraries ’96: 1st ACM Int’l Conf, 1996, pp 151–159 [27] Nguyễn Hữu Quỳnh, Ngữ Pháp Tiếng Việt.: NXB từ điển bách khoa, 2001 [28] Nobuyuki Otsu, "A threshold selection method from gray-level histograms," in Automatica, 1975, pp 11(285-296), 23-27 [29] Phạm Anh Phương; Ngô Quốc Tạo; Lương Chi Mai, "Trích chọn đặc trưng wavelet Haar kết hợp với SVM cho việc nhận dạng chữ viết tay tiếng Việt," in Tạp chí Cơng nghệ Thơng tin Truyền thông, 2008, pp 36-42 [30] Rafael C Gonzalez; Richard E Woods, Digital Image Processing, 3rd ed.: Prentice Hall, 2008 [31] Ratanamahatana; Chotirat Ann; Eamonn Keogh, "Making time-series classification more accurate using learned constraints," in Proceedings of the 2004 SIAM International Conference on Data Mining, 2004, pp 11-22 [32] Rath T M; Manmatha R, "Features for word spotting in historical manuscripts," in Document Analysis and Recognition, 2003, pp 218-222 [33] Rath T M; Manmatha R, "Word image matching using dynamic time warping," in Computer Vision and Pattern Recognition, vol 2, 2003, pp 521-527 [34] Rath T M; Manmatha R, "Word spotting for historical documents," in International Journal of Document Analysis and Recognition, 2007, pp 139152 [35] Rothfeder Jamie L; Shaolei Feng; Toni M Rath , "Using corner feature correspondences to rank word images by similarity," in Computer Vision and Pattern Recognition Workshop, 2003, pp 30-32 [36] Steven W Smith, "The Scientist and Engineer's Guide to Digital Signal Processing," in Moving Average Filter, 2, Ed San Diego, California: California Technical Publishing, 1999, ch 15, p 277 [37] Trương Quốc Định; Ngơ Bá Hùng; Trương Quốc Bảo, Các hệ thống tìm kiếm thông tin văn bản.: NXB Đại học Cần Thơ, 2014 95 PHỤ LỤC Danh sách đường dẫn tải mã nguồn modules, liệu chữ viết tay STT Tên modules/Tập liệu Dữ liệu chữ viết tay tiếng Việt Module tiền xử lý ảnh Module chuẩn hóa từ Đường dẫn tải Last update https://goo.gl/xpqBdG 09/10/2017 09/10/2017 https://goo.gl/DtRR43 Module trích chọn đặc 09/10/2017 trưng Module phân tách dòng đoạn Module FastDTW NN_LB_Improved Module gom cụm liệu 09/10/2017 https://goo.gl/BX2vQ1 09/10/2017 https://goo.gl/DtRR43 09/10/2017 https://goo.gl/M6iDGx 09/10/2017 96

Ngày đăng: 08/05/2018, 18:59

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan