Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 73 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
73
Dung lượng
11,05 MB
Nội dung
TRƯỜNG ĐẠI HỌC HẢI PHỊNG KHOA CƠNG NGHẸ THƠNG TIN - BÁO CÁO BÀI TẬP LỚN NHẬP MƠN TRÍ TUỆ NHÂN TẠO Đề tài: Trình bày nội dung cài đặt thuật tốn nhận dạng kí tự viết tay *** GVHD : Đào Việt Anh Nhóm thực hiện: Phạm Tiến Huy Đinh Thị Hồng Nhung Phạm Thị Thanh Huyền NĂM HỌC : 2022-2023 Lời Mở Đầu Nhận dạng toán xuất cách lâu thu hút nhiều quan tâm, nghiên cứu Đặc biệt vài thập niên gần đây, thúc đẩy trình tin học hố lĩnh vực, tốn nhận dạng khơng cịn dừng lại mức độ nghiên cứu mà trở thành lĩnh vực để áp dụng vào thực tế Các toán nhận dạng ứng dụng thực tế tập trung vào nhận dạng mẫu, nhận dạng tiếng nói nhận dạng chữ Trong số này, nhận dạng chữ toán quan tâm nhiều đạt nhiều thành tựu rực rỡ Các ứng dụng có ý nghĩa thực tế lớn kể đến như: nhận dạng chữ in dùng trình lưu sách báo thư viện, nhận dạng chữ viết tay dùng việc phân loại thư bưu điện, toán tiền nhà băng lập thư viện sách cho người mù (ứng dụng có nghĩa: scan sách bình thường, sau cho máy tính nhận dạng trả dạng tài liệu mà người mù đọc được) Xuất phát từ yêu cầu thực tế, cần có nghiên cứu vấn đề Chính tơi chọn đề tài nhận dạng ký tự viết tay làm đồ án tốt nghiệp với mong muốn phần áp dụng vào toán thực tế Bài toán đặt phải giải yêu cầu sau: Nhận dạng ký tự từ ảnh đầu vào Trích chọn đặc trưng ảnh Tiến hành nhận dạng với thuật toán Markov ẩn Với yêu cầu đặt trên, cấu trúc khóa luận bao gồm nội dung sau đây: Chương 1: Giới thiệu đề tài Giới thiệu toán nhận dạng chữ viết tay, tình hình nghiên cứu ngồi nước, quy trình chung để giải tốn phương pháp điển hình việc huấn luyện nhận dạng, phạm vi đề tài Chương 2: Cơ sở lý thuyết tiền xử lý ảnh ký tự trích chọn đặc trưng Trình bày lý thuyết lọc nhiễu, nhị phân hóa, chuẩn hóa kích thước, trích chọn đặc trưng ảnh ký tự Chương 3: CƠ SỞ LÝ THUYẾT VỀ MARKOV ẨN Trình bày khái niệm bản, thuật tốn mơ hình Markov Chương 4: ỨNG DỤNG MƠ HÌNH MARKOV ẨN TRONG NHẬN DẠNG CHỮ VIẾT TAY Giới thiệu thuật toán nhận dạng Các bước cài đặt thuật tốn Những khó khăn giải pháp khắc phục Chương 5: CÀI ĐẶT CHƯƠNG TRÌNH VÀ ĐÁNH GIÁ KẾT QUẢ Trình bày mơi trường cài đặt, giao diện chương trình, số class chương trình Đánh giá kết đưa hướng phát triển tương lại Ph^ l^c: Danh m^c hình vẽ, bảng biểu tài liệu tham khảo Đồ án không tránh khỏi thiếu sót hạn chế thời gian kiến thức Em mong nhận đóng góp ý kiến thầy hướng dẫn bạn để đạt kết tốt CHƯƠNG I : GIỚI THIỆU ĐỀ TÀI I.1 Giới thiệu nhận dạng chữ viết tay Nhận dạng chữ in: giải gần trọn vẹn (sản phẩm FineReader 9.0 hãng ABBYY nhận dạng chữ in theo 192 ngơn ngữ khác nhau, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 Viện Cơng nghệ Thơng tin Hà Nội nhận dạng tài liệu chứa hình ảnh, bảng văn với độ xác 98%) Nhận dạng chữ viết tay: vấn đề thách thức lớn nhà nghiên cứu Bài tồn chưa thể giải trọn vẹn hồn tồn phụ thuộc vào người viết biến đổi đa dạng cách viết trạng thái sức khỏe, tinh thần người viết I.1.1 Các giai đoạn phát triển Giai đoạn 1: (1900 – 1980) - Nhận dạng chữ biết đến từ năm 1900, nhà khoa học người Nga Tyuring phát triển phương tiện trợ giúp cho người mù - Các sản phẩm nhận dạng chữ thương mại có từ năm1950, máy tính lần giới thiệu tính nhập lưu trữ liệu hai chiều bút viết bảng cảm ứng Công nghệ cho phép nhà nghiên cứu làm việc toán nhận dạng chữ viết tay on-line - Mơ hình nhận dạng chữ viết đề xuất từ năm 1951 phát minh M Sheppard gọi GISMO, robot đọc-viết - Năm 1954, máy nhận dạng chữ phát triển J Rainbow dùng để đọc chữ in hoa chậm - Năm 1967 ,Cơng ty IBM thương mại hóa hệ thống nhận dạng chữ Giai đoạn 2: (1980 – 1990) - Với phát triển thiết bị phần cứng máy tính thiết bị thu thu nhận liệu, phương pháp luận nhận dạng phát triển giai đoạn trước có mơi trường lý tưởng để triển khai ứng dụng nhận dạng chữ - Các hướng tiếp cận theo cấu trúc đối sánh áp dụng nhiều hệ thống nhận dạng chữ - Trong giai đoạn này, hướng nghiên cứu tập trung vào kỹ thuật nhận dạng hình dáng chưa áp dụng cho thơng tin ngữ nghĩa Điều dẫn đến hạn chế hiệu suất nhận dạng, không hiệu nhiều ứng dụng thực tế Giai đoạn 3: (Từ 1990 đến nay) - Các hệ thống nhận dạng thời gian thực trọng giai đoạn - Các kỹ thuật nhận dạng kết hợp với phương pháp luận lĩnh vực học máy (Machine Learning) áp dụng hiệu - Một số công cụ học máy hiệu mạng nơ ron, mơ hình Markov ẩn, SVM (Support Vector Machines) xử lý ngôn ngữ tự nhiên I.1.2 Tình hình nghiên cứu nước: Nhận dạng chữ viết tay chia thành hai lớp toán lớn nhận dạng chữ viết tay trực tuyến (online) nhận dạng chữ viết tay ngoại tuyến (offline) Trong nhận dạng chữ viết tay ngoại tuyến, liệu đầu vào cho dạng ảnh quét từ giấy tờ, văn Ngược lại nhận dạng chữ viết tay trực tuyến nhận dạng chữ hình viết Trong hệ nhận dạng máy tính lưu lại thơng tin nét chữ thứ tự nét viết, hướng tốc độ nét… Tại Việt Nam, năm 2010, nhóm nghiên cứu Huỳnh Hữu Lộc, Lưu Quốc Hải, Đinh Đức Anh Vũ (Khoa Khoa học Kỹ thuật máy tính, Trường Đại học Bách khoa TP Hồ Chí Minh) đạt bước tiến đáng kể nhận dạng ký tự viết tay Hướng tiếp cận nhóm nghiên cứu nhận dạng dựa thông tin tĩnh Dựa tảng giải thuật rút trích thơng tin theo chiều, nhóm tác giả cải tiến đa số bước để đạt độ xác cao việc nhận dạng ký tự (khoảng 95%) có bước tiến đáng kể nhận dạng từ Tuy nhiên sản phẩm chưa nhận dạng chữ viết tay tiếng Việt Như thấy nhận dạng chữ viết tay, đặc biệt chữ viết tay tiếng Việt hướng nghiên cứu quan tâm nhiều vấn đề cần phải hồn thiện I.1.3 Tình hình nghiên cứu nước ngoài: Nhận dạng chữ viết nghiên cứu 40 năm qua Ngày nhận dạng chữ viết nhận quan tâm đáng kể phát triển máy tính cầm tay điện thoại cầm tay dựa bàn phím, chuột nhiều dạng thiết bị định vị khác Các phương pháp tỏ không hữu hiệu xử lý chậm Do người ta cần nghiên cứu phương pháp nghiên cứu phương pháp nhận dạng chữ viết tay máy Palm Pilot hay máy TABLET PC I.2 Cách tiếp cận giải toán Nhận dạng chữ viết tay thường bao gồm năm giai đoạn: tiền xử lý Recommandé pour toi 26 Suite du document ci-dessous Tổng ôn ngữ pháp tiếng anh Chuyên ĐỀ 16 - LIÊN TỪ Công nghệ thông tin 18 100% (1) 123doc-imc-plan-cho-thuong-hieu-baemin Business Leadership 100% (5) (preprocessing), tách chữ (segmentation), trích chọn đặc trưng(representation), huấn luyện nhận dạng (training and recognition), hậu xử lý (postprocessing) - Tiền xử lý: giảm nhiễu cho lỗi trình quét ảnh, hoạt động viết người, chuẩn hóa liệu nén liệu - Tách chữ: chia nhỏ văn thành thành phần nhỏ ,tách từ câu hay kí tự từ - Biểu diễn, rút trích đặc điểm: giai đoạn đóng vai trị quan trọng nhận dạng chữ viết tay Để tránh phức tạp chữ viết tay tăng cường độ xác, ta cần phải biểu diễn thông tin chữ viết dạng đặc biệt cô đọng hơn, rút trích đặc điểm riêng nhằm phân biệt ký tự khác - Huấn luyện nhận dạng: phương pháp điển hình so trùng mẫu, dùng thống kê, mạng nơ-ron ,mơ hình markov ẩn ,trí tuệ nhân tạo hay dùng phương pháp kết hợp phương pháp - Hậu xử lý: sử dụng thông tin ngữ cảnh để giúp tăng cường độ xác, dùng từ điển liệu - Mơ tả q trình hệ thống nhận dạng Sơ đồ gồm hai phần chính: đường màu đỏ mô tả bước để huấn luyện cho máy học, đường màu xanh mô tả bước trình nhận dạng: Ban đầu hình ảnh qua giai đoạn chuyển ảnh dạng ảnh nhị phân (giai đoạn tiền xử lý) Ảnh lưu trữ dạng ma trận điểm, vị trí pixel có nét vẽ mang giá trị 1, ngược lại có giá trị Sau đó, ảnh cắt xén để ký tự nằm trọn khung chữ nhật, vùng khơng gian khơng có nét vẽ loại bỏ Giải thuật cắt xén thực đơn giản dựa ảnh nhị phân thu giảm ảnh cắt xén ảnh có kích thước chung quy định trước Tiếp theo, ảnh cắt xén thu nhỏ làm mỏng Quá trình làm mỏng giúp ta lấy thông tin cần thiết hình dạng ký tự loại bỏ pixel dư thừa Các chấm nhỏ hình biểu thị pixel có giá trị ban đầu Sau làm mỏng, pixel có ý nghĩa giữ lại, chúng biểu diễn chấm to hình Ảnh sau trình làm mỏng chứa hầu hết thơng tin hình dạng ký tự Những thơng tin phân tích để rút trích đặc điểm giúp việc phân loại ký tự với Phương thức dựa thơng tin hình dạng ký tự chuyển vị trí chuyển chiều Kết trình véc-tơ đặc điểm chứa thơng tin ký tự Các thông tin giúp máy lấy đặc điểm ký tự, phân loại chúng tạo thông tin cần thiết để nhận dạng ký tự có chung ý nghĩa Do chữ viết người khác nên ta thu thập tất nét chữ người để máy học nhận diện mà dựa số mẫu để nhận nét chữ người viết khác Mơ hình markov ẩn (Hidden Markov Model) giải vấn đề I.3 Tổng quan phương pháp huấn luyện I.3.1 Mơ hình Markov ẩn Mơ hình Markov ẩn (Hiden Markov Model - HMM) giới thiệu vào cuối năm 1960 Cho đến có ứng dụng rộng nhận dạng giọng nói, tính tốn sinh học (Computational Biology), xử lý ngơn ngữ tự nhiên…HMM mơ hình máy hữu hạn trạng thái với tham số biểu diễn xác suất chuyển trạng thái xác suất sinh liệu quan sát trạng thái Mơ hình Markov ẩn mơ hình thống kê hệ thống mơ hình hóa cho q trình Markov với tham số trước, nhiệm vụ xác định tham số ẩn từ tham số quan sát Các tham số mơ hình rút sau sử dụng để thực phân tích Trong mơ hình Markov điển hình, trạng thái quan sát trực tiếp người quan sát, xác suất chuyển tiếp trạng thái tham số Hình 1.4 Mơ hình Markov ẩn xi: Các trạng thái mơ hình Markov aij: Các xác suất chuyển tiếp bij: Các xác suất đầu yi: Các liệu quan sát Mơ hình Markov ẩn thêm vào đầu ra: trạng thái có xác suất phân bố biểu đầu Vì vậy, nhìn vào dãy biểu sinh HMM không trực tiếp dãy trạng thái Ta có tìm chuỗi trạng thái mô tả tốt cho chuỗi liệu quan sát cách tính Y1 Y2 … … … Yn X1 X2 … … … Xn Hình 1.5 Đồ thị vơ hướng HMM Ở Yn trạng thái thời điểm thứ t=n chuỗi trạng thái Y, Xn liệu quan sát thời điểm thứ t=n chuỗi X Do trạng thái phụ thuộc vào trạng thái trước với giả thiết liệu quan sát thời điểm t phụ thuộc trạng thái t Ta tính: Hình 4.1 Mơ hình nhận dạng chữ viết Hệ thống chia làm phần: phần huấn luyện phần nhận dạng Phần huấn luyện: ảnh ký tự scan đưa vào hệ thống Hệ thống tiến hành giai đoạn tiền xử lý trích chọn đặc trưng từ liệu đưa vào Sau dãy vector đặc trưng đưa vào mô hình cần huấn luyện tương ứng với ký tự đưa vào Ở mơ hình huấn luyện chọn mơ hình Markov ẩn đề cập bên (được thực cách giải toán toán mơ hình Markov ẩn) Các vector đặc trưng dãy quan sát đầu vào mơ hình Markov ẩn Các đặc trưng lấy cách: ảnh ký tự chia theo chiều ngang thành khung Những khung có kích thước chồng lên (khoảng 1/3) Đặc trưng rút từ khung tạo thành vector đặc trưng Phần nhận dạng: tương tự phần huấn luyện Anh scan lấy đặc trưng Dãy vector đặc trưng đưa vào mơ hình Markov ẩn huấn luyện Mơ hình đạt giá trị lớn P(O|) ký tự ứng với mơ hình kết nhận dạng (được thực cách giải toán toán mơ hình Markov ẩn) Hệ thống có thêm phần hậu xử lý gồm chức như: kiểm tra tả dùng để tăng độ tin cậy hay sửa lỗi tả kết nhận dạng IV.2 Các vấn đề khó khăn hướng giải đối vời toán nhận dạng chữ viết tay tiếng Việt IV.2.1 Khó khăn dấu tiếng Việt Cấu tạo ký tự tiếng Việt gồm phần: phần chữ phần dấu Dấu tầ ng Chữ Dấu tầ ng Hình 2.2 Cấu trúc ký tự tiếng Việt Vì xuất dấu tầng dấu tầng nên việc nhận dạng chữ viết tiếng Việt có số đặc điểm khác với việc nhận dạng chữ hệ thống ngôn ngữ la tinh khác Tập hợp chữ tiếng Việt: a ă â b c d đ eê g h i k l m n o ôơ p q r s t u v xy áà ả ã ắằ ẳ ẵặ ấầ ẩ ẫậ é èẻ ẽẹ ế ềể ễ ệ í ì ỉ ĩị óị ỏ õ ọ ốồổỗộ ớờở ỡ ợ úùủ ũ ụ ứ ừử ữự ý ỳ ỷỹ ỵ A Ă Â B C D Đ E ÊG H I K L M N O Ô Ơ PQ R S T U Ư VX Y ÁÀ Ả ÃẠ ẮẰẲ ẴẶ Ấ ẦẨ Ẫ Ậ ÒỎÕỌ ỐỒỔỖỘ ỚỜỞỠỢ ÉÈ Ẻ Ẽ Ẹ Ế Ề Ể Ễ Ệ Í Ì Ỉ Ĩ ỊĨ ÚÙỦŨỤ ỨỪỬỮỰ ÝỲỶỸỴ Bảng 2.1 Bảng ký tự tiếng Việt Tổng cộng: 178 chữ GVHD: Đào Viêt Anh Nhập mơn trí tuệ nhân tạo Tiến trình nhận dạng q trình phân loại lớp, có độ xác tỷ lệ nghịch với số lượng lớp Nếu số lớp cần nhận dạng nhiều tỷ lệ nhận dạng thấp Nếu xem chữ tiếng Việt lớp 178 chữ tạo thành 178 lớp Một số lượng lớp lớn, kết nhận dạng bị ảnh hưởng Một hướng tiếp cận để giảm số lượng lớp cần nhận dạng tiếng Việt dùng thuật tốn để tách vùng chữ vùng dấu Lúc tiến trình nhận dạng gồm phần: nhận dạng chữ nhận dạng dấu Lúc tập hợp mẫu chữ gồm: abcdđeghiklmnoơpqrstuưvx y A B C D Đ E G H I K L M N O Ơ P Q R S T U Ư V XY Bảng 2.2 Bảng ký tự tiếng Việt không dấu Tổng cộng: 50 chữ Như số lượng lớp giảm 1/3 so với số lượng lớp đề cập Do kết nhận dạng nâng cao Hơn số lượng dấu tiếng Việt không nhiều, dấu có đặc trưng riêng biệt nên hướng tiếp cận hồn tồn làm IV.3 Khó khăn biến dạng chữ Mỗi người có nét chữ riêng, toán nhận dạng chữ viết tay gặp khó khăn Ví dụ mẫu chữ viết tay chữ A thể hình Hình 2.3 Mẫu ký tự chữ A viết tay 109 GVHD: Đào Viêt Anh Nhập mơn trí tuệ nhân tạo Nhìn hình vẽ ta thấy khác chữ A hình dạng nhiều Do dùng phương pháp đối sánh để nhận dạng chữ viết tay khó so với mẫu, ảnh cần nhận dạng khác xa so với mẫu Hơn phương pháp đối sánh nhạy cảm với độ lệch, độ nghiêng mẫu ảnh cần nhận dạng Trong trường hợp lệch hay nghiêng kết nhận dạng đối sánh giảm nhiều Nhìn ví dụ ta thấy kích thước chữ khơng đồng với nhau, vị trí nét chữ thay đổi Do dùng hướng tiếp cận đối sánh để giải toán nhận dạng chữ viết tay điều khó Ví dụ mẫu chữ viết tay chữ G thể hình Hình 2.4 Mẫu ký tự chữ G viết tay Nhìn hình vẽ đặc trưng chữ G không rõ ràng Chữ G trái bị thành phần ngang, chữ G phải thành phần ngang khơng rõ ràng Do dùng phương pháp nhận dạng đặc trưng chữ viết tay vấn đề chọn đặc trưng bất biến nét chữ khác điều khó Những đặc trưng thơng dụng thường hay dùng để nhận dạng chữ in như: thành phần đứng, thành phần ngang, thành phần kín,…đều khó hay khơng thể dùng tốn nhận dạng chữ viết tay Ví dụ số mẫu chữ N thể hình Hình 2.5 Mẫu ký tự chữ N viết tay 110 GVHD: Đào Viêt Anh Nhập mơn trí tuệ nhân tạo Hình chữ N lấy cách hồn tồn ngẫu nhiên, khơng có lựa chọn tập liệu thử Tất chữ N có nhiều nét khác biệt đặc trưng cho nhiều loại nét chữ Nếu dùng mạng Neural làm mơ hình huấn luyện nhận dạng vấn đề chọn đặc trưng để học vấn đề khó giải Điều xảy trình học mạng Neural lần học mẫu chữ hay nhiều lớp Do mạng Neural nhận dạng tốt mẫu vừa học không nhận dạng tốt mẫu học lần lặp xa so với lần lặp đặc trưng chọn không tốt Điều dẫn đến trình hội tụ huấn luyện mạng Neural lâu Hơn dùng mạng Neural huấn luyện, kích thước số chiều vector đầu vào mẫu chữ phải Do trước đưa vào mạng Neural để huấn luyện, mẫu học phải qua q trình chuẩn hố Ngồi mạng Neural có nhược điểm dùng để nhận dạng chữ viết tay khơng thể nhận dạng ký tự dính, mà vấn đề ký tự dính xảy nhiều tốn nhận dạng chữ viết tay Tất vấn đề phần giải dùng mơ hình Markov ẩn nhờ tính chất sau: - Đầu vào mơ hình Markov ẩn khơng cần mẫu có số lượng khung - Quá trình học mơ hình Markov ẩn tổng hợp tất mẫu khác lớp để đưa mơ hình chung cho mẫu học - Với thuật toán Level Building áp dụng với mơ hình Markov ẩn dùng để nhận dạng ký tự dính, ngồi cịn tích hợp luật văn phạm IV.4 Mơ hình nhận dạng huấn luyện Gọi N số ph ân lớp hệ thống cần nhận dạng (ở tập chữ hoa in tách d ấu liệt kê bên trên, N=25) 111 GVHD: Đào Viêt Anh Nhập mơn trí tuệ nhân tạo Ta x ây dựng N mơ hình Markov ẩn, mơ hình đại diện cho phân lớp Gọi tên mơ hình lần lược là: , , , N Gọi O dãy vector nhận q trình trích chọn đặc trưng chữ Quá trình huấn luyện thực hi ện thuật toán BaumWelch hay thuật toán Segmental K means, hay kết hợp hai b ằng cách tạo khởi tạo tốt thuật toán Segmental K means dùng thuật toán Baum-Welch để tối ưu tham số vừa khởi tạo Quá trình nhận dạng: O thuộc lớp v * với: v* arg max[ P(O | v N v )] (2.8) Việc tính P(O v ) dựa vào việc giải toán | toán 112 GVHD: Đào Viêt Anh Nhập mơn trí tuệ nhân tạo củ a mơ hình Markov ẩn Khi xây dựng mơ hình Markov ẩn, thơng số cần quan tâm là: sốtrạng thái, số thành phần hợp trạng thái mơ hình Markov ẩn liên tục hay số thành phần hợp thành không gian quan sát mô hình Markov ẩn bán liên tục hay số ký hiệu quan sát phân biệt mơ hình Markov ẩn rời rạc Khi chọn lựa s ố trạng thái mơ hình nhận dạng tiếng nói, có nhiều ý kiến khác Một ý tưởng hợp lý có th ể chấp nhận ngữ cảnh nhận dạng chữ viết tay xây dựng m hình Markov ẩn với trạng thái tương ứng với biến đổi cấu trúc đường nét chữ Cuối cần ý đến loại mơ hình Markov ẩn phù hợp, tính chất chuyển đổi c ác đường nét từ trái sang phải nên mơ hình Markov ẩn chọn mơ hình Markov ẩn Bakis Hình 2.12 Mơ hình Markov ẩn nhận dạng chữ v iết tay Sau nhận dạng chữ hoa, ta tiến hành nhận dạng dấu (s ẽ trình bày ởchương sau) Và sau có th ể dùng mơ hình văn phạm để hiệu chỉnh kết IV.5 Mơ hình văn phạm IV.5.1.Mơ hình tự điển GVHD: Đào Viêt Anh Nhập mơn trí tuệ nhân tạo Cây tự điển mảng đa phân, tạo thành với liệu node ký tự cho t tự điển tiếng V iệt tạo th ành đường [1] Ví dụ chữ “anh” hình tạo node gốc làchữ “a”, node cấp chữ “n”, node cấp chữ “h” Vì cấu trúc từ đơn tiếng Việt có tố i đa chữ nên từ điển có tối đa mức a b c m b n g h mức mư c mứ c m ức Hình 2.13 Mơ hình tự điển Vì cấu t rúc từ đơn tiếng Việt có tối đa chữ nên từ điển có tối đa mức Tiếng Việt c ó gần 8000 từ đơn Nếu lưu trực tiếp 8000 từ đơn không lợ i khơng gian lưu trữ mà cịn khó khăn q trình tìm kiếm (phải duyệt tuần tự) Mục đích tổ chức tự điển nhằm tối ưu không gian lưu trữ khả tìm kiếm cao tổ chức mức tăng dần theo trật tự alphabe Cây tự điển có chức chính: kiể m tra lỗi tả sửa lỗi tả Q trình kiểm tra lỗi t ả thực c ách duyệt từ trái sang phải ký tự từ ký tự tạo thành đường tự điển từ tả, ngược lại từ sai lỗi tả 11 GVHD: Đào Viêt Anh Nhập mơn trí tuệ nhân tạo Q trình sửa lỗi tả có t hể thực cách dùng mơ hình trigrammar Ý tưởng mơ hình dùng chữ liên kết trước chữliên kết sau chữ từ để hiệu chỉnh lại chữ trường hợp sai lỗi ngữ pháp Trong ngữ c ảnh toán nhận dạng họ tên người Việt, việc sửa lỗi tả từ điển không đủ mạnh không t ận dụng số tính chất đặc biệ t tốn IV.5.2 Mơ hình lớp từ đơn Vì cấu tr úc t tiế ng Việt gồm tối đa chữ nên tổ chức từ tiếng Việt thành lớp: l ớp chữ, lớp chữ, …, l ớp chữ [1] ký tự Từ c ần phân l ớp a ký t ự ký t ự anh ký tự ký t ự ký tự 11 Hình 2.13 Mơ hình lớp từ đơn Mơ hình lớp từ đơn dùng chủ yếu để h iệu chỉnh lỗi tả, q trình thực sau: Khi từ khơng có tự điển (nghĩa sai lỗi tả) ta s ẽ tìm lớp từ tương ứng từ sai so với từ đưa vào (sai ký tự nhất) Trong ngữ cảnh toán nhận dạng họ tên người Việt, mơ hình hiệu chỉnh lỗi sai tả tố t Bởi họ người Việt có khoảng 150 họ, tần số xuất họ thay đổi lớn, nên tìm từ gần với từ xét ta chọn từ sai có tần số xuất hi ện cao nhấ t Ngồi chữ lót tên có th ể thực h iện tương tự IV.6 Tổng kết chương Tóm lại, chương này, điểm qua số vấn đề vàcách xây dựng hệ nhận chữ viết tay đơn giản Mơ hình nhận dạng nhấn mạnh mơ hình Markov ẩn thay đổi đ ặc trưng chữmột cách dễ dàng Trong ngữ cảnh toán nhận dạng chữ viết tay họ tên người Việt Nam, có t hể dùng mơ hình văn phạm (ở dùng mơ hình lớp từ đơn) để nâng cao kết nhận dạng 11 CHƯƠNG V CÀI ĐẶT CHƯƠNG TRÌNH VÀ ĐÁNH GIÁ KẾT QUẢ V.1 Mơi trường thực nghiệm Chương trình cài đặt ngôn ngữ Visual C# thử nghiệm hệ điều hành Windows XP SP2, máy tính PC tốc độ 1,6 GHz, nhớ 256MB RAM Toàn sở liệu mẫu thiết kế lưu trữ Microsoft Office 2007 V.2 Tạo sở liệu mẫu Trước tiên trương trình cần học qua liệu mẫu Trong trình sử dụng, người dùng cần định nghĩa ký tự chương trình có thêm chức cho người dùng tự định nghĩa Giao diện làm việc trương trình : Hình 5.1: giao diện chương trình V.2.1 Tạo CSDL mẫu cho nhận dạng online Để tạo csdl mẫu cho trình nhận dạng online ta chọn nút Nhận dạng Online form Sau chọn form nhận dạng online hiển thị sau: 11 Hình 5.2: Gao diện form nhận dạng online Sử dụng chuột để vẽ ký tự vào ô Pain Sau vẽ xong, click vào Học để tiến hành huấn luyện cho chương trình Hình 5.3: giao diện form huấn luyện online Chọn chữ tương ứng với ký tự vừa vẽ từ dropdown list sau click vào 11 Khởi tạo để lưu liệu mẫu vào db V.2.2 Tạo CSDL mẫu cho nhận dạng offline Từ form giao diện chọn Nhận dạng Offline Form nhận dạng offline hiển thị sau: Hinnh 5.4: Giao diện form huấn luyện Offline Chọn Open Image để mở file ảnh mẫu ký tự Sau click vào Học mẫu Form học mẫu hiển thị nhu hình Chọn vào checkbox Nhận dạng Offline sau click vào khởi tạo V.3 Hướng phát triển Từ trình thực nghiệm cho thấy, trương trình có thành cơng định Song bên cạnh cịn nhiều nhược điểm cần cải tiến Trong q trình hồn thành đồ án tơi nhận thấy tâm huyết với tốn nhận thấy tốn có khả phát triển cao Tôi mong muốn phát triển thành trương trình ứng dụng thực tế Tôi xin đưa số hướng phát triển cho toán Phát triển để trương trình tích hợp với trương trình quản lý sinh viên, học sinh Phát triển thêm mặt liệu để trương trình hoạt động tốt với liệu trương trình quản ly Cải tiến số thuật toán tiền xử lý để chương trình có tốc độ tốt Phát triển giao diện thân thiện với người sử dụng 11 TÀI LIỆU THAM KHẢO Tài liệu tham khảo tiếng Việt: [1] Nguyễn Đức Dũng, Nguyễn Minh Tuấn Một số phương pháp nhận dạng ứng dụng nhận dạng chữ viết tay Khoá luận tốt nghiệp Đại học 2003, Khoa Công nghệ - Đại học Quốc gia Hà nội, tr.17-43 [2] Hoàng Kiếm, Nguyễn Hồng Sơn, Đào Minh Sơn (2001) ứng dụng mạng neuron nhân tạo hệ thống xử lý biểu mẫu tự động Kỷ yếu hội nghị kỉ niệm 25 thành lập Viện Công nghệ Thông tin, tr.1-3 [3] Nguyễn Thị Thanh Tân Nhận dạng chữ viết tay hạn chế dựa mơ hình mạng neuron kết hợp với thống kê ngữ cảnh Luận văn thạc sỹ, ĐHQGHN, tr.383 Tài liệu tham khảo tiếng Anh: [4] Anil K Jain, Jianchang Mao, K.M Mohiuddin (1996) Artificial Neural Networks A Tutorial IEEE, tr.31-44 [5] Baret O and Simon J.C (1992) Cursive Words Recognition From Pixels to Features III Frontiers in Handwriting Recognition, tr.1-2 [6] Behnke S., Pfister M and Rojas, R (2000) Recognition of Handwritten ZIP Codes in a Real-World Non-Standard-Letter Sorting System Kluwer Academic Publishers, tr.95-115 [7] Dave Anderson and George McNeill (1992) Artificial Neural Networks Technology Prepared for Rome Laboratory RL/C3C Griffiss AFB, NY 13441-5700, tr 2-17 [8] www.codeproject.com 12 LỜI CẢM ƠN Em xin chân thành cảm ơn thầy Đào Việt Anh tận tình hướng dẫn , giải đáp thắc mắc bảo em suốt thời gian em hoàn thành tập lớn Mặc dù cố gắng hoàn thành đề tài tốt thời gian kiến thức cịn có hạn nên chúng em khơng thể tránh khỏi thiếu sót định, mong nhận cảm thơng, chia sẻ tận tình đóng góp bảo thầy bạn 12