Bài viết Nhận dạng dấu thanh và mũ trong ký tự tiếng Việt viết tay đề xuất một giải pháp nhận dạng dấu, kể cả trong trường hợp mũ và thanh trong ký tự dính liền nhau – một vấn đề rất phổ biến và ảnh hưởng đáng kể đến kết quả nhận dạng.
Huỳnh Hữu Hưng, Nguyễn Trọng Nguyên NHẬN DẠNG DẤU THANH VÀ MŨ TRONG KÝ TỰ TIẾNG VIỆT VIẾT TAY RECOGNIZING ACCENT IN VIETNAMESE HANDWRITING CHARACTERS TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌ Huỳnh Hữu Hưng, Nguyễn Trọng Nguyên Trường Đại học Bách khoa, Đại học Đà Nẵng; Email: hhhung@dut.udn.vn, ntnguyen.dn@gmail.com hướng đ trên: nhậ tốn thấp Tóm tắt – Nhận dạng ký tự viết tay chủ đề nghiên cứu rộng rãi Nhiều giải pháp áp dụng cho ký tự tiếng Anh mang lại hiệu cao Tuy nhiên, toán tiếng Việt đối mặt với nhiều thách thức, phần lớn vấn đề đến từ dấu mũ dấu (gọi chung dấu) Bài báo đề xuất giải pháp nhận dạng dấu, kể trường hợp mũ ký tự dính liền – vấn đề phổ biến ảnh hưởng đáng kể đến kết nhận dạng Chúng bắt đầu với việc tách riêng dấu chữ kĩ thuật gán nhãn vùng liên thông Tiếp theo, dấu phân vào hai lớp: dấu đơn (một dấu mũ dấu thanh) dấu kép (mũ dính liền nhau) Dấu kép (nếu có) tiếp tục tách thành dấu đơn để chuẩn bị cho bước xử lý cuối Quá trình nhận dạng thực phương pháp mơ hình Markov ẩn Giải pháp đề xuất thử nghiệm thu kết khả quan Phươ Abstract – Handwriting character recognition is one of the most common research topics Many approaches have applied to English N characters and achieve high accuracy However, the complexities bước xử in the language of each country are not same Recognizing Vietnamese handwriting character is facing many problems, most Việt Mô of them come from the accent This paper focuses on accent thể recognition, especially when there is a connection between two accents - a common problem which affects the identification result Hình Các dấu nghiên cứu ví dụ using Our approach starts with separating accent fromsốcharacter the connected-component method The obtained accent ký tự có sựlabeling xuất nhiều dấu then is checked if it is single or multiple (the combination of many accents) In the second case, accent is extracted for the last Các nghiên cứu liêneach quan processing step The recognition is performed using hidden Markov n = Hiệnsingle nay, accent nhiều Proposed hướng tiếp cận has chobeen vấn tested models with each solution and obtained accuracy đề nhậnhigh dạng ký tự viết tay kĩ thuật xử lý Từ khóa – ký tự viết tay tiếng việt; dấu mũ; dấu thanh; phát góc; tách nhánh; mơ hình Markov ẩn Key words vietnamese character; ảnh –được đưa handwriting Mục tiêu chung đượcaccent; đặt racorner detector; branch separating; hidden Markov models Đặt vấn đề Chủ đề nhận dạng ký tự viết tay nghiên cứu suốt 40 năm qua Ngôn ngữ hướng đến nhiều tiếng Anh, ký tự gồm chữ cái, kết thường cao ngơn ngữ khác Phần lớn nghiên cứu tập trung vào bảng chữ Latinh ký tự có dấu, nguyên nhân độ phức tạp cách biểu diễn nhận dạng dấu Tiếng Việt ngôn ngữ phức tạp với ký tự chứa hai dấu Do đó, kết nghiên cứu tiếng Việt hạn chế, độ xác cao ký tự viết cách lý tưởng, nghĩa dấu ký tự tách bạch rõ ràng Phương pháp đề xuất hướng đến việc giải vấn đề tồn liên kết dấu ký tự, thực kết hợp nhiều kĩ thuật xử lý ảnh miền không gian Dấu tiếng Việt chia thành hai nhóm (mũ thanh) Hình 1, dấu nặng khơng đề cập xuất bên chữ ký tự, nên khơng có liên kết với dấu khác làm cho máy tính thu nhận hiểu ký tự viết tay đầu vào Mô hình tổng quan hệ ký tự viết tay đầu vào Mơ hình tổng quan hệ thống nhận dạng ký tự viết tay trình bày thống nhận dạng ký tự viết tay trình bày Hình hình Ký tự viết tay Tiền xử lý Nh d K Phân đoạn H Phân lớp Trích đặc trưng Hậu xử lý Đầu Đ dấu nhãn vùn dấu ký tự tiế dấu Mộ ‘o’, ‘ó’, Các nghiên cứu liên quan Tr gồm v Hai cứu nghiên dạng nhận ký đượcnhư Hai nghiên gần cứu gần nhận ký tựdạng có dấu trìnhtự bàycótrong Sau phânkhi đoạn đểdụng ch dấu [1][2] trình bàythực [1,bước 2] Sau thu tác phân giả sửđoạn dụngđể 45thu đặcđược trưngdấu, nhận thựcdấu, hiệncác bước dạngdùng để bằngtác máy tựa Kết quảtrưng thử nghiệm cho thấybằng giải phápgồm th giảvectơ sử dụng 45 đặc nhận dạng đạt hiệu cao ổn định Tuy nhiên, cách viếtcái cần n máy vectơ tựa Kết thử nghiệm cho thấy giải ký tự đề cập báo lý tưởng, cụ thể làđược th pháp đạt hiệu cao ổn định Tuy dấu viết tách biệt, điều đúngMarkov nhiên, cách viết ký tự đề cập trong văn viết tay Ngoài ra, hệ thống cần nhiều thời toán lýbởi tưởng, cụ thểđặc dấu viết đối Tr gian báo để tính số lượng trưng lớnđược tương tách biệt, điều gồm hai phức tạp văn viết tay Ngoài ra, hệ thống cần vùng dấ Giải pháp đề xuất báo hướng đến khả nhiều thời gian để tính tốn số lượng đặc hai dấu đ giải hai vấn đề trên: nhận dạng dấu kép yêu trưng lớn tương đối phức tạp này, cầu chi phí tính tốn thấp thành cá Giải pháp đề xuất báo Phương2pháp đề xuất Hiện nay, nhiều hướng tiếp cận cho vấn đề nhận dạng ký tự viết tay kĩ thuật xử lý ảnh đưa Mục tiêu chung đặt làm cho máy tính thu nhận hiểu Nội dung phần trình bày cụ thể bước xử lý để nhận dạng dấu ký tự tiếng Việt Mơ hình tổng quan giải pháp đề xuất thể Hình Hình 1: Các dấu nghiên cứu số ví dụ ký tự có xuất nhiều dấu Hình 2: Tổng quan hệ thống nhận dạng ký tự viết tay Hình Tổng quan hệ thống nhận dạng ký tự viết tay 21 Việt Mơ hình tổng quan giải pháp đề xuất TẠP CHÍ KHOA CƠNG thể HỌC VÀ hìnhNGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II ví dụ cho vấn ật xử lý ợc đặt ợc ký tự a hệ rình bày n đoạn n=1 n=3 Nhận dạng dấu đơn Phân đoạn n= số vùng liên thông Nhận dạng chữ n=2 dấu đơn Hình 4: Ký tự ‘ỗ’ với chữ ‘o’, dấu ‘∧’ ‘∼’ Kiểm tra dấu đơn hay kép dấu kép Kết luận dấu đơn Phân tách dấu kép Hình 3: Tổng quan giải pháp đề xuất Hình Tổng quan giải pháp đề xuất 3.3 Nhận dạng chữ Các chữ riêng biệt bảng chữ tiếng Việt nhận dạng hiệu thơng qua giải pháp áp dụng cho bảng chữ tiếng Anh Bước không nằm nội dung trọng tâm mà báo muốn đề cập nên phần khơng trình bày chi tiết 3.4 Kiểm tra dấu “đơn” hay “kép” MộtĐẠI số trường phổ- biến dấu kép thể TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, HỌC ĐÀhợp NẴNG SỐ ………… Đầu tiên, ký tiên, tự đầukývào tách riêngHỌC dấu VÀ chữ ĐẠI Đầu tự đầuCHÍ vào tách riêng HìnhHỌC ĐÀ NẴNG - SỐ ………… TẠP KHOA CÔNG NGHỆ, Sau dấu đơn nhận dạng chínhdấu bằngvàphương gánbằng nhãnnày vùng liên thơng, chữ đó, cáipháp phương pháp gán Sau đó, dấu đơn nhận dạng phương pháp mơ hình Markov ẩn đề chữ nằm bên dấu Số lượng vùng lớn nhãn vùng liên thơng, chữ nằm bên cập trongphương ký tự tiếng Việt hình 3, baoMarkov gồm chữ 2hình dấu mơ ẩn đề cập bước lý 1cụ thểcó 3Một dấu.pháp Số Các lượng vùngxửlớn thểđãtrong trưng (a) (b) (c) (d) (e) (f) số ví dụ cụ thể cho trường hợp là: ‘o’, ‘ó’, ‘ố’ tương trìnhViệt bày theo ký tự tiếng 3, nội baodung gồm tiếp chữ ứng với 1, 2,Các 3bước vùng xử lý cụ thể hình Hình 5.(b) Một số ví liên kết giữa(e) dấu gồm (a) (c)dụ (d) (f) dấu Một số ví dụnội cụ dung thể cho trường hợp là: trình bày 3.1 Tiền xử lý ‘^ˀ’, ‘^~’ ‘^`’ Trường hợp đơn giản tiếp ký tựtheo bao gồm vùng Hình 5: Một số ví dụ liên kết dấu gồm Hình Một số ví dụ liên kết dấu gồm ‘o’, ‘ó’, ‘ố’ tương ứng với 1, 2, vùng ầu Khi đó, tự xem mộtkhi chữ Các Nhiễu thường xuất sửcái dụng thiết ‘ ’, ‘ ’dấu ‘ kép ’ Ta thấy hình tồn 3.1.kýTiền xử lý ‘^ˀ’, ‘^~’ ‘^`’ hợp đơn giảncho nhấtchữ ký tựtay bao xác phương phápTrường nhận dạng áp dụng viếtđộ tiếng Anhkhi bị quét quang học làm giảm góc vớimỗi (a,dấu b, kép d) (e,5 tồn f) nhánh tương Ta thấy ởdấu Hình góc với thường sửcódụng thiết ự viết taycó thểgồm Nhiễu vùng Khi đó, kýxuất tự xem Ta thấy kép 2hình tồn dùng xác định ký tự Với trường hợp ký tự nhận để dạng Ngoài ra,được nhiễu thể xuất hiện(a, b,ứng, hai góc với góc gồm nhánh (c), d) (e, f) nhánh tương ứng, hai góc với mộttrên chữảnh Các phương pháp dạng áp quét quang làm giảm độ thành phần, tahọc có hai dấu đơn vànhận chữ cần góc vớimỗi 3(c), (a, b,đơn d)khi (e,xuất f) nhánh tương dạng kýgồm bị trình thu nhận xác truyền dẫn.gócmột dấutrong có 4thể đa xuất gồm nhánh dấu đơnhiện tối dạng.dạng Quá nhận dạng dấu đơn thực bởikhi ứng, hai góc với góc gồm nhánh (c), dụng cho chữ viết tay tiếng Anh Ngồi nhiễu có xuất Sau khinhậnnhận Dotrình đó, khửra, nhiễu bước cầnthể thiết trước góc vớigóc nhánh (dấu ‘^’) Do‘∧’) đó, dấumột dấu tối đa với nhánh (dấu Do đó, phương pháp mơ hình Markov ẩn, trình bày dùngảnh đểthực xác định kýtrình tự Với trường hợp ký Chúng tự dẫn tôilà “đơn” dấu, thu nhận truyền công đoạn xử lývà khihay dấu đơnthể tối điểm đa hay “kép” xác địnhxuất dựa trên đặc “đơn” “kép” có xác định dựa phần gồm sau thành phần, ta có hai dấu đơn chữ ng Quá trình tươngtrình ứng xử bày chiđược tiết sửkhử dụng lọc có thiết mặt nạ kích thướcnày Do đó, nhiễu trung bước vịcần trước đặcgóc điểm Quá lý trình tương ứng vớixử lýnhánh (dấu ‘^’) Do đó, dấutrong cịndạng lại,hợp tương ứng với kýdạng tự gồm hai cầnhợp nhận Quá trình nhận dấu đơnthành hấy giải Trường Hình 33 kết với phép biến đổi hình thái trình bày chi tiết hình thực đoạnbởixửvùng lý tơi “đơn” hay “kép” xác định dựa có độ phức tạpcơng cao dấumơ cóChúng thể thực pháp hình nh Tuyphần,được đóng mởtrung ảnhphương [3] sử dụng lọc vị có mặt nạ kích thước đặc điểm Q trình lý tương ứng dấu đơn haitrình dấubày đơntrong dính phần liền Làmxử mảnh Markov ẩn, sau Để giải ng quyết33 vấn đề này, kiểm tách kết3.2 hợp vớiđoạn cácthực phép biến đổitrahình tháidấu Phân trình bày chi tiết hình ược viết Trưởng hợp cịn lại, tương ứng với ký tự thànhđóng dấu đơn ảnh dấu xét dấu kép.trọng Sau đó, thành mở [3].có Đây bướcphức xửlàlý ký tự ng trongdấu đơn gồmnày hai phần,là tạpquan caopháp mơ bởivìhình Làm mảnh nhận dạngđộbằng phương n=0 tiếng Việt thường bao gồm chữ với n = số góc Định vị góc ống cầnMarkov vùng dấu thểcập dấu đơn 3.2 đoạn ẩnPhân có đề hai dấu, víĐể dụgiải nhưquyết ‘á’, ‘â’, ‘ă’, ‘ấ’ với ợng đặc hai dấu đơn dính liền vấn đề Các bướcĐây xử lýcái thể Đầu trìnhphương bàyký làcụbước xử Hình lý quan trọng tự n>0 chữ ứng ‘a’ này,tiếp tương thực kiểm tra vàtiên, tách dấu pháp nội dung theo n=0 tiếng thường baodấu gồmđang mộtxét chữ với để gándấu nhãn liên thông [4]làđược sử dụng n = số góc Định vị góc thành Việt đơnvùng dấu kép báo bi = số nhánh Xét n max(bi)=2 Đếm số nhánh 3.1 Tiền xử tách lý hairiêng phần ký tự dấu,từng ví dụ nhưtrong ‘á’, ‘â’, ‘ă’,Sau ‘ấ’đó, vớicác góc thứ i góc phần phân vàotiên, 2thiết lớp, ứng với n>0 chữ tương ứng làkhi ‘a’ phương pháp Nhiễu thường xuất sửĐầu dụng bịtương quét quang n>1 dấu chữ cái,khi dựa vịđược tríNgồi gángiảm nhãn liên thơng [4]dạng sửmỗi dụng đểvới học làm độvùng xác nhận ra, phần nhiễu n=1 bi = số nhánh max(b )=2 Đếm số nhánh max(b Xét n đối tượng nằm chữ Một ví dụ i cũngtách có thểriêng xuất ảnhtrong ký q tự trìnhSau thu đó, nhậncác i)>2 từngtrên phần góc thứ i góc minh họa trình bày hình truyền dẫn Do đó, khử nhiễu bước cần thiết trước Dấu đơn Dấu kép phần phân vào lớp, tương ứng với thực công đoạn xử lý Chúng tơi sử dụng n>1 dấu vị vàcóchữ dựathước vị củahợp với lọc trung mặtcái, nạ kích 3×trí kết vớiphần phép Hình 6: Q trình kiểm tra dấu n=1 Hình Quá trình kiểm tra dấu max(bi)>2 tượng dướivàcùng [3] chữ Một ví dụ biến đối đổi hình tháinằm đóng mở ảnh Bộ phátBộ (định góc xâyđược dựngxây dựadựng tốn minh họa trình bày hình phát hiệnvị)(định vị) kép góc Dấu đơn Dấu 3.2 Phân đoạn tử Plessey môtửtảPlessey [6] Số mô lượng nhánh[6] dựa toán tả Số góc tính phương pháp đơn giản Chúng tơi định Đây bước xử lý quan trọng ký tự tiếng Việt thường đượclượng nhánh góc tính một đường trịn có bán kính điểm ảnh tâm đặt bao gồm chữ với hai dấu, ví dụ nghĩaphương Hình đơn Quá trình kiểm tra pháp giản Chúng tơi dấu định nghĩa Hình tự ‘ỗ’ứng với chữ cáiĐầu ‘o’, tiên, dấu ‘^’ ‘~’ góc Tiếp theo ta xác định điểm ảnh đối tượng ‘á’, ‘â’, ‘ă’, ‘ấ’ với chữ4.cáiKýtương ‘a’ phương đường trịn có (định bán kính 3góc điểm ảnh xây tâm phát dựngnên Bộ đường tròn Lúc này, vị) dấu làm mảnh pháp gán nhãn liên thông 3.3.vùng Nhận dạng chữ[4] cáiđược sử dụng để tách nằm đặt góc Tiếp theo ta xác định điểm ảnh Plessey đượcứng mơvới tả số [6].tạiSốgóc điểmtrên ảnhtoán đượctử xác định tương nhánh riêng phần ký tự Sau đó, phần số dựa Các chữ riêng biệt bảng chữ tượng nằm đường tròn Lúc này, dấu xét.đối phân vào lớp, tương ứng với dấu chữ cái, dựa vị trí lượng nhánh góc tính Việttượng nhận dạng hiệucái quảMột thông làm mảnh nên số điểm ảnh xác phầntiếng với đối nằm chữ Nếu dấu pháp xác dấu đơn, việc phương đơnđịnh giản Chúng nhận địnhdạng nghĩa Hình Ký tự ‘ỗ’ với chữ ‘o’, dấu ‘^’ ‘~’ qua giải pháp áp dụng cho bảng chữ định tương ứngđó vớivới sốcác nhánh gócMarkov xét ví dụ minh họa trình bày Hình thực sau mơ hình ẩn Ngược trịn có bán kính điểm ảnh tâm tiếng Anh Bước không nằm nội dung đường Nếu dấu xác định dấu đơn, việc 3.3 Nhận dạng chữ góc Tiếp theo ta xác định điểm ảnh 22 trọng tâm mà báo muốn đề cập nên phần đặtnhận dạng thực sau với 3.5.2 Phân nhóm nhánh Việc phân chia nhánh vào hai nhóm lại, dấu kép phân tách thành dấu đơn trước thực cách chọn nhánh đưa vào nhận dạng nhóm nhánh cịn lại đưa vào nhóm 3.5 Phân tách dấu kép 2 Do đó, ta có Cn cách phân nhóm Bước thực dựa ảnh ban đầu Cáccủa nhánh nhóm biểu ảnh làm mảnh dấu ởCác điểm ảnhmang vị ýtrínghĩa góc ảnh ban bỏtrong dựa độđang góc (và diễnđầu dấuloại đơn dấutọa kép xét.vùng Nếulân ta cận liên từ ảnh làm mảnh nhằmdựa mụctrên đíchvịtách chỉgóc) đơnthu kết nhánh trí riêng nhánh tương ứng với góc xét Tiếp theo, chúng ảnh ban đầu, dấu đơn thu nhánh gom vào nhóm, tương ứng với dấu đơn cần nên không đầy đủ điểm ảnh góc nhận trở dạng bị loại bỏ Vì vậy, sử dụng phép trừ ảnh để xác định dấu đơn tương ứng với Tọa độ điểm góc xác định q trình kiểm tra dấu nhóm Cụ thể, với nhóm, chúng tơi tiến sử dụng để tách riêng nhánh sau: hành trừ nhánh nhóm ảnh • Loại bỏ điểm góc ảnh lân đơncận) tương ứng với • gốc Đặt rđể= 1thu (bánđược kính vùng nhánh nhóm cịn lại Một ví dụ cụ thể • Đặt n = số vùng liên thơng Kết thử nghiệm Huỳnh Nguyễn Trọngvề Nguyên Hiện chưa cóHữu bộHưng, liệu chuẩn ký viếtsánh taykết tiếng đềđểxuất có tự so Việt nhận nên dạnggiải pháp cặp dấu chọn kết quảthử xác dấu,bộ xác ứng nghiệm vớiVới dữtừng liệucặpcục Cácsuất ký(tương tự vớiđược lớp)lấy củatừ dấu đơn tính tốn dấu nguồn liệu mở sinh viên gán vào lớp cho xác suất đầu cao trường Đại học Bách khoa Hà Nội [8] Sau thu giá trị xác suất cao tương ứng phần nhóm tác giả tự thu thập Mỗi ảnh với cặp dấu, chúng tơi tính tổng xác suất cặp so bộđểdữchọn liệurachứa tựtổng tiếngcao Việt cóKết dấu sánh cặp có xácký suất quảQuá nhận trình tách dấu thực thủ cơng để dạng cặp dấu đơn xem kết cuối phục vụ cho việc huấn luyện Một số ký tự trình Kết thử nghiệm bày hình 3.5.1 Tách nhánh • Lặp lại4 bước sau đến n > – r=r+1 – Xóa điểm ảnh thuộc vùng lân cận r×r – n = số vùng liên thơng • Lấy tất nhánh tách Sau thực trình tách nhánh cho góc dấu, ta thu tập hợp nhánh riêng lẻ Lưu ý với dấu kép có góc nối nhánh (hình 5a) góc tách nhánh; ngược lại, với dấu kép có hai góc nhánh (Hình 5c), bước tách nhánh thực với hai góc 3.5.2 Phân nhóm nhánh Việc phân chia nhánh vào hai nhóm thực cách chọn nhánh đưa vào nhóm nhánh cịn lại đưa vào nhóm Do đó, ta có cách phân nhóm Các nhánh nhóm mang ý nghĩa biểu diễn dấu đơn dấu kép xét Nếu ta đơn liên kết nhánh dựa vị trí chúng ảnh ban đầu, dấu đơn thu trở nên không đầy đủ điểm ảnh góc bị loại bỏ Vì vậy, sử dụng phép trừ ảnh để xác định dấu đơn tương ứng với nhóm Cụ thể, với nhóm, chúng tơi tiến hành trừ nhánh nhóm ảnh gốc để thu ảnh đơn tương ứng với nhánh nhóm cịn lại Một ví dụ cụ thể trình bày Hình Hình 7: cách chia nhóm cho dấu kép (‘∧’và ‘∼’) 3.5.3 Nhận dạng cặp dấu đơn Q trình thực dựa mơ hình Markov ẩn [7] đặc trưng mã xích [5] (chain code) Phương pháp học máy chọn mức độ hiệu cao cần thiết TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI Việc huấn luyện thực với 120 xác th mẫu ứng với VÀ số (Ỗ) lượng NGHỆ, thể ĐẠ g (Â) cho (Â)mỗi (Ã)dấu đơn, (Ă) (Ấ)KHOA (Ể) TẠP tương CHÍ HỌC CƠNG Hình Một số ký tự có dấu tập liệu mẫuHình huấn8.8:luyện 720 Tập mẫu thử nghiệm ký tự có dấu thực tronghiện tập Kết Việc Một huấnsốluyện vớiliệu 120 chia thành nhóm, nhóm chứa Hiện bộđơn, liệu chuẩnứng ký viếtlượng tay tiếng mẫu cho chưa có dấu tương vớitựsố với tổng số mẫu 300 chia với đềudữ cho Việtdấu nênđơn giải đề xuất đượclà thử nghiệm liệu6 cục mẫu huấnpháp luyện 720 Tập mẫu thử nghiệm để nhóm cịnđược lại gồm mẫudữtương ứng lớp, Các ký tự lấy từ320 nguồn liệu mở củavới các8sinh chia thành nhóm, nhóm chứa viêndấu trường Hà với Nội nhóm [8] dấu đơn phần tự viết kép.Đại Kếthọc quảBách thử khoa nghiệm dấu đơn vớithu tổng sốMỗi mẫuảnh 300 chia cho 6một thấp nv nhóm tác giả tự thập liệu chứa trình bày bảng lớp, nhóm lại gồm ứng thực với 8hiện thuật xác thg ký tự tiếng Việtcịn có dấu Q320 trìnhmẫu táchtương dấu Kết nhận dạngvới dấunhóm đơn dấu đơn dấu kép Kết1.vụ nghiệm thủ công đểBảng phục chothử việc huấn luyện Một số ký tự thể làx trìnhđược bàyDấu Hìnhở8.bảng trình bày đơn Kết Bảng 1: Một số ký tự có dấu tập liệu Bảng Kết nhận dạng dấu đơn xích k Mẫu thử 50 50 50 50 50 50 dụng c Dấu đ Nhận dạng 48 49 46 42 43 41 Ưu điể tự viế Mẫu thử 50 50 50 50 50 50 Tỉ lệ 96% 98% 92% 84% 86% 82% v cặp dấ Nhận dạng 48 49 46 42 43 41 thuật Trung bình 89.7% tính to x Tỉ lệ 96% 98% 92% 84% 86% 82% theo th Với nhóm dấu kép, kết tách dấu đơn v Trung bình khả quan độ xác89.7% trung bình lên đến xích k 94% dụng Với nhóm dấu kép, kết tách dấu Bảng 2: Kết phân tách dấukép kép Bảng Kết phân tách dấu Ưu khả quan độ xác trung bình lên đến 94% Dấu Số mẫu thử Tách xác Tỉ lệ cặp dấ Bảng Kết phân tách dấu kép 40 38 95.0% tính to Dấu Số mẫu thử Tách xác Tỉ lệ theo th 40 40 100% 40 38 95.0% 40 39 97.5% 40 40 100% 40 38 95.0% áp dụn 40 39 97.5% không 40 36 90.0% 40 38 95.0% 40 40 100% hiệu q 40 36 90.0% 40 35 87.5% 40 40 100% 40 37 92.5% áp dụn 40 35 87.5% khơng Độ xác trung bình: 94.7% Trong bảng 1, hai dấu có tỉ lệ nhận dạng hiệu q TÀIcho LIỆU Việc huấn luyện thực với 120 mẫu mỗiTHAM thấp ‘^’ ‘~’ Các kết khơng dấu [1] đơn, De tương ứngTran với số lượng mẫu luyện method 720 for o Cao (2012), “An huấn efficient recognition”, Proceedings of the Third Symposiu 23 TÀI LIỆU THAM TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II Tập mẫu thử nghiệm chia thành nhóm, nhóm chứa dấu đơn với tổng số mẫu 300 chia cho lớp, nhóm cịn lại gồm 320 mẫu tương ứng với dấu kép Kết thử nghiệm với nhóm dấu đơn trình bày Bảng Với nhóm dấu kép, kết tách dấu khả quan độ xác trung bình lên đến 94% (Bảng 2) Kết luận Bài báo trình bày cách tiếp cận để giải vấn đề nhận dạng dấu ký tự viết tay tiếng Việt Giải pháp đề xuất bắt đầu việc xác định dấu ký tự dựa kĩ thuật gán nhãn vùng liên thông Tiếp theo, dấu xét kiểm tra phân vào lớp: dấu đơn dấu kép Quá trình nhận dạng mã xích kết hợp với mơ hình Markov ẩn áp dụng cho dấu đơn dấu kép phân tách Ưu điểm lớn cách tiếp cận dấu nhận dạng có liên kết cặp dấu ký tự Ngồi ra, chi phí tính tốn đáp ứng yêu cầu nhận dạng theo thời gian thực Trong nghiên cứu tiếp theo, giải pháp cải tiến để tăng khả nhận dạng, áp dụng cho số trường hợp cách viết khơng xác Bên cạnh đó, số luật tả kết hợp để nâng cao hiệu nhận dạng Tài liệu tham khảo [1] De Cao Tran (2012), “An efficient method for on-line Vietnamese handwritten character recognition”, Proceedings of the Third Symposium on Information and Communication Technology, pp 135-141 [2] De Cao Tran, Patrick Franco, Jean-Marc Ogier (2010), “Accented Handwritten Character Recognition Using SVM – Application to French”, International Conference on Frontiers in Handwriting Recognition (ICFHR), Kolkata, pp 65-71 [3] Gary Bradski, Adrian Kaehler (2008), Learning OpenCV, pp 115-120 [4] Sivaramakrishnan Rajaraman, Arun Chokkalingam (2013), “Connected Components Labeling and Extraction Based Interphase Removal from Chromosome Images”, International Journal of Bio-Science and Bio-Technology, vol 5, no 1, pp 81-90 [5] Mark Nixon, Alberto Aguado (2008), Feature Extraction & Image Processing 2nd, Academic Press, UK [6] D.Parks, J.P.Gravel (2004), “Corner Detection”, International Journal of Computer Vision [7] Sung-Jung Cho (2005), “Introduction to Hidden Markov Model and Its Application”, Samsung Advanced Institute of Technology (SAIT) [8] Sapphire-ocr data, http://sapphire-ocr.googlecode.com /files/samples-full.zip (BBT nhận bài: 21/12/2013, phản biện xong: 27/12/2013) 24 ... chuẩn ký viếtsánh taykết tiếng đềđểxuất có tự so Việt nhận nên dạnggiải pháp cặp dấu chọn kết quảthử xác dấu, bộ xác ứng nghiệm vớiVới dữtừng liệucặpcục Cácsuất ký( tương tự vớiđược lớp)lấy củatừ dấu. .. thuật xác thg ký tự tiếng Việtcòn có dấu Q320 trìnhmẫu táchtương dấu Kết nhận dạngvới dấunhóm đơn dấu đơn dấu kép Kết1.vụ nghiệm thủ công đểBảng phục chothử việc huấn luyện Một số ký tự thể làx... n=3 Nhận dạng dấu đơn Phân đoạn n= số vùng liên thông Nhận dạng chữ n=2 dấu đơn Hình 4: Ký tự ‘ỗ’ với chữ ‘o’, dấu ‘∧’ ‘∼’ Kiểm tra dấu đơn hay kép dấu kép Kết luận dấu đơn Phân tách dấu kép Hình