[r]
(1)Science & Technology Development, Vol 14, No.K2- 2011
NHẬN DẠNG CHỮ VIẾT TAY DÙNG RÚT TRÍCH THƠNG TIN THEO CHIỀU VÀ MẠNG NƠRON
Huỳnh Hữu Lộc, Lưu Quốc Hải, Đinh Đức Anh Vũ Trường Đại học Bách Khoa, ĐHQG-HCM
(Bài nhận ngày 07 tháng 12 năm 2010, hoàn chỉnh sửa chữa ngày 20 tháng 04 năm 2011)
TÓM TẮT: Nhận dạng chữ viết tay đề tài quan trọng, có ứng dụng khác trong tình báo, kỹ thuật robot, Bài báo cáo trình bày kỹ thuật nhận dạng ký tự viết tay dùng phương pháp nhận dạng dựa thông tin tĩnh Phương pháp gồm hai bước: làm mỏng nét ký tựđể giữ
lại khung chúng thông tin đặc trưng rút trích dựa khung phương pháp rút trích thơng tin theo chiều Mặt khác, xây dựng mạng nơ-ron nhân tạo nhằm tạo sở liệu tri thức cho q trình nhận dạng Trong thí nghiệm mình, độ xác giải thuật đạt 84% ghi nhận dựa mẫu thu thực tế Với kỹ thuật này, có thể thay kết hợp với phương pháp nhận dạng trực tuyến thường dùng thiết bị di động mở rộng việc nhận dạng lên bề mặt khác giấy viết, bảng, biển số xe, như khả đọc chữ cho robot.
Từ khóa: nhận dạng chữ viết tay, mạng nơron
1 GIỚI THIỆU
Nhận dạng chữ viết tay đề tài quan trọng, có ứng dụng khác tình báo, kỹ thuật robot, Các nghiên cứu nhận dạng chữ viết tay phát triển từ nửa thập kỷ qua đạt nhiều thành thiết thực
Ở mức khái niệm, kỹ thuật nhận dạng chữ
viết tay chia thành hai phương pháp [1, 2]: nhận dạng chữ viết gián tiếp dựa thơng tin tĩnh (off-line handwriting recognition)- chương trình thơng dịch kí tự, chữ hay đoạn văn viết mẫu giấy các bề mặt khác mà thu thập thơng tin chúng thơng qua hình ảnh thu từ bề mặt cách
chụp lại hình ảnh nhận dạng chữ viết trực tiếp dựa thông tin động (online handwriting recognition)- nhận dạng ký tự chữ viết dựa thông tin thu thời gian thực lúc người dùng thực hành
động viết, thơng tin tốc độ viết, áp lực viết hướng viết
(2)TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 14, SỐ K2 - 2011 Đầu tiên dùng giải thuật làm
mỏng nét ký tựđể giữ lại khung ký tự, loại bỏ thông tin dư thừa hình dạng kí tự Sau đó, thơng tin đặc trưng rút trích dựa khung phương pháp rút trích thơng tin theo chiều kết hợp véctơđặc điểm cục với thơng tin cấu trúc tồn cục nhận dạng chữ viết Tiếp theo, chiều phần đoạn thẳng tạo nên ký tựđược dị tìm, pixel thay giá trị chiều thích hợp Cuối cùng, đặc
điểm kí tựđược huấn luyện phân loại mạng nơ-ron Các phần lại báo cáo tổ chức sau: phần hai, khái quát số bước thông thường hệ thống nhận dạng chữ viết tay Thuật giải thể phần ba Phần bốn trình bày thí nghiệm kết thu Những thảo luận đánh giá hiệu giải thuật sẽđược trình bày phần năm
2 NHỮNG NÉT ĐẶC TRƯNG CỦA HỆ THỐNG NHẬN DẠNG CHỮ VIẾT TAY
Nhận dạng chữ viết tay thường bao gồm năm giai đoạn: tiền xử lý (preprocessing), phân mảnh (segmentation), biểu diễn (representation), huấn luyện nhận dạng (training and recognition), hậu xử lý (postprocessing) [1, 3, 5]
(i) Tiền xử lý: giảm nhiễu cho lỗi trình quét ảnh, hoạt động viết người, chuẩn hóa liệu nén liệu
(ii) Phân mảnh: chia nhỏ văn thành thành phần nhỏ hơn, phân mảnh từ
trong câu hay kí tự từ
(iii) Biểu diễn, rút trích đặc điểm: giai
đoạn đóng vai trị quan trọng nhận dạng chữ viết tay Để tránh phức tạp chữ viết tay tăng cường độ xác, ta cần phải biểu diễn thông tin chữ viết dạng đặc biệt đọng hơn, rút trích đặc điểm riêng nhằm phân biệt ký tự khác
(iv) Huấn luyện nhận dạng: phương pháp điển hình so trùng mẫu, dùng thống kê, mạng nơ-ron trí tuệ nhân tạo hay dùng phương pháp kết hợp phương pháp
(v) Hậu xử lý: sử dụng thông tin
ngữ cảnh để giúp tăng cường độ xác, dùng từđiển liệu
Hình 2.1 Hệ thống nhận dạng
Hình 2.2.Làm mỏng hình ảnh
(3)Science & Technology Development, Vol 14, No.K2- 2011
học, đường đứt nét mô tả bước trình nhận dạng:
(i) Ban đầu hình ảnh qua giai đoạn chuyển ảnh dạng ảnh nhị phân (giai đoạn tiền xử lý) Ảnh sẽđược lưu trữ dạng ma trận điểm, vị trí pixel có nét vẽ mang giá trị
1, ngược lại có giá trị Sau đó, ảnh cắt xén để ký tự nằm trọn khung chữ
nhật, vùng không gian nét vẽ loại bỏ Giải thuật cắt xén thực
đơn giản dựa ảnh nhị phân thu giảm ảnh
đã cắt xén ảnh có kích thước chung quy định trước
(ii) Tiếp theo, ảnh cắt xén thu nhỏ làm mỏng Quá trình làm mỏng giúp ta lấy thông tin cần thiết hình dạng ký tự loại bỏ pixel dư thừa Hình 2.2 minh họa cho kết làm mỏng giải thuật Các chấm nhỏ hình biểu thị pixel có giá trị ban đầu Sau làm mỏng, pixel có ý nghĩa giữ lại, chúng biểu diễn chấm to hình
(iii) Ảnh sau q trình làm mỏng chứa hầu hết thơng tin hình dạng ký tự Những thơng tin sẽđược phân tích để rút trích đặc điểm giúp việc phân loại ký tự với Phương thức dựa thơng tin
hình dạng ký tự chuyển vị trí
chuyển chiều Kết trình véc-tơđặc điểm chứa thông tin ký tự Các thông tin giúp máy lấy đặc điểm ký tự, phân loại chúng tạo thông tin cần thiết để nhận dạng ký tự có chung ý nghĩa Do chữ viết người khác nên ta
không thể thu thập tất nét chữ người để máy học nhận diện mà dựa số mẫu để nhận nét chữ người viết khác Mạng nơ-ron nhân tạo (Artificial neural networks) giải vấn đề
(iv) Xây dựng mạng nơ-ron đồng nghĩa với việc thiết lập thơng số thích hợp mạng để giúp mạng phân biệt ký tự có ngồi mẫu Các thơng số mạng nơ-ron sẽđược lưu lại giúp cho trình nhận dạng Sau loạt giai đoạn trên, thu thông số cần thiết mạng nơ-ron, giúp hệ thống phân biệt kí tự viết tay Và q trình nhận dạng trình bày phần sau sử dụng kết từ trình máy học giúp hệ
thống phân biệt ký tự
3 GIẢI THUẬT NHẬN DẠNG CHỮ VIẾT TAY
Trong khuôn khổ đề tài nghiên cứu này, thay sử dụng ảnh tập hợp mẫu cho trước, sử dụng ảnh thu từ người dùng chương trình vẽ Ảnh qua bước tiền xử lý rút trích đặc điểm trình huấn luyện Mặt khác, thay véc-tơ đặc điểm đưa vào giai đoạn huấn luyện, véc-tơ đưa vào giai
đoạn nhận dạng Giai đoạn sử dụng thông số mạng nơ-ron, véc-tơđặc điểm sẽđược đưa qua mạng nơ-ron trả véc-tơ
(4)TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 14, SỐ K2 - 2011
Trong phương pháp này, chia cấu trúc giải thuật thành hai trình với giai đoạn theo trình tự sau:
- Quá trình huấn luyện: ảnh mẫu, ảnh nhị
phân, cắt xét thu nhỏ, làm mỏng ảnh, rút trích đặc điểm, xây dựng mạng nơ-ron
- Quá trình nhận dạng: ảnh kí tự, ảnh nhị
phân, cắt xét thu nhỏ, làm mỏng ảnh, rút trích đặc điểm, nhận dạng
3.1.Giải Thuật Làm Mỏng Nét Vẽ Của Ký Tự
Nhưđã trình bày phần 2, giải thuật làm mỏng nằm giai đoạn tiền xử lý với mục
đích loại bỏ thơng tin dư thừa hình dạng ký tự Các nét vẽđược làm mỏng thường kèm với méo mó biến dạng Sự méo mó tốt Chúng ta dùng giải T.Y Zhang [4] làm giảm méo mó tăng tốc độ
tính tốn Giải thuật ý tới pixel lân cận pixel Bảng 3.1 mô tả pixel lân cận pixel P1(i, j)
Bảng 3.1.Các pixel lân cận pixel P9 (i-1, j-1) P2 (i-1, j) P3 (i-1, j+1)
P8 (i, j-1) P1 (i, j) P4 (i, j+1) P7 (i+1, j-1) P6 (i+1, j) P5 (i+1, j+1)
Mục tiêu giải thuật loại bỏ điểm bao quanh hình giữ lại điểm nằm khung Để giữ gìn liên kết điểm khung, chia vòng lặp lớn thành hai vòng lặp nhỏ (vòng lặp qua
điểm một)
Vòng lặp thứ xóa điểm bao quanh thỏa điều kiện sau:
(a) ≤ B(P1) ≤
với B(P1): số điểm lân cận khác
điểm P1
B(P1) = P2 + P3 + P4 + P5 + P6 + P7 + P8 + P9
(b) A(P1) =
với A(P1): số mẫu (Pi, Pj) = (0, 1) theo thứ tựđược xếp sau P2, P3, P4, …, P9
Chẳn hạn, chuỗi P2, …, P9 = 00100100 ta có A(P1) =
(c) P2 * P4 * P6 = (d) P4 * P6 * P8 =
Trong vòng lặp thứ hai, xóa
điểm thỏa hai điều kiện a) b) vòng lặp thứ thỏa thêm hai điều kiện nữa:
(c’) P2 * P4 * P8 = (d’) P2 * P6 * P8 =
(5)Science & Technology Development, Vol 14, No.K2- 2011
Bắc
P2
P3 P1 P4
Tây
P6
Đơng
Nam
Hình 3.1 Biểu diễn pixel lân cận
Tương tự, điểm bị xóa vịng lặp thứ
hai, điều kiện (c’) (d’) điểm đường biên phía Tây Bắc góc phía Đơng Nam
Điều kiện (a) giữ lại điểm điểm kết thúc đường khung Điều kiện (b) giúp ta tránh khỏi xóa điểm nằm điểm kết thúc
3.2.Phương Pháp Rút Trích Đặc Điểm
Kỹ thuật rút trích đặc điểm (modified direction feature- MDF) dựa đặc điểm
cấu trúc chữ viết tay [4] Kỹ thuật kết hợp véc-tơ đặc điểm cục với thông tin cấu trúc tồn cục cung cấp đặc
điểm tích hợp cho mạng nơ-ron huấn luyện kiểm tra Hướng tiếp cận xử lý dựa vào
đường biên ký tự Trong phương pháp, đề xuất sử dụng khung, kết trình làm mỏng, thay cho đường biên Ưu
điểm cải tiến làm giảm thời gian thi hành giải thuật mà cịn đưa đặc điểm xác Tiếp theo, chiều phần đoạn thẳng tạo nên ký tự dị tìm pixel thay giá trị chiều thích hợp Cuối cùng, đặc
điểm ký tựđược huấn luyện phân loại mạng nơ-ron Giải thuật gồm hai bước chính: lấy giá trị chiều đặc điểm
chiều thay đổi 3.2.1.Lấy Giá Trị Chiều
[3] đề xuất phương pháp lấy giá trị
chiều (Obtaining Direct Values) Dữ liệu đưa vào bước ảnh nhị phân làm mỏng Các giá trị chiều quy định
sau: value = cho chiều dọc, value = cho chiều ngang, value = cho đường chéo phải, value = cho đường chéo trái value = cho
điểm bắt đầu hình 3.2
Hình 3.2 Giá trị chiều cho MDF Đầu tiên, tìm điểm bắt đầu
(6)TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 14, SOÁ K2 - 2011
Tiếp theo, ta phân biệt phần đoạn thẳng riêng biệt Giải thuật thu thập pixel dựa vào chiều trước nó, chuyển đổi giá trị pixel đồng thời kiểm tra điều kiện có đoạn thẳng Nếu điều kiện sau gặp, ta xem đoạn thẳng tìm thấy Các điều kiện diễn tả sau:
- Tìm điểm góc: điểm có thay đổi tức thời chiều Có tám trường hợp điểm góc hình 3.3:
Hình 3.3 Các trường hợp điểm góc
- Đổi chiều lần
- Có đổi chiều, chiều pixel trước liên tục giống chiều dài chiều trước chuỗi liên tục lớn
Sau cập nhật giá trị chiều cho pixel, giá trị chuẩn hóa (chuẩn hóa giá trị chiều) Có ba bước để
chuẩn hóa giá trị chiều đoạn thẳng:
(i) Tìm giá trị chiều thường xuất đoạn thẳng cần chuẩn hóa cách dùng phương pháp đếm thơng thường để xác định giá trị chiều xuất nhiều đoạn thẳng
(ii) Thay tất giá trị chiều pixel đoạn thẳng giá trị chiều
được xuất nhiều đoạn thẳng
(iii) Thay giá trị điểm bắt đầu (value = 8) giá trị chiều có tần suất xuất nhiều đoạn thẳng
Hình 3.4 biểu diễn việc tính giá trị chiều chuẩn hóa cho kí tự a Trong hình này, thấy giá trị chiều ứng với
đường nét tương ứng chuẩn hóa
Hình 3.4 Tính giá trị chiều cho kí tự a 3.2.2.Lấy Giá Trị MDF
Kỹ thuật lấy giá trị MDF (Obtaining Modified Direction Feature) xây dựng dựa kỹ thuật Direction Feature (DF) Transition Feature (TF) Trong kỹ thuật này, tính giá trị véc-tơ đặc điểm dựa giá trị chiều [LT, DT] chuyển từ giá trị pixel = sang giá trị pixel = 1,
(i) LT (Location Transition): giá trịđánh dấu vị trí mà có chuyển từ pixel = sang pixel = Giá trị LT tính cách quét hàng từ trái sang phải ngược lại, quét cột từ xuống ngược lại
LT = (vị trí chuyển từ sang 1) / (độ dài chiều)
(7)Science & Technology Development, Vol 14, No.K2- 2011 định trước, ởđây chọn 3, phần tử giá trị chiều điểm có chuyển pixel từ
0 sang khác (nonzero)
(iii) Chuẩn hóa véc-tơ: tính giá trị trung bình ba véc-tơ LT DT liên tiếp Hình 3.5 biểu diễn cách tính LT DT điển sau:
Hình 3.5. Cách tính LT DT điển hình 3.3.Sử Dụng Mạng Nơ-Ron Đề Huấn Luyện Và Nhận Dạng
Mạng nơ-ron cung cấp hướng tiếp cận mạnh cho giá trị thực xấp xỉ, giá trị rời rạc hay véc-tơ giá trị Trong nhiều dạng vấn đề, mạng nơ-ron nhân tạo phương pháp máy học hiểu Trong phần nghiên cứu mình, kỹ thuật mạng nơ-ron truyền ngược (back-propagation), phương pháp hiểu trong nhiều tốn, thích hợp toán nhận dạng chữ viết tay
Trong giải thuật đề cập trên, mạng nơ-ron giúp xây dựng tập sở liệu từ việc huấn luyện tập mẫu có sẵn Cơ sở liệu dùng nhận dạng ký tự từ
đặc điểm phân tích
4 KẾT QUẢ THÍ NGHIỆM
Trong khn khổ nghiên cứu, sử dụng tập không gian mẫu cho q trình học máy mạng nơ-ron có kích thước 500 mẫu, lấy mẫu từ 500 người khác Mỗi mẫu 26 file tương ứng với 26 ký tự Latin Một số ký tự mẫu thu thập
sau:
Ký tựa Ký tự h Ký tự i Ký tự j Ký tự o
Ký tự q Ký tự s Ký tự t Ký tự w Ký tự z
Hình 4.1 Một số ký tự mẫu
Giao điện chương trình thể hình bên (hình 4.2)
Hình 4.2. Giao điện chương trình
Chúng ta thi hành phương pháp nhận dạng chữ viết trình bày phần nhiều người dùng khác Trong báo cáo này, nêu vài kết minh họa Sau bảng kết tiến hành thử