Các bộ OCR tượng hình như tiếng Trung, Nhật đã được nghiên cứu nhiều và đạt được những kết quả khả quan, được ứng dụng rộng rãi trong thực tế có thể kể đến sản phẩm nguồn mở Tesseract, K
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRẦN NGHI PHÚ
NHẬN DẠNG CHỮ NÔM BẰNG MÁY VÉC-TƠ HỖ TRỢ (SVM)
Ngành:Công nghệ thông tin Chuyên ngành:Công nghệ phần mềm
Mã số:60 48 10
LUẬN VĂN THẠC SĨ
Hà Nội – 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRẦN NGHI PHÚ
NHẬN DẠNG CHỮ NÔM BẰNG MÁY VÉC-TƠ HỖ TRỢ (SVM)
Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ phần mềm
Mã số: 60 48 10
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN NGỌC BÌNH
Hà Nội – 2013
Trang 4MỤC LỤC
MỞ ĐẦU 1
Chương 1 TỔNG QUAN CHỮ NÔM 4
1.1 Lịch sử và một số đặc điểm của chữ Nôm 4
1.2 Cấu tạo chữ Nôm 5
1.2.1 Chữ Nôm mượn nguyên dạng chữ Hán 5
1.2.2 Chữ Nôm được tạo trên cơ sở kết hợp hai chữ Hán 5
1.2.3 Chữ Nôm được tạo trên cơ sở kết hợp chữ Hán và chữ Nôm 6
1.3 Một số thống kê về chữ Nôm 7
Tổng kết chương 1 10
Chương 2 NHẬN DẠNG CHỮ NÔM 11
2.1 Nhận dạng ký tự quang học 11
2.2.1 CherryBlossom 12
2.2.2 Tesseract 13
2.3 Mô hình OCR chữ Trung Quốc 16
2.3.2 Phân đoạn 18
2.3.3 Chuẩn hóa ký tự 19
2.3.4 Nhận dạng 19
2.3.5 Các kết quả đạt được và những vấn đề đặt ra 20
2.4 Bài toán nhận dạng chữ Nôm 21
Tổng kết chương 2 23
Chương 3 MÁY VÉC-TƠ HỖ TRỢ (SVM) 24
3.1 Tổng quan về SVM 24
3.2 SVM tuyến tính 24
3.2 Lề mềm 26
3.3 SVM phi tuyến 26
3.4 SVM cho bài toán phân đa lớp 28
Tổng kết chương 3 30
Chương 4 GIẢI THUẬT KSVM CHO NHẬN DẠNG CHỮ NÔM 31
4.1 Giải thuật KSVM cho nhận dạng chữ Nôm 31
4.2 Phương pháp trích chọn đặng trưng trọng số vùng (Zoning) 32
4.3 Huấn luyện (trainning) 33
3.2.1 Xây dựng bộ nhận dạng OVOF 34
3.2.2 Tạo mẫu đại diện 34
3.2.3 Phân cụm bằng K-Mean 35
4.4 Nhận dạng (Recognition) 36
Tổng kết chương 4 37
Chương 5 THỰC NGHIỆM, ĐÁNH GIÁ 38
5.1 Quy trình thực nghiệm 38
5.2 Xây dựng bộ dữ liệu thực nghiệm 39
5.3 Tiến hành thực nghiệm 42
5.3.1 Mục tiêu 42
5.3.2.Cách thực hiện 43
5.4 Kết quả thực nghiệm 43
Trang 55.5 Đánh giá kết quả 44
Tổng kết chương 5 45
KẾT LUẬN 46
TÀI LIỆU THAM KHẢO 48
PHỤ LỤC A 50
PHỤ LỤC B 62
Trang 6DANH MỤC CÁC TỪ VIẾT TẮT
1 ANN Artificial Neural Network Mạng nơ-ron nhân tạo
7 k-NN K Nearest Neighbor K láng giềng gần nhất
8 KSVM K-Mean & Support Vector Machine K cụm và máy véc-tơ hỗ trợ
9 OCR Optical Character Recognition Nhận dạng ký tự quang học
13
PD Probability Distribution of Black
Pixels
Phân bố xác suất điểm đen
14 PDA Personal Digital Asisstant Thiết bị số cá nhân
15 PDF Portable Document Format Định dạng tài liệu di động
16 PNG Portable Network Graphics Đồ họa mạng di động
Trang 7Bảng 2.1 Kết quả đánh giá độ chính xác của Tesseract tại UNLV 1995 Bảng 2.2 Kết quả so sánh khả năng nhận dạng giữa FineReader và Tesseract Bảng 3.1 So sánh độ chính xác một số phương pháp SVM đa lớp
Bảng 5.1 Kết quả thực nghiệm KSVM với bộ dữ liệu NOM-DB0
Trang 8DANH MỤC HÌNH VẼ
Hình 1.1 Tỉ lệ tài liệu chữ Nôm trong các lĩnh vực
Hình 1.2 Phân bố tài liệu chữ Nôm theo các thời kỳ
Hình 2.1 Ứng dụng tự động chụp ảnh và dịch trên di động và bút chuyên dụng
Hình 2.2 Framework nhận dạng chữ tượng hình của JOCR
Hình 2.3 Kiến trúc tổng quát của Tesseract
Hình 2.4 Các bước trong nhận dạng chữ Trung Quốc
Hình 2.5 Quy trình nhận dạng đệ quy
Hình 2.6 Quá trình phần đoạn tiếng Trung Quốc
Hình 2.7 Sơ đồ các bước trong nhận dạng chữ Hán
Hình 2.8 Sơ đồ tổng thể mô hình nhận dạng chữ Nôm đề xuất
Hình 2.9 Mô hình nhận dạng chữ Nôm trong luận văn
Hình 3.1 Tìm siêu phẳng có lề cực đại
Hình 3.2 Xác định lề, tham số phạt trong SVM
Hình 3.3 Ánh xạ không gian đặc trưng 2 chiều sang 3 chiều
Hình 3.4 Khả năng phân lớp khi kết hợp SVM với hàm nhân
Hình 3.5 Minh họa các bước nhận dạng bằng OVO
Hình 4.1 Giải thuật trích chọn đặc trưng trọng số vùng (Zoning)
Hình 4.2 Ảnh nhị phân của một ký tự tiếng Trung Quốc
Hình 4.3 Số điểm đen theo lưới 3x3
Hình 4.4 Mật độ số điểm đen theo lưới 3x3
Hình 4.5 Lưu đồ huấn luyện trong giải thuật KSVM
Hình 4.6 Lưu đồ thuật toán K-Mean
Hình 4.7 Nhận dạng trong KSVM
Hình 5.1 Quy trình tiến hành thực nghiệm
Hình 5.2 Giao diện chính của chương trình thực nghiệm
Hình 5.3 Bản số hóa và dịch nghĩa của một trong trong truyện Kiều
Hình 5.4 Kết quả phân tích để thu dược mã chữ Nôm trong truyện kiều từ kho nomna.org Hình 5.5 Tách chữ Nôm từ ảnh
Hình 5.6 Một số mẫu chữ Nôm trong cơ sở dữ liệu NomDB0
Trang 9MỞ ĐẦU
1 Tính cấp thiết
Chữ Nôm là một di sản văn hoá minh chứng cho truyền thống văn hiến lâu dài của dân tộc Việt Nam Nghiên cứu chữ Nôm góp phần khẳng định tự hào dân tộc, khám phá những nét văn hóa, lịch sử, khoa học đặc sắc qua từng thờ kỳ của dân tộc Do đó việc phục hồi và phát triển chữ Nôm đang được xã hội ngày càng qua tâm qua nhiều hoạt động, công trình nghiên cứu ở nhiều phương diện ngôn ngữ học, lịch sử, văn hóa… Song nghiên cứu chữ Nôm vẫn đang còn nhiều nhiệm vụ khó khăn, một trong đó là nhiệm vụ của công nghệ thông tin - xây dựng bộ nhận dạng ký tự quang học cho chữ Nôm hay Nôm-OCR
Với tất cả các chữ viết phổ biến trên thế giới,việc xây dựng OCR cho các chữ viết đó trở thành một trong những nhiệm vụ nghiên cứu quan trọng Với những nỗ lực nghiên cứu đó
đã mang lại những thành tựu to lớn, góp phần quan trọng làm chủ chữ viết của con người bằng khoa học công nghệ Khi xây dựng thành công bộ OCR cho ngôn ngữ, rào cản để máy hiểu chữ viết đó được tháo bỏ bớt Khi đó, ta hoàn toàn có thể xử lý ngôn ngữ, chữ viết hay sâu hơn là kho tri thức biểu thị bằng ngôn ngữ đó với tốc độ của máy, bằng những tiến bộ của khoa học máy tính Xét về mặt công nghệ thông tin cũng như ngôn ngữ học, đó là được xem
là những đóng góp khổng lồ
Thực trạng ngày nay, số người biết chữ Nôm ngày càng ít càng làm cho những tri thức chữ Nôm ngày càng mai một Ngược lại chúng ta lại đang sở hữu những kho tàng tri thức khổng lồ về chữ Nôm về nhiều phương diện như sách, gia phả, ấn phong… và đặc biệt là một
hệ thống đồ sộ các bia đá, câu đối trong các công trình di tích, là chứng cứ sống của lịch sử, là biểu tượng của văn hóa, lịch sử Việt với thế giới Nếu không có một sự hỗ trợ mạnh mẽ của khoa học để khai thác kho tri thức Nôm khổng lồ này, chúng ta sẽ ngày càng mù chính chữ của dân tộc mình, và dần sau sẽ trở nên tan biến Việc xây dựng được Nôm-OCR sẽ tạo điều kiện khai thác số tri thức Nôm khổng lồ, ứng dụng vào trong tìm hiểu các công trình, bia, câu đối cổ bằng các ứng dụng tích hợp trên các thiết bị di động máy tính, hay nói cách khác chúng
ta có thể làm mọi thiết bị biết giải thích chữ Nôm và từ đó góp phần ý nghĩa trong khảo cổ, khám phá văn hóa, khám phá du lịch
2 Tình hình nghiên cứu
Nghiên cứu chữ Nôm đã được nhiều nhóm gần đây quan tâm cả về phương diện ngôn ngữ học và công nghệ thông tin Một trong những thành tựu đầu tiên là việc hình thành các từ điển chữ Nôm, hình thành các kho chữ Nôm được số hóa, số hóa và giải mã nhiều tài liệu chữ Nôm như truyện Kiều của Hán Nôm Foundation Tiếp tới, sau những nỗ lực trong thời gian dài, chữ Nôm đã được xác lập vị trí trong bộ ký tự thế giới Unicode và ISO 10646, trong đó
có 5067 ký tự trùng hình với chữ Trung Quốc, 4232 chữ thuần Nôm và hiện đang đề nghị đưa vào thêm 2200 Kế tiếp bước đi đó, nhiều bộ font Nôm, bộ gõ chữ Nôm đã được xây dựng
Và một trong những bước đi tiếp của lộ trình trên là xây dựng OCR-Nôm, nhưng hiện tại vẫn chưa có kết quả nghiên cứu nào đề cập đến vấn đề trên, có thể do có những khó khăn nhất định và một trong những khó khăn thường gặp là vấn đề về dữ liệu để nghiên cứu
Các bộ OCR tượng hình như tiếng Trung, Nhật đã được nghiên cứu nhiều và đạt được những kết quả khả quan, được ứng dụng rộng rãi trong thực tế có thể kể đến sản phẩm nguồn
mở Tesseract, KanjiPad - phần mềm nhận dạng chữ viết tay Nhật Bản, Readiris Pro 11
Trang 10Corporate Edition - phần mềm nhận dạng chữ Trung Quốc đạt tới độ chính xác 98%, HWPen
- phần mềm nhận dạng chữ viết tay Trung Quốc tích hợp trên iPhone và đặc biệt sản phẩm thương mại ABBY… đạt độ chính xác gần như tuyệt đối với ký tự in các ngôn ngữ
Nói tóm lại, các chủ đề liên quan đến chữ Nôm cũng như OCR đã được quan tâm và đạt nhiều thành quả cao, riêng lĩnh vực nghiên cứu kết hợp 2 yếu tố này vẫn là bài toán mở, cần những nghiên cứu mới
3 Đối tƣợng và phạm vi nghiên cứu
Chúng tôi tập trung nghiên cứu bài toàn nhận dạng chữ Nôm nhằm xây dựng bộ phần mềm nhận dạng chuyển đổi từ ảnh của một ký tự Nôm về mã Unicode của ký tự đó tiến hành tra cứu nghĩa căn cứ trên từ điển hoặc kết hợp với các hệ thống khác
Hệ thống OCR bao gồm nhiều thành phần như tiền xử lý, trích chọn đặc trưng, nhận dạng, hậu xử lý Đề tài tập trung nghiên cứu bước trích chọn đặc trưng và nhận dạng Với tập
dữ liệu đầu vào để huấn luyện và nhận dạng là kho mẫu NOM-DB0 chứa 495 chữ Nôm, mỗi chữ 24 mẫu, mỗi chữ trên 1 ảnh đã được cắt bó sát
4 Mục đích và nhiệm vụ nghiên cứu
Đề tài tập trung nghiên bước trích chọn đặc trưng và nhận dạng trong sơ đồ hệ thống nhận dạng chữ Nôm tổng thể do LES-Nom xây dựng Trong bước trích chọn đặc trưng chọn phương pháp trích chọn đặc trưng trọng số vùng (Zoning) Trong bước nhận dạng đề tài tìm hiểu kỹ thuật Máy véc-tơ hỗ trợ (SVM) và đưa mô hình ứng dụng SVM trong nhận dạng chữ Nôm từ đó đưa ra những đánh giá và đề xuất các hướng nghiên cứu cải tiến
5 Những nội dung nghiên cứu
Chúng tôi tìm hiểu tổng quan về chữ Nôm và bài toán nhận dạng chữ Nôm nhằm mục đích để xây dựng bộ nhận dạng Nôm-OCR Để tiến hành các nghiên cứu đánh giá, nhóm tác giả cùng nghiên cứu về chữ Nôm trong LES-Nôm tiến hành xây dựng bộ dữ liệu mẫu Nôm-DB0 Trên cơ sở những kết quả về nhận dạng đã áp dụng cho các bộ OCR khác, đặc biệt là OCR chữ tượng hình, luận văn tiến hành nghiên cứu, đề xuất thuật toán nhận dạng KSVM, tiến hành cài đặt thuật toán, tiến hành thực nghiệm đánh giá độ chính xác của KSVM
6 Kết cấu luận văn
Ngoài phần mở đầu, kết luận, phụ lục và danh mục tài liệu tham khảo, luận văn gồm 5 chương Trong chương 1, chúng tôi tìm hiểu tổng quan chữ Nôm, trong đó tập trung các yếu
tố liên quan đến nhận dạng như cấu trúc chữ Nôm, số lượng từ Nôm không có hình trong bộ chữ tượng hình khác Tiếp đó, trong chương 2, những nội dung về bài toán nhận dạng chữ Nôm được nêu ra trên cơ sở tìm hiểu các OCR nói chung và OCR dành cho chữ tượng hình về phương diện kết quả đạt được, mô hình và các giải thuật cần được tiếp tục nghiên cứu Trong chương 3, chúng tôi tập trung tìm hiểu ý tưởng của SVM và đi sâu làm rõ nội dung liên quan nhiều đến luận văn là áp dụng SVM cho bài toán phân đa lớp, vốn là một trong những chủ để đang được quan tâm nhiều, đặc biệt khi áp dụng cho chữ Nôm có số chữ lớn Trên cơ sở những kiến thức có được từ 3 chương đầu, chương 4 trình bày giải thuật KSVM cho bài toán nhận dạng chữ Nôm do tác giả đề xuất Để thực hiện đánh giá hiệu quả của KSVM, trong chương 5, chúng tôi đã trình bày các bước tiến hành xây dựng thực nghiệm và đánh giá KSVM Do không được kế thừa từ kết quả nghiên cứu nào với chữ Nôm, nên luận văn tiến
Trang 11hành thực nghiệm từ bước đầu tiên là tự xây dựng kho cơ sở dữ liệu mẫu, đến phần mềm tách chữ, tiền xử lý cơ bản sau đó xây dựng kịch bản và tiến hành đánh giá
Trang 12Chương 1 TỔNG QUAN CHỮ NÔM
1.1 Lịch sử và một số đặc điểmcủa chữ Nôm
Sau khi Việt Nam thoát khỏi ách đô hộ của Trung Quốc vào năm 939, chữ Nôm lần đầu tiên thành chữ quốc ngữ để diễn đạt tiếng Việt qua mẫu tự biểu ý Hơn 1.000 năm sau đó,
từ thế kỷ 10 cho đến thế kỷ 20, một phần lớn các tài liệu văn học, triết học, sử học, luật pháp,
y khoa, tôn giáo và hành chính được viết bằng chữ Nôm Suốt 24 năm (từ 1788 đến 1802) dưới triều đại nhà Tây Sơn, toàn bộ các văn kiện hành chính được viết bằng chữ Nôm Nói cách khác, chữ Nôm là công cụ duy nhất hoàn toàn Việt Nam ghi lại lịch sử văn hoá của dân tộc trong khoảng 10 thế kỷ
Chữ Nôm là loại văn tự được người Việt sáng tạo ra trên cơ sở một loại văn tự khác,
đó là chữ Hán, nhằm mục đích để ghi tiếng nói của người Việt.Chữ “Nôm‖có nghĩa là
―Nam‖, ý chỉ chữ của người Nam Việt Trước khi chữ Nôm ra đời, chúng ta mượn chữ Hán
để ghi lại âm tiếng Việt Tiếng Hán chỉ có 4 thanh, tiếng việt có 6 thanh, do đó việc đơn thuần
mượn chữ Hán không đủ để phản ánh hết các thanh của tiếng Việt Ví dụ các âm như: eo, ăn, ươi, on… Do đó, yêu cầu tất yếu cần bổ sung một hệ thống chữ để đáp ứng các yêu cầu ghi
âm trong các hoạt động thi cử, văn hóa, pháp luật, xã hội…
Mặc dù được phát triển trong thời gian dài đến tận thế kỷ XX, song chữ Nôm không hoạt động độc lập mà được sử dụng đồng thời với những kiểu văn tự khác có trong cộng đồng người Việt, đặc biệt là chữ Hán Chữ Nôm hình thành trên cơ sở mượn chữ Hán, do đó mang trong mình những đặc điểm của chữ Hán và cũng có những đặc trưng riêng, có thể khái quát
cơ bản những đặc điểm như sau:
- Về mặt hình thức, chữ Nôm là một loại văn tự khối vuông tương tự như chữ Hán Đây
là loại văn tự mà mỗi chữ là một chỉnh thể vừa thể hiện và được phát âm như một âm tiết hoàn chỉnh, đồng thời bao giờ mỗi chữ như thế cũng có "nghĩa" xác định Mặc dù về mặt hình thức, mỗi chữ khối vuông (chữ Hán, chữ Nôm) là một chỉnh thể hoàn chỉnh bao gồm nhiều nét kí hiệu được coi là kí hiệu gốc, trong đó có thể có những nét kí hiệu biểu âm, nhưng hầu như chúng chưa được nhiều người coi là loại chữ thuần tuý ghi âm
- Về mặt cấu trúc bên trong, khi phân tích loại chữ khối vuông này, người nghiên cứu vẫn có thể nhận ra rằng, về đại thể, mỗi một chữ thường có hai bộ phận hợp thành: bộ phận
thể hiện ý nghĩa (còn gọi là nghĩa phù) và bộ phận thể hiện âm thanh (còn gọi là thanh phù)
Chúng tôi nói về đại thể là vì trong thực tế không phải chữ Nôm nào cũng tuân thủ điều đó mà
có những chữ chỉ có thanh phù hoặc chỉ có nghĩa phù.Và điều quan trọng là tính "cố định" của những yếu tố đó mang tính tương đối, nó phụ thuộc vào thời gian lịch sử, vào tính địa phương
và đôi khi phụ thuộc vào cá nhân người sử dụng chữ viết Một vài ví dụ sau đây cho thấy những đặc điểm cấu tạo ấy của chữ:
Chữ máy ("máy móc") gồm có mộc (ý) + mãi (âm)
Trang 13may ("may vá") y (ý) mai (âm)
Vấn đề hoàn toàn rõ ràng rằng chữ Nôm là một loại văn tự được xây dựng trên cơ sở
chữ Hán, thậm chí từ chất liệu (các yếu tố cấu tạo là nghĩa phù và âm phù) cho đến phương
thức cấu tạo Nhưng điều quan trọng đối với chúng ta là chất liệu Hán ở đây là chất liệu Hán
Việt Tính Hán Việt biểu hiện rõ nét nhất là âm đọc của thứ văn tự này là âm Hán Việt, hay
nói một cách khác là âm đọc chữ Hán của người Việt chứ không phải âm đọc chữ Hán theo kiểu người Hán Có lẽ chính nhờ đặc điểm quan trọng này mà chữ Nôm mới là thứ chữ ghi lại được tiếng nói của dân tộc ta ở vào thời kì tiếng Việt chưa có thứ chữ ghi âm
Như vậy, với những đặc điểm cơ bản như đã trình bày ở trên của chữ Nôm, chúng ta nhận thấy rõ ràng đó là một thứ chữ của người Việt dùng để biểu thị chuỗi lời nói của tiếng Việt trong giai đoạn trước đây Để làm được điều đó, như rất nhiều công trình nghiên cứu về chữ Nôm đã xác nhận, nó cần phải có một điều kiện tiên quyết là cách đọc chữ Hán của người
Việt mà chúng ta quen gọi là cách đọc Hán Việt (hay âm Hán Việt) Đặc điểm ngôn ngữ ấy
đến lượt nó sẽ quy định thời điểm xuất hiện của chữ Nôm trong lịch sử tiếng Việt
1.2 Cấu tạo chữ Nôm
Hiện chưa có thống kê đầy đủ về các hình thức cấu tạo của chữ Nôm, trước đây có một số ý kiến cho rằng chữ Nôm là chữ bình dân nên không có quy tắc rõ ràng, chặt chẽ nhưng điều này không đúng sau nhiều nghiên cứu thống kê cho thấy chữ Nôm có quy tắc cấu tạo, hợp thành Theo [27] thì chữ Nôm gồm 3 loại: Chữ Nôm mượn nguyên dạng chữ Hán, chữ Nôm được tạo trên cơ sở kết hợp hai chữ Hán, chữ Nôm được tạo trên cơ sở kết hợp một chữ Hán và một chữ Nôm
1.2.1 Chữ Nôm mượn nguyên dạng chữ Hán
Trong nhóm này, xét về mặt hình thì một chữ Nôm tương tự một chữ Hán, song có thể chia thành nhiều nhóm con do có thể khác nhau về âm đọc hoặc ý nghĩa Kết quả thể thống kê
Chữ 味 vị = mùi, Nôm đọc mùi
3 Đồng âm nhưng khác nghĩa Chữ 沒 một = mất, Nôm đọc một = số 1;
1.2.2 Chữ Nôm được tạo trên cơ sở kết hợp hai chữ Hán
Theo nguyên tắc này, mỗi chữ Nôm gồm có hai thành tố: một thành tố chỉ ý nghĩa và một thành tố chỉ âm đọc, âm đọc phải thật đúng hay gần đúng chữ dùng để chỉ âm
- 𠀧 ba (số 3) = (phần chỉ âm 巴 (ba)) + (phần chỉ nghĩa 三 (tam = ba));
- ㈒ tay = (phần chỉ nghĩa 手 (thủ = tay)) + (phần chỉ âm 西 (tây));
Trang 14- 嚂trăm (số 100) = (phần chỉ nghĩa 百(bách = trăm)) + (phần chỉ âm 林 (lâm))
- 𣎃tháng = nguyệt 月 (biểu ý) + thượng 尚 (biểu âm)
- 眜mắt = mục 目 (biểu ý) + mạt 末 (biểu âm)
- 𡗶trời= thượng 上 (biểu ý) + thiên 天 (biểu âm)
- 𠄼năm (5) = ngũ (五 biểu ý) + nam (南 biểu âm)
- 𢆥năm (năm tháng) = niên (年 biểu ý) + nam (南 biểu âm)
Những ví dụ trên cho ta kết luận về vị trí của phần chỉ nghĩa thay đổi, không cố định có thể.Trong một số trường hợp người ta sử dụng phần chỉ nghĩa là một bộ thủ, các bộ thủ thường
忄﹐辶﹐土﹐寸﹐口﹐巾﹐山﹐犭﹐子﹐小﹐女﹐礻﹐灬﹐木﹐艹﹐日﹐月﹐牛﹐毛
﹐片﹐牙﹐疒﹐瓦﹐石﹐衤﹐白﹐目﹐皮﹐田﹐米﹐耳﹐竹﹐舟﹐羽﹐雨﹐色﹐耒﹐糸﹐貝﹐走﹐足﹐車﹐角﹐酉﹐金﹐風﹐食﹐髟﹐馬﹐魚﹐赤
Qua các ví dụ trên ta cũng nhận thấy, vị trí bộ thủ thay đổi ở nhiều vị trí, lúc thì ở bên trái (như 呐, nói), ở trên (như 摊, nong).Và quy tắc kết hợp ý và thanh cũng nhiều trường hợp ngoại lệ là cả hai đều chỉ ý nghĩa
1.2.3 Chữ Nôm được tạo trên cơ sở kết hợp chữ Hán và chữ Nôm
Ví dụ như chữ “ 羆mành = màn để che” viết đúng là “ cân 巾(ý) + manh 萌 (âm)” nhưng phần chỉ ý bị bỏ sót chỉ còn có phần chỉ âm 萌
Tóm lại, chữ Nôm được tạo trên cơ sở chữ Hán, nhưng có nhiều sự thay đổi phù hợp để thể hiện âm và nghĩa Do trong suốt quá trình hình thành và phát triển chưa có một lần nào được chuẩn hóa nên các hình thức thể hiện sự tạo chữ Nôm rất phong phú và đa dạng Theo [6] thì theo tiến trình phát triển của lịch sử, càng vềsaucáctácphẩmviết bằngchữNômcàngcóxuthế tăng dầnloạichữ tự tạovà giảm dầnloạichữnômvay mượnchữHán Dựavàothànhquảnghiên cứu củanhững người đitrước, Bộmôn Hán Nôm - Khoa VăntrườngĐại họcTổngHợp HàNội (nay là TrườngĐH Khoa học xã hội nhân văn quốc gia) đã đưara bảngthống kê, tỷlệ chữ Nôm vay
Trang 15mượn chữ Hán các thời kỳnhư Bảng 1.3
Bảng 1.3 Tỷ lệ chữ Nôm vay mượn qua các thời kỳ
Nhằm bổ sung vào kết quả đánh giá những tác phẩm từ thế kỷ XV-XIX, các kết quả ở [6] cũng đưa ra nhận định về tỉ lệ chữ Nôm tự tạo trong thế kỷ XX trên cơ sở nghiên cứu tác phẩm nổi tiếng “ThanhHoáquanphong”.Kết quả thống kê trong tác phẩm trên, có khoảng55,7%chữNômvaymượnchữHán,còn44,3%là chữ Nômtựtạo Như vậy, có thể thấy, càng về sau này sự sáng tạo ra các chữ Nôm mới hay xu thế sử dụng các chữ Nôm tự tạo gia tăng rất nhiều Những số liệu cung cấp ở phần tiếp theo cũng sẽ làm rõ thêm những nhận xét này
Hình 1.1 Tỉ lệ tài liệu chữ Nôm trong các lĩnh vực
Xét về phân bố về mặt thời gian tài liệu nôm qua các niên đại của gần 800 tên sách, chỉ mới có khoảng 300 tên sách đã xác định được niên đại chính xác, phân bố niên đại như biểu đồ trong Hình 1.2
Trang 16Hình 1.2 Phân bố tài liệu chữ Nôm theo các thời kỳ
Xét về mặt số lượng chữ Nôm, có nhiều thông tin xác định và chưa thống nhất với nhau, do có nhiều tài liệu vẫn chưa khai thác hết Để xác định số lượng chữ chủ yếu căn cứ trên các từ điển, nhưng việc tạo ra các từ điển cũng có nhiều vấn đề chưa rõ ràng, nhiều từ điển không ghi rõ nguồn gốc văn bản do đó không thể kiểm chứng Hiện nay, có khoảng 20 cuốn từ điển chữ Nôm, xuất hiện từ 1651-2009, trong đó có ghi nguồn văn bản (2 cuốn từ
điển): Nguyễn Quang Hồng (2006) có trên12.000 chữ căn cứ trên 50 văn bản và Viện Việt học (Mĩ) biên soạn (2009) có trên10.000 chữ căn cứ trên 51 văn bản
Trên cơ sở kết hợp với nhiều nguồn tư liệu, các nhà nghiên cứu ước lượng về số lượng chữ Nôm như sau:
- Số chữ sử dụng trong văn bản Nôm (Việt):25.000
- Số chữ Nôm (Việt) tự tạo, không trùng Hán: 10.000
Xét trên quan điểm nhận dạng, chữ Trung Quốc bao gồm xấp xỉ 50.000 ký tự, trong đó chỉ khoảng vài nghìn là thường được sử dụng Chẳng hạn99,65% sử dụng là chỉ dùng 3775 ký
tự phổ biến, 99,99% sử dụng là chỉ dùng 6763 ký tự và 99,999% sử dụng là chỉ dùng 8500 ký
tự Các câu được viết theo chiều ngang từ trái sang phải và từ trên xuống dưới giống như tiếng Anh được gọi là dạng đơn giản; hoặc viết theo chiều thẳng đứng, từ trên xuống dưới, các dòng từ phải sang trái được gọi là dạng truyền thống Chữ Trung Quốc truyền thống ngày nay ít được sử dụng khi viết tay, ngoại trừ Đài Loan và Hồng Kông Có rất nhiều nét trong ký
tự Trung Quốc truyền thống, trung bình khoảng 16,03 nét trên một ký tự Để giảm độ phức tạp, từ năm 1956 tới 1964, 2235 ký tự tiếng Trung đơn giản được xem xét để thay thế cho các
ký tự truyền thống tương ứng Trung bình số nét giảm xuống còn 10,3 nét trên một ký tự Số lượng ký tự lớn, mỗi ký tự lại được tạo nên từ khoảng 500 thành phần con (gọi là radical) trong cách xác định vị trí và thứ tự viết Thứ tự nét viết có thể được sử dụng trong các giải thuật nhận dạng trực tuyến, nhận dạng ngoại tuyến thực sự là thách thức do thông tin này không còn nữa Do số lượng ký tự lớn, chiều dài của từ tiếng Trung thường ngắn bao gồm từ
Trang 172 đến 4 ký tự Hơn nữa, các ký tự luôn được viết theo dạng „như in‟, không dính Do đó việc tách từ thường dễ hơn trong các ngôn ngữ khác, tuy nhiên đôi khi rất khó để xác định hai radical thuộc về hai ký tự khác nhau hay thuộc về cùng một ký tự Khó khăn lớn nhất vẫn là nhận dạng một số lượng lớn các ký tự và các nghiên cứu chính đều nhằm mục đích vượt qua khó khăn này Hơn nữa sự thay đổi cách viết ở từng người cũng là một vấn đề Nhiều phương pháp đã được phát triển cho nhận dạng các ký tự riêng lẻ Các nghiên cứu khác về các đề tài như nhận dạng từ hoặc địa chỉ và sự khác biệt ngôn ngữ chẳng hạn như xác định xem một phần văn bản có chứa các ký tự đơn giản hay các ký tự truyền thống hay không Công nghệ nhận dạng chữ Trung Quốc thường chia làm 3 công đoạn chính: xử lý tài liệu, nhận dạng ký
tự và nhận dạng từ[20]
Những thành tựu và vấn đề đặt ra trong nghiên cứu chữ Nôm
Với sự dày công của nhiều nhóm nghiên cứu, việc nghiên cứu chữ Nôm đã đạt được nhiều kết quả đáng khích lệ song lộ trình để nhằm khôi phục, khai thác kho báu về chữ Nôm vẫn đặt ra nhiều vấn đề khó khăn Theo [7]: “Để có được những kết quả như ngày hôm nay chúng ta thấy đối với chữ Nôm, chúng ta đã phải mất nhiều công sức và lao động, tiền bạc Những đầu tư đó vào chữ Nôm không bao giờ phí hoài, trái lại nó đã thúc đẩy sự quan tâm của cả cộng đồng với vốn văn hoá chữ Nôm mà có thời đã từng bị coi là không còn giá trị sử dụng gì nữa.” Trên cơ sở tổng kết những kết quả đạt được, các tác giả trong [7] cũng đưa ra những thành quả chính trong nghiên cứu chữ Nôm đã đạt được:
Về vấn đề mã hóa chữ Nôm tức đưa chữ Nôm vào bộ Font quốc tế để khẳng định sự tồn tại, phục vụ sử dụng và nghiên cứu chữ Nôm Có thể nói đây là bước đi cực kỳ sáng suốt
và cũng cực kỳ vất vả Suốt 12 năm từ 1992-2004 các nhà nghiên cứu đã kiên trì theo đuổi các kì họp quốc tế để đấu tranh yêu cầu đưa chữ Nôm vào bộ kí tự thế giới Unicode và ISO
10646 Kết quả, đã có 5067 chữ trùng hình với chữ Trung Quốc-Nhật-Hàn Quốc trong mặt phẳng cơ sở BMP, 4232 chữ trong mặt phẳng 2 và hiện đang tiếp tục đề nghị đưa vào thêm
2200 chữ nữa Như vậy, số chữ Nôm có nguồn gốc đã được đăng kí với tổ chức tiêu chuẩn thế giới là khoảng trên 11.000 chữ
Vấn đề phát triển font chữ Nôm trên máy tính đã hiện thực hóa Thực tế trong sử dụng hiện nay trên các máy tính, mới chỉ có bộ phông Arial Unicode MS chứa khoảng hơn 5.000 chữ Nôm trùng hình chữ Hán Viện Mojikyo tại Nhật Bản đã làm ra phông chữ truetype cho 9.299 chữ Nôm mà Việt Nam đã đề nghị với quốc tế Công ti DynaLab Đài Loan có trụ sở tại Thượng Hải và Hồng Kông đã xây dựng bộ font DFSongLight_Vietnam2.ttf cũng cho 9.299 chữ Nôm này Nhóm Đạo Uyển (Đỗ Quốc Bảo (Đức) và Thiền viện Viên Chiếu) đã phát triển
bộ font HanNom (trên 30.000 chữ) có thể sử dụng trên mạng Nhóm Nôm Nađã phát triển bộ phông đầy đủ True Type NomNaTongLight.ttf (trên 15.000 chữ)
Đến năm 2000, trong phiên bản 11.1, tổng số chữ được lựa chọn và cấp mã Unicode là 70.205 chữ (trong đó có 9.229 chữ do Việt Nam đề nghị, nếu trừ đi số chữ trùng lặp thì có 4.232 chữ Nôm Việt tự tạo) Tổng số chữ trên nằm trong 2 tập Extension A và Extension B Tập Extension C đang biên soạn sẽ có thêm khoảng 2.300 chữ Nôm tự tạo nữa (trong đó sẽ có gần 400 chữ Nôm Tày tự tạo) Vậy nếu tính cả 3 tập Extension A, B, C, thì tổng số mã
Unicode dành cho chữ Nôm Việt (tự tạo) là khoảng 6150 chữ
Vấn đề về phần mềm hỗ trợ khai thác và sử dụng chữ Nôm đã phát triển phần mềm tra cứu chữ Nôm NLT được sử dụng rộng rãi trên mạng cả trong nước và trên thế giới Các phần
Trang 18mềm gõ chữ Nôm và phần mềm từ điển đã được một số nhóm chuyên gia tin học trong nước phát triển: các nhóm của Phan Anh Dũng (Huế) [1]và Tống Phước Khải-Lê Anh Minh (TP
Hồ Chí Minh)[4]
Về việc in ấn đã thực hiện việc in ấn chữ Nôm từ máy tính cho một số bộ từ điển chữ Nôm Nhiều tác phẩm chữ Nôm đã và đang được in ấn trực tiếp từ máy tính và tra cứu trên mạng
Với những kết quả đã đạt được thể hiện một bước nhảy lớn trong việc nghiên cứu chữ Nôm Có một vấn đề lớn đặt ra không chỉ đối với chữ Nôm mà với tất cả các chữ viết khác đó
là vấn đề nhận dạng tự động trên máy vi tính Việc nhận dạng tự động trên máy góp phần nhanh chóng giải mã các tài liệu, tiến hành số hóa phục vụ nghiên cứu và thực sự mang lại giá trị lớn trong văn hóa, du lịch, khảo cổ Hiện số người biết thông thạo chữ Nôm rất hạn chế, ngược lại các tác phẩm chữ Nôm còn tồn lại rất nhiều, nhiều tác phẩm chưa được khai thác, dịch nghĩa
mà đề tài đang nghiên cứu:
- Chữ Nôm có cấu tạo phức tạp hơn chữ Hán do nhiều từ được tạo trên cơ sở cấu tạo
từ 2 từ chữ Hán
- Việc xây dựng bộ nhận dạng chữ Nôm là cần thiết, do nhiều hình mới của chữ Nôm không có trong kho hình của chữ Hán, và cấu tạo chữ Nôm xét tổng thể phức tạp hơn chữ Hán nên một số kỹ thuật có thể có hiệu quả tốt trên chữ Hán nhưng không hoàn áp dụng tốt cho chữ Nôm
Trang 19Chương 2 NHẬN DẠNG CHỮ NÔM
2.1 Nhận dạng ký tự quang học
Nhận dạng ký tự quang học(OCR)là loại phần mềmmáy tínhcó chức năng chuyển các hình ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét bằng máy scanner, chụp ảnh) thành các văn bản tài liệu OCR được hình thành trên cơ sởcác lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhận tạo
Lịch sử của OCR đã có từ hơn nửa thế kỷ, nó xuất hiện đầu tiên để giải quyết bài toán đọc mã số trong bưu điện, tiếp đó phát triển để tự động đọc các địa chỉ và thông tin trong các mẫu đơn, văn bản OCR ban đầu ứng dụng mạnh trong các lĩnh vực như bưu điện sau đó đến ngân hàng bằng những máy chuyên dụng Ngày nay, với sự phát triển mạnh mẽ, OCR trở nên phổ biến và là một phần mềm thông dụng chạy trên máy tính để bàn (Desktop) OCR không chỉ đơn giản đọc các số và một số chữ hạn chế, các khả năng của nó dần tiệm cận với thị giác con người về độ chính xác, sự thông minh và sẽ nhanh hơn nhờ năng lực xử lý tốc độ của của máy vi tính Một xu hướng đã xuất hiện và sẽ phát triển mạnh trong thời gian tới là đưa OCR lên thiết bị di động, thiết bị đọc và dịch trực tiếp từ tài liệu như minh họa trong Hình 2.1 [20]
Hình 2.1 Ứng dụng tự động chụp ảnh và dịch trên di động và bút chuyên dụng
Về nguyên tắc hoạt động, hệ thống nhận dạng phải được “học”tức được huấn luyện với các mẫu của các ký tự cụ thể Ngày nay, với thành tựu trong nghiên cứu OCR, các hệ thống "thông minh" tích hợp với độ chính xác nhận dạng cao đối với hầu hết các phông đã trở nên phổ biến Một số hệ thống không chỉ có khả năng nhận dạng 1 loại ký tự mà có khả năng phát hiện và nhận dạng nhiều loại ký tự khác nhau, thêm vào đó còn có khả năng tái tạo lại
Trang 20các định dạng của tài liệu gần giống với bản gốc bao gồm: cấu trúc, hình ảnh, các cột, bảng biểu, các thành phần không phải là văn bản
Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt in VnDOCR cho kết quả nhận dạng với độ chính xác cao Một dự án khác là VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ VietOCR có khả năng nhận dạng chữ Việt rất tốt Đây là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG…
Bài toán nhận dạng chính xác ký tự Latin đánh máy được xem là vấn đề đã được giải quyết Tỷ lệ chính xác thực tế đạt tới 99% và tỷ lệ chính xác cao hơn nữa cần phải có sự phối hợp của con người để kiểm tra lại lỗi Nhưng việc nhận dạng chữ in bằng tay, chữ thảo bằng tay, và thậm chí những phiên bản đánh máy được in ra của một số chữ có số lượng lớn và cấu trúc phức tạp (tiếng Trung Quốc, Nhật) vẫn còn là một vấn đề lớn của các nghiên cứu
Trong thời gian gần đây, bài toán nhận dạng ký tự viết tay cũng đã đạt được những thành công lớn về mặt thương mại Các ứng dụng này phát triển nhiều trênthiết bị hỗ trợ cá nhân (PDA) như các phần mềm chạy trên Palm OS, tiêu biểu cho lĩnh vực này phải kể đến hãngApple Newton Lớp ứng dụng này yêu cầu những giải thuật có ưu điểm về tốc độ, tài nguyên tính toán và xử lý trong điều kiện ràng buộc hạn chế ví dụ như hạn chế loại chữ, số chữ hay trong điều kiện ánh sáng tốt, ít nhiễu… Tất nhiên khi so sánh với nhận diện ký tự in thì nhận dạng chữ chiết tay đang có những giới hạn khá xa về độ chính xác Hiện tại, độ chính xác mới chỉ dừng lại ở mức khoảng 90%, những ký tự in bằng tay sạch sẽ có thể được nhận
ra, nhưng độ chính xác đó vẫn tạo ra hàng tá lỗi mỗi trang, khiến cho công nghệ này hiện chỉ hiệu quả trong vài trường hợp nào đó Sự đa dạng của OCR hiện nay được biết đến trong công nghiệp là ICR (Intelligent Character Recognition - Nhận dạng ký tự thông minh)
2.2 Một số công nghệ nhận dạng chữ tượnghình 2.2.1 CherryBlossom
Mô hình nhận dạng chữ Nhật được phát triển đánh giá có chất lượng, hiệu quả với số lượng lớn Đặc biệt, với công nghệ này, có thể áp dụng với chữ tiếng Hán, Hàn Quốc vẫn mang lại hiệu quả cao[10] Trong mô hình này, tác giả sử dụng kết hợp một số phương pháp trích chọn đặc trưng và thuật toán nhận dạng theo nhiều lớp để tăng độ chính xác và tốc độ nhận dạng Mô hình tổng quan được mô tả như Hình 2.2
Trang 21Hình 2.2 Framework nhận dạng chữ tượng hình của JOCR
2.2.2 Tesseract
Tesseract [18] là một chương trình nhận dạng chữ (OCR) được phát triển từnăm 1984 tới 1994 bởi HP.Tesseract được biên dịch và chạy trên cả 2 môi trường Linux và Windows Năm 1995 Tesseract là một trong ba bộ nhận dạng chữ có độ chính xác cao nhất tại cuộc thi được tổ chức tại Đại học Nevada, Las Vegas [19] Cuối năm 2005, Tesseract được công bố dưới dạng bản quyền mã mở (Apache License 2.0) và được Google tiếp tục phát triển (http://code.google.com/p/tesseract-ocr/) Hiện nay Tesseract nhận dạng được hầu hết các chữ viết và cho độ chính xác khá cao, một phần lý do nằm ở việc nguồn mở hóa và chuyển giao công nghệ để các nhóm nghiên cứu có thể tự tạo mẫu, huấn luyện và tạo ra bộ nhận dạng cho loại chữ cần nhận dạng
Trong kiến trúc của Tesseract được mô tả trong [18], so với các kiến trúc OCR đầy đủ, thì Tesseract không có phân tích trang do đó chỉ có thể nhận diện được những tài liệu theo những chuẩn nhất định, những tài liệu xen kẽ ảnh và nhiều loại biểu tượng thì chưa có khả năng phân tách phần ký tự do đó dẫn đến nhận dạng sai, còn với trường hợp chỉ gồm ký tự thì cho kết quả nhận dạng chính xác Các tài liệu thiết kế về chi tiết các lớp, các hàm ở trang web http://tesseract-ocr.repairfaq.org/
Trang 22Phân tích thành phần kết nối Tiền xử lý
Ảnh đầu
vào
Tìm ra các dòng văn bản và từ
Đường viền các ký tự
Tìm ra các dòng văn bản và từ
Các đường bao ký
tự được tổ chức thành các từ Nhận dạng từ 1
Bộ phân tích số
Từ thích hợp
Hình 2.3 Kiến trúc tổng quát của Tesseract
Tesseract bao gồm: bộ phận tiền xử lý; bộ phân đoạn (phân tách dòng, tách chữ); bộ nhận dạng các thành phần và nhận dạng thích nghi Trong bước huấn luyện, đầu vào là một ảnh chứa các ký tự hoặc đoạn văn bản cần để huấn luyện, Tesseract sẽ áp dụng các thuật toán
xử lý ảnh để phân tích ảnh đầu vào thành các dòng, các từ rồi đến các ký tự riêng biệt Tiếp đó
sẽ trích xuất ra các đặc trưng tương ứng với các ký tự rời rạc Đặc trưng các ký tự được trích xuất theo phương pháp Prototype, gồm các phân đoạn xấp xỉ theo đa giác và những đặc trưng này được xem như là các khuôn mẫu của dữ liệu huấn luyện và được lưu vào cấu trúc dữ liệu cây k-d (k-d tree) Tesseract được đánh giá cao về khả năng chịu lỗi, đặc biệt với các chữ bị
vỡ do nhiễu Tesseract dùngkỹ thuật k-NN để thực hiện phân lớp đối tượng[18] Với một
vector có n đặc trưng: (A 1 (x), A 2 (x), …, A n (x)),công thức tính khoảng cách từ đối tượng x tới y
được xác định như sau:
Bảng 2.1 Kết quả đánh giá độ chính xác của Tesseract tại UNLV 1995
Trang 232.2.3 ABBYY FineReader
ABBYY là phần mềm OCR thông minhđược đánh giá là tốt nhất hiện nay ABBYY FineReader thế hệ mới nhất (phiên bản 11) là thế hệ đầu tiên hỗ trợ nhận dạng hầu hết các loại chữ, trong đó với Việt Nam cũng cho kết quả cao ABBYY FineReader 11 có khả năng giữ nguyên định dạng và dàn trang của tài liệu gốc tốt Tuy nhiên, nó chưa có khả năng nhận dạng chữ Nôm và do đó là một phần mềm thương mại nên các công nghệ, thuật toán trong đó không được công bố để có thể kế thừa cho các nghiên cứu cho chữ Nôm
2.2.4 So sánh ABBYY với Tesseract
Qua thời gian nghiên cứu sâu Tesseract, kết hợp một số nhận xét của các chuyên gia nghiên cứu về Tesseract tác giả nhận thấy: do phương pháp trích chọn đặc trưng của Tesseract đơn giản, số đặc trưng không đủ lớn để mô tả cấu trúc phức tạp của các chữ tượng hình Ưu điểm của Tesseract là khả năng sửa lỗi hay nhiễu, khi áp dụng với chữ viết có số chữ cái ít sẽ cho kết quả cao Do đó, kết quả của nó với nhận dạng ký tự Latinh đạt tương đối cao, nhưng với chữ tượng hình thì không thực sự hiệu quả về tốc độ và độ chính xác Một số thực nghiệm
so sánh trên các tập dữ liệu của các loại chữ viết khác nhau cho thấy, ABBYY và Tesseract thực sự là những OCR có độ chính xác cao, Tesseract vượt qua ABBYY trong một số ít trường hợp
Bảng 2.2 Kết quả so sánh khả năng nhận dạng giữa FineReader và Tesseract
Trang 242.3 Mô hình OCR chữ Trung Quốc
Có nhiều mô hình cho nhận dạng chữ Trung Quốc, các mô hình có thế thiếu đi một số thành phần, các chi tiết có thể thay đổi song mô hình chung đều theo các bước như Hình 2.5[20] Tài liệu đầu vào là một ảnh đa cấp xám được scan, chụp hoặc từ các nguồn khác Bước tiền xử lý chuyển ảnh tài liệu thành ảnh đen và trắng (nhị phân hóa), có thể có một số phương pháp trích chọn đặc trưng trực tiếp từ các ảnh đa cấp xám (đặc trưng Gradient) Bước tiền xử lý cũng có thể chuyển ảnh ban đầu sang một số dạng biểu diễn khác dễ xử lý hơn ảnh thô chẳng hạn như chuỗi mã (Chain code) và khung xương (Skeleton) Các bước tiền xử lý khác như giảm nhiễu, làm trơn cũng có thể được áp dụng Ảnh đã được tiền xử lý này sau đó được đưa vào một giải thuật phân đoạn
Phân đoạn là việc chia một ảnh lớn thành các miền nhỏ hơn, kết quả là từ tài liệu được tiền xử lý thu được các chữ hoặc thành phần các chữ tách biệt Ví dụ một giải thuật phân trang phân chia một trang văn bản thành các dòng Các dòng được phân chia thành các từ và các từ được phân chia thành các ký tự hoặc các thành phần ký tự Đầu ra của giải thuật phân đoạn được đưa vào chuẩn hóa Mô đun chuẩn hóa nhằm mục đích giảm sự thay đổi hình dạng trong cùng lớp bằng việc điều chỉnh kích thước, vị trí và hình dạng của mỗi ký tự Nếu phân đoạn không đúng, các dòng, các từ, hoặc các ký tự có thể không được biểu diễn trong một ảnh đơn, hoặc nhiều thành phần được biểu diễn trong cùng một ảnh.Vì lý do này một số giải thuật chỉ
sử dụng một phần công cụ phân đoạn Chẳng hạn có thể sử dụng đầu ra của phân trang nhưng không phải dòng Một cách tiếp cận khác là sử dụng một giải thuật phân đoạn làm công cụ để đưa ra đề nghị chứ sau đó là bước trích chọn đặc trưng và nhận dạng
Trang 25Hình 2.4 Các bước trong nhận dạng chữ Trung Quốc
Quá trình nhận dạng thường diễn ra một cách đệ quy như là một vòng lặp được mô tả như Hình 2.5 Kết quả phân loại của vòng trước có thể được sử dụng làm đầu vào của vòng sau để cải thiện độ chính xác của quá trình trước đó, chẳng hạn nâng cao độ chính xác của quá trình phân đoạn hoặc trích chọn đặc trưng
Hình 2.5 Quy trình nhận dạng đệ quy
2.3.1 Tiền xử lý
Bước tiền xử lý tài liệu chuyển một ảnh được scan sang một dạng thích hợp cho các bước tiếp theo Tiền xử lý bao gồm các công việc như loại nhiễu, làm trơn, loại bỏ các đường thẳng gây nhiễu, nhị phân hóa, tạo mã biểu diễn, phân đoạn, chuẩn hóa ký tự, điều chỉnh độ rộng và góc
Trang 26nghiêng của nét,v.v Sự thay đổi trong cách viết của từng người có thể phá vỡ hệ thống nhận dạng do các ký tự tiếng Trung rất phức tạp Để giải quyết vấn đề này, các giải thuật chuẩn hóa
có thể sử dụng các đặc trưng như sự biến đổi mật độ nét, độ bao phủ ký tự, độ lệch tâm Dù các ký tự thường không dính nhau như trong các ngôn ngữ khác, phân đoạn vẫn là một vấn đề quan trọng Nhiều ký tự được tạo nên từ các gốc từ mà bản thân chúng cũng là các ký tự riêng biệt Lý tưởng hóa thì các ký tự sẽ bao phủ các vùng xấp xỉ bằng nhau, tuy nhiên điều này không đúng với chữ viết tay
2.3.2.Phân đoạn
Độ chính xác của phân đoạn ký tự tiếng Trung đặc biệt là các ký tự dính nhau là vô cùng quan trọng trong một hệ thống nhận dạng ký tự tiếng Trung Do vấn đề mấu chốt trong nhận dạng tiếng Trung Quốc là nhận dạng ký tự, nên thông thường công việc chính là phân tách các trang thành các dòng, rồi trực tiếp thành các ký tự (việc phân tách thành các từ thường được bỏ qua nếu không có thêm các thông tin ngữ nghĩa)
Hình 2.6 Quá trình phân đoạn tiếng Trung Quốc
Do trong tiếng Trung, các ký tự thường được viết dưới dạng „chữ in‟ hay không dính nhau, do đó về mặt nào đó việc phân đoạn là dễ dàng hơn so với các ngôn ngữ khác Hai kỹ thuật được sử dụng rộng rãi là chiếu theo phương thẳng đứng và phân tích thành phần liền nhau Mặt khác các ký tự tiếng Trung thường bao gồm nhiều hơn một gốc từ (radical) thậm chí nhiều gốc từ bản thân nó cũng là các ký tự, và các nét viết tay của các ký tự cạnh nhau có thể giao nhau Thông thường các đường phi tuyến được sử dụng để phân vùng các ký tự Do yêu cầu về độ chính xáctrong phân tách là cao, và cách thức để thu được các đường phi tuyến vẫn còn là một thách thức lớn, chúng ta cần có các phương pháp mạnh mẽ hơn để giải quyết vấn đề này
Trang 27Các phương pháp tích hợp phân đoạn và nhận dạng, sử dụng phản hồi và kinh nghiệm, thậm chí là ngữ nghĩa hoặc thông tin ngữ cảnh, cho kết quả tốt hơn nhiều so với các phương pháp đơn
2.3.4 Nhận dạng
Nhận dạng ký tự là bài toán được nghiên cứu kỹ lưỡng nhất Có rất nhiều phương pháp nhưng có thể nhóm lại thành 3 nhóm phương pháp chính: nhận dạng dựa trên gốc từ (radical-based), nhận dạng dựa trên nét chữ (stroke-based) và phương pháp holistic (holistic-based)
Phương pháp dựa trên gốc từ cố gắng tách ký tự thành các thành phần (radical) và phân loại ký tự dựa trên các phần và vị trí của nó Phương pháp dựa trên nét cố gắng chia ký
tự thành các phần là các nét, sau đó nhận dạng ký tự thông qua số lượng, thứ tự và vị trí của các nét Phương pháp holistic bỏ qua các thành phần của ký tự Tư tưởng của phương pháp này là việc tách ký tự ra các thành phần có thể rất khó khăn, thay vào đó phương pháp sẽ nhận dạng ký tự dựa trên các đặc trưng của ảnh như các đặc trưng graident (gradient features), các đặc trưng thành phần hướng (directional element features - DEF).Trong quá trình nhận dạng, một bộ phân loại thô thường được sử dụng để loại bỏ việc tìm kiếm cho bộ phân loại cuối cùng, nhằm tăng tốc hệ thống nhận dạng
Trang 28Hình 2.7 Sơ đồ các bước trong nhận dạng chữ Hán 2.3.5 Các kết quả đạt được và những vấn đề đặt ra
Bài toán nhận dạng ký tự vẫn còn là một vấn lớn trong nghiên cứu Nhiều phương pháp được đưa ra áp dụng trong các giai đoạn của hệ thống, nhưng một trong những yếu tố quan trọng quyết định đến tốc độ và độ chính xác là phương pháp trích chọn đặc trưng và thuật toán nhận dạng
Có loại hướng chính trong trích chọn đặc trưng giành cho chữ viết là phương pháp hướng cấu trúc (structure) và phương pháp hướng thống kê (statical) Phương pháp cấu trúc nhằm phát hiện đặc trưng theo hướng cấu trúc như số nét, bộ thủ, phần liên thông, quan hệ vị trí giữa các nét, số nét… Phương pháp này trích chọn đặc trưng theo hướng trực quan, theo cách của mắt người nhận dạng chữ viết Tất nhiên, trong thực tế nghiên cứu cho thấy phương pháp này mang lại hiệu quả chưa thực sự cao cho chữ tượng hình, đặc biệt là ảnh hưởng của nhiễu lớn Phương pháp hướng thống kê tiếp cận lấy đặc trưng theo các mẫu thực tế có được, đưa về dạng một véc-tơ có kích thước cố định cho trước Với phương pháp này có thể xem như phát hiện mù so với cách tư duy thông thường về nhận dạng chữ, nhưng nó lại căn cứ trên mẫu thực tế thu được, không căn cứ trên các nghĩ của con người áp vào Và các nghiên cứu cho thấy, các phương pháp nhận dạng theo mẫu thống kê mang lại kết quả cao hơn, đặc biệt với các chữ tượng hình, có cấu trúc phức tạp
Các phương pháp mang lại hiệu quả cao cho thuật toán nhận dạng như ANN, SVM Tất nhiên, trong OCR đối với các chữ tượng hình phải đối mặt với số lượng mẫu, số lượng lớp cực lớn Do đó, yêu cầu một chiến thuật mới cho nhận dạng ký tự tượng hình đó là chiến thuật chia để trị, kết hợp các thuật toán nhận dạng, phân cụm theo nhiều mức Một chiến thuật thường thấy là nhận dạng theo nhiều lớp, thông thường sẽ dùng thuật toán phân cụm có tốc độ
Trang 29nhanh, có độ chính xác không cao để tách tập dữ liệu lớn thành các tập con và sau đó áp dụng các thuật toán nhận dạng độ chính xác cao cho các tập con đó để thu được kết quả nhận dạng cuối cùng[21] Với ý tưởng này, có thể thực sự là mấu chốt để giải quyết những hạn chế của SVM cho bài toán nhận dạng có số lớp lớn
Với bài toán Nôm, hiện đã có một số nghiên cứu được thực hiện về phân đoạn chữ Nôm[26], đánh giá một số kỹ thuật nhận dạng chữ Nôm bằng phương pháp nhâ ̣n da ̣ng chữ Nôm bằng ma ̣ng nơ -ron và bằng thuật toán dựa trên phần mềm mã nguồn mở Tesseract [3] Kho dữ liệu đầy đủ hơn 4.000 chữ nôm được tạo ra bằng cách tạo các ảnh số từ máy tính và tạo nhiễu bằng phần mềm, và một số mẫu lấy từ một số khổ thơ đầu lấy từ truyện Kiều (bản năm 1866) Cả hai phương pháp đều cho kết quả ban đầu khả quan và cũng có những nhược điểm cần nghiên cứu, cải tiến tiếp
Cùng nhóm nghiên cứu với chúng tôi, cũng đã có nhiều cách tiếp cận khác nhau để đánh giá hiệu quả của các phương pháp nhận dạng với chữ Nôm [8,9] Bộ nhận dạng chữ Nôm bằng mạng Nơ-ron truyền thẳng, điều chỉnh tro ̣ng số bằng thuâ ̣t toán lan truyền ngươ ̣c cũng đã được nghiên cứu trong [8] Việc nghiên cứu, thực nghiệm đánh giá dựa trên bộ dữ liệu Nôm-DB0 của nhóm tác giả Trong nghiên cứu này, tác giả cũng đã sử dụng mạng Nơ-ron truyền thẳng, điều chỉnh tro ̣ng số bằng thuâ ̣t toán lan truyền ngươ ̣c k ết hợp với kiểm chứng chéo (K-Fold Cross Validation) Kết quả bước đầu khá hạn chế ở độ chính xác trên 70%, và có một hạn chế là thời gian huấn luyện lớn (tính đến hàng ngày), nên vệc thực nghiệm với nhiều bộ tham số, hướng tiếp cận khác nhau vẫn chưa được đánh giá hết
Song song với nghiên cứu trên, nhiều phương pháp trích chọn đặc trưng theo cấu trúc cũng đã được nghiên cứu với chữ Nôm như đặc trưng theo cạnh, theo lưới điểm và theo khung xương, giả khung [9] Phương pháp nhận dạng được sử dụng là khoảng cách soạn thảo (String Edit Distance) Kết quả thực nghiệm trên Nôm-DB0 đạt 82%
Như vậy, có thể thấy vấn đề nghiên cứu nhận dạng chữ Nôm cũng đã được nhiều nhà nghiên cứu quan tâm song vẫn chưa thu được kết quả như mong muốn Hầu hết các nhóm nghiên cứu đều kế thừa các phương pháp đã có hiệu quả cao trong chữ Hán, chữ Nhật để áp dụng vào chữ Nôm nhưng kết quả chưa được như với nhận dạng chữ Hán, chữ Nhật Từ đó có thể lần nữa khẳng định lại nhận định trong chương 1, khi nghiên cứu về cấu trúc chữ Nôm rằng, ta cần có những nghiên cứu riêng về chữ Nôm, mặc dù kết thừa và phát triển từ chữ Hán song nó có nhiều đặc điểm riêng Đặc biệt với kho chữ Nôm tự tạo, cần có những hướng tiếp cận mới để giải quyết hiệu quả
2.4 Bài toán nhận dạng chữ Nôm
Xây dựng phần mềm nhận dạng chữ Nôm (Nôm-OCR) là một yêu cầu tất yếu như với các ngôn ngữ khác Nôm-OCR sẽ đóng vai trò một động lực mạnh thúc đẩy việc nghiên cứu chữ Nôm, khai phá nguồn tư liệu quý giá của dân tộc hàng ngàn năm về chính trị, văn hóa, xã hội… Hệ thống nhận dạng chữ Nôm về mặt kỹ thuật có thể tham khảo các mô hình kỹ thuật của các OCR khác, đặc biệt là các OCR chữ tượng hình như tiếng Hán, tiếng Nhật Trên cơ sở nghiên cứu các mô hình về OCR, nhóm nghiên cứu của tác giả đưa ra mô tổng thể cho bài toán nhận dạng chữ Nôm như hình 2.8
Trang 30Hình 2.8 Sơ đồ tổng thể mô hình nhận dạng chữ Nôm đề xuất
Trong sơ đồ trên, nguồn tài liệu có thể là ảnh, tệp PDF… Trong nguồn đầu vào của hệ thống OCR có thể bao gồm nhiều loại thông tin ví dụ hình ảnh, các loại ngôn ngữ khác nhau
Do đó, cần được tiến hành thao tác phân tích trang, nhận diện phần ký tự Sau khi tách phần
ký tự khỏi trang, ta tiến hành các bước tiền xử lý cần thiết, tách thành các khối, tách các khối thành các dòng, tách dòng thành các ký tự rời rạc Từ các ký tự rời rạc, ta tiến hành trích chọn đặc trưng của ký tự để đưa vào tiến hành nhận dạng Kết quả của bước nhận dạng có thể chưa phải là bước cuối cùng, mà sẽ được qua bước hậu xử lý, có thể kiểm tra trên cơ sở từ điển, ngữ pháp… để quyết định kết quả cuối cùng
Trong đề tài luận văn này, tác giả xây dựng mô hình nhận dạng chữ Nôm như trong Hình 2.9, không bao gồm bước tiền và hậu xử lý, có nghĩa tác giả lấy đầu vào là tập các ảnh chữ Nôm đã cắt rời theo chuẩn, áp dụng phương pháp trích chọn đặc trưng trọng số vùng, xây dựng bộ nhận dạng bằng cách kết hợp K-Mean và SVM, kết quả sau bước nhận dạng thu được là mã Unicode của chữ Nôm cần nhận dạng
Trang 31Hình 2.9 Mô hình nhận dạng chữ Nôm trong luận văn
Tổng kết chương 2
Trong chương này, chúng tôi tìm hiểu tổng quan OCR, một số OCR thông dụng, tiếp
đó đi sâu tìm hiểu một số mô hình OCR chữ tượng hình tiếng Trung Quốc.Trên cơ sở các tìm hiểu đó, đề xuất mô hình tổng thể cho nhận dạng chữ Nôm và giới thiệu phần nội dung trong Nôm-OCR mà chúng tôi thực hiện Kết quả nghiên OCR đã đạt được nhiều kết quả tốt, được phát triển trên cả các phần mềm thương mại cũng như nguồn mở, song vẫn còn một số vấn đề cần nghiên cứu, trong đó có bài toán chữ tượng hình với số lượng chữ lớn và những loại chữ chưa được nghiên cứu như chữ Nôm Chúng tôi nghiên cứu một phần nội dung trong tổng thể
mô hình nhận dạng chữ Nôm do nhóm đang thực hiện.Trên cơ sở các hướng đặt ra của các nghiên cứu trước đây, chúng tôi tập trung cải tiến thuật toán nhận dạng trên cơ sởSVM - thuật toán có độ chính xác cao trong nhận dạng, tìm cách khắc phục hạn chế của SVM với bài toán
đa phân lớp có số lớp lớn
Trang 32Chương 3 MÁY VÉC-TƠ HỖ TRỢ (SVM)
3.1 Tổng quan về SVM
SVM là một trong những thành công lớn trong các nghiên cứu về nhận dạng, khai phá
dữ liệu được ứng dụng hiệu quả trong nhiễu lĩnh vực, đặc biệt với những dữ liệu phức tạp có thể kể đến như học máy, xử lý ngôn ngữ tự nhiên, tin sinh học… Cùng với sự kết hợp với hàm nhân (kernel methods), SVM đã thu được những thành công lớn trong việc phân lớp phi tuyến với độ chính xác cao
Hình 3.1 Tìm siêu phẳng có lề cực đại
Support VectorMachine (SVM) là một phuơng pháp phân lớp dựa trên lý thuyết học thống kê, được đề xuất bởi Vapnik (1995) [15].Giáo sư Vapnik đã tìm ra được quan hệ giữa lềvà ước lượng xác suất lỗi khi phân lớp bằng siêu phẳng Theo đó, khi lề cànglớn, xác suất lỗi càng gần với giá trị tối ưu (nhỏ nhất) Vì vậy, ông gợi ý tìm siêu phẳng phân lớp có lề lớn nhất
3.2.SVM tuyến tính
Xét tập huấn luyện Dgồm n điểm có dạng:
D = {(xi ,yi) | xi ϵ Rp, yi ϵ {-1, 1}}𝑖=1𝑛
Trong đó,y i nhận giá trị 1 hoặc −1, xác định lớp của điểm Xi Mỗi Xi là một vectơ thực
p-chiều Ta cần tìm siêu phẳng có lề lớn nhất chia tách các điểm có yi = 1 và các điểm có yi =
-1
Một hàm tuyến tính phân biệt hai lớp được biểu diễn như sau:
𝑦 𝑥 = 𝑤𝑇x + 𝑏 Trong đó:
Trang 33- 𝑤 ∈ 𝑅𝑝 là vector trọng số véc-tơhay véc-tơ pháp tuyến siêu phẳng phân cách, T là
kí hiệu chuyển vị
- 𝑏 ∈ 𝑅 là độ lệch
- 𝑥 ∈ 𝑅𝑝 là véc tơ đặc trưng
- 𝑤𝑇xkí hiệu cho tích vô hướng giữa w và x
Nếu là xét phân lớp trong không gian 2 chiều thì đường phân cách là đường thẳng, nhưng trong không gian đa chiều thì gọi đó là siêu phẳng
Khi đó tham số 𝑏
vectơ pháp tuyến w.Chúng ta cần chọn wvà bđể cực đại hóa lề, hay khoảng cách giữa hai siêu mặt song song ở xa nhau nhất có thể trong khi vẫn phân chia được dữ liệu Các siêu mặt ấy được xác định bằng:
𝑦 𝑥 = 𝑤𝑇x + 𝑏 = 1 và 𝑦 𝑥 = 𝑤𝑇x + 𝑏 = −1
Để ý rằng nếu dữ liệu huấn luyện có thể được chia tách một cách tuyến tính, thì ta có thể chọn hai siêu phẳng của lề sao cho không có điểm nào ở giữa chúng và sau đó tăng khoảng cách giữa chúng đến tối đa có thể Bằng phương pháp hình học, ta tìm được khoảng cách giữa hai siêu phẳng là 2𝑏
Để đảm bảo không có điểm dữ liệu nào trong lề, ta bổ sung thêm các điều kiện sau:
𝑦 𝑥 = 𝑤𝑇x + 𝑏 ≥ 1
𝑤𝑇x + 𝑏 ≤ −1 với xi thuộc lớp thứ nhất
với xi thuộc lớp thứ nhất Điều kiện trên có thể viết gọn lại như sau với mọi 1<= i<= n:
Trang 34Hình 3.2 Xác định lề, tham số phạt trong SVM
3.2 Lề mềm
Trong các trường hợp không tồn tại một siêu phẳng phân tách 2 tập 1 và -1, và trường hợp này trong thực tế xảy ra nhiều, khi đó cần một phương án chấp nhận sai số để thu được kết quả tốt nhất có thể Năm 1995, Corinna Cortes và Vladimir N Vapnikđề xuất một ý tưởng mới cho phép thuật toán gán nhãn sai cho một số ví dụ huấn luyện, và giải thuật này được biết với tên là lề mềm, phương pháp này sẽ chọn một siêu phẳng phân tách các ví dụ huấn luyện tốt nhất có thể, và đồng thời cực đại hóa khoảng cách giữa siêu phẳng với các ví dụ được gán đúng nhãn Phương pháp này sử dụng các biến bù 𝜀i, dùng để đo độ sai lệch:
y i (w T x i – b) ≥ 1 – 𝜀 i với (1≤ i ≤ n)
𝜀i là tham số phạt khi điểm i bị phân lớp sai, do đó hàm mục tiêu có thêm một số hạng mới để phạt và bài toán tối ưu hóa trở thành tối ưu theo 2 yêu cầu tạo lề lớn và mức phạt nhỏ Nếu hàm phạt là tuyến tính thì bài toán trở thành:
y i (w T x i – b) ≥ 1 – 𝜀 ivới (εi≥0, 1≤ i ≤ n)
Có thể giải bài toán trên bằng nhân tử Lagrange tương tự như trường hợp cơ bản ở trên
3.3 SVM phi tuyến
Trang 35Hình 3.3 Ánh xạ không gian đặc trưng 2 chiều sang 3 chiều
Trong thực tế, những dữ liệu phân tách cần một mặt phi tuyến bất kỳ không chỉ đơn giản là tuyến tính như Hình 3.1 Giả sử các mẫu xithuộc không gian Rn, không gian này được gọi là không gian giả thiết (hypothesis space) Để tìm mặt phi tuyến trong không gian này, có thể áp dụng một thủ thuật ánh xạ các vector mẫu xi từ R n vào không gian R d có số chiều lớn hớn (d>n, thậm chí d có thể không giới hạn) Rd
được gọi là không gian đặc trưng (feature space) Sau đó áp dụng SVM tuyến tính để tìm ra một siêu phẳng phân hoạch trong không
gian đặc trưng R d Siêu phẳng này ứng với mặt phi tuyến trong không gian R n
Ta thực hiện ánh xạ không gian R n
vào không gian R d như sau:
Gọi ánh xạ được áp dụng là p, khi đó:
dụng hàm ϕ(x i ) để thay đổi số chiều của không gian đặc trưng
Vấn đề đặt ra ở đây là hàm ϕ có số chiều rất lớn ( tương ứng với không gian Rd
có d lớn) Việc chuyển về không gian có số chiều như thế để thực hiện việc tính toán là một điều
cản trở lớn Một điều thật tuyệt vời để vượt quá trở ngại đó, nhận thấy rằng phép tính ϕxuất hiện dạng tích vô hướng tực dạng ϕ(x)ϕ(y)mà không xuất hiện đơn lẻ ϕ(x) hoặc ϕ(y)[15] Từ
quan sát này, ta có thể đưa đến hướng giải quyết sau: thay vì việc chuyển về không gian nhiều
chiều để tính toán tường minh theo công thức của ϕ(x) ta chỉcần sử dụng hàm để biểu diễn giá trị vô hướng của ϕ(x)ϕ(y).
Đặt K(x,y) = ϕ(x)ϕ(y), khi đó ta gọi K(x,y) là hàm hạt nhân (kernel function) Với cách giải quyết này, chuyển bài toán từ việc tìm hàm ϕ(x) trongkhông gian lớn, ta chỉ cần tìm dạng của hàm K(x,y), không quan tâm đến ϕ(x)
Tuy nhiên, hàm K(x,y) không phải bất kỳ mà phải thỏa mãn điều kiện là tồn tại hàm ϕ
để K(x,y) = ϕ(x)ϕ(y).Và điều kiện Mercer chính là điều kiện để đảm bảo hàm hạt nhân K
Như vậy, bản chất của phương pháp SVM phi tuyến là tìm một hàm kernel K(x,y) thỏa mãn điều kiện Mercer, sau đó giải bài toán lề mềm với việc thay x1x2 = K(x1,x2)
Vấn đề khó bây giờ chuyển về việc xác định hàm K(x,y) Về bản chất hàm K sẽ đưa không gian giả thiết về không gian đặc trưng có chiều lớn hơn để có khả năng phân tách dữ liệu trên không gian đó Như vậy, sẽ tùy bài toán, tùy dữ liệu để chọn được hàm K(x,y) phù
hợp Sự kết hợp hàm nhân vào SVM ta thu được một mô hình nhận dạng SVM
Trang 36Một số hàm Kernel tiêu biểu được sử dụng trong nghiên cứu và cài đặt tích hợp trong nhiều thư viện SVM bao gồm:
Hàm tuyến tính K(x,y) = x.y
Hàm đa thứcK(x,y) = (c+xy)p
Chiều không gian đặc trưng ứng với hàm này là𝑑 = 𝐶𝑛+𝑝−1𝑝 Hàm này có khả năng
chuyển tất cả các mặt cong bậc p trong không gian R n thành siêu phẳng trong không gian đặc
trưng
Hàm bán kính cơ sở - RBF (Radial Basis Function)
𝐾 𝑥, 𝑦 = 𝑒−𝛾|𝛾−𝑥| 2
Hình 3.4 Khả năng phân lớp khi kết hợp SVM với hàm nhân
Chiều của không gian đặc trưng ứng với hàm này là vô cùng Do đó, về lý thuyết nó
có thể chuyển một mặt cong bất kỳ trong không gian Rn thành siêu phẳng trong không gian đặc trưng Từ công thức của hàm ta rút ra nhận xét: x, y không quan hệ qua tích vô hướng mà liên hệ theo khoảng cách Euclid ||x-y||2
3.4 SVM cho bài toán phân đa lớp
SVM là một máy phân loại hai lớp,tuy nhiên trong thực tếchúng ta phải giải quyết cho các bài toán đa lớp Từ đó đặt ra yêu cầu xây dựng các bộ phân loại nhiều lớp trên cơ sở SVM, hay ta gọi là đa lớp SVM
Một cách tiếp cận thường sửdụnglà dùng kbộ nhận dạng SVM để giải quyết bài toán phân loại k lớp.Trong mô hình này,SVM thứ k, hay hàm nhận dạng SVM yk(x) dùng để nhận dạng mẫu x có thuộc lớp thứ k bằng cách huấn luyện như sau: đánh dấu mẫu thuộc lớp k là dương và các mẫu thuộc (k-1) lớp còn lại là âm Điều này được biết nhưcách tiếp cận one-versus-the-rest(OVR).Trong mô hình này có điều dễ nhận thấy là huấn luyện không cân bằng,