Nhận dạng trong KSVM

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp nhận dạng chữ hán nôm dựa trên gốc từ (Trang 33 - 42)

Bảng 2.2. Kết quả thực nghiệm KSVM với bộ dữ liệu NOM-DB0

STT Kớch thƣớc ảnh Kớch thƣớc Grid Thời gian Độ chớnh xỏc (AR) Sai số lớp (ER) Số cụm (K) Cỏc tham số SVM: SvmType = Linear, C = 2

1 20x20 5x5 7 phỳt 60.31% 38.40% 20

2 20x20 10x10 8 phỳt 78.56% 22.10% 20

3 40x40 10x10 15 phỳt 89.02% 10.01% 20

STT Kớch thƣớc ảnh Kớch thƣớc Grid Thời gian Độ chớnh xỏc (AR) Sai số lớp (ER) Số cụm (K) 5 90x90 5x5 5 phỳt 87.03% 13.02% 5 6 90x90 10x10 15 phỳt 94.00% 05.03% 20 7 90x90 15x15 62 phỳt 95.06% 04.94 % 21 8 100x100 10x10 16 phỳt 95.21% 04.49% 25 9 60x90 10x10 16 phỳt 91.20% 08.04% 20 10 90x60 10x10 16 phỳt 92.90% 06.77% 20 11 90x90 10x15 22 phỳt 91.02% 08.52% 20 12 90x90 15x10 22 phỳt 96.10% 03.62% 20 Cỏc tham số SVM: SvmType = LBF, C = 2, g = 0.5 12 90x90 15x10 72 phỳt 96.19% 03.43% 20

Trong Bảng 2.2, một số từ đƣợc giải thớch nhƣ sau :

- Kớch thƣớc ảnh (HxW) là kớch thƣớc ảnh mẫu chữ Nụm đƣợc đƣa vào trớch chọn đặc trƣng; H là chiều cao ảnh, W là độ rộng của ảnh.

- Kớch thƣớc Grid (HxW) là kớch thƣớc lƣới theo thuật toỏn trọng số vựng; H là chiều cao lƣới, W là độ rộng lƣới.

- Thời gian là thời gian huấn luyện KSVM với bộ dữ liệu và tham số tƣơng ứng.

- Độ chớnh xỏc (AR) là độ chớnh xỏc của bộ nhận dạng đỏnh giỏ theo tập testing trỡnh bày ở trờn.

- Sai số lớp 1 (ER) là sai số của mỏy phõn cụm trong lớp thứ 1 của KSVM.

- Số cụm K là số cụm của lớp thứ nhất trong KSVM.

2.3.4. Phương phỏp nhận dạng dựa trờn khoảng cỏch soạn thảo

Theo [8] khoảng cỏch chuỗi soạn thảo (String edit-distance) là phƣơng phỏp dựa trờn tớnh chi phớ phải bỏ ra để hiệu chỉnh một chuỗi A cho trƣớc thành một chuỗi B cho trƣớc. Chuỗi A và Chuỗi B đƣợc biểu diễn bởi cỏc phần tử của tập hữu hạn cỏc ký tự cho trƣớc, mỗi ký tự đƣợc gỏn một trọng số nhất định thể hiện giỏ trị của ký tự đú. Cỏch chuyển đổi dựa trờn ba phộp toỏn xúa (delete), chốn (insert) và thay thế (change). Mỗi phộp toỏn này lại đƣợc quy định một chi

phớ nhất định để thực hiện đú, chẳng hạn nhƣ phộp “xúa” cú chi phớ bằng giỏ trị của ký tự bị xúa trong chuỗi; phộp “chốn” cú chi phớ bằng giỏ trị của ký tự đƣợc chốn thờm vào chuỗi; phộp “thay thế” cú chi phớ bằng tổng giỏ trị của ký tự bị thay thế và ký tự thay thế.

Áp dụng String edit-distance [10] vào nhận dạng chữ Nụm ta cú thể mụ tả nhƣ sau:

- Bằng phƣơng phỏp lấy đặc trƣng dựa trờn histogram của khung xƣơng hoặc giả khung đó trỡnh bày trờn, tập chữ Nụm huấn luyện (tập mẫu) sẽ đƣợc đƣa vào để trớch chọn đặc trƣng. Kết quả ta thu đƣợc là một tập cỏc đặc trƣng đƣợc lƣu lại dƣới dạng một cơ sở tri thức để phục vụ cho việc nhận dạng. Tập chữ Nụm huấn luyện càng phong phỳ thỡ tập dữ liệu huấn luyện đƣợc càng phong phỳ, kết quả nhận dạng càng chớnh xỏc;

- Khi nhận dạng một chữ Nụm ta cũng rỳt trớch đặc trƣng của chữ cần nhận dạng theo phƣơng phỏp trờn, sau đú chuỗi đặc chƣng đú đƣợc đem tớnh toỏn để chuyển đổi thành chuỗi đặc trƣng trong tập dữ liệu đó huấn luyện. Tƣơng ứng với mỗi chuỗi trong tập dữ liệu đó huấn luyện, chuỗi đặc trƣng của chữ cần nhận dạng sẽ phải tốn một giỏ trị cụ thể nào đú để cú thể chuyển đổi về cho giống nhau. Kết quả đƣợc lựa chọn là những chữ Nụm tƣơng ứng với chuỗi đặc trƣng trong tập dữ liệu đó huấn luyện mà chuỗi đặc trƣng của chữ cần nhận dạng phải tiờu tốn giỏ trị nhỏ nhất để chuyển đổi cho giống nú; - Cấu trỳc của chuỗi đặc trƣng gồm cỏc thành phần: Điểm ảnh tƣơng đối,

trọng số dọc, trọng số ngang, mó dọc, mó ngang, mó phõn bố nột dọc, mó phõn bố nột ngang. Trong quỏ trỡnh nhận dạng thỡ điểm ảnh tƣơng đối, trọng số dọc, trong số ngang dựng để phõn lớp, cú nghĩa là ta chỉ tớnh giỏ trị chuyển đổi giữa chuỗi đặc trƣng của chữ Nụm cần nhận dạng với những chuỗi đặc trƣng trong file tri thức đó huấn luyện mà cú điểm ảnh tƣơng đối, trọng số dọc, trong số ngang gần với điểm ảnh tƣơng đối, trọng số dọc, trong số ngang của chuỗi đặc trƣng rỳt trớch đƣợc từ chữ Nụm cần nhận dạng. Bằng cỏch phõn lớp này, thay vỡ phải tớnh giỏ chị chuyển đổi cho tất cả cỏc chuỗi đặc trƣng trong file tri thức đó huấn luyện thỡ chỉ cần tớnh trờn một số lƣợng nhỏ cỏc chuỗi, nờn giảm đƣợc chi phớa tớnh toỏn (thời gian và tài nguyờn thiết bị).

Để nhận dạng ta cần xõy dựng thuật toỏn tớnh khoảng cỏch hiệu chỉnh trờn chuỗi mó ngang, chuỗi mó dọc, mó phõn bố nột ngang và mó phõn bố nột dọc của chữ cần nhận dạng với chuỗi mó trong file huấn luyện. Với chuỗi mó dọc và mó ngang nhƣ trỡnh bày ở trờn, chỳng chỉ chứa cỏc ký tự L, M, S, U. Do đú ta cần gỏn giỏ trị cho mỗi ký tự này. Ở đõy gỏn L=8; M=4; S=2; U=1. Phộp toỏn chuyển đổi bao gồm phộp thay thế, phộp chốn, phộp xúa. Mỗi phộp toỏn cần một chi phớ nhất định. Phộp chốn một chữ cú chi phớ bằng giỏ trị của chữ cần chốn; Phộp xúa một chữ cú chi phớ bằng giỏ trị của chữ cần xúa; phộp thay thế một chữ bằng một chữ khỏc cú chi phớ bằng tổng giỏ trị của chữ thay thế và chữ bị thay thế.

Vớ dụ: Để chuyển chuối mó MLLU LLMU thành chuỗi LU LLU cần chi phớ chuyển đổi là 16 vỡ ta cần xúa bớt cỏc chữ “M”, “L”, “M”

Vớ dụ trong bảng dƣới đõy, chữ (2_0_NomNaTong_0_1) sau khi tớnh giỏ trị chuyển đổi sẽ cho kết quả là chữ (2_0_HanNomB_0_1) vỡ giỏ trị chuyển đổi của nú là nhỏ nhất (bằng 8)

Bảng 2.3. Mụ tả giỏ trị chuyển đổi giữa hai chữ Nụm

Chữ vào chữ vào Tập mẫu tập mẫu Giỏ chuyển đổi 2_0_NomNaTong_0_1 MLLU LLMU 267_0_NomNaTong_0_1 LU LLU 4+8+4=16 2_0_NomNaTong_0_1 MLLU LLMU 267_0_NomNaTong_0_0 LU LLU 4+8+4=16 2_0_NomNaTong_0_1 LLMU 2_0_HanNomB_0_1 LMU 4

Tƣơng tự vậy mó phõn bố nột ngang và mó phõn bố nột dọc đƣợc biểu diễn bởi cỏc số từ 0 đến 9, tƣơng ứng với nú 0 cú giỏ trị là 1; 1 cú giỏ trị là 2; 2 cú giỏ trị là 3… 9 cú giỏ trị là 10. Cỏc phộp toỏn chuyển đổi cũng bao gồm phộp thay thế, phộp chốn, phộp xúa. Phộp chốn một số cú chi phớ bằng giỏ trị của số cần chốn; Phộp xúa một số cú chi phớ bằng giỏ trị số cần xúa; phộp thay thế một số bởi một số khỏc cú chi phớ bằng tổng giỏ trị của số thay thế và số bị thay thế.

Vớ dụ: để chuỗi 0510205140 chuyển đổi thành chuỗi 0510406105 cần chi phớ là 12 đơn vị.

Kết thỳc quỏ trỡnh đỏnh giỏ chi phớ chuyển đổi, những chữ cú tổng chi phớ chuyển đổi chuỗi mó nhỏ nhất sẽ là kết quả nhận dạng.

Bảng 2.4. Kết quả thực nghiệm theo khoảng cỏch soạn thảo văn bản

Tập huấn luyện Số ký tự huấn luyện Tập nhận dạng Số ký tự nhận dạng Số ký tự nhận đỳng Đạt tỷ lệ HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomA_0_0 493 439 90% HanNomA_0_0, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomA_0_1 495 409 85% HanNomA_0_0, HanNomA_0_1, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomB_0_0 495 361 77% HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomB_0_1 495 349 78% HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_1 2685 NomNaTong_0_0 495 398 79% HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0 2685 NomNaTong_0_1 495 373 80% Tỷ lệ trung bỡnh nhận dạng đỳng qua 6 lần là 82%

2.3.5. So sỏnh, đỏnh giỏ cỏc phương phỏp

Đối với mỗi phƣơng phỏp kể trờn đều cú ƣu nhƣợc điểm khỏc nhau nhƣng nhỡn chung cỏc phƣơng phỏp đều đó tạo ra đƣợc cỏc hƣớng nghiờn cứu mang tớnh khả thi cao cho bài toỏn nhận dạng chữ Nụm.

Do chữ Nụm là hệ thống chữ tƣợng hỡnh viết theo dạng cú kớch thƣớc cố định và cỏc chữ khụng dớnh nờn khi dựng Tesseract để tỏch từ cũng dễ hơn so với tỏch từ trong cỏc ngụn ngữ khỏc. Tuy nhiờn sau khi tỏch từ thi một số ký tự tƣơng đối giống nhau và khú xỏc định hai “từ gốc” thuộc về hai ký tự khỏc nhau hay thuộc về cựng một ký tự. Một nhƣợc điểm của Tesseract là nú cú thể sẽ xử lý chậm với những ngụn ngữ cú tập ký tự lớn (nhƣ chữ Nụm cú hơn 4000 ký tự).

Đối với phƣơng phỏp sử dụng mạng nơ-ron vỡ quỏ trỡnh huấn luyện rất tiờu tốn thời gian, nờn tỡm ra giải phỏp giỳp nhanh hội tụ mạng là một điều hết sức quan trọng. Mặt khỏc, luụn tồn tại một sai số nào đú. Nếu sai số càng nhỏ thỡ nguy cơ cho việc học quỏ khớt với mẫu nhận dạng càng cao . Đú là 2 mục tiờu khụng thể đạt đƣợc đồng thời (Sai số nhỏ và trỏnh học khớt với mẫu nhận dạng). Ngoài ra huấn luyện cú sai sút cú thể vỡ mạng liệt hoặc hiện tƣợng hội tụ địa phƣơng. Mạng liệt xảy ra khi cỏc giỏ trị trọng số của cỏc nơ-ron trong mạng rất lớn, nờn tổng giỏ trị đầu ra của nơ-ron lớp tiếp theo sẽ rất cao (Trong lập trỡnh, khi chọn kiểu giỏ trị Double sẽ xuất hiện giỏ trị NaN). Khi đú mạng khụng hoạt động nữa, tất cả cỏc giỏ trị trọng số sẽ vụ cựng lớn. Mạng hội tụ bởi cơ chế hạ dần độ dốc sai số nờn cú thể mắc vào một thung lũng. Trong trƣờng hợp đú cú thể sử dụng phộp đột biến của thuật toỏn di truyền hoặc phƣơng phỏp thống kờ. Tuy nhiờn, khi qua đƣợc thung lũng này lại cú nguy cơ gặp phải thung lũng khỏc.

Phƣơng phỏp KSVM ỏp dụng cho nhận dạng chữ Nụm cú độ chớnh xỏc khỏ cao và cú khả năng cải tiến để nõng cao hiệu quả. Tỉ lệ sai số nhận dạng phụ thuộc cơ bản vào tỉ lệ sai số ở lớp 1. Độ chớnh xỏc nhận dạng tỉ lệ thuận với kớch thƣớc ảnh đầu vào. Do với kớch thƣớc ảnh đầu vào cú độ chớnh xỏc cao thỡ việc nhận dạng sẽ chớnh xỏc hơn. Nếu kớch thƣớc ảnh quỏ lơn thỡ ảnh hƣởng đến tốc độ xử lý, và trong thực tế nếu lấy đƣợc ảnh cú kớch thƣớc đảm bảo nhƣ thế là điều khú khăn. Do sử dụng phƣơng phỏp trớch chọn đặc trƣng PD nờn việc tỡm ra giỏ trị lƣới thớch hợp cũng cần rất nhiều thực nghiệm vỡ nếu giỏ trị lƣới quỏ cao sẽ làm hệ thống hoạt động chậm rất nhiều và cú thể dẫn đến hiện tƣợng overfit,

xem nhiễu nhƣ thụng tin nhận dạng. Trong trƣờng hợp lƣới quỏ nhỏ sẽ khụng thể hiện đết đặc trƣng của ký tự Nụm vốn rất phức tạp về cấu trỳc.

Với phƣơng phỏp dựa vào khoảng cỏch soạn thảo văn bản trong quỏ trỡnh lấy giả khung và lấy khung xƣơng, cần nghiờn cứu thờm cỏc phƣơng phỏp hiệu chỉnh nhƣ đồng nhất cạnh, xúa nột thừa, chuẩn húa nột… để lấy đƣợc kết quả tốt nhất nhằm tăng độ chớnh xỏc nhận dạng. Trong phƣơng phỏp lấy đặc trƣng, những nột xiờn phản ỏnh chƣa tốt, nờn cần nghiờn cứu giải phỏp phản ỏnh tốt cỏc nột xiờn lờn chuỗi đặc trƣng. Việc chia ụ lƣới trờn histogram để tớnh độ dài cỏc bin đang sử dụng cố định ở mức 10x10, với ụ lƣới 10x10 thỡ chỉ phản ỏnh đƣợc cỏc nột ngang và nột dọc cho những chữ cú từ 10 nột ngang và 10 nột dọc trở xuống, với những chữ cú số nột ngang và nột dọc lớn hơn 10 thỡ sẽ phản ỏnh khụng tốt. Ngoài ra với những chữ cú số nột ngang và nột dọc ớt thỡ sử dụng lƣới 10x10 cũng khụng cần thiết và làm giảm độ chớnh xỏc nhận dạng, tăng độ phức tạp tớnh toỏn.

Bỏ qua cỏc yếu tố nhƣ thời gian thực hiện, độ phức tạp tớnh toỏn mà chỉ quan tõm đến tỉ lệ nhận dạng thành cụng của cỏc phƣơng phỏp thực hiện trờn bộ dữ liệu Nom-DB0, Bảng 2.5 dƣới đõy cho thấy kết quả so sỏnh giữa cỏc phƣơng phỏp:

Bảng 2.5. So sỏnh kết quả nhận dạng giữa cỏc phương phỏp

STT Phƣơng phỏp Tỉ lệ nhận dạng

1. Mạng nơ-ron 84,6%

2. Mỏy vộc tơ hỗ trợ SVM 90,2%

3. Khoảng cỏch soạn thảo văn bản 82%

TỔNG KẾT CHƢƠNG 2

Chƣơng 2 đó trỡnh bày tổng quan về bài toỏn nhận dạng chữ Nụm, phạm vi nội dung nghiờn cứu của luận văn. Trờn cơ sở tỡm hiểu cỏc phƣơng phỏp nhận dạng chữ Nụm đó đƣợc nghiờn cứu và phỏt triển của nhúm, chƣơng này cũng chỉ ra cỏc ƣu, nhƣợc điểm của mỗi phƣơng phỏp, cỏc hƣớng phỏt triển khả thi cũng nhƣ chỉ ra cỏc tồn tại, khuyết điểm.

Nhỡn chung cỏc nghiờn cứu Nom-OCR đó đạt đƣợc nhiều kết quả tốt làm tiền đề cho cỏc nghiờn cứu sau này. Nhằm tỡm ra hƣớng phỏt triển mới cho bài toỏn nhận dạng chữ Nụm chỳng tụi đề xuất phƣơng phỏp nhận dạng chữ Nụm dựa trờn gốc từ sẽ đƣợc trỡnh bày trong chƣơng 3 sau đõy.

Chƣơng 3. NHẬN DẠNG CHỮ NễM BẰNG PHƢƠNG PHÁP GỐC TỪ 3.1. Mụ tả phƣơng phỏp

3.1.1. í tưởng

Cũng giống nhƣ cỏc loại ký tự khỏc đƣợc cấu thành từ cỏc thành phần cơ bản, chữ Nụm cũng đƣợc cấu tạo từ cỏc thành phần cơ bản nhƣ thế và đƣợc gọi là gốc từ (phõn biệt với bộ thủ). Trong khoảng 25000 chữ Nụm đƣợc sử dụng trong cỏc văn bản nhƣng số lƣợng cỏc gốc từ chỉ khoảng trờn 300 loại. Đặc điểm của cỏc gốc từ là cú cấu trỳc đơn gian, dễ nhận biết và nằm ở những vị trớ xỏc định. Dựa trờn đặc điểm này tỏc giả tỡm hiểu và đề xuất phƣơng phỏp nhận dạng chữ Nụm dựa trờn gốc từ.

3.1.2. Quy trỡnh và cỏc kỹ thuật sử dụng

Phƣơng phỏp dựa trờn gốc từ tỏch tập lớn cỏc ký tự chữ Nụm thành tập nhỏ hơn cỏc gốc từ. Bài toỏn chuyển thành trớch rỳt gốc từ và tối ƣu việc tổ hợp chuỗi cỏc gốc từ. Bảng 3.1 minh họa cỏc ký tự đƣợc biểu diễn bởi một tập hợp cỏc gốc từ. Bảng 3.1 Cấu tạo gốc từ cỏc ký tự chữ Nụm Chữ Nụm Cỏc thành phần gốc từ 茹 艹 女 口 倍 亻 立 口 萻 艹 立 日 � 扌 立 日 心

壓 厂 日 月 犬 土

Dựa trờn ý tƣởng trờn Hỡnh 3.1 dƣới đõy thể hiện mụ hỡnh nhận dạng chữ Nụm dựa trờn gốc từ.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp nhận dạng chữ hán nôm dựa trên gốc từ (Trang 33 - 42)

Tải bản đầy đủ (PDF)

(118 trang)