Kiờ́n trúc mạng nơ-ron

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp nhận dạng chữ hán nôm dựa trên gốc từ (Trang 28)

Trong kiờ́n trúc ma ̣ng này dùng thờm mụ ̣t lớp ta ̣m gọi là tiền đầu vào , sụ́ phõ̀n tƣ̉ của lớp tiờ̀n đõ̀u vào bằng sụ́ đă ̣c trƣng của lớp.

Đầu vào: Mạng truyờ̀n thẳng với ni đầu vào, nh nỳt ẩn và no đầu ra (được tớnh theo cụng thức ở trờn.). Hệ số học η =0,2. Tập dữ liệu huấn luyện D = {tập hợp cỏc đặc trưng của ảnh chữ, cỏc giá đầu ra mong muốn bao gồm cả tờn ảnh học}

Đầu ra: Cỏc cỏc trọng số phự hợp của cỏc nơ-ron trong mạng. Đõy là kết quả của quỏ trỡnh huấn luyện. Trong quỏ trỡnh huấn luyện, ban đầu cỏc trọng số sẽ đƣợc tạo ra bằng giỏ trị ngẫu nhiờn nằm trong khoảng [0,01; 0,02] và sẽ đƣợc điều chỉnh dần theo từng lần lan truyền ngƣợc sai số. Sai số này là độ lệch của đầu ra với mục tiờu huấn luyện. Độ lệch đú sẽ xuống dốc dần dần về đến giỏ trị chấp nhận đƣợc.

Ban đầu, khởi tạo mạng, gỏn cỏc giỏ trị tổng lỗi, số nơ-ron đầu vào, số nơ- ron đầu ra, số nơ-ron lớp ẩn, chuẩn bị dữ liệu đầu vào và gỏn hệ số học: 0,2. Cú cỏc bƣớc lấy đặc trƣng của ảnh, đƣa cỏc đặc trƣng đú vào ma trận đầu vào từ đú đƣa vào lớp vào, bắt đầu quỏ trỡnh huấn luyện. Quỏ trỡnh huấn luyện đƣợc mụ tả trong hình. Lṍy đă ̣c trƣng của ảnh đờ̉ làm đõ̀u và o cho ma ̣ng nơ -ron theo Hình 2.6.

Hỡnh 2.1.Sơ đụ̀ lṍy đặc trưng của ảnh chữ Nụm

Đầu vào của giai đoạn lấy đặc trƣng là một ảnh chữ nụm, đầu ra là mảng số thực cú 24x24 phần tử cú giỏ trị nằm trong khoảng (0,1). Trong chƣơng trỡnh,

chọn kớch thƣớc ảnh là 24x24, do đú cú một module chuyển thƣ mục ảnh thành thƣ mục ảnh cú kớch thƣớc 24x24. Chọn nhƣ vậy là để cú ớt đặc trƣng hơn và dễ xử lý hơn khi cú kớch thƣớc lớn hơn. Cụng thức để tớnh cho phần tử mảng đƣợc tớnh theo cụng thức đề nghị (2.5).

A[i*24+j]= 1-(corlorij.R x 0.3+ corlorij.G x 0.59+ corlorij.B x 0.11)/255 (2.5)

Trong đú, i=1..24, j= 1..24, Alà phần tử của mảng corlorij là bảng màu của ảnh, R là ma trận màu đỏ, G là ma trận màu xanh da trời, B là ma trận màu xanh nƣớc biển của ảnh đầu vào ở hàng i, cột j. Quỏ trỡnh tớnh toỏn này cứ tiếp tục cho đến khi duyệt hết ma trận ảnh đú.

Đầu vào của của quỏ trỡnh này là một mảng số thực 2 chiều X[n] [m], trong đú n là số mẫu học và m là kớch thƣớc trung bỡnh của ảnh =24x24 =576. Trong chƣơng trỡnh ta lƣu mỗi giỏ trị này với một khúa (là tờn mẫu huấn luyện).Cú rất nhiều phƣơng phỏp lấy đặc trƣng, tuy nhiờn trong đề tài này chọn cỏch lấy đặc trƣng theo cụng thức trờn. Tất cả ảnh đầu vào qua lấy đặc trƣng sẽ là những mảng số thức nằm trong phạm vi nhỏ hơn 1.

Nạp thụng số mạng là việc kiến thiết kiến trỳc mạng, chƣơng trỡnh trong đề tài này cho phộp tạo 1, 2, 3 lớp và số nơ-ron cho mỗi lớp mạng.Cú thể chọn số nơ-ron tựy ý cho mỗi lớp mạng.Khởi tạo mạng nơ-ron là việc khởi tạo trọng số cho tất cả cỏc nơ-ron trong mạng, ngƣỡng lỗi cho phộp, hệ số học.

Nhƣ hình 2.7 mụ tả, quỏ trỡnh huấn luyện mạng nơ-ron đƣợc bắt đõ̀u bằng viờ ̣c cṍu hình thụng sụ́ ma ̣ng nhƣ ma ̣ng có bao nhiờu lớp , mụ̃i lớp có bao nhiờu nơ-ron. Sau đó sẽ khởi ta ̣o ma ̣ng nơ-ron này, khởi dƣ̣ng nhƣ̃ng giá tri ̣ ngõ̃u nhiờn ban đõ̀u của ma ̣ng là nhƣ̃ng giá tri ̣ nhỏ . Với thƣ mu ̣c ảnh đõ̀u vào sẽ ta ̣o ra mụ ̣t cỏc mẫu dữ liệu huấn luyện . Thuõ ̣t toán lan truyờ̀n ngƣợc lõ̀n lƣợt sƣ̉ du ̣ng các mõ̃u dƣ̃ liờ ̣u huṍn luyờ ̣n đó cho đờ́n hờ́t . Mụ̃i lõ̀n sƣ̉ du ̣ng sẽ điờ̀u chỉnh la ̣i tro ̣ng sụ́ của các nơ-ron trong ma ̣ng. Quỏ trỡnh sẽ đƣợc lă ̣p lại cho đến khi tổng lỗi đạt giỏ trị ngƣỡng đặt ra.

Giỏ trị ngƣỡng đặt ra là do kinh nghiệm của ngƣời thực hiện với mạng nơ- ron. Thụng thƣờ ng ngƣỡng này thƣờng nhỏ . Tuy nhiờn cũng giụ́ng với các hờ ̣ học mỏy khỏc , giỏ trị ngƣỡng này rṍt “mờ” . Hơn nƣ̃a, tựy thuộc vào kiến trỳc mạng, giỏ trị lệch ban đầu cú thể rất lớn , viờ ̣c giảm dõ̀n đụ ̣ lờ ̣ch đó vờ̀ giá tri ̣ ngƣỡng cũng tùy thuụ ̣c vào kiờ́n trúc ma ̣ng đó . Trong nhiờ̀u trƣờng hợp có thờ̉

xảy ra liờ ̣t ma ̣ng . Mạng liệt xảy ra khi cỏc giỏ trị trọng số của cỏc nơ-ron trong mạng rất lớn, nờn tổng giỏ trị đầu ra của nơ-ron lớp tiếp theo sẽ rất cao (Trong lập trỡnh, khi chọn kiểu giỏ trị Double sẽ xuất hiện giỏ trị NaN). Khi đú mạng khụng hoạt động nữa, tất cả cỏc giỏ trị trọng số sẽ vụ cựng lớn.

Hỡnh 2.7. Lưu đồ huấn luyện mạng nơ-ron

Kết quả nhận dạng bằng phƣơng phỏp mạng nơ-ron đƣợc thể hiện trong Bảng 2.3

Bảng 2.1 Kết quả nhận dạng bằng phương phỏp mạng nơ-ron

TT KIỂU HỌC SỐ LƢỢNG HỌC KIỂU NHẬN DẠNG SỐ LƢỢNG NHẬN DẠNG TỈ LỆ 1 HanNomA_0_0 495 HanNomA_0_0 495 89.898990% 2 HanNomA_0_0 495 HanNomA_0_1 495 86.262630% 3 HanNomA_0_0 495 HanNomB_0_0 495 75.555560% 4 HanNomA_0_0 495 HanNomB_0_1 495 74.545450% 5 HanNomA_0_0 495 NomNaTong_0_0 495 60.000000% 6 HanNomA_0_0 495 NomNaTong_0_1 495 60.000000% 7 HanNomA_0_0 495 6 kiểu (mỗi kiểu

495) 2970 74.377100% 8 HanNomA_0_0 495 5 kiểu cũn lại 2475 71.272720% Trung bỡnh nhận dạng đƣợc: 73.464049%

2.3.3. Phương phỏp Kmean, SVM

Theo [7] ý tƣởng chớnh của mụ hỡnh là kết hợp 2 ý tƣởng về nhận dạng theo 2 giai đoạn và thế mạnh của K-Mean, SVM. KSVM (K-Mean và SVM) sẽ dựng 2 kỹ thuật ở giai đoạn 1, dựng K-Mean để phõn cụm tạm thời, kết quả đú sau khi điều chỉnh sẽ dựng làm nhón để huấn luyện cho OVO (One Versus One). Nhƣ vậy, với sự kết hợp này tại giai đoạn thứ nhất, sẽ phỏt huy tớnh phõn cụm 1 cỏch khỏch quan của K-Mean và độ chớnh xỏc của OVO.

Trong giải thuật KSVM, đầu tiờn FC (First Class) sẽ phõn cụm dữ liệu đầu vào thành cỏc cụm, lớp thứ 2 – SC (Second Class) sẽ tiến hành nhận dạng trờn từng cụm dữ liệu tạo ra trong FC. Tại mỗi lớp ta vẫn sử dụng OVO để xõy dựng cỏc bộ nhận dạng.

Trong mụ hỡnh OVO, với n lớp mẫu đầu vào ta cần S1 =𝑛(𝑛 −1)

2 SVM, thỡ trong mụ hỡnh KSVM ta cần số SVM là: S2 = 𝑘 𝑘−1 2 + 𝑘 𝑛 𝑘)(𝑛 𝑘 − 1) 2 (2.5) Suy ra: S2 = 𝑘 𝑘−1 2 + 𝑘 𝑛 𝑘)(𝑛 𝑘 − 1) 2 (2.6) Trong cụng thức (2.5), 𝑘 𝑘−1 2 là số SVM cần cho phõn cụm, 𝑘 𝑛 𝑘)(𝑛 𝑘 − 1) 2

là số SVM cho cỏc lớp nhận dạng trong mỗi cụm, giả sử đang xột số phần tử trong mỗi cụm là nhƣ nhau và là n/k phần tử.

Ta dễ thấy S2<< S1 => S2 << S1 Vớ dụ với n = 500, k = 20 ta cú:

S1 = 124.750

S2 = 6.190(= 190 + 20 * 300)

Suy ra S1 = 20*S2, khi k càng lớn thỡ S2 càng giảm mạnh.

Trong mụ hỡnh KSVM cần giải quyết vấn đề quan trọng là phƣơng phỏp đỏnh nhón để phõn cụm trong FC. Trong trƣờng hợp này K-Mean đƣợc đề xuất để phõn cụm trong FC.

Quỏ trỡnh nhận dạng đƣợc thực hiện qua 2 bƣớc: đầu tiờn xỏc định đối tƣợng thuộc cụm nào bằng bộ nhận dạng OVOF (One Versus One First), sau đú xỏc định ký tự sử dụng bộ huấn luyện OVOS (One Versus One Second) tƣơng

ứng với lớp đú. Nhƣ ta biết, cỏc bộ nhận dạng đều là mụ hỡnh OVO của SVM, khụng sử dụng K-Mean.

Đặc trƣng của cỏc ký tự đƣợc đƣa vào nhận dạng trong cỏc bƣớc phải tƣơng ứng với đặc trƣng đƣa vào huấn luyện. Trong chƣơng trỡnh thực nghiệm của phƣơng phỏp này, đặc trƣng PD (Probability Distribution of Black Pixels) đƣợc sử dụng và tham số về kớch thƣớc lƣới bắt buộc phải nhƣ nhau ở 2 bƣớc huấn luyện và nhận dạng.

Hỡnh 2.8. Nhận dạng trong KSVM

Bảng 2.2. Kết quả thực nghiệm KSVM với bộ dữ liệu NOM-DB0

STT Kớch thƣớc ảnh Kớch thƣớc Grid Thời gian Độ chớnh xỏc (AR) Sai số lớp (ER) Số cụm (K) Cỏc tham số SVM: SvmType = Linear, C = 2

1 20x20 5x5 7 phỳt 60.31% 38.40% 20

2 20x20 10x10 8 phỳt 78.56% 22.10% 20

3 40x40 10x10 15 phỳt 89.02% 10.01% 20

STT Kớch thƣớc ảnh Kớch thƣớc Grid Thời gian Độ chớnh xỏc (AR) Sai số lớp (ER) Số cụm (K) 5 90x90 5x5 5 phỳt 87.03% 13.02% 5 6 90x90 10x10 15 phỳt 94.00% 05.03% 20 7 90x90 15x15 62 phỳt 95.06% 04.94 % 21 8 100x100 10x10 16 phỳt 95.21% 04.49% 25 9 60x90 10x10 16 phỳt 91.20% 08.04% 20 10 90x60 10x10 16 phỳt 92.90% 06.77% 20 11 90x90 10x15 22 phỳt 91.02% 08.52% 20 12 90x90 15x10 22 phỳt 96.10% 03.62% 20 Cỏc tham số SVM: SvmType = LBF, C = 2, g = 0.5 12 90x90 15x10 72 phỳt 96.19% 03.43% 20

Trong Bảng 2.2, một số từ đƣợc giải thớch nhƣ sau :

- Kớch thƣớc ảnh (HxW) là kớch thƣớc ảnh mẫu chữ Nụm đƣợc đƣa vào trớch chọn đặc trƣng; H là chiều cao ảnh, W là độ rộng của ảnh.

- Kớch thƣớc Grid (HxW) là kớch thƣớc lƣới theo thuật toỏn trọng số vựng; H là chiều cao lƣới, W là độ rộng lƣới.

- Thời gian là thời gian huấn luyện KSVM với bộ dữ liệu và tham số tƣơng ứng.

- Độ chớnh xỏc (AR) là độ chớnh xỏc của bộ nhận dạng đỏnh giỏ theo tập testing trỡnh bày ở trờn.

- Sai số lớp 1 (ER) là sai số của mỏy phõn cụm trong lớp thứ 1 của KSVM.

- Số cụm K là số cụm của lớp thứ nhất trong KSVM.

2.3.4. Phương phỏp nhận dạng dựa trờn khoảng cỏch soạn thảo

Theo [8] khoảng cỏch chuỗi soạn thảo (String edit-distance) là phƣơng phỏp dựa trờn tớnh chi phớ phải bỏ ra để hiệu chỉnh một chuỗi A cho trƣớc thành một chuỗi B cho trƣớc. Chuỗi A và Chuỗi B đƣợc biểu diễn bởi cỏc phần tử của tập hữu hạn cỏc ký tự cho trƣớc, mỗi ký tự đƣợc gỏn một trọng số nhất định thể hiện giỏ trị của ký tự đú. Cỏch chuyển đổi dựa trờn ba phộp toỏn xúa (delete), chốn (insert) và thay thế (change). Mỗi phộp toỏn này lại đƣợc quy định một chi

phớ nhất định để thực hiện đú, chẳng hạn nhƣ phộp “xúa” cú chi phớ bằng giỏ trị của ký tự bị xúa trong chuỗi; phộp “chốn” cú chi phớ bằng giỏ trị của ký tự đƣợc chốn thờm vào chuỗi; phộp “thay thế” cú chi phớ bằng tổng giỏ trị của ký tự bị thay thế và ký tự thay thế.

Áp dụng String edit-distance [10] vào nhận dạng chữ Nụm ta cú thể mụ tả nhƣ sau:

- Bằng phƣơng phỏp lấy đặc trƣng dựa trờn histogram của khung xƣơng hoặc giả khung đó trỡnh bày trờn, tập chữ Nụm huấn luyện (tập mẫu) sẽ đƣợc đƣa vào để trớch chọn đặc trƣng. Kết quả ta thu đƣợc là một tập cỏc đặc trƣng đƣợc lƣu lại dƣới dạng một cơ sở tri thức để phục vụ cho việc nhận dạng. Tập chữ Nụm huấn luyện càng phong phỳ thỡ tập dữ liệu huấn luyện đƣợc càng phong phỳ, kết quả nhận dạng càng chớnh xỏc;

- Khi nhận dạng một chữ Nụm ta cũng rỳt trớch đặc trƣng của chữ cần nhận dạng theo phƣơng phỏp trờn, sau đú chuỗi đặc chƣng đú đƣợc đem tớnh toỏn để chuyển đổi thành chuỗi đặc trƣng trong tập dữ liệu đó huấn luyện. Tƣơng ứng với mỗi chuỗi trong tập dữ liệu đó huấn luyện, chuỗi đặc trƣng của chữ cần nhận dạng sẽ phải tốn một giỏ trị cụ thể nào đú để cú thể chuyển đổi về cho giống nhau. Kết quả đƣợc lựa chọn là những chữ Nụm tƣơng ứng với chuỗi đặc trƣng trong tập dữ liệu đó huấn luyện mà chuỗi đặc trƣng của chữ cần nhận dạng phải tiờu tốn giỏ trị nhỏ nhất để chuyển đổi cho giống nú; - Cấu trỳc của chuỗi đặc trƣng gồm cỏc thành phần: Điểm ảnh tƣơng đối,

trọng số dọc, trọng số ngang, mó dọc, mó ngang, mó phõn bố nột dọc, mó phõn bố nột ngang. Trong quỏ trỡnh nhận dạng thỡ điểm ảnh tƣơng đối, trọng số dọc, trong số ngang dựng để phõn lớp, cú nghĩa là ta chỉ tớnh giỏ trị chuyển đổi giữa chuỗi đặc trƣng của chữ Nụm cần nhận dạng với những chuỗi đặc trƣng trong file tri thức đó huấn luyện mà cú điểm ảnh tƣơng đối, trọng số dọc, trong số ngang gần với điểm ảnh tƣơng đối, trọng số dọc, trong số ngang của chuỗi đặc trƣng rỳt trớch đƣợc từ chữ Nụm cần nhận dạng. Bằng cỏch phõn lớp này, thay vỡ phải tớnh giỏ chị chuyển đổi cho tất cả cỏc chuỗi đặc trƣng trong file tri thức đó huấn luyện thỡ chỉ cần tớnh trờn một số lƣợng nhỏ cỏc chuỗi, nờn giảm đƣợc chi phớa tớnh toỏn (thời gian và tài nguyờn thiết bị).

Để nhận dạng ta cần xõy dựng thuật toỏn tớnh khoảng cỏch hiệu chỉnh trờn chuỗi mó ngang, chuỗi mó dọc, mó phõn bố nột ngang và mó phõn bố nột dọc của chữ cần nhận dạng với chuỗi mó trong file huấn luyện. Với chuỗi mó dọc và mó ngang nhƣ trỡnh bày ở trờn, chỳng chỉ chứa cỏc ký tự L, M, S, U. Do đú ta cần gỏn giỏ trị cho mỗi ký tự này. Ở đõy gỏn L=8; M=4; S=2; U=1. Phộp toỏn chuyển đổi bao gồm phộp thay thế, phộp chốn, phộp xúa. Mỗi phộp toỏn cần một chi phớ nhất định. Phộp chốn một chữ cú chi phớ bằng giỏ trị của chữ cần chốn; Phộp xúa một chữ cú chi phớ bằng giỏ trị của chữ cần xúa; phộp thay thế một chữ bằng một chữ khỏc cú chi phớ bằng tổng giỏ trị của chữ thay thế và chữ bị thay thế.

Vớ dụ: Để chuyển chuối mó MLLU LLMU thành chuỗi LU LLU cần chi phớ chuyển đổi là 16 vỡ ta cần xúa bớt cỏc chữ “M”, “L”, “M”

Vớ dụ trong bảng dƣới đõy, chữ (2_0_NomNaTong_0_1) sau khi tớnh giỏ trị chuyển đổi sẽ cho kết quả là chữ (2_0_HanNomB_0_1) vỡ giỏ trị chuyển đổi của nú là nhỏ nhất (bằng 8)

Bảng 2.3. Mụ tả giỏ trị chuyển đổi giữa hai chữ Nụm

Chữ vào chữ vào Tập mẫu tập mẫu Giỏ chuyển đổi 2_0_NomNaTong_0_1 MLLU LLMU 267_0_NomNaTong_0_1 LU LLU 4+8+4=16 2_0_NomNaTong_0_1 MLLU LLMU 267_0_NomNaTong_0_0 LU LLU 4+8+4=16 2_0_NomNaTong_0_1 LLMU 2_0_HanNomB_0_1 LMU 4

Tƣơng tự vậy mó phõn bố nột ngang và mó phõn bố nột dọc đƣợc biểu diễn bởi cỏc số từ 0 đến 9, tƣơng ứng với nú 0 cú giỏ trị là 1; 1 cú giỏ trị là 2; 2 cú giỏ trị là 3… 9 cú giỏ trị là 10. Cỏc phộp toỏn chuyển đổi cũng bao gồm phộp thay thế, phộp chốn, phộp xúa. Phộp chốn một số cú chi phớ bằng giỏ trị của số cần chốn; Phộp xúa một số cú chi phớ bằng giỏ trị số cần xúa; phộp thay thế một số bởi một số khỏc cú chi phớ bằng tổng giỏ trị của số thay thế và số bị thay thế.

Vớ dụ: để chuỗi 0510205140 chuyển đổi thành chuỗi 0510406105 cần chi phớ là 12 đơn vị.

Kết thỳc quỏ trỡnh đỏnh giỏ chi phớ chuyển đổi, những chữ cú tổng chi phớ chuyển đổi chuỗi mó nhỏ nhất sẽ là kết quả nhận dạng.

Bảng 2.4. Kết quả thực nghiệm theo khoảng cỏch soạn thảo văn bản

Tập huấn luyện Số ký tự huấn luyện Tập nhận dạng Số ký tự nhận dạng Số ký tự nhận đỳng Đạt tỷ lệ HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomA_0_0 493 439 90% HanNomA_0_0, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomA_0_1 495 409 85% HanNomA_0_0, HanNomA_0_1, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomB_0_0 495 361 77% HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomB_0_1 495 349 78% HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_1 2685 NomNaTong_0_0 495 398 79% HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0 2685 NomNaTong_0_1 495 373 80% Tỷ lệ trung bỡnh nhận dạng đỳng qua 6 lần là 82%

2.3.5. So sỏnh, đỏnh giỏ cỏc phương phỏp

Đối với mỗi phƣơng phỏp kể trờn đều cú ƣu nhƣợc điểm khỏc nhau nhƣng nhỡn chung cỏc phƣơng phỏp đều đó tạo ra đƣợc cỏc hƣớng nghiờn cứu mang tớnh khả thi cao cho bài toỏn nhận dạng chữ Nụm.

Do chữ Nụm là hệ thống chữ tƣợng hỡnh viết theo dạng cú kớch thƣớc cố định và cỏc chữ khụng dớnh nờn khi dựng Tesseract để tỏch từ cũng dễ hơn so với tỏch từ trong cỏc ngụn ngữ khỏc. Tuy nhiờn sau khi tỏch từ thi một số ký tự tƣơng đối giống nhau và khú xỏc định hai “từ gốc” thuộc về hai ký tự khỏc nhau

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp nhận dạng chữ hán nôm dựa trên gốc từ (Trang 28)

Tải bản đầy đủ (PDF)

(118 trang)