Nhận dạng gốc từ dựa trờn mụ hỡnh Entropy cực đại- 123docz.net

Hỡnh 3 .1 Mụ hỡnh nhận dạng chữ Nụm dựa trờn gốc từ

Hỡnh 3.15 Nhận dạng gốc từ dựa trờn mụ hỡnh Entropy cực đại

Trong luận văn, chỳng tụi đó cài đặt và thử nghiệm phƣơng phỏp Entropy cực đại để nhận dạng gốc từ theo quy trỡnh trong Hỡnh 3.15. Tập đặc trƣng của gốc từ đƣợc minh họa nhƣ trong Hỡnh 3.16. Mỗi đặc trƣng là tọa độ điểm ảnh của cỏc gốc từ; mỗi đặc trƣng đƣợc ngăn cỏch bằng một khoảng trống; trƣờng cuối cựng là nhón của gốc từ (trong trƣờng hợp huấn luyện). Gốc từ này đƣợc tỏch ra từ ảnh chuẩn 100x100 của ký tự và đƣợc giữ nguyờn vị trớ trong ký tự. Hỡnh 3.18 minh họa cỏc gốc từ đƣợc phõn tỏch và nhận dạng từ một số chữ Nụm trong Hỡnh 3.17. Cỏc thành phần gốc từ Trớch chọn đặc trƣng Nhận dạng theo MEM Tập gốc từ Bắt đầu Huấn luyện Kết thỳc CSDL nhận dạng Tập đặc trƣng

Hỡnh 3.16. Biểu diễn đặc trưng của gốc từ trong chữ Nụm

Hỡnh 3.18. Kết quả tỏch gốc từ

3.3. Nhận dạng chữ Nụm dựa trờn gốc từ

3.3.1. Tập đặc trưng dựa trờn gốc từ

Ký tự đầu vào sau khi đƣợc tỏch thành cỏc thành phần gốc từ thỡ mỗi thành phần gốc từ sẽ cú tập đặc trƣng gồm số nột, điểm giao và loại gốc từ. Số nột và số điểm giao cú thể đƣợc xỏc định dễ dàng và nhanh chúng thụng qua phõn tớch khung xƣơng của ảnh. Việc thống kờ gốc từ thuộc loại nào trong số 21 loại gốc từ nhƣ đó đƣợc nờu ở mục 3.3.1 phải thực hiện thủ cụng do chớnh tỏc giả tự làm kết hợp với chuyờn gia chữ Nụm. Việc thống kờ loại gốc từ cú ý nghĩa rất quan trọng trong việc nhận dạng. Nú giỳp chỳng ta giảm đƣợc cỏc nhầm lẫn do cỏc gốc từ cú cựng số nột và số điểm giao vỡ một số gốc từ chỉ xuất hiện ở hữu hạn cỏc vị trớ duy nhất.

Theo phõn tớch trờn một số gốc từ cú số nột và số điểm giao giống nhau nhƣ Hỡnh 3.13. Trong vớ dụ này kết quả của việc so sỏnh số nột và số điểm giao cho ra nhiều kết quả.

Hỡnh 3.19. Cỏc gốc từ cú cựng số nột và số điểm giao

Sau khi tỏch cỏc gốc từ, chỳng ta phải xỏc định loại của cỏc gốc từ này là gỡ. Cú hai mục đớch cho việc này. Đầu tiờn, chỳng ta cú thể biết vị trớ xuất hiện của một gốc. Thứ hai, nú cú thể đƣợc sử dụng để phõn biệt hai hoặc nhiều ký tự giống nhau trong đú bao gồm cỏc gốc tƣơng tự nhƣng nằm ở vị trớ khỏc nhau nhƣ đó nờu trờn. Vớ dụ ký tự và bao gồm ba gốc , , và , cú thể phõn biệt một cỏch chớnh xỏc theo tiờu chớ này.

Trong hỡnh 3.19 là ký tự cần nhận dạng, cú 3 gốc từ đƣợc nhận ra đú là thuộc kiểu 3, thuộc kiểu 6, thuộc kiểu 8 là những mẫu đƣợc chọn để so sỏnh. thuộc kiểu 6 chỉ cần so sỏnh với mẫu

mà khụng cần so sỏnh với mẫu vỡ mẫu này khụng cú loại 6. Cuối

cựng chỳng ta sẽ cú đƣợc kết quả .

Đõy là chuỗi đặc trƣng của ký tự cần nhận dạng.

3.3.2. Nhận dạng dựa trờn so khớp gốc từ

Hỡnh 3.20. Nhận dạng chữ Nụm dựa trờn gốc từ

Để thực hiện việc nhận dạng bằng so khớp cú hiệu quả, một bảng tra cứu hai chiều đƣợc xõy dựng với hàng và cột đại diện cho số nột và số điểm chộo tƣơng ứng của nú. Phần tử (i, j) trong bảng tra cứu cú i nột và điểm j chộo. Định dạng của bảng tra cứu đƣợc thể hiện trong Bảng 3.6. Vớ dụ, danh sỏch cỏc ụ(9,4) cú chứa hai ký tự ( và ).

Bảng 3.6. Bảng tra cứu nột và điểm

Số điểm chộo Số nột 0 1 2 3 4 5 6 4 (4,0) (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) 5 (5,0) (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) 6 (6,0) (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)    10 (10,0) (10,1) (10,2) (10,3) (10,4) (10,5) (10,6) Chữ đơn Trớch chọn đặc trƣng Theo gốc từ Nhận dạng Mó Unicode Bắt đầu Huấn luyện Kết thỳc CSDL nhận dạng Tập đặc trƣng

11 (11,0) (11,1) (11,2) (11,3) (11,4) (11,5) (11,6) 12 (12,0) (12,1) (12,2) (12,3) (12,4) (12,5) (12,6) Bõy giờ, chỳng ta cú thể tiến hành cỏc cụng việc khớp mẫu nhƣ mụ tả dƣới đõy. Cho một ký tự đầu vào chƣa biết, chỳng ta đó cú một tập hợp thành phần cỏc gốc từ, ứng với mỗi gốc từ là cỏc trớch chọn đặc trƣng tƣơng ứng. Tập gốc từ sẽ đƣợc so sỏnh với những gốc từ cú cựng số nột và số điểm chộo. Tất cả cỏc kết hợp cú thể cú của cỏc gốc từ đƣợc cụng nhận là phự hợp với cơ sở dữ liệu tri thức. Vớ dụ, cỏc ký tự đầu vào trong đú cú 9 nột và 4 điểm chộo, sẽ đƣợc so sỏnh với hai ký tự và . Sau khi quỏ trỡnh kết hợp này, kết quả sẽ đƣợc tự động phõn loại thành bốn loại trạng thỏi:

S: Ký tự đƣợc so khớp thành cụng

M: Ký tự đƣợc nhận dạng sai hoặc khụng đƣợc nhận dạng

R: Ký tự đƣợc nhận dạng nhiều lần tức là cú hơn 1 kết quả nhận dạng

P: Ký tự đƣợc nhận dạng một phần (một vài phần cú thể khụng đƣợc nhận dạng) Một ký tự đầu vào đƣợc quyết định là khụng đƣợc nhận dạng nếu khụng cú gốc từ đƣợc nhận ra trong nú. Nếu cỏc kết quả nhận dạng là “R” hoặc “P”, cỏc ký tự đầu vào cần phải đƣợc xử lý một lần nữa trong giai đoạn tiếp theo.

Quỏ trỡnh so khớp đƣợc mụ tả nhƣ sau: Ứng với mỗi ký tự đầu vào, tỡm cấu trỳc và kiểu liờn kết của gốc từ trong cơ sở dữ liệu tri thức. Sau đú cỏc vộc tơ đặc trƣng của mỗi gốc từ sẽ đƣợc sử dụng để đối chiếu với mẫu và tỡm ra ký tự nhận dạng phự hợp nhất. Hỡnh 3.21 mụ tả một vớ dụ của giai đoạn này.

Hỡnh 3.21. Kết quả so sỏnh dựa vào vị trớ và đặc điểm của gốc từ

3.3.3. Nhận dạng dựa trờn đặc trưng gốc từ và mụ hỡnh Entropy cực đại

Trong phần này, chỳng tụi thử nghiệm phƣơng phỏp nhận dạng chữ Nụm theo mụ hỡnh Entropy cực đại với đặc trƣng gốc từ theo quy trỡnh trong Hỡnh 3.20. Tập đặc trƣng theo gốc từ đƣợc minh họa nhƣ trong Hỡnh 3.22. Tuy nhiờn, chỉ sử dụng đặc trƣng gốc từ kết quả khụng cao. Theo thực nghiệm trong luận văn, với chữ Nụm, kết quả đạt đƣợc khoảng 50%.

Để cải tiến kỹ thuật này, chỳng tụi đó kết hợp đặc trƣng gốc từ kết hợp với đặc trƣng đƣợc tạo từ tọa độ cỏc điểm ảnh trong gốc từ. Tập đặc trƣng đƣợc minh họa nhƣ trong Hỡnh 3.23. Theo đú, đặc trƣng của gốc từ ngoài cỏc đặc trƣng về loại gốc từ, vị trớ xuất hiện chỳng tụi cũn lấy thờm đặc trƣng theo tọa độ cỏc điểm ảnh của gốc từ. Kết quả đạt đƣợc trung bỡnh là 86.4%.

Hỡnh 3.22. Đặc trưng gốc từ

Hỡnh 3.23. Đặc trưng gốc từ kết hợp với tọa độ điểm ảnh

TỔNG KẾT CHƢƠNG 3

Chƣơng 3 đó trỡnh bày phƣơng phỏp nhận dạng chữ Nụm dựa trờn gốc từ. Trong chƣơng này tỏc giả đó trỡnh bày về cơ sở dữ liệu gốc từ, cấu trỳc và cỏc trớch chọn đặc trƣng của nú phục vụ cho việc nhận dạng, đề xuất phƣơng phỏp nhận dạng gốc từ theo mụ hỡnh Entropy cực đại. Trờn cơ sở nhận dạng gốc từ từ thành phần chữ Nụm, tỏc giả để xuất phƣơng phỏp nhận dạng chữ Nụm trờn cơ sở so khớp gốc từ và phƣơng phỏp sử dụng đặc trƣng gốc từ kết hợp mụ hỡnh Entropy cực đại.

Chƣơng 4. THỰC NGHIỆM 4.1. Mụ hỡnh thực nghiệm 4.1. Mụ hỡnh thực nghiệm

Hỡnh 4.1. Quy trỡnh tiến hành thực nghiệm

Quỏ trỡnh thực nghiệm đƣợc tiến hành theo ba bƣớc chớnh gồm chuẩn bị dữ liệu, huấn luyện, nhận dạng và đỏnh giỏ kết quả. Quỏ trỡnh chuẩn bị dữ liệu bao gồm việc chuẩn bị dữ liệu của gốc từ dựa trờn bộ dữ liệu Nom-DB0 gồm 495 chữ. Cỏc gốc từ đƣợc thống kờ theo chữ viết, õm đọc, mó unicode, số nột, số điểm giao, vị trớ xuất hiện trong chữ Nụm, số lần xuất hiện …

Chuẩn bị dữ liệu Chọn ký tự Tạo ảnh In và Scan ảnh Tỏch ảnh Tập 495 chữ Nụm Cỏc file ảnh Cỏc file ảnh scan Cỏc file ảnh chữ Nụm rời Thống kờ gốc từ Tạo ảnh In và Scan ảnh Tỏch ảnh Tập gốc từ Cỏc file ảnh gốc từ Cỏc file ảnh scan Cỏc file ảnh gốc từ Huấn luyện Tập đặc trƣng Trớch chọn đặc trƣng chữ

Nụm theo gốc từ Huần luyện theo MEM

CSDL nhận dạng chữ Nụm Tập đặc trƣng Trớch chọn đặc trƣng

gốc từ Huần luyện theo MEM

CSDL nhận dạng gốc từ Nhận dạng, đỏnh giỏ Kết quả đỏnh giỏ Trớch chọn đặc trƣng chữ Nụm theo gốc từ Nhận dạng Đỏnh giỏ Kết quả nhận dạng Tập đặc trƣng

Quỏ trỡnh huấn luyện thực chất là quỏ trỡnh lấy đặc trƣng bao gồm cỏc đặc trƣng của gốc từ và đặc trƣng của chữ của chữ Nụm theo gốc từ

Quỏ trỡnh nhận dạng chỳng tụi thử nghiệm trờn ảnh chữ rời, do phạm vi của luận văn chỉ tập trung vào việc nhận dạng bỏ qua bƣớc tiền xử lý và hậu xử lý nờn đối tƣợng nhận dạng là chữ nụm và gốc từ là chữ in, đƣợc in bằng font chữ Hỏn Nụm A. Tham khảo một số khuyến nghị của chuyờn gia về xõy dựng mẫu, tỏc giả in nhiều chữ Nụm trờn mặt giấy A4 đảm bảo độ phõn giải 300 DPI, kớch thƣớc tối thiểu 1 chữ 100x100 Pixel. Ảnh vào đƣợc lấy khung xƣơng sau đú đƣợc tỏch thành cỏc thành phần gốc từ, nhận dạng gốc từ bằng mụ hỡnh Entropy cực đại và xõy dựng chuỗi đặc trƣng theo gốc từ để nhận dạng. Cuối cựng là đỏnh giỏ thực nghiệm.

Việc thực nghiệm đƣợc tiến hành trờn mỏy tớnh Dell (Intelđ CoreTM i3- 4010U CPU@ 1.70GHz 1.70GHz, Ram 4GB), hệ điều hành Windowsđ 7 Home Premium 64-bit.

4.2. Xõy dựng chƣơng trỡnh thực nghiệm

Chƣơng trỡnh thực nghiệm đƣợc xõy dựng gồm 2 phần: Phõn tỏch, nhận dạng gốc từ và trớch chọn đặc trƣng dựa trờn gốc từ; Nhận dạng chữ Nụm theo mụ hỡnh Entropy cực đại và cỏc đặc trƣng dựa trờn gốc từ. Chƣơng trỡnh này đƣợc mụ tả cụ thể nhƣ trong Phụ lục C.

Phần nhận dạng gốc từ: chƣơng trỡnh thực hiện việc tỏch ký tự từ văn bản chữ nụm đó đƣợc chuẩn húa thành cỏc ký tự rời, lấy khung xƣơng của ký tự và tỏch thành cỏc thành phần gốc từ, lƣu cỏc thành phần gốc từ và lấy cỏc đặc trƣng của nú. Dựa trờn cỏc đặc trƣng của gốc từ là số nột, số điểm giao để nhận dạng theo mụ hỡnh Entropy cực đại.

Phần nhận dạng chữ Nụm: Dựa trờn việc phõn tớch và lấy cỏc trớch chọn đặc trƣng của gốc từ sử dụng phƣơng phỏp so khớp để nhận dạng đồng thời xõy dựng chƣơng trỡnh nhận dạng chữ Nụm theo mụ hỡnh Entropy cực đại với đặc trƣng gốc từ

Hỡnh 4.2. Giao diện chương trỡnh tạo gốc từ và lưu đặc trưng gốc từ

Hỡnh 4.3. Giao diện chương trỡnh huấn luyện

4.3. Bộ dữ liệu thực nghiệm

Bộ dữ liệu thực nghiệm là bộ dữ liệu Nom-DB0 gồm 495 chữ và bộ dữ liệu gốc từ RaNom-DB0 gồm 145 gốc từ đƣợc thống kờ trong Nom-DB0.

4.4. Kết quả thực nghiệm và đỏnh giỏ

Kết quả nhận dạng của 100 ký tự cú số lƣợng gốc từ là từ 2 đến 4 gốc từ với tập dữ liệu gốc từ là 32 đạt tỉ lệ nhận dạng 93%. Tỉ lệ nhận dạng của 495 ký tự với tập gốc từ là 145 đạt tỉ lệ nhận dạng là 86,4%, thời gian nhận dạng trung bỡnh của mỗi ký tự là 0.85s.

Từ kết quả nhận dạng và phõn tớch cỏc chữ đƣợc nhận dạng tỏc giả nhận thấy cỏc chữ cú cấu trỳc gốc từ nằm ở cỏc vị trớ từ 0 đến 4 và từ 14 đến 19 cú tỉ lệ nhận dạng rất cao do cỏc thành phần gốc từ dễ dàng đƣợc phõn tỏch. Cỏc gốc từ thuộc cỏc vị trớ cũn lại cú tỉ lệ nhận dạng kộm hơn do khoảng cỏch cỏc gốc từ và cỏc thành phần khỏc của chữ khụng rừ ràng dẫn đến việc tỏch gốc từ sai. Một lý do nữa dẫn đến việc kết quả nhận dạng chung chƣa cao là việc thụng kờ cỏc gốc từ của 495 ký tự cũn chƣa thật chớnh xỏc do làm thủ cụng và cú thể cú nhiều kết quả tỏch cho cựng một ký tự. Bảng 4.1. Kết quả thực nghiệm Mẫu 1 2 Số chữ 100 495 Số gốc từ 32 145 Số chữ nhận dạng đỳng 93 396 Tỉ lệ 93% 86,4%

Dựa trờn kết quả thực nghiệm và so sỏnh với cỏc phƣơng phỏp khỏc tỏc giả nhận thấy tỉ lệ nhận dạng của phƣơng phỏp gốc từ là khỏ chớnh xỏc và tỉ lệ này cú thể đƣợc cải thiện khi hoàn thành đầy đủ cơ sở dữ liệu gốc từ. Bảng 4.2 cho thấy kết quả so sỏnh tỉ lệ nhận dạng thành cụng trung bỡnh giữa cỏc phƣơng phỏp.

Bảng 4.2. So sỏnh kết quả nhận dạng giữa cỏc phương phỏp

STT Phƣơng phỏp Tỉ lệ nhận dạng TB

1. Mạng nơ-ron 84,6%

2. Mỏy vộc tơ hỗ trợ SVM 90,2%

3. Khoảng cỏch soạn thảo văn bản 82%

4. Gốc từ 86.4%

Mặc dự tỉ lệ nhận dạng chƣa phải là tốt nhất do phƣơng phỏp nhận dạng dựa trờn gốc từ kết hợp nhiều kỹ thuật, mỗi kỹ thuật đều cú sai số nhƣ sai số

trong quỏ trỡnh lấy khung xƣơng, sai số khi nhận dạng gốc từ, sai số khi nhận dạng từ,… Ngoài ra, một trong những nguyờn nhõn nữa dẫn kết quả chƣa tốt là do một số chữ nụm cú cấu tạo phức tạp, cỏc nột chữ dớnh vào nhau gõy khú khăn cho quỏ trỡnh tỏch và nhận dạng gốc từ. Do vậy nếu cải tiến, xử lý tốt cỏc kỹ thuật trong quỏ trỡnh nhận dạng để hạn chế cỏc sai số thỡ tỉ lệ nhận dạng sẽ tốt hơn.

TỔNG KẾT CHƢƠNG 4

Trong chƣơng 4, chỳng tụi trỡnh bày về quy trỡnh tiến hành thực nghiệm gồm cỏc bƣớc xõy dựng cơ sở dữ liệu đặc biệt là xõy dựng cơ sở dữ liệu gốc từ dựa trờn bộ dữ liệu Nom-DB0. Trờn cơ sở kết quả đạt đƣợc, tỏc giả đƣa ra một số nhận định căn cứ trờn kết quả thực nghiệm và so sỏnh với cỏc kết quả thực nghiệm của cỏc nghiờn cứu khỏc. Từ đú rỳt ra kết luận và hƣớng nghiờn cứu tiếp theo.

KẾT LUẬN

Trờn cơ sở tỡm hiểu chữ Nụm, tập trung về phƣơng diện cấu trỳc để đƣa ra nhận xột về tớnh phức tạp của chữ Nụm so với chữ Hỏn, cú hơn 10.000 chữ Nụm khụng cú hỡnh giống chữ Hỏn hay chữ tƣợng hỡnh khỏc, do đú về mặt khoa học việc nghiờn cứu xõy dựng bộ Nụm-OCR là cần thiết. Xõy dựng Nụm-OCR trờn nguyờn tắc kế thừa thuật toỏn, phƣơng phỏp giải quyết cho chữ tƣợng hỡnh và phải cải tiến cỏc thuật toỏn đó cú kết quả tốt cho nú. Kết hợp với cỏc nhu cầu thực tế về mặt nghiờn cứu Nụm học, lịch sử văn húa dõn tộc, về khớa cạnh tự hào dõn tộc cũng nhƣ phục vụ du lịch… thỡ việc xõy dựng NOM-OCR là rất cấp thiết.

Trờn cơ sở xỏc định cỏc vấn đề mấu chốt trong nhận dạng chữ Nụm là cấu trỳc phức tạp, số lƣợng chữ cỏi cực lớn, chỳng tụi đó tiếp cận bài toỏn nhận dạng chữ Nụm theo phƣơng phỏp gốc từ. Việc phõn tớch chữ Nụm thành cỏc gốc từ đƣa bài toỏn nhận dạng chữ Nụm với số lƣợng lớn, cấu trỳc phức tạp về bài toàn nhận dạng tập con là cỏc gốc từ cú cấu trỳc đơn giản hơn rất nhiều nhằm làm tăng hiệu quả nhận dạng. Tỏc giả cũng đó đề xuất phƣơng phỏp nhận dạng gốc từ dựa trờn mụ hỡnh Entropy cực đại để từ đú làm cơ sở cho việc nhận dạng chữ Nụm dựa trờn gốc từ.

Một trong những kết quả quan trọng của luận văn là xõy dựng đƣợc cơ sở dữ liệu gốc từ RaNom-DB0. Việc xõy dựng bộ dữ liệu gốc từ này mang ý nghĩa rất quan trọng khụng chỉ phục vụ cho quỏ trỡnh nhận dạng mà cũn giỳp hỗ trợ rất nhiều cho giai đoạn hậu xử lý của bài toỏn nhận dạng chữ Nụm tổng thể do nhúm LES-NOM đề xuất, đặc biệt là phần dịch nghĩa và tra từ điển do mỗi gốc từ đều mang ý biểu õm và biểu nghĩa nhất định trong chữ Nụm.

Tuy vậy luận văn cũng cũn cú nhiều hạn chế nhƣ việc tạo cơ sở dữ liệu gốc từ chỉ dừng lại trờn tập mẫu Nom-DB0 với 495 chữ, việc thống kờ gốc từ

Nhận dạng gốc từ dựa trờn mụ hỡnh Entropy cực đại

Kiến trỳc tổng quỏt của Tesseract

Kiờ́n trúc mạng nơ-ron