.1 Sơ đồ thuật toán GANN

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu ứng dụng mạng nơron trong nhận dạng chữ hán nôm (Trang 56)

Thuật toán kết hợp giải thuật di truyền và thuật toán lan truyền ngƣợc cho mạng MLP đƣợc đề xuất trong hình 4.1. Nó bao gồm hai giai đoạn luyện mạng.

Giai đoạn đầu tiên sử dụng thuật toán di truyền với bƣớc truyền thẳng nhằm đẩy nhanh toàn bộ quá trình luyện mạng. Thuật toán di truyền thực hiện

tìm kiếm toàn cục và tìm kiếm tối ƣu gần điểm ban đầu (trọng lƣợng vec-tơ) cho giai đoạn thứ hai. Trong đó, mỗi nhiễm sắc thể đƣợc sử dụng để mã hóa các trọng số của mạng nơ-ron. Hàm thích nghi (hàm mục tiêu) cho các thuật toán di truyền đƣợc xác định là tổng bình phƣơng lỗi của mạng nơ-ron tƣơng ứng. Do đó, bài toán sẽ trở thành tối ƣu hóa không giới hạn nhằm tìm một tập hợp các biến quyết định giảm thiểu hàm mục tiêu.

Trong giai đoạn thứ 2 sẽ sử dụng kỹ thuật lan truyền ngƣợc với hệ số học nhỏ.

4.3 Thực nghiệm

4.3.1 Quy trình thực nghiệm

Quy trình thực nghiệm đƣợc tiến hành theo 3 bƣớc chính: chuẩn bị dữ liệu, huấn luyện mạng và nhận dạng.

Chuẩn bị dữ liệu Chọn ký tự Tạo ảnh In và Scan ảnh Tách ảnh Tập 495 chữ Nôm Các file ảnh Các file ảnh scan Các file ảnh chữ Nôm rời Huấn luyện Mạng đã huấn luyện Lấy ảnh, trích chọn đặc trƣng Huấn luyện mạng Tập ảnh huấn luyện Nhận dạng Lấy ảnh, trích chọn Đánh giá

4.3.2 Xây dựng bộ dữ liệu thực nghiệm

Dữ liệu là thành phần quan trọng trong việc thử nghiệm và đánh giá phƣơng pháp nhận dạng và c ng là cơ sở để đánh giá ết quả nhận dạng có chính xác hay không. Do cơ sở dữ liệu để phục vụ đề tài chƣa có, nên nhóm nghiên cứu phòng thì nghiệm hệ thống nhúng đã tiến hành xây dựng bộ dữ liệu thực bằng cách thống kê những chữ xuất hiện trên 10 lần trong bộ Truyện Kiều của đại thi hào Nguyễn Du. Kết quả thống ê thu đƣợc 495 chữ. Với bộ dữ liệu 495 chữ đó, chúng tôi sử dụng 3 loại font khác nhau là Hán Nôm A, Hán Nôm B, Nôm Na Tông, mỗi font lấy hai kiểu chữ là chữ đậm và chữ thƣờng. Nhƣ vậy mỗi chữ có 6 mẫu, tổng số mẫu của bộ dữ liệu là 2970. Mỗi mẫu ký tự đặt tên theo quy tắc: ID_Mẫu_Font_ Kiểu.

Trong đó:

- ID là mã đặt cho ý tự, mỗi ý tự có 1 ID khác nhau.

- Mẫu là chế độ lấy mẫu, đánh số 0, 1, 2… với bộ dữ liệu này thì Mẫu luôn là 0 vì đƣợc lấy theo c ng một chế độ scan chữ in trên giấy trắng hổ 4, mực in màu đen.

- Font là tên font chữ của mẫu.

- Kiểu là 0_0 nếu là chữ thƣờng, và 0_1 nếu là chữ đậm.

Hình 4.3 một số mẫu chữ Nôm trong bộ dữ liệu thực nghiệm

Bộ dữ liệu thử nghiệm này có chất lƣợng tốt, độ nhiễu loạn gần nhƣ không có, sau khi thành công với bộ dữ liệu này chúng tôi sẽ tiếp tục xây

dựng những bộ dữ liệu với mức độ nhiễu khác nhau nhằm cải tiến khả năng nhận dạng của chƣơng trình ở những điều kiện chữ nhiễu loạn khác nhau.

4.3.3 Tiến hành thực nghiệm

4.3.3.1 Phương pháp kiểm chứng

K-fold cross validation [14] là một phƣơng pháp iểm chứng chéo, bộ dữ liệu kiểm chứng đƣợc chia ra làm K tập. Lần lƣợt thực hiện K lần kiểm chứng quay vòng, mỗi lần dùng 1 tập mẫu để thử nghiệm và K-1 tập còn lại để huấn luyện. Lỗi xuất hiện qua K lần kiểm chứng đƣợc tính trung bình.

Để thực nghiệm với K-fold cross validation thì việc lấy mẫu thử và mẫu huấn luyện phải lấy ngẫu nhiên, tuy nhiên để kiểm tra tính suy đoán của phƣơng pháp, chúng tôi thực nghiệm theo phƣơng pháp tựa K-fold cross validation, nghĩa là với bộ dữ liệu thực nghiệm trên chúng tôi quyết định lựa chọn 5 tập mẫu thuộc 5 bộ chữ hác nhau để huấn luyện, 1 bộ mẫu thuộc tập còn lại để thực nghiệm. Nhƣ vậy tập huấn luyện và tập nhận dạng thử nghiệm không giao nhau về kiểu chữ và font chữ, khả năng suy diễn của phƣơng pháp nhận dạng đƣợc kiểm tra, chƣơng trình sẽ sử dụng bộ tri thức của kiểu font này nhận dạng bộ ảnh chữ của font ia đƣợc thử nghiệm đánh giá. Từ đó có thể đánh hả năng ứng dụng thực tế của phƣơng pháp.

4.3.3.2 Thực nghiệm

Chƣơng trình đƣợc thực nghiệm trên máy tính Lenovo X220, có bộ vi xử lý Intel(R) Core(TM) i5-2520M CPU @2.5GHz 2.5GHz, Ram 2GB và đƣợc cài đặt hệ điều hành indows 7.

Chƣơng trình đƣợc thiết kế với giao diện nhƣ trong các hình 4.4, 4.5, 4.6.

Hình 4.4 Giao diện cấu hình mạng

Lựa chọn cấu hình mạng khi tiến hành thử nghiệm bao gồm số lớp trong mạng, số nơ-ron trong mỗi lớp, và lựa chọn các tham số cho quá trình học nhƣ ngƣỡng lỗi, hệ số học, hàm truyền.

Hình 4.5 Giao diện lựa chọn tham số cho GA

Cấu hình NST cho phép lựa chọn các tham số cho giải thuật di truyền bao gồm: tỷ lệ lai ghép, đột biến, số thế hệ, ích thƣớc quần thể. Và cho phép ta thấy đƣợc bộ trong số tối ƣu có đƣợc sau quá trình thực hiện với giải thuật di truyền.

Hình 4.6 Giao diện huấn luyện mạng và nhận dạng 4.4 Đánh giá kết quả 4.4 Đánh giá kết quả

Để đảm bảo việc kết hợp giải thuật di truyền tìm ra đƣợc bộ trọng số tốt nhất phục vụ cho quá trình huấn luyện tiếp theo, tôi đã tiến hành thử nghiệm GA với các phép toán lai ghép và đột biến hác nhau (đã đƣợc trình bày trong chƣơng 3) và nhận thấy rằng phép lai BLX 0,5 và phép đột biến đồng dạng tỏ ra hiệu quả hơn cả.

Và để tiện so sánh việc thực hiện giải thuật GANN với việc dùng thuật toán lan truyền ngƣợc nguyên thủy, tôi dùng chung bộ tham số cho cả 2 thử nghiệm này. Về cấu hình mạng nơ-ron: số lớp trong mạng là 5, trong đó 3 lớp ẩn, mỗi lớp đều có 10 nơ-ron, lớp vào là 100 nơ-ron và lớp ra là 1 nơ-ron, hệ số học: 0,02 và ngƣỡng lỗi là 0,001. Đối với giải thuật GA và GANN: phép lai đƣợc sử dụng là BLX 0,5 với tỷ lệ lai ghép 0,8 và phép đột biến đồng dạng với tỷ lệ đột biến là 0,1, kích cỡ quần thể là 100 và tiến hành tìm kiếm qua 1000 thế hệ.

Bảng 4.2 Kết quả thực nghiệm với mạng GANN Tập mẫu huấn Tập mẫu huấn luyện Số ký tự huấn luyện Tập nhận dạng Số ký tự nhận dạng Tỷ lệ nhận dạng đúng HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomA_0_0 495 90,01% HanNomA_0_0, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomA_0_1 495 84,48% HanNomA_0_0, HanNomA_0_1, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomB_0_0 495 87,27% HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomB_0_1 495 88,28% HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_1 2685 NomNaTong_0_0 495 82,82% HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0 2685 NomNaTong_0_1 495 85,45% Tỷ lệ nhận dạng trung bình: 86,39%

Bảng 4.3 Kết quả thực nghiệm với mạng ANN Tập huấn luyện Tập huấn luyện Số ký tự huấn luyện Tập nhận dạng Số ký tự nhận dạng Tỷ lệ nhận dạng đúng HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomA_0_0 495 89.89% HanNomA_0_0, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomA_0_1 495 60.00% HanNomA_0_0, HanNomA_0_1, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomB_0_0 495 75.55% HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, NomNaTong_0_0, NomNaTong_0_1 2685 HanNomB_0_1 495 74.54% HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_1 2685 NomNaTong_0_0 495 86.26% HanNomA_0_0,

Từ kết quả nhận dạng trên, ta có thể thấy hiệu quả của việc áp dụng giải thuật di truyền trong việc khởi tạo bộ trọng số ban đầu cho mạng. Khi thực hiện với GANN kết quả cao nhất đạt tới 90,01%, kết quả nhận dạng trung bình đạt 86,39 % trong khi sử dụng thuật toán lan truyền ngƣợc nguyên thủy chỉ đạt mức 74,49%. Kết quả nhận dạng này khẳng định việc khởi tạo trọng số ban đầu ảnh hƣởng tới kết quả việc huấn luyện mạng nơ-ron và c ng cho thấy rằng việc áp dụng giải thuật di truyền để tối ƣu đầu vào cho việc huấn luyện mạng thực sự mang lại kết quả tốt hơn hẳn so với mạng nơ-ron và thuật toán lan truyền ngƣợc nguyên thủy.

Tổng kết chƣơng 4

Chƣơng 4 trình bày ết quả khảo sát sự hội tụ của mạng nơ-ron, khẳng định thêm nhận xét về ƣu nhƣợc điểm khi sử dụng mạng nơ-ron và giải thuật di truyền trong bài toán tìm kiếm tối ƣu. Từ cơ sở đó đƣa ra giải thuật kết hợp mạng nơ-ron và giải thuật di truyền nhằm tạo ra bộ nhận dạng hiệu quả cho bài toán nhận dạng chữ Hán-Nôm. Trình bày quy trình hực nghiệm, đánh giá kết quả sử dụng thuật toán đề xuất trong việc nhận dạng chữ Hán-Nôm. So sánh với việc áp dụng mạng nơ-ron và thuật toán lan truyền ngƣợc nguyên thủy. Khẳng định nhận định ban đầu là đúng và là cơ sở cho những nghiên cứu tiếp theo về ứng dụng mạng nơ-ron trong nhận dạng chữ Hán-Nôm.

KẾT LUẬN Kết quả đạt đƣợc

Luận văn đã trình bày hái quát về chữ Nôm, lịch sử hình thành, cấu tạo chữ. Từ đó chỉ ra rằng chữ Nôm có cấu tạo Luận văn đã trình bày hái quát về chữ Nôm, lịch sử hình thành, cấu tạo chữ. Từ đó chỉ ra rằng chữ Nôm có cấu tạo Luận văn đã trình bày hái quát về chữ Nôm, lịch sử hình thành, cấu tạo chữ. Từ đó chỉ ra rằng chữ Nôm có cấu tạo phức tạp hơn chữ Hán rất nhiều, vì vậy các kỹ thuật áp dụng tốt cho chữ Hán chƣa hẳn đã tốt cho chữ Nôm. Do đó việc xây dựng bộ nhận dạng chữ Hán-Nôm là yêu cầu cấp thiết để bảo tồn di sản chữ Nôm của nƣớc nhà.

Luận văn c ng tìm hiểu và trình bày các kiến thức cơ bản về mạng nơ-ron và giải thuật di truyền. Phân tích ƣu điểm c ng nhƣ hạn chế của từng phƣơng pháp. Trên cơ sở tìm hiểu kinh nghiệm của các nƣớc trên thế giới về việc sử dụng mạng nơ-ron trong nhận dạng chữ tƣợng hình, c ng nhƣ các nghiên cứu về kết hợp mạng nơ-ron với giải thuật di truyền trong nhận dạng chữ viết tay. Từ đó đề xuất giải thuật GANN(giải thuật kết hợp mạng nơ-ron với giải thuật di truyền ).

Trên cơ sở đó tiến hành thực nghiệm với bộ dữ liệu gồm 2970 chữ do nhóm nghiên cứu Les Nôm xây dựng. Kết quả thu đƣợc đã thể hiện sự tốt hơn đáng ể so với việc chỉ sử dụng mạng nơ-ron và thuật toán lan truyền ngƣợc nguyên thủy. Khẳng định nhận định ban đầu là đúng và là cơ sở cho những nghiên cứu tiếp theo về ứng dụng mạng nơ-ron trong nhận dạng chữ Hán-Nôm. hơn chữ Hán rất nhiều, vì vậy các kỹ thuật áp dụng tốt cho chữ Hán chƣa hẳn đã tốt cho chữ Nôm. Do đó việc xây dựng bộ nhận dạng chữ Hán-Nôm là yêu cầu cấp thiết để bảo tồn di sản chữ Nôm của nƣớc nhà.

Luận văn c ng tìm hiểu và trình bày các kiến thức cơ bản về mạng nơ-ron và giải thuật di truyền. Phân tích ƣu điểm c ng nhƣ hạn chế của từng phƣơng pháp. Trên cơ sở tìm hiểu kinh nghiệm của các nƣớc trên thế giới về việc sử dụng mạng nơ-ron trong nhận dạng chữ tƣợng hình, c ng nhƣ các nghiên cứu về

đáng ể so với việc chỉ sử dụng mạng nơ-ron và thuật toán lan truyền ngƣợc nguyên thủy. Khẳng định nhận định ban đầu là đúng và là cơ sở cho những nghiên cứu tiếp theo về ứng dụng mạng nơ-ron trong nhận dạng chữ Hán-Nôm. hơn chữ Hán rất nhiều, vì vậy các kỹ thuật áp dụng tốt cho chữ Hán chƣa hẳn đã tốt cho chữ Nôm. Do đó việc xây dựng bộ nhận dạng chữ Hán-Nôm là yêu cầu cấp thiết để bảo tồn di sản chữ Nôm của nƣớc nhà.

Luận văn c ng tìm hiểu và trình bày các kiến thức cơ bản về mạng nơ-ron và giải thuật di truyền. Phân tích ƣu điểm c ng nhƣ hạn chế của từng phƣơng pháp. Trên cơ sở tìm hiểu kinh nghiệm của các nƣớc trên thế giới về việc sử dụng mạng nơ-ron trong nhận dạng chữ tƣợng hình, c ng nhƣ các nghiên cứu về kết hợp mạng nơ-ron với giải thuật di truyền trong nhận dạng chữ viết tay. Từ đó đề xuất giải thuật GANN(giải thuật kết hợp mạng nơ-ron với giải thuật di truyền ).

Trên cơ sở đó tiến hành thực nghiệm với bộ dữ liệu gồm 2970 chữ do nhóm nghiên cứu Les Nôm xây dựng. Kết quả thu đƣợc đã thể hiện sự tốt hơn đáng ể so với việc chỉ sử dụng mạng nơ-ron và thuật toán lan truyền ngƣợc nguyên thủy. Khẳng định nhận định ban đầu là đúng và là cơ sở cho những nghiên cứu tiếp theo về ứng dụng mạng nơ-ron trong nhận dạng chữ Hán-Nôm.

Hƣớng phát triển

Tiếp tục thử nghiệm giải thuật GANN với các phƣơng pháp trích chọn đặc trƣng hác nhau.

Kết hợp giải thuật di truyền để lựa chọn các kết nối giữa các nơ-ron, nhằm tăng tốc độ trong quá tình huấn luyện.

TÀI LIỆU THAM KHẢO Tiếng Việt

[1] Nguyễn Tuấn Cƣờng, “Thời điểm xuất hiện chữ Nôm và sơ đồ cấu trúc chữ Nôm”, 2009.

[2] Phạm Văn Hƣởng, Trần Minh Tuấn, Nguyễn Thị Ngọc Hƣơng, Bùi Thị Hồng Hạnh, Lê Hồng Trang, V Thanh Nhân, Trƣơng nh Hoàng, V Quang D ng, Nguyễn Ngọc Bình (2008), “Một số phƣơng pháp nhận dạng chữ Nôm”, Hội thảo Khoa học Quốc gia Lần thứ IV về CNTT-TT (ICT.rda’2008), Hà Nội.

[3] GS.TSKH. Nguyễn Quang Hồng, hái ược văn tự học ch Nôm, Nhà xuất bản giáo dục, 2008.

Tiếng Anh

[4] Mingrui Wu, Bo Zhang, Ling Zhang, “A Neural Network Based Classifier for Handwritten Chinese Character Recognition”, ICPR'00 - Volume 2, 2000.

[5] Il-SeokOh, Ching Y. Suen, “A class-modular feedforward neural network for handwriting recognition”, Pattern Recognition 35 (2002) 229-244

[6] Srinivasa Kumar Devireddy, Settipalliappa Rao(2009), “Hand written character recognition using back propagation network”, Journal of Theoretical and Applied Information Technology.

[7] Richard Romero, Robert Berger, Robert Thibadeau, and Dave Touretsky, “Neural Network Classifiers for Optical Chinese Character Recognition”.

[8] Richard Romero, David Touretzky, and Robert Thibadeau, “Optical Chinese Character Recognition using Probabilistic Neural Networks”.

[9] D.E. Rumelhart; G.E. Hinton and R.J. Williams (1986), “Learning internal representations by error propagation”, Parallel distributed processing: Explorations in the microstructure of cognition (Cambridge MA.: MIT

[11] Geva, Shlomo, and Joaquin Sitte: “Adaptive Nearest Neighbor Pattern C assification, IEEE Transactions on Neural Networks”, 1991, Vol.2, No. 2. [12] H.-H. Song, S.-W.Lee, “A self-organizing neural tree forlarge-set pattern

classication”, IEEE Trans. Neural Net-works 9 (3) (1998) 369}380.

[13] H.-M. Lee, C.-C.Lin, J.-M.Chen, “A preclassi"cationmethod for handwritten Chinese character recognition viafuzzy rules and SEART neural net”, Int. J. Pattern Recogni-tion Artif.Intell.12 (6) (1998) 743}761.

[14] Juan Diego Rodrıguez, ritz Perez, Jose ntonio Lozano, Member, IEEE, “Sensitivity Ana ysis of k-Fold Cross Validation in Prediction Error Estimation”, IEEE Transactions on pattern analysis and machine intelligence, Vol. 32, No. 3, March 2010.

[15] Jeffrey T. Spooner, Mangredi Maggiore, Raúl Ordónez, Kelvin M. Passino (2002), “Stable Adaptive Control and Estimation for Nonlinear Systems: Neural and Fuzzy Approximator Techniques”, Wiley Interscience, USA.].

[16] Jyh-Shing Roger Jang, Chuen-Tsai Sun, Eiji Mizutani (1996), “Neuro- Fuzzy and Soft Computing: A Computational Approach to Learning and Machine Intelligence”, Prentice Hall, USA.].

[17] L.F.A. Wessels, E. Barnard, “Avoiding false local minima by proper initialization of connections”, IEEE Trans. Neural Networks 3 (1992) 899- 905.

[18] R.Ashok Kumar Reddy, G. Venkata Narasimhulu, Dr. S. A. K. Jilani, Dr D.Seshappa, “Genetic Algorithm based Gait Recognition”, International Journal of Electronics and Computer Science Engineering ISSN- 2277-1956. [19] David J. Montana, Lawrence Davis “Training feedforward neural networks using genetic algorithms” IJC I'89 Proceedings of the 11th international joint conference on Artificial intelligence - Volume 1.

[20] Yas bbas lsultanny, Musbah M. qel, “Pattern recognition using multilayer neural-genetic algorithm”, Neurocomputing 51 (2003) 237 – 247.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu ứng dụng mạng nơron trong nhận dạng chữ hán nôm (Trang 56)

Tải bản đầy đủ (PDF)

(68 trang)