1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ Hán Nôm

68 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 68
Dung lượng 895,25 KB

Nội dung

Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ HánNômLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ HánNômLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ HánNômLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ HánNômLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ HánNômLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ HánNômLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ HánNômLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ HánNômLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ HánNômLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ HánNômLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ HánNômLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ HánNômLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ HánNômLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ HánNômLuận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ HánNôm

ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRƢƠNG THỊ HƢƠNG TRƢƠNG THỊ HƢƠNG NGHIÊN CỨU ỨNG DỤNG MẠNG NƠ RON TRONG NGHIÊN CỨU ỨNG DỤNG MẠNG NƠ RON TRONG NHẬN DẠNG CHỮ HÁN-NÔM NHẬN DẠNG CHỮ HÁN-NÔM LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2014 Hà Nội – 2014 ĐẠI HỌC HỌC QUỐC QUỐC GIA GIA HÀ HÀ NỘI NỘI ĐẠI TRƢỜNG ĐẠI ĐẠI HỌC HỌC CÔNG CÔNG NGHỆ NGHỆ TRƢỜNG TRƢƠNG THỊ HƢƠNG NGHIÊN CỨU ỨNG DỤNG MẠNG NƠ RON TRONG NHẬN DẠNG DẠNG CHỮ CHỮ HÁN-NƠM HÁN-NƠM NHẬN Ngành: Ngành: Cơng Công nghệ nghệthông thông tin tin Chuyên Chuyên ngành: ngành:Kỹ Kỹthuật thuật phần phần mềm mềm Mã Mãsố: số: 60480103 60480103 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG KHOA HỌC: PGS.TS NGƢỜI DẪN HƢỚNG DẪN KHOA HỌC:NGUYỄN NGỌC BÌNH PGS.TS NGUYỄN NGỌC BÌNH Hà Nội – 2014 Hà Nội – 2014 LỜI CAM ĐOAN Tên Trƣơng Thị Hƣơng, học viên cao học K18, chuyên ngành Cơng nghệ phần mềm, khố 2011-2013 Tơi xin cam đoan luận văn thạc sĩ “Nghiên cứu ứng dụng mạng Nơ ron nhận dạng chữ Hán-Nơm” cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chƣa đƣợc cơng bố cơng trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn đƣợc cảm ơn thơng tin trích dẫn Luận văn đƣợc rõ nguồn gốc Học viên thực Luận văn Trƣơng Thị Hƣơng LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới Phó giáo sƣ - Tiến sĩ Nguyễn Ngọc Bình, ngƣời thầy kính mến hết lòng giúp đỡ tạo điều iện thuận lợi cho tơi suốt q trình học tập hồn thành luận văn tốt nghiệp Tôi xin gửi lời cảm ơn tới Tiến sĩ Nguyễn Tuấn Cƣờng, Tiến sĩ Nguyễn Đức D ng giúp giới thiệu cho chữ Nơm, lịch sử hình thành phát triển, thành phần cấu tạo chữ Nôm, chia s cho inh nghiệm nghiên cứu công nghệ nhận dạng Tôi xin gửi lời cảm ơn đến NCS Phạm Văn Hƣởng, ngƣời có nhiều kinh nghiệm làm việc vấn đề nhận dạng chữ Nôm, chia s với nhiều kiến thức kinh nghiệm q báu để tơi hồn thành luận văn Tơi c ng xin đƣợc gửi lời cảm ơn đến bạn nhóm nghiên cứu nhận dạng chữ Nơm trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội, ngƣời chia s kết nghiên cứu, đóng góp cho tơi ý kiến q báu chia s kinh nghiệm hay cho muổi semina hàng tuần Tôi xin đƣợc gửi lời cảm ơn đến tác giả, nhóm tác giả giáo trình, cơng trình khoa học báo khoa học mà tham khảo để hoàn thiện luận văn Tác giả DANH MỤC BẢNG BIỂU Bảng 2.1 Một số hàm truyền thông dụng 15 Bảng 4.1 Kết khảo sát hội tụ mạng nơ-ron 47 Bảng 4.2 Kết thực nghiệm với mạng GANN 54 Bảng 4.3 Kết thực nghiệm với mạng ANN 55 DANH MỤC HÌNH VẼ Hình 1.1 Mơ hình nhận dạng chữ Hán - Nơm 10 Hình 2.1 Cấu tạo tế bào nơ-ron sinh học 13 Hình 2.2 Nơ-ron nhân tạo 14 Hình 2.3 Mạng tự kết hợp 17 Hình 2.4 Mạng kết hợp khác kiểu 17 Hình 2.5 Mạng truyền thẳng 18 Hình 2.6 Mạng hồi quy 18 Hình 2.7 Mối liên hệ sai số ích thƣớc mẫu 21 Hình 2.8 Cấu trúc SAINT 31 Hình 4.1 Sơ đồ thuật toán GANN 48 Hình 4.2 Quy trình tiến hành thực nghiệm 49 Hình 4.3 số mẫu chữ Nôm liệu thực nghiệm 50 Hình 4.4 Giao diện cấu hình mạng 52 Hình 4.5 Giao diện lựa chọn tham số cho GA 52 Hình 4.6 Giao diện huấn luyện mạng nhận dạng 53 MỤC LỤC MỞ ĐẦU Chƣơng TỔNG QUAN 1.1 Lịch sử đời chữ Nôm [1, 3] 1.2 Cấu tạo chữ Nôm 1.2.1 Mƣợn âm nghĩa chữ Hán 1.2.2 Mƣợn nghĩa chữ Hán, hông mƣợn âm 1.2.3 Mƣợn âm chữ Hán, không thiết mƣợn nghĩa 1.2.4 Ghép hai chữ Hán với 1.2.5 Thêm, bớt nét 1.3 Các nghiên cứu chữ Nôm 1.4 Mơ hình nhận dạng tổng thể phạm vi nghiên cứu Chƣơng MẠNG NƠ-RON 12 2.1 Nơ-ron sinh học 12 2.2 Mạng nơ-ron nhân tạo 13 2.3 Các kiểu mơ hình mạng Nơ-ron 16 2.4 Huấn luyện xây dựng mạng Nơ-ron 18 2.4.1 Các phƣơng pháp học 18 2.4.2 Các vấn đề xây dựng mạng nơ-ron 20 2.5 Đánh giá nhân tố trình học 25 2.5.1 Khởi tạo trọng số 25 2.5.2 Bƣớc học α 25 2.5.3 Hằng số quán tính 26 2.6 Một số ứng dụng mạng Nơ-ron nhận dạng chữ tƣợng hình 26 2.6.1 Back-Propagated Neural Network [5, 6, 9] 26 2.6.2 Mạng nơ-ron xác suất (ProbabilisticNeural Networks – PNN) [8] 28 2.6.3 Mạng nơ-ron thơng minh tự thích nghi (structurally adaptive intelligent neural tree - SAINT) [12] 31 Chƣơng 3: GIẢI THUẬT DI TRUYỀN 34 3.1 Cơ sở thực tiễn giải thuật di truyền 34 3.2 Cơ chế thực giải thuật di truyền 35 3.3 Các thành phần giải thuật di truyền 37 3.4 Các toán tử di truyền 39 3.4.1 Toán tử chọn lọc 39 3.4.2 Toán tử lai ghép 40 3.4.3 Toán tử đột biến 43 3.5 Các tham số giải thuật di truyền 44 Chƣơng NHẬN DẠNG CHỮ HÁN-NÔM DỰA TRÊN MẠNG NƠ-RON KẾT HỢP GA 46 4.1 Khảo sát hội tụ mạng nơ-ron 46 4.2 Thuật toán GANN 47 4.3 Thực nghiệm 49 4.3.1 Quy trình thực nghiệm 49 4.3.2 Xây dựng liệu thực nghiệm 50 4.3.3 Tiến hành thực nghiệm 51 4.4 Đánh giá ết 53 KẾT LUẬN 57 MỞ ĐẦU Chữ Nơm đƣợc hình thành phát triển từ kỷ X tới kỷ XX Là di sản văn hóa, có vai trị đặc biệt quan trọng việc tạo nên văn học rực rỡ xuyên suốt nhiều kỷ Viện Nghiên cứu Hán Nôm Việt Nam lƣu giữ hàng trăm ngàn đơn vị tƣ liệu chữ Nơm có giá trị việc nghiên cứu đời sống ngƣời Việt thời xa xƣa nhiều mảng lĩnh vực: văn học, tƣ tƣởng, triết học, ngôn ngữ, luật pháp, đạo đức… Tuy nhiên số ngƣời đọc viết chữ Nơm nƣớc ta cịn khơng nhiều, việc đƣa chữ Nơm vào máy tính, xây dựng từ điển chữ Nơm, nhận dạng, đốn nhận khơi phục chữ Nôm lỗi, thiếu lĩnh vực nghiên cứu có ý nghĩa thực tiễn quan trọng Mạng nơ-ron cơng cụ nhận dạng tốt đặc trƣng sau: Khả học từ kinh nghiệm (khả đƣợc huấn luyện), khả xử lý song song với tốc độ xử lý nhanh, khả học thích nghi, khả hái qt hố cho đầu vào khơng đƣợc huấn luyện, ví dụ dựa vào cách học mạng tiên đốn đầu từ đầu vào trƣớc [15, 16] Tuy nhiên nhƣợc điểm dùng mạng nơ-ron chƣa có phƣơng pháp luận chung thiết kế cấu trúc mạng cho toán nhận dạng điều khiển mà phải cần tới kiến thức chuyên gia Mặt khác xấp xỉ mạng nơron với hệ phi tuyến hó hăn hi luyện mạng khơng tìm đƣợc điểm tối ƣu tồn cục Vì tồn lớn gặp phải tìm nghiệm tối ƣu tồn cục, đặc biệt áp dụng cho tốn lớn, hệ thống điều khiển trình Trong luận văn tơi trình bày hồn chỉnh phƣơng pháp ứng dụng mạng nơ-ron nhận dạng chữ Hán-Nôm với mong muốn đƣa phƣơng pháp nhận dạng tốt, góp phần xây dựng cơng cụ nhận dạng, chuyển đổi văn chữ Hán-Nôm thành chữ Quốc ngữ nhằm làm sáng tỏ giá trị văn hóa lƣu trữ Cấu trúc luận văn gồm phần nhƣ sau: Chương Tổng quan: Nội dung chƣơng trình bày tổng quan chữ Nơm, lịch sử hình thành phát triển chữ Nơm, mơ hình tổng quan hệ thống nhận dạng chữ Nôm Chương Mạng Nơ-ron: Nội dung chƣơng trình bày tổng quan mạng Nơ-ron, cách xây dựng mạng, đánh giá yếu tố trình huấn luyện mạng tổng hợp số phƣơng pháp nhận dạng chữ tƣợng hình dựa mạng Nơ-ron Chương Giải thuật di truyền: Chƣơng giới thiệu giải thuật di truyền, thành phần giải thuật di truyền Chương Nhận dạng chữ Hán-Nôm dựa mạng nơ-ron kết GA: Chƣơng đề xuất phƣơng pháp ết hợp giải thuật di truyền trình huấn luyện mạng Nơ-ron nhằm tìm số tối ƣu cho mạng Trình bày kết thực nghiệm nhận dạng 2970 chữ Hán-Nơm Phần kết luận: Phần trình bày đóng góp luận văn, tồn tại, hạn chế chƣa đƣợc giải hƣớng giải 46 Chƣơng NHẬN DẠNG CHỮ HÁN-NÔM DỰA TRÊN MẠNG NƠ-RON KẾT HỢP GA Nhƣ phân tích chƣơng 2, trọng số ban đầu c ng yếu tố ảnh hƣởng tới trình huấn luyện mạng Nếu trọng số đƣợc khởi tạo với giá trị lớn từ đầu tổng tín hiệu vào có giá trị tuyệt đối lớn làm cho đầu mạng đạt giá trị Điều làm cho hệ thống bị tắc cực tiểu cục vùng phẳng gần điểm xuất phát Do trọng số thƣờng đƣợc khởi tạo số ngẫu nhiên nhỏ Wessels Barnard [17] nghiên cứu việc khởi tạo trọng số Wij nên phạm vi với ki số liên kết nơ-ron j tới nơ-ron i Các nghiên cứu GA kết hợp với ANN bắt đầu Montana and Davis [16] Năm 1989 ơng có báo cáo việc ứng dụng thành công GA mạng ANN chứng minh đƣợc G tìm đƣợc trọng số tối ƣu tốt BP số trƣờng hợp Kumar Reddy [18] Yas Abbas Alsultanny [20] đạt tới c ng đạt đƣợc kết tốt giảm thời gian huấn luyện sử dụng G để khởi tạo trọng số ban đầu cho mạng nơ-ron đa tầng truyền thẳng Những nghiên cứu động lực khiến áp dụng G để tối ƣu trọng số cho ANN tốn nhận dạng chữ Hán-Nơm với hi vọng cải thiện đƣợc tỉ lệ nhận dạng với ƣu điểm ANN áp dụng thành công việc nhận dạng liệu lớn 4.1 Khảo sát hội tụ mạng nơ-ron Khảo sát đƣợc tiến hành với mạng lớp, lớp đầu vào gồm 25 nơ-ron, lớp ẩn nơ-ron lớp đầu nơ-ron Bộ trọng số khởi tạo ban đầu đƣợc lấy ngẫu nhiên quanh điểm 0.5, trung điểm hàm kích hoạt sigmoid Sau lập trình cho luyện mạng 14 lần ta có đƣợc bảng 4.1 47 Bảng 4.1 Kết khảo sát hội tụ mạng nơ-ron STT Số vòng lặp STT Số vòng lặp Thất bại Thất bại 81007 Thất bại Thất bại 10 35672 85060 11 65742 14542 12 Thất bại Thất bại 13 78649 42335 14 65903 Căn vào bảng 4.1 ta thấy với thuật tốn hơng đổi, cấu trúc, tham số mạng chọn nhƣ kết trình luyện mạng phụ thuộc vào khởi tạo trọng số ban đầu, chí cịn có lần luyện mạng thất bại tổng số 14 lần luyện mạng Điều đƣợc giải thích: chất giải thuật học lan truyền ngƣợc sai số phƣơng pháp giảm độ lệch gradient nên việc khởi tạo giá trị ban đầu trọng số giá trị nhỏ ngẫu nhiên làm cho mạng hội tụ giá trị cực tiểu khác Nếu gặp may mạng hội tụ đƣợc giá trị cực tiểu tổng thể, cịn khơng mạng rơi vào cực trị địa phƣơng hơng đƣợc dẫn đến luyện mạng thất bại 4.2 Thuật tốn GANN Nhờ chế tìm kiếm trải rộng, ngẫu nghiên mang tính chọn lọc tự nhiên nên: GA thƣờng tìm đƣợc vùng chứa cực trị tồn cục, nhƣng hó đạt đƣợc cực trị tồn cục Một mặt ta muốn GA trì đa dạng quần thể (trải rộng khơng gian tìm kiếm) để tránh hội tụ sớm đến cực trị cục bộ; mặt khác, “đã khoanh vùng cực trị toàn cục”, ta muốn GA thu hẹp vùng tìm kiếm để “chỉ cực trị toàn cục” Mục tiêu thứ thƣờng dễ đạt đƣợc cách chọn hàm thích nghi phƣơng pháp tái tạo quần thể phù hợp Để đạt đƣợc mục tiêu thứ hai đòi hỏi phải chia trình tiến hóa thành hai giai đoạn, giai đoạn hai ta phải chỉnh lại: toán tử lai, đột biến, tái tạo; phƣơng pháp chọn lọc; đánh giá độ thích nghi; c ng nhƣ chỉnh sửa lại tham số q trình tiến hóa để đến cực trị tồn cục Việc thực thi mơ hình nhƣ 48 phức tạp Do đó, cần phải kết hợp GA với phƣơng pháp tối ƣu cục khác Các phƣơng pháp học ANN thực việc “tìm iếm cục bộ” khơng gian trọng số (dựa thông tin đạo hàm lỗi) nên có hai nhƣợc điểm Thứ trọng số thu đƣợc thƣờng khơng tối ƣu tồn cục Thứ hai q trình học khơng hội tụ hội tụ chậm Do đó, cần phải kết hợp phƣơng pháp học “mang tính cục bộ” ANN với thuật giải “mang tính tồn cục” nhƣ thuật giải di truyền Từ nhận xét ta thấy kết hợp GA ANN nhằm nâng cao hiệu ANN GA khoanh vùng chứa cực tiểu tồn cục hàm lỗi, sau NN xuất phát từ trọng số để tiến đến cực tiểu tồn cục Thuật tốn đề xuất nhƣ sau: Hình 4.1 Sơ đồ thuật tốn GANN Thuật tốn kết hợp giải thuật di truyền thuật toán lan truyền ngƣợc cho mạng MLP đƣợc đề xuất hình 4.1 Nó bao gồm hai giai đoạn luyện mạng Giai đoạn sử dụng thuật toán di truyền với bƣớc truyền thẳng nhằm đẩy nhanh tồn q trình luyện mạng Thuật tốn di truyền thực 49 tìm kiếm tồn cục tìm kiếm tối ƣu gần điểm ban đầu (trọng lƣợng vec-tơ) cho giai đoạn thứ hai Trong đó, nhiễm sắc thể đƣợc sử dụng để mã hóa trọng số mạng nơ-ron Hàm thích nghi (hàm mục tiêu) cho thuật toán di truyền đƣợc xác định tổng bình phƣơng lỗi mạng nơ-ron tƣơng ứng Do đó, tốn trở thành tối ƣu hóa khơng giới hạn nhằm tìm tập hợp biến định giảm thiểu hàm mục tiêu Trong giai đoạn thứ sử dụng kỹ thuật lan truyền ngƣợc với hệ số học nhỏ 4.3 Thực nghiệm 4.3.1 Quy trình thực nghiệm Quy trình thực nghiệm đƣợc tiến hành theo bƣớc chính: chuẩn bị liệu, huấn luyện mạng nhận dạng Chuẩn bị liệu Chọn ký tự Tạo ảnh In Scan ảnh Tách ảnh Tập 495 chữ Nôm Các file ảnh Các file ảnh scan Các file ảnh chữ Nôm rời Huấn luyện Lấy ảnh, trích chọn đặc trƣng Tập ảnh huấn luyện Huấn luyện mạng Mạng huấn luyện Nhận dạng Lấy ảnh, trích chọn đặc trƣng Tập ảnh nhận dạng Đánh giá Nhận dạng Kết nhận dạng Kết đánh giá Hình 4.2 Quy trình tiến hành thực nghiệm 50 4.3.2 Xây dựng liệu thực nghiệm Dữ liệu thành phần quan trọng việc thử nghiệm đánh giá phƣơng pháp nhận dạng c ng sở để đánh giá ết nhận dạng có xác hay khơng Do sở liệu để phục vụ đề tài chƣa có, nên nhóm nghiên cứu phịng nghiệm hệ thống nhúng tiến hành xây dựng liệu thực cách thống kê chữ xuất 10 lần Truyện Kiều đại thi hào Nguyễn Du Kết thống ê thu đƣợc 495 chữ Với liệu 495 chữ đó, chúng tơi sử dụng loại font khác Hán Nôm A, Hán Nôm B, Nôm Na Tông, font lấy hai kiểu chữ chữ đậm chữ thƣờng Nhƣ chữ có mẫu, tổng số mẫu liệu 2970 Mỗi mẫu ký tự đặt tên theo quy tắc: ID_Mẫu_Font_ Kiểu Trong đó: - ID mã đặt cho ý tự, ý tự có ID khác - Mẫu chế độ lấy mẫu, đánh số 0, 1, 2… với liệu Mẫu ln đƣợc lấy theo c ng chế độ scan chữ in giấy trắng hổ 4, mực in màu đen - Font tên font chữ mẫu - Kiểu 0_0 chữ thƣờng, 0_1 chữ đậm Hình 4.3 số mẫu chữ Nơm liệu thực nghiệm Bộ liệu thử nghiệm có chất lƣợng tốt, độ nhiễu loạn gần nhƣ khơng có, sau thành cơng với liệu tiếp tục xây 51 dựng liệu với mức độ nhiễu khác nhằm cải tiến khả nhận dạng chƣơng trình điều kiện chữ nhiễu loạn khác 4.3.3 Tiến hành thực nghiệm 4.3.3.1 Phương pháp kiểm chứng K-fold cross validation [14] phƣơng pháp iểm chứng chéo, liệu kiểm chứng đƣợc chia làm K tập Lần lƣợt thực K lần kiểm chứng quay vòng, lần dùng tập mẫu để thử nghiệm K-1 tập lại để huấn luyện Lỗi xuất qua K lần kiểm chứng đƣợc tính trung bình Để thực nghiệm với K-fold cross validation việc lấy mẫu thử mẫu huấn luyện phải lấy ngẫu nhiên, nhiên để kiểm tra tính suy đốn phƣơng pháp, thực nghiệm theo phƣơng pháp tựa K-fold cross validation, nghĩa với liệu thực nghiệm định lựa chọn tập mẫu thuộc chữ hác để huấn luyện, mẫu thuộc tập lại để thực nghiệm Nhƣ tập huấn luyện tập nhận dạng thử nghiệm không giao kiểu chữ font chữ, khả suy diễn phƣơng pháp nhận dạng đƣợc kiểm tra, chƣơng trình sử dụng tri thức kiểu font nhận dạng ảnh chữ font ia đƣợc thử nghiệm đánh giá Từ đánh ứng dụng thực tế phƣơng pháp 4.3.3.2 Thực nghiệm Chƣơng trình đƣợc thực nghiệm máy tính Lenovo X220, có vi xử lý Intel(R) Core(TM) i5-2520M CPU @2.5GHz 2.5GHz, Ram 2GB đƣợc cài đặt hệ điều hành indows Chƣơng trình đƣợc thiết kế với giao diện nhƣ hình 4.4, 4.5, 4.6 52 Hình 4.4 Giao diện cấu hình mạng Lựa chọn cấu hình mạng tiến hành thử nghiệm bao gồm số lớp mạng, số nơ-ron lớp, lựa chọn tham số cho trình học nhƣ ngƣỡng lỗi, hệ số học, hàm truyền Hình 4.5 Giao diện lựa chọn tham số cho GA Cấu hình NST cho phép lựa chọn tham số cho giải thuật di truyền bao gồm: tỷ lệ lai ghép, đột biến, số hệ, ích thƣớc quần thể Và cho phép ta thấy đƣợc số tối ƣu có đƣợc sau trình thực với giải thuật di truyền 53 Hình 4.6 Giao diện huấn luyện mạng nhận dạng 4.4 Đánh giá kết Để đảm bảo việc kết hợp giải thuật di truyền tìm đƣợc trọng số tốt phục vụ cho trình huấn luyện tiếp theo, tiến hành thử nghiệm GA với phép toán lai ghép đột biến hác (đã đƣợc trình bày chƣơng 3) nhận thấy phép lai BLX 0,5 phép đột biến đồng dạng tỏ hiệu Và để tiện so sánh việc thực giải thuật GANN với việc dùng thuật toán lan truyền ngƣợc nguyên thủy, dùng chung tham số cho thử nghiệm Về cấu hình mạng nơ-ron: số lớp mạng 5, lớp ẩn, lớp có 10 nơ-ron, lớp vào 100 nơ-ron lớp nơ-ron, hệ số học: 0,02 ngƣỡng lỗi 0,001 Đối với giải thuật GA GANN: phép lai đƣợc sử dụng BLX 0,5 với tỷ lệ lai ghép 0,8 phép đột biến đồng dạng với tỷ lệ đột biến 0,1, kích cỡ quần thể 100 tiến hành tìm kiếm qua 1000 hệ Kết thực nghiệm đƣợc thể qua bảng 4.2, 4.3 54 Bảng 4.2 Kết thực nghiệm với mạng GANN Tập mẫu huấn luyện HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 HanNomA_0_0, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 HanNomA_0_0, HanNomA_0_1, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, NomNaTong_0_0, NomNaTong_0_1 HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_1 HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0 Số ký tự huấn luyện Tập nhận dạng Số ký tự nhận dạng Tỷ lệ nhận dạng 2685 HanNomA_0_0 495 90,01% 2685 HanNomA_0_1 495 84,48% 2685 HanNomB_0_0 495 87,27% 2685 HanNomB_0_1 495 88,28% 2685 NomNaTong_0_0 495 82,82% 2685 NomNaTong_0_1 495 85,45% Tỷ lệ nhận dạng trung bình: 86,39% 55 Bảng 4.3 Kết thực nghiệm với mạng ANN Tập huấn luyện HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 HanNomA_0_0, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 HanNomA_0_0, HanNomA_0_1, HanNomB_0_1, NomNaTong_0_0, NomNaTong_0_1 HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, NomNaTong_0_0, NomNaTong_0_1 HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_1 HanNomA_0_0, HanNomA_0_1, HanNomB_0_0, HanNomB_0_1, NomNaTong_0_0 Số ký tự huấn luyện Tập nhận dạng Số ký tự nhận dạng Tỷ lệ nhận dạng 2685 HanNomA_0_0 495 89.89% 2685 HanNomA_0_1 495 60.00% 2685 HanNomB_0_0 495 75.55% 2685 HanNomB_0_1 495 74.54% 2685 NomNaTong_0_0 495 86.26% 2685 NomNaTong_0_1 495 60.67% Tỷ lệ nhận dạng trung bình: 74,49% 56 Từ kết nhận dạng trên, ta thấy hiệu việc áp dụng giải thuật di truyền việc khởi tạo trọng số ban đầu cho mạng Khi thực với GANN kết cao đạt tới 90,01%, kết nhận dạng trung bình đạt 86,39 % sử dụng thuật tốn lan truyền ngƣợc nguyên thủy đạt mức 74,49% Kết nhận dạng khẳng định việc khởi tạo trọng số ban đầu ảnh hƣởng tới kết việc huấn luyện mạng nơ-ron c ng cho thấy việc áp dụng giải thuật di truyền để tối ƣu đầu vào cho việc huấn luyện mạng thực mang lại kết tốt hẳn so với mạng nơ-ron thuật toán lan truyền ngƣợc nguyên thủy Tổng kết chƣơng Chƣơng trình bày ết khảo sát hội tụ mạng nơ-ron, khẳng định thêm nhận xét ƣu nhƣợc điểm sử dụng mạng nơ-ron giải thuật di truyền tốn tìm kiếm tối ƣu Từ sở đƣa giải thuật kết hợp mạng nơ-ron giải thuật di truyền nhằm tạo nhận dạng hiệu cho toán nhận dạng chữ Hán-Nơm Trình bày quy trình hực nghiệm, đánh giá kết sử dụng thuật toán đề xuất việc nhận dạng chữ Hán-Nôm So sánh với việc áp dụng mạng nơ-ron thuật toán lan truyền ngƣợc nguyên thủy Khẳng định nhận định ban đầu sở cho nghiên cứu ứng dụng mạng nơ-ron nhận dạng chữ Hán-Nôm 57 KẾT LUẬN Kết đạt đƣợc Luận văn trình bày hái qt chữ Nơm, lịch sử hình thành, cấu tạo chữ Từ chữ Nơm có cấu tạo Luận văn trình bày hái qt chữ Nơm, lịch sử hình thành, cấu tạo chữ Từ chữ Nơm có cấu tạo Luận văn trình bày hái quát chữ Nơm, lịch sử hình thành, cấu tạo chữ Từ chữ Nơm có cấu tạo phức tạp chữ Hán nhiều, kỹ thuật áp dụng tốt cho chữ Hán chƣa hẳn tốt cho chữ Nơm Do việc xây dựng nhận dạng chữ Hán-Nôm yêu cầu cấp thiết để bảo tồn di sản chữ Nôm nƣớc nhà Luận văn c ng tìm hiểu trình bày kiến thức mạng nơ-ron giải thuật di truyền Phân tích ƣu điểm c ng nhƣ hạn chế phƣơng pháp Trên sở tìm hiểu kinh nghiệm nƣớc giới việc sử dụng mạng nơ-ron nhận dạng chữ tƣợng hình, c ng nhƣ nghiên cứu kết hợp mạng nơ-ron với giải thuật di truyền nhận dạng chữ viết tay Từ đề xuất giải thuật GANN(giải thuật kết hợp mạng nơ-ron với giải thuật di truyền ) Trên sở tiến hành thực nghiệm với liệu gồm 2970 chữ nhóm nghiên cứu Les Nơm xây dựng Kết thu đƣợc thể tốt đáng ể so với việc sử dụng mạng nơ-ron thuật toán lan truyền ngƣợc nguyên thủy Khẳng định nhận định ban đầu sở cho nghiên cứu ứng dụng mạng nơ-ron nhận dạng chữ Hán-Nôm chữ Hán nhiều, kỹ thuật áp dụng tốt cho chữ Hán chƣa hẳn tốt cho chữ Nôm Do việc xây dựng nhận dạng chữ Hán-Nơm yêu cầu cấp thiết để bảo tồn di sản chữ Nơm nƣớc nhà Luận văn c ng tìm hiểu trình bày kiến thức mạng nơ-ron giải thuật di truyền Phân tích ƣu điểm c ng nhƣ hạn chế phƣơng pháp Trên sở tìm hiểu kinh nghiệm nƣớc giới việc sử dụng mạng nơ-ron nhận dạng chữ tƣợng hình, c ng nhƣ nghiên cứu kết hợp mạng nơ-ron với giải thuật di truyền nhận dạng chữ viết tay Từ đề xuất giải thuật GANN(giải thuật kết hợp mạng nơ-ron với giải thuật di truyền ) Trên sở tiến hành thực nghiệm với liệu gồm 2970 chữ nhóm nghiên cứu Les Nơm xây dựng Kết thu đƣợc thể tốt 58 đáng ể so với việc sử dụng mạng nơ-ron thuật toán lan truyền ngƣợc nguyên thủy Khẳng định nhận định ban đầu sở cho nghiên cứu ứng dụng mạng nơ-ron nhận dạng chữ Hán-Nôm chữ Hán nhiều, kỹ thuật áp dụng tốt cho chữ Hán chƣa hẳn tốt cho chữ Nơm Do việc xây dựng nhận dạng chữ Hán-Nôm yêu cầu cấp thiết để bảo tồn di sản chữ Nôm nƣớc nhà Luận văn c ng tìm hiểu trình bày kiến thức mạng nơ-ron giải thuật di truyền Phân tích ƣu điểm c ng nhƣ hạn chế phƣơng pháp Trên sở tìm hiểu kinh nghiệm nƣớc giới việc sử dụng mạng nơ-ron nhận dạng chữ tƣợng hình, c ng nhƣ nghiên cứu kết hợp mạng nơ-ron với giải thuật di truyền nhận dạng chữ viết tay Từ đề xuất giải thuật GANN(giải thuật kết hợp mạng nơ-ron với giải thuật di truyền ) Trên sở tiến hành thực nghiệm với liệu gồm 2970 chữ nhóm nghiên cứu Les Nôm xây dựng Kết thu đƣợc thể tốt đáng ể so với việc sử dụng mạng nơ-ron thuật toán lan truyền ngƣợc nguyên thủy Khẳng định nhận định ban đầu sở cho nghiên cứu ứng dụng mạng nơ-ron nhận dạng chữ Hán-Nôm Hƣớng phát triển Tiếp tục thử nghiệm giải thuật GANN với phƣơng pháp trích chọn đặc trƣng hác Kết hợp giải thuật di truyền để lựa chọn kết nối nơ-ron, nhằm tăng tốc độ tình huấn luyện 59 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Tuấn Cƣờng, “Thời điểm xuất chữ Nôm sơ đồ cấu trúc chữ Nôm”, 2009 [2] Phạm Văn Hƣởng, Trần Minh Tuấn, Nguyễn Thị Ngọc Hƣơng, Bùi Thị Hồng Hạnh, Lê Hồng Trang, V Thanh Nhân, Trƣơng nh Hoàng, V Quang D ng, Nguyễn Ngọc Bình (2008), “Một số phƣơng pháp nhận dạng chữ Nôm”, Hội thảo Khoa học Quốc gia Lần thứ IV CNTT-TT (ICT.rda’2008), Hà Nội [3] GS.TSKH Nguyễn Quang Hồng, hái ược văn tự học ch Nôm, Nhà xuất giáo dục, 2008 Tiếng Anh [4] Mingrui Wu, Bo Zhang, Ling Zhang, “A Neural Network Based Classifier for Handwritten Chinese Character Recognition”, ICPR'00 - Volume 2, 2000 [5] Il-SeokOh, Ching Y Suen, “A class-modular feedforward neural network for handwriting recognition”, Pattern Recognition 35 (2002) 229-244 [6] Srinivasa Kumar Devireddy, Settipalliappa Rao(2009), “Hand written character recognition using back propagation network”, Journal of Theoretical and Applied Information Technology [7] Richard Romero, Robert Berger, Robert Thibadeau, and Dave Touretsky, “Neural Network Classifiers for Optical Chinese Character Recognition” [8] Richard Romero, David Touretzky, and Robert Thibadeau, “Optical Chinese Character Recognition using Probabilistic Neural Networks” [9] D.E Rumelhart; G.E Hinton and R.J Williams (1986), “Learning internal representations by error propagation”, Parallel distributed processing: Explorations in the microstructure of cognition (Cambridge MA.: MIT Press), 318-362 [10] Tadashi Horiuchi, Satoru Kato, “a study on japanese historical character recognition using modular neural networks”, International Journal of InnovativeComputing, Information and Control, Volume 7, Number 8, August 2011 60 [11] Geva, Shlomo, and Joaquin Sitte: “Adaptive Nearest Neighbor Pattern C assification, IEEE Transactions on Neural Networks”, 1991, Vol.2, No [12] H.-H Song, S.-W.Lee, “A self-organizing neural tree forlarge-set pattern classication”, IEEE Trans Neural Net-works (3) (1998) 369}380 [13] H.-M Lee, C.-C.Lin, J.-M.Chen, “A preclassi"cationmethod for handwritten Chinese character recognition viafuzzy rules and SEART neural net”, Int J Pattern Recogni-tion Artif.Intell.12 (6) (1998) 743}761 [14] Juan Diego Rodrıguez, ritz Perez, Jose ntonio Lozano, Member, IEEE, “Sensitivity Ana ysis of k-Fold Cross Validation in Prediction Error Estimation”, IEEE Transactions on pattern analysis and machine intelligence, Vol 32, No 3, March 2010 [15] Jeffrey T Spooner, Mangredi Maggiore, Rẳl Ordónez, Kelvin M Passino (2002), “Stable Adaptive Control and Estimation for Nonlinear Systems: Neural and Fuzzy Approximator Techniques”, Wiley Interscience, USA.] [16] Jyh-Shing Roger Jang, Chuen-Tsai Sun, Eiji Mizutani (1996), “NeuroFuzzy and Soft Computing: A Computational Approach to Learning and Machine Intelligence”, Prentice Hall, USA.] [17] L.F.A Wessels, E Barnard, “Avoiding false local minima by proper initialization of connections”, IEEE Trans Neural Networks (1992) 899905 [18] R.Ashok Kumar Reddy, G Venkata Narasimhulu, Dr S A K Jilani, Dr D.Seshappa, “Genetic Algorithm based Gait Recognition”, International Journal of Electronics and Computer Science Engineering ISSN- 2277-1956 [19] David J Montana, Lawrence Davis “Training feedforward neural networks using genetic algorithms” IJC I'89 Proceedings of the 11th international joint conference on Artificial intelligence - Volume [20] Yas bbas lsultanny, Musbah M qel, “Pattern recognition using multilayer neural-genetic algorithm”, Neurocomputing 51 (2003) 237 – 247 ... ĐẠI ĐẠI HỌC HỌC CÔNG CÔNG NGHỆ NGHỆ TRƢỜNG TRƢƠNG THỊ HƢƠNG NGHIÊN CỨU ỨNG DỤNG MẠNG NƠ RON TRONG NHẬN DẠNG DẠNG CHỮ CHỮ HÁN-NÔM HÁN-NÔM NHẬN Ngành: Ngành: Công Công nghệ ngh? ?thông thông tin tin... ngành Cơng nghệ phần mềm, khố 2011-2013 Tôi xin cam đoan luận văn thạc sĩ ? ?Nghiên cứu ứng dụng mạng Nơ ron nhận dạng chữ Hán- Nôm? ?? cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung... trình Trong luận văn tơi trình bày hồn chỉnh phƣơng pháp ứng dụng mạng nơ- ron nhận dạng chữ Hán- Nôm với mong muốn đƣa phƣơng pháp nhận dạng tốt, góp phần xây dựng cơng cụ nhận dạng, chuyển đổi văn

Ngày đăng: 01/01/2023, 20:55

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN