Nghiên cứu này trình bày quá trình xây dựng nền tảng kỹ thuật cho ứng dụng điện thoại thông minh dạy trẻ em tập viết chữ số. Phần lõi kỹ thuật của ứng dụng được xây dựng dựa trên trên nền mạng nơ-ron nhân tạo.
124 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Ứng dụng mạng nơ-ron nhân tạo nhận dạng tự động chữ số viết tay hỗ trợ giáo dục trẻ mầm non Hồng Lê Un Thục1, Phan Đình Tùng2, Lê Thị Mỹ Hạnh3 Trường Đại học Bách khoa, Đại học Đà Nẵng 54 Nguyễn Lương Bằng, Liên Chiểu, Đà Nẵng hluthuc@dut.udn.vn,2102140165@sv.dut.udn.vn,3ltmhanh@dut.udn.vn Tóm tắt Giáo dục mầm non đóng vai trị khởi nguồn cho phát triển trẻ em sau Ứng dụng công nghệ thông tin vào giáo dục mầm non hướng mới, giúp đa dạng hóa phương pháp giáo dục tạo hứng thú học tập cho trẻ Nghiên cứu trình bày trình xây dựng tảng kỹ thuật cho ứng dụng điện thoại thông minh dạy trẻ em tập viết chữ số Phần lõi kỹ thuật ứng dụng xây dựng dựa trên mạng nơ-ron nhân tạo Chúng thực ba kịch nhận dạng ảnh chữ số viết tay khác với cấu trúc mạng nơ-ron: (1) ảnh không qua xử lý, (2) ảnh qua bước trích vùng quan tâm, (3) ảnh qua bước phân tích thành phần Kết kiểm tra 10.000 ảnh chữ số viết tay tập liệu MNIST cho thấy hiệu hứa hẹn tính khả thi ứng dụng đề xuất Keywords: mạng nơ-ron nhân tạo ANN (Artificial Neural Network), nhận dạng chữ số viết tay (handwritten digit recognition), vùng quan tâm ROI (Region Of Interest), phân tích thành phần PCA (Principle Component Analysis), giáo dục trẻ mầm non (early childhood education) Đặt vấn đề Những năm đời đứa trẻ giai đoạn đặc biệt nhạy cảm trình phát triển, đặt móng cho thời thơ ấu năm chức nhận thức; lực hành vi, xã hội tự điều chỉnh; sức khoẻ thể chất [1] Nhiều nghiên cứu cho thấy lợi ích giáo dục mầm non (GDMN) trẻ em thể nhiều mặt đạt thành tích học tập cao, có hành vi phù hợp, giảm tỷ lệ phạm tội, thành công nghiệp [1] Trên sở lợi ích GDMN, chương trình GDMN quốc tế IPC (International Preschool Curriculum) thiết kế nhằm hướng đến phát triển toàn diện trẻ với lĩnh vực học tập cốt lõi gồm ngơn ngữ (languare art), tốn số đếm (numeracy), nghệ thuật sáng tạo (creative art), khoa học (sciences), kỹ vận động (motor skills), tình cảm - kỹ xã hội (socio-emotional) [2] Nghiên cứu tập trung vào ứng dụng công nghệ thông tin vào sáu lĩnh vực giáo dục cốt lõi IPC, “tốn số đếm” Hiện nay, có nhiều ứng dụng di động giúp trẻ em học “số đếm” Zap Zap Math [3], 123 Kids Fun Numbers [4] Các ứng dụng thiết kế với giao diện bắt mắt, có phần thưởng trẻ thực tốt yêu cầu, có nội dung học phong phú Tuy nhiên, ứng dụng sử dụng tiếng Anh giá thành cao nên chưa thực phù hợp với điều kiện Việt Nam Hơn nữa, hầu hết ứng dụng hướng dẫn trẻ nhận biết mặt số chưa thiết kế chức giúp trẻ học viết số Từ phân tích đây, đặt mục tiêu lâu dài xây dựng ứng dụng di động dành riêng cho giáo dục trẻ mầm non Việt Nam học số đếm đặt tên BKNumber Hoàng Lê Uyên Thục, Phan Đình Tùng, Lê Thị Mỹ Hạnh 125 So với ứng dụng học tốn có, điểm khác biệt ứng dụng đề xuất chức dạy trẻ viết số Đối với trẻ nhỏ chưa biết cầm bút, hoạt động viết số thực thơng qua cách thức vẽ ngón tay hình cảm ứng điện thoại/ máy tính bảng Hoạt động vẽ ngón tay (finger painting) chứng minh mang lại nhiều lợi ích to lớn phát triển trẻ não bộ, xúc giác, vận động tinh, [5] Để dạy trẻ viết số, trước tiên trẻ yêu cầu vẽ số ngón tay hình điện thoại/ máy tính bảng Sau trẻ vẽ xong số phần mềm nhận dạng tự động chữ số viết tay thực thi nhằm nhận dạng số viết số số từ đến Q trình thể thơng qua sơ đồ mô tả chức dạy trẻ viết số điện thoại Hình Hình Sơ đồ mô tả chức nhận dạng chữ số viết tay Như vậy, phần tảng kỹ thuật ứng dụng phần mềm thực nhận dạng tự động số từ đến từ ảnh số viết ngón tay hình điện thoại Đây nội dung nghiên cứu nghiên cứu trình bày sau: mục nêu tóm tắt nghiên cứu liên quan, mục trình bày chi tiết phương pháp nhận dạng chữ số viết tay sử dụng ứng dụng đề xuất, mục mô tả thí nghiệm kiểm tra, đánh giá phương pháp nhận dạng sử dụng hệ thống cuối kết luận mục Các nghiên cứu liên quan đến nhận dạng chữ số viết tay Nhận dạng chữ viết tay công việc đầy thách thức, kiểu viết cách di chuyển bút giấy người khác Hơn nữa, người chữ viết tay thay đổi tùy thuộc thời điểm viết, tâm trạng viết, loại giấy, loại bút viết Do đó, nhận dạng chữ viết tay nói chung chữ số viết tay nói riêng chưa đạt độ xác tốt để ứng dụng rộng rãi thực tế Nhìn chung, có hai cách tiếp cận hệ thống nhận dạng tự động chữ số viết tay Đó tiếp cận theo hướng truyền thống theo hướng học sâu (deep learning) Với cách tiếp cận truyền thống, hệ thống gồm ba pha xử lý sau [6]: Phân vùng ký tự: bước này, ký tự phân tách khỏi vùng lại ảnh để đưa đến khối xử lý sau Do ảnh chữ số có nhiễu, văn bị nghiêng nên phép tiền xử lý nhằm lọc nhiễu ước lượng xác góc nghiêng thực trước phân vùng ký tự 126 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Trích đặc trưng: bước nhằm trích đặc trưng ký tự tạo thành vector đặc trưng Có nhiều loại đặc trưng khác nghiên cứu chẳng hạn đặc trưng hình học, đặc trưng thống kê,… Phân loại ký tự: dựa vào vector đặc trưng trích từ ký tự, phân loại áp dụng nhằm gán ảnh vào loại ký tự quan tâm Phương pháp phân loại phổ biến phân loại thống kê dựa thuật toán học máy Sau phân loại, số nghiên cứu, bước hậu xử lý áp dụng để kiểm tra lỗi tả, văn phạm,… nhằm cải thiện tỷ lệ nhận dạng xác Sau số cơng trình gần nhánh nghiên cứu theo hướng tiếp cận truyền thống: - Khi phân vùng ký tự, số tài liệu có dấu chấm nhỏ đường kẻ ô nên dẫn đến lỗi Để khắc phục điều này, trước nhận dạng, bước tăng cường ảnh sử dụng độ sáng màu sắc thực thi, sau ảnh màu chuyển thành ảnh xám cắt ngưỡng [7] Kết kiểm tra cho thấy tỷ lệ nhận dạng xác cải thiện đáng kể sau khử ảnh - Cơng trình [8] tập trung vào bước trích đặc trưng Thay chọn đặc trưng thủ công trước đây, tác giả áp dụng học máy không giám sát để học đặc trưng cách tự động Kết kiểm tra 5.198 ảnh tập liệu ICDAR cho tỷ lệ nhận dạng xác 85,5% - Cơng trình [9] tập trung vào bước phân loại ký tự Phương pháp sử dụng so khớp mẫu thời gian động sinh mẫu theo cụm CSDTW (cluster generative statistical dynamic time warping) CSDTW dựa vào mơ hình Markov ẩn HMM (Hidden Markov Model) kết hợp phân tích cụm mơ hình hóa chuỗi thống kê Kết cho thấy tỷ lệ nhận dạng chữ viết tay cao đáng kể so với hệ thống khác Khác với cách tiếp cận truyền thống cần xây dựng mô tả đặc trưng cho chứa đựng đặc tính riêng biệt, bật ký tự (gọi hand-crafted features), cách tiếp cận học sâu không thực trích đặc trưng Thay vào đó, đặc trưng ảnh tự động học dựa vào mạng nơ-ron, phổ biến mạng nơ-ron tích chập CNN CNN tổ chức cách ghép nhiều lớp lại với nhau: lớp convolutional, lớp ReLU (Rectifier Linear Unit) gộp chung lớp convolutional lớp ReLU Các lớp lại convolutional pooling Cuối lớp fully connected để phân loại liệu [10] Cấu trúc đặc biệt gồm nhiều lớp giúp mạng CNN có ưu tỷ lệ nhận dạng xác Tuy nhiên, cách tiếp cận đòi hỏi khối lượng liệu huấn luyện lớn, thời gian huấn luyện lâu tài nguyên hệ thống lớn để học lượng cực lớn tham số mạng Vì thế, giai đoạn xây dựng cốt lõi kỹ thuật cho ứng dụng nhận dạng chữ số, chọn cách tiếp cận truyền thống Tự động nhận dạng chữ số viết tay Như trình bày trên, nghiên cứu này, tập trung nghiên cứu phần cốt lõi kỹ thuật ứng dụng dạy trẻ viết số đề xuất Hình Đó nhận dạng tự động chữ số viết tay từ ảnh chụp Để có sở kỹ thuật cho triển khai ứng dụng sau này, xem xét cách tiếp cận truyền thống với ba phương pháp xử lý liệu trước nhận dạng khác nhau, thể Hình Hồng Lê Un Thục, Phan Đình Tùng, Lê Thị Mỹ Hạnh 127 Hình Các bước xử lý nhận dạng chữ số viết tay sử dụng mạng nơ-ron nhân tạo ANN 3.1 Xử lý ảnh trước nhận dạng Như thể Hình 2, trình xử lý ảnh chữ số viết tay trước nhận dạng diễn theo ba phương pháp là: - Giữ nguyên ảnh gốc không qua xử lý; - Từ ảnh gốc, tiến hành trích vùng quan tâm ROI chuẩn hóa kích thước; - Từ ảnh gốc, áp dụng phép phân tích thành phần PCA Ở phương pháp (i), ảnh giữ nguyên không qua xử lý Các ảnh tập huấn luyện sở liệu MNIST dạng ảnh xám, độ phân giải 28×28 Như mặt toán học, ảnh biểu diễn ma trận vng kích thước 28×28, phần tử có giá trị từ đến 255 thể cường độ sáng Ở phương pháp (ii), để giảm kích thước ảnh, thực trích vùng quan tâm ROI (Region Of Convergence) vùng chứa chữ số theo bước sau: (1) nhị phân hóa ảnh, (2) tìm hình chiếu histogram chữ số theo chiều ngang chiều dọc (Hình 3), (3) xác định tọa độ vùng ROI hình chữ nhật gồm biên trên, biên dưới, biên phải, biên trái dựa vào hình chiếu histogram, (3) trích lấy ảnh xám vùng chữ nhật chuẩn hóa kích thước 20×20 Ở phương pháp (iii), ảnh gốc áp dụng phép PCA [11] trước nhận dạng PCA kỹ thuật nhằm giảm độ dư ảnh, giảm tương quan điểm ảnh ảnh, dựa nguyên lý chuyển đổi liệu từ không gian cũ với số chiều lớn sang không gian với số chiều hơn, cho độ biến thiên liệu trục lớn [11] Hình Xác định vùng quan tâm ROI dựa vào hình chiếu histogram 128 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Cụ thể, nghiên cứu này, đặt mục tiêu sai khác ảnh gốc ảnh sau áp dụng PCA (chẳng hạn lỗi mse ≤ e-04) số lượng thành phần tính 465; đặt mục tiêu tỷ lệ nhận dạng (chẳng hạn ~ 96%) số lượng thành phần tính 100 (lỗi lúc mse = 0,0057) Ở đây, lỗi mse tính cơng thức (1), sai khác ảnh gốc f(m, n) ảnh g(m, n) sau áp dụng PCA khôi phục lại kích thước gốc 28×28: mse = 28 28 åå[ f (m,n) - g(m,n)]2 28* 28 m=1 n=1 (1) Hình cho thấy số ảnh gốc ảnh sau áp dụng PCA Hình Ảnh gốc 28×28 ảnh sau áp dụng PCA với số thành phần 100 3.2 Nhận dạng ảnh Ảnh sau xử lý đưa vào nhận dạng dùng mạng nơ-ron nhân tạo ANN [12] ANN mơ hình tốn học mô hoạt động sinh học não người Một mạng ANN gồm nhiều nơ-ron kết nối với theo cách Mỗi nơ-ron có nhiều đầu vào đầu ra, xác định hai hàm số đặc trưng là: hàm mạng (net function) hàm kích hoạt (activate function) Hàm mạng xác định đầu vào { y j , j N } kết hợp với bên nơ-ron [12], với wj trọng số nhánh q ngưỡng kích thích: N u = åw j y j +q (2) j=1 Đầu nơ-ron quan hệ với đầu vào thông qua hàm tuyến tính phi tuyến gọi hàm kích hoạt [12]: a = f (u) (3) Qua thực nghiệm, mạng ANN chọn sử dụng loại có 03 lớp: - Lớp vào có 28×8=784 nơ-ron cho trường hợp (i), có 20×20=400 nơ-ron cho trường hợp (ii) có 465 100 nơ-ron cho trường hợp (iii) - Lớp ẩn có 25 nơ-ron, làm nhiệm vụ kết nối nơ-ron lại với Hàm kích hoạt sử dụng hàm sigmoid - Lớp có 10 nơ-ron ứng với 10 số từ 9, làm nhiệm vụ xuất kết cho người sử dụng Hàm kích hoạt dùng hàm tuyến tính Hình ví dụ mạng ANN dùng trường hợp nhận dạng ảnh khơng qua xử lý Hồng Lê Un Thục, Phan Đình Tùng, Lê Thị Mỹ Hạnh 129 Hình Cấu trúc mạng nơ-ron nhận dạng ảnh gốc 28×28 Thực nghiệm kiểm tra đánh giá Việc đánh giá thực sở liệu MNIST, sở liệu chữ số viết tay phổ biến [13] Cơ sở MNIST gồm có 70.000 ảnh chữ số viết tay, có 60.000 ảnh cho huấn luyện 10.000 ảnh cho kiểm tra 4.1 Tỷ lệ nhận dạng xác Thực đánh giá hệ thống theo ba kịch trình bày hàng (i), (ii), (iii) Hình 2, ta thu tỷ lệ nhận dạng xác (%) chữ số tỷ lệ trung bình thể Bảng Bảng Tỷ lệ nhận dạng xác (%) với phương pháp xử lý liệu khác Số Số Số Số Số Số Số Số Số Số Trung bình Ảnh gốc 98,5 99,0 95,2 95,9 96,6 93,5 97,5 95,4 95,6 95,2 96,24 Trích ROI 98,0 99,3 94,8 94,5 96,8 91,5 95,9 95,8 94,1 93,8 95,45 PCA 465 98,3 98,3 94,9 95,9 96,6 93,7 96,3 96,0 95,6 93,8 95,94 PCA 100 98,3 98,8 95,3 95,4 96,4 93,2 96,6 95,6 95,5 94,0 95,91 130 4.2 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Thời gian thực thi Thí nghiệm cho thấy thời gian xử lý bao gồm thời gian huấn luyện, thời gian kiểm tra kể từ nhận ảnh vào đến kết cuối trình bày Bảng Quá trình thí nghiệm tiến hành xử lý Intel Core i5-4200U@1.60GHz (4CPUs), RAM 4096MB Bảng Thời gian thực thi (giây) với phương pháp xử lý liệu khác Thời gian Huấn luyện Kiểm tra Ảnh gốc 20’19,763s 0,276s Trích ROI 13’7,753s 55,321s PCA 100 7’21,764s 0,048s Tóm lại, kết thí nghiệm cho thấy hiệu việc ứng dụng mạng nơ-ron vào nhận dạng chữ số viết tay tốt, thể tỷ lệ nhận dạng trung bình số cao (xấp xỉ 96%) So với phương pháp giữ nguyên ảnh gốc, phương pháp trích ROI bị suy giảm tỷ lệ nhận dạng Đổi lại, nhờ kích thước ảnh giảm nên thời gian huấn luyện có giảm Tuy nhiên, xét thời gian kiểm tra thời gian trích ROI chiếm tỷ lệ cao nên dẫn đến tăng thời gian kiểm tra lên nhiều So với phương pháp giữ nguyên ảnh gốc, phương pháp PCA đạt tỷ lệ nhận dạng xấp xỉ với thời gian xử lý thấp Do đó, phương pháp PCA lựa chọn độc lập kết hợp với phương pháp khác làm tảng kỹ thuật cho ứng dụng hỗ trợ trẻ em học viết chữ số tương lai Kết luận Tóm lại, nghiên cứu kiểm tra, đánh giá khả ứng dụng mạng nơ-ron nhân tạo nhằm nhận dạng chữ số viết tay tập liệu kích thước lớn Kết thu có tỷ lệ nhận dạng tốt thời gian thực thi thấp Trong tương lai, cần bổ sung sở liệu chữ số viết tay trẻ em, cải thiện khâu xử lý xem xét kết hợp cách tiếp cận học sâu, nhằm hướng đến xây dựng ứng dụng di động hoàn thiện hỗ trợ trẻ em học viết chữ số đề xuất Tài liệu tham khảo Lynn A Karoly, M Rebecca Kilburn and Jill S Cannon, “Proven benefits of early childhood interventions”, Santa Monica, CA: RAND Corporation, pp 1-3, 2005 IPC, “The IPC core content learning area,” địa https://ipc.education/corecontentareas/ [truy cập ngày 25/11/2017] Zap Zap Math app, địa chỉ: https://www.zapzapmath.com/ [truy cập ngày 25/11/2017] 123 Kids Fun Numbers app, địa chỉ: http://123kidsfun.com/123-kids-fun-numbers/ [truy cập ngày 25/11/2017] Benefits of finger painting for children, địa http://kidslearninghq.com/crafts/benefits-of-fingerpainting-for-children/ [truy cập ngày 25/11/2017] Noman Islam, Zeeshan Islam, and Nazia Noor, “A Survey on Optical Character Recognition System,” Journal of Information & Communication Technology (JICT), vol 10(2), pp 1-4, 2016 A Coates, B Carpenter, C Case, S Satheesh, B Suresh, T Wang, D Wu, and A Ng., “Text detection and character recognition in scene images with unsupervised feature learning,” International Conference on Document Analysis and Recognition, 2011 Hoàng Lê Uyên Thục, Phan Đình Tùng, Lê Thị Mỹ Hạnh 131 Mande Shen and Hansheng Lei, “Improving OCR performance with background image elimination,” 12th International Conference Fuzzy System Knowledge Discovery, pp 1566-1570, 2015 C Bahlmann and H Burkhardt, “The writer independent online handwriting recognition system frog on hand and cluster generative statistical dynamic time warping,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 26(3), pp 299-310, 2014 10 Dan Claudiu Ciresan, Ueli Meier, Luca Maria Gambardella, Jurgen Schmidhuber, “Deep Big Simple Neural Nets Excel on Hand- written Digit Recognition,” Power Point slides, un-published, 2014 11 M Mudrova and A Prochazka, “Principal Component Analysis in Image Processing,” in Technical Computing Conference, Prague, Czech Republic, pp 1-4, 2005 12 Yu Han Hu and Jenq-Neng Hwang, “Handbook of Neural Network Signal Processing,” CRC Press, 2002 13 Yann LeCun, Corinna Cortes, and Christopher J.C Burges, “The MNIST Database of handwritten digits,” địa http://yann.lecun.com/exdb/mnist/, [truy cập 08/2017] ... máy tính bảng Sau trẻ vẽ xong số phần mềm nhận dạng tự động chữ số viết tay thực thi nhằm nhận dạng số viết số số từ đến Quá trình thể thông qua sơ đồ mô tả chức dạy trẻ viết số điện thoại Hình... bút viết Do đó, nhận dạng chữ viết tay nói chung chữ số viết tay nói riêng chưa đạt độ xác tốt để ứng dụng rộng rãi thực tế Nhìn chung, có hai cách tiếp cận hệ thống nhận dạng tự động chữ số viết. .. khả ứng dụng mạng nơ-ron nhân tạo nhằm nhận dạng chữ số viết tay tập liệu kích thước lớn Kết thu có tỷ lệ nhận dạng tốt thời gian thực thi thấp Trong tương lai, cần bổ sung sở liệu chữ số viết tay