BÁO cáo đồ án môn học máy học (MACHINE LEARNING) đề tài PHÂN LOẠI CHỮ VIẾT TAY TIẾNG VIỆT có dấu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN MÔN HỌC: MÁY HỌC (MACHINE LEARNING) ĐỀ TÀI: PHÂN LOẠI CHỮ VIẾT TAY TIẾNG VIỆT CÓ DẤU Giảng viên hướng dẫn: Lê Đình Duy Phạm Nguyễn Trường An Sinh viên thực hiện: Đỗ Trọng Khánh – 19521676 Võ Phạm Duy Đức – 19521383 Trịnh Công Danh – 19521326 Lớp: CS114.L22.KHCL CS114.L21.KHCL NỘI DUNG BÁO CÁO 01 04 GIỚI THIỆU ĐỀ TÀI XỬ LÍ DỮ LIỆU VÀ TRÍCH XUẤT ĐẶC TRƯNG 02 CÁC NGHIÊN CỨU TRƯỚC 03 05 TRAINING VÀ ĐÁNH GIÁ CÁC MODEL 06 MÔ TẢ BỘ DỮ LIỆU ỨNG DỤNG VÀ HƯỚNG CẢI THIỆN GIỚI THIỆU ĐỀ TÀI Mô tả toán Tổng quan đề tài - Bài tốn thuộc lớp tốn phân loại, có tổng cộng 89 lớp đại Phân loại chữ viết tay đề tài nghiên cứu diện cho 89 chữ tiếng Việt viết thường bao gồm phổ biến Nhưng chữ Tiếng Việt dấu phụ (sắc, huyền, hỏi, ngã, nặng) chưa nghiên cứu nhiều Đó lí nhóm - định thực đề tài Đầu vào toán ảnh chứa chữ tiếng Việt viết thường Đầu kết dự đoán chữ tương ứng với ảnh 2 CÁC NGHIÊN CỨU Nghiên cứu giảng viên trường đại học Duy Tân TRƯỚC Mô tả liệu Phương pháp nghiên cứu - Tác giả xây dựng mô hình nhân dạng chữ viết tay rời rạc dựa - Bộ dữ liệu chuẩn MNIST: Bộ dữ liệu MNIST bao gồm phương pháp phân lớp SVM - Support Vector Machines 60.000 mẫu huấn luyện và 10.000 mẫu khác để nhận Công việc được thực hiện dựa trên bước: dạng, mỗi mẫu là ảnh kích thước 28 x 28 + Bước 1: Xây dựng mô hình huấn luyện - Bộ liệu chữ viết tay tiếng Việt: Bộ dữ liệu chữ viết tay tiếng Việt (VietData) bao gồm 89 lớp chữ cái in hoa, mỗi lớp chọn 200 mẫu, như liệu VietData tổng cộng 17.800 mẫu + Bước 2: Phân lớp nhận dạng CÁC NGHIÊN CỨU Kết thực nghiệm TRƯỚC - Trên bộ dữ liệu MNIST: + Mô hình SVM được sử dụng với hàm nhân RBF - Trên bộ dữ liệu chữ viết tay tiếng Việt: + Việc thực nghiệm trên dữ liệu chữ viết tay tiếng Việt và các tham số C = 10 (tham số hàm phạt), Cache = được tiến hành theo phương thức thẩm định chéo (Cross- 1000 (kích thước vùng nhớ để lưu trữ các vectơ tựa) Validation) Nhận xét - SVM là một phương pháp học máy tiên tiến có cơ sở toán học chặt chẽ và đạt độ chính xác phân lớp cao - Hạn chế khác của SVM là huấn luyện đòi hỏi không gian nhớ lớn - Bản chất của phương pháp SVM là phân lớp nhị phân nên việc mở rộng khả năng của SVM để giải quyết các bài toán phân loại nhiều lớp là vấn đề khó và cần rất nhiều nghiên cứu 3 MÔ TẢ BỘ DỮ LIỆU - Dữ liệu thu thập từ 30 người tình nguyện Nhóm góp chung liệu với nhóm bạn Đặng Văn Minh để làm Trainning set Validation set Sau thu thập thêm liệu để làm tập Test set dành riêng cho nhóm để đánh giá độ xác mơ hình - Nhóm chuẩn bị mẫu giấy A4 nhờ người viết tay chữ vào ô giấy Mẫu liệu Mẫu liệu viết MÔ TẢ BỘ DỮ Các bước thực LIỆU Bước 1: Sử dụng cv2 edge detection để cắt gọn khoảng trắng dư thừa để thu ận ti ện vi ệc lọc chữ 3 MƠ TẢ BỘ DỮ LIỆU Bước 2: Lọc ô chữ sau cắt gọn 3 MÔ TẢ BỘ DỮ LIỆU Bước 3: Sau có vị trí hàng vị trí hàng Nhóm tiến hành duyệt chữ lưu vào drive 3 MÔ TẢ BỘ DỮ LIỆU Bước 4: Sau lọc cắt ảnh chứa chữ riêng biệt phân loại ảnh thành thư mục riêng Phân loại đưa vào thư mục MÔ TẢ BỘ DỮ LIỆU - Sau phân loại gán nhãn cho liệu, có tổng cộng 29.211 mẫu với 89 class, trung bình class có khoảng 328 ảnh - Nhóm chia liệu thu thập thành tập: 20.740 Validation set với 5.229 mẫu, Test set với 3.512 mẫu mẫu, mẫu từ training set không dùng để huấn thu thập riêng biệt validation set thu luyện mơ hình mà dùng để đánh với hai tập thập từ nhiều người viết giá mơ hình sau train Training khác set với XỬ LÍ DỮ LIỆU VÀ TRÍCH XUẤT ĐẶC TRƯNG Tiền Xử lý liệu - Các ảnh tập train tập validation chuyển thành ảnh nhị phân (trắng đen) xử lý nhiễu - Cắt bớt khoảng trắng dư thừa xung quanh chữ thống kê width height (4, 15) - Tiếp theo tiến hành thử resize kích thước (4, 15) vài hình, nhận thấy hình khơng cịn rõ Do nhóm định xố hình có width < 14 height = 15 - Sau resize kích thước 14x16 để tránh số chữ y, h không rõ bị hư 4 XỬ LÍ DỮ LIỆU VÀ TRÍCH XUẤT ĐẶC TRƯNG Xử lý liệu - Sử dụng phương pháp trích xuất đặc trưng HOG (Histogram of oriented gradient) - Hình ảnh chia thành nhỏ nối tiếp nhau, có kích thước x pixel Sẽ có giá trị hướng giá trị độ lớn ứng với ô - Mỗi ô vuông ảnh có kích thước 2x2 pixel có giá trị hướng giá trị độ lớn sau: XỬ LÍ DỮ LIỆU VÀ TRÍCH XUẤT ĐẶC TRƯNG - Tiếp theo, thực vote giá trị độ lớn pixel có khoảng hướng có vị trí tọa độ vào bin sau xác định hướng pixel thuộc pin tương ứng Công thức linear interpolation Giá trị phương gradient x tương ứng với độ lớn gradient y có vị trí tọa độ (x thuộc [ , ]) Khi đó:  Tại bin thứ l – 1:  Tại bin thứ l: XỬ LÍ DỮ LIỆU VÀ TRÍCH XUẤT ĐẶC TRƯNG - Chuẩn hóa vector histogram theo block gồm ô, ô x pixel - Sau dịch block sang ô ta thực chuẩn hóa cho block Đầu vào ảnh có kích thước 14x16, áp dụng thuật tốn tính HOG với kích thước cells 2x2 thu lưới ô vng có kích thước 14/2 = theo chiều rộng 16/2 = ô theo chiều dài Sau khối block có kích thước 2x2 trải qua bước theo chiều rộng bước theo chiều ghép nối tiếp vector có 36 phần tử lại với ta có vector có 36 x x = 1512 phần tử Đây vector HOG đại diện cho tồn hình ảnh TRAINING VÀ ĐÁNH GIÁ CÁC MODEL - Với bài toán phân loại chữ viết tay tiếng việt, nhóm em sẽ dùng các model sau để huấn luy ện: + Logistic Regression + Support vector machine (SVM) + Multi layer Perceptron (MLPClassifier) - Để đánh giá kết quả, chúng em sẽ sử dụng cách tính accuracy, accuracy càng cao thì mô hình càng tốt Thực nghiệm trên Logistic Regression - Thời gian train: 2m 23s - Thời gian test (tập validation tập test): 39s 5 TRAINING VÀ ĐÁNH GIÁ CÁC -MODEL Đánh giá kết + Kết tập validation:  Accuracy: 67% + Kết tập test:  Accuracy: 63% - Nhận xét: Các mẫu liệu mà model dự đoán sai (dựa điểm f1-score): ẫ(39%), ẩ(34%), ỗ(36%), ỵ (27%) Ảnh minh họa cho trường hợp class bị dự đoán sai: TRAINING VÀ ĐÁNH GIÁ CÁC MODEL Dự đoán class ‘ẫ’ model Logistic Regression Dự đoán class ‘ẩ’ model Logistic Regression Dự đoán class ‘ỗ’ model Logistic Regression Dự đoán class ‘ỵ’ model Logistic Regression TRAINING VÀ ĐÁNH GIÁ CÁC MODEL Thực nghiệm trên Support vector machine (SVM) - Thời gian train: 18m 12s - Thời gian test (tập validation tập test): 8m 16s - Đánh giá kết + Kết tập validation:  Accuracy: 70% + Kết tập test:  Accuracy: 67% TRAINING VÀ ĐÁNH GIÁ CÁC -MODEL Nhận xét: Các mẫu liệu mà model dự đoán sai (dựa điểm f1-score): đ (36%) Ảnh minh họa cho trường hợp class bị dự đoán sai: Dự đoán class ‘đ’ model Support vector machine (SVM) Thực nghiệm trên Multi layer Perceptron (MLPClassifier) - Thời gian train: 8m 41s - Thời gian test (tập validation tập test): 45s 5 TRAINING VÀ ĐÁNH GIÁ CÁC -MODEL Đánh giá kết + Kết tập validation:  Accuracy: 71% + Kết tập test:  Accuracy: 68% - Nhận xét: Các mẫu liệu mà model dự đoán sai (dựa điểm f1-score): ỗ (34%), ỵ(25%) Ảnh minh họa cho trường hợp class bị dự đoán sai: TRAINING VÀ ĐÁNH GIÁ CÁC MODEL Dự đoán class ‘ỗ’ model MLP * Nhận xét chung cho model: - Các mơ hình cho kết tốt (đều 60%), điểm accuracy cao đạt đến 71% - Mơ hình MLP - Classifier cho kết tốt tập validation test - Class ‘ỵ’ bị dự đoán sang class ‘y’ ‘ỷ’ nhiều Dự đoán class ‘ỵ’ model MLP HƯỚNG CẢI THIỆN VÀ ỨNG DỤNG - Các hướng cải thiện tốn: + Accuracy model nhóm em chọn cho kết chung cao có nhiều class dự đốn sai, nên phải học tìm hiểu thêm nhiều model tốt + Tìm hiểu thêm phương pháp rút trích đặc trưng khác ngồi rút trích đặc trưng HOG + Cải thiện cách thu thập liệu tiền xử lý ảnh có nhiều ảnh bị nhiễu nhiều + Tăng thêm kích thước liệu cho toán - Ứng dụng: ứng dụng thực tế toán nhận dạng chữ viết tay tiếng Việt chấm thi trắc nghiệm - Đối với toán thực tế dạng này, toán ta chia thành toán nhỏ hơn: + Bài toán xác định (Detection) + Bài toán nhận dạng (Classification) Tờ phiếu trắc nhiệm thông thường XIN CẢM ƠN! ... THIỆN GIỚI THIỆU ĐỀ TÀI Mô tả toán Tổng quan đề tài - Bài tốn thuộc lớp tốn phân loại, có tổng cộng 89 lớp đại Phân loại chữ viết tay đề tài nghiên cứu diện cho 89 chữ tiếng Việt viết thường bao... biến Nhưng chữ Tiếng Việt dấu phụ (sắc, huyền, hỏi, ngã, nặng) chưa nghiên cứu nhiều Đó lí nhóm - định thực đề tài Đầu vào toán ảnh chứa chữ tiếng Việt viết thường Đầu kết dự đoán chữ tương... thước liệu cho toán - Ứng dụng: ứng dụng thực tế toán nhận dạng chữ viết tay tiếng Việt chấm thi trắc nghiệm - Đối với toán thực tế dạng này, toán ta chia thành toán nhỏ hơn: + Bài toán xác định (Detection)

Định dạng
Số trang	24
Dung lượng	1,85 MB