BÁO cáo đồ án môn học máy học (MACHINE LEARNING) đề tài PHÂN LOẠI CHỮ VIẾT TAY TIẾNG VIỆT có dấu

24 931 4
BÁO cáo đồ án môn học máy học (MACHINE LEARNING) đề tài PHÂN LOẠI CHỮ VIẾT TAY TIẾNG VIỆT có dấu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN MÔN HỌC: MÁY HỌC (MACHINE LEARNING) ĐỀ TÀI: PHÂN LOẠI CHỮ VIẾT TAY TIẾNG VIỆT CÓ DẤU Giảng viên hướng dẫn: Lê Đình Duy Phạm Nguyễn Trường An Sinh viên thực hiện: Đỗ Trọng Khánh – 19521676 Võ Phạm Duy Đức – 19521383 Trịnh Công Danh – 19521326 Lớp: CS114.L22.KHCL CS114.L21.KHCL NỘI DUNG BÁO CÁO 01 04 GIỚI THIỆU ĐỀ TÀI XỬ LÍ DỮ LIỆU VÀ TRÍCH XUẤT ĐẶC TRƯNG 02 CÁC NGHIÊN CỨU TRƯỚC 03 05 TRAINING VÀ ĐÁNH GIÁ CÁC MODEL 06 MÔ TẢ BỘ DỮ LIỆU ỨNG DỤNG VÀ HƯỚNG CẢI THIỆN GIỚI THIỆU ĐỀ TÀI Mô tả toán Tổng quan đề tài - Bài tốn thuộc lớp tốn phân loại, có tổng cộng 89 lớp đại Phân loại chữ viết tay đề tài nghiên cứu diện cho 89 chữ tiếng Việt viết thường bao gồm phổ biến Nhưng chữ Tiếng Việt dấu phụ (sắc, huyền, hỏi, ngã, nặng) chưa nghiên cứu nhiều Đó lí nhóm - định thực đề tài Đầu vào toán ảnh chứa chữ tiếng Việt viết thường   Đầu kết dự đoán chữ tương ứng với ảnh 2 CÁC NGHIÊN CỨU Nghiên cứu giảng viên trường đại học Duy Tân TRƯỚC Mô tả liệu Phương pháp nghiên cứu - Tác giả xây dựng mô hình nhân dạng chữ viết tay rời rạc dựa - Bộ dữ liệu chuẩn MNIST: Bộ dữ liệu MNIST bao gồm phương pháp phân lớp SVM - Support Vector Machines 60.000 mẫu huấn luyện và 10.000 mẫu khác để nhận Công việc được thực hiện dựa trên bước: dạng, mỗi mẫu là ảnh kích thước 28 x 28 + Bước 1: Xây dựng mô hình huấn luyện - Bộ liệu chữ viết tay tiếng Việt: Bộ dữ liệu chữ viết tay tiếng Việt (VietData) bao gồm 89 lớp chữ cái in hoa, mỗi lớp chọn 200 mẫu, như liệu VietData tổng cộng 17.800 mẫu + Bước 2: Phân lớp nhận dạng CÁC NGHIÊN CỨU Kết thực nghiệm TRƯỚC - Trên bộ dữ liệu MNIST: + Mô hình SVM được sử dụng với hàm nhân RBF - Trên bộ dữ liệu chữ viết tay tiếng Việt: + Việc thực nghiệm trên dữ liệu chữ viết tay tiếng Việt và các tham số C = 10 (tham số hàm phạt), Cache = được tiến hành theo phương thức thẩm định chéo (Cross- 1000 (kích thước vùng nhớ để lưu trữ các vectơ tựa) Validation) Nhận xét - SVM là một phương pháp học máy tiên tiến có cơ sở toán học chặt chẽ và đạt độ chính xác phân lớp cao - Hạn chế khác của SVM là huấn luyện đòi hỏi không gian nhớ lớn - Bản chất của phương pháp SVM là phân lớp nhị phân nên việc mở rộng khả năng của SVM để giải quyết các bài toán phân loại nhiều lớp là vấn đề khó và cần rất nhiều nghiên cứu 3 MÔ TẢ BỘ DỮ LIỆU - Dữ liệu thu thập từ 30 người tình nguyện Nhóm góp chung liệu với nhóm bạn Đặng Văn Minh để làm Trainning set Validation set Sau thu thập thêm liệu để làm tập Test set dành riêng cho nhóm để đánh giá độ xác mơ hình - Nhóm chuẩn bị mẫu giấy A4 nhờ người viết tay chữ vào ô giấy Mẫu liệu Mẫu liệu viết MÔ TẢ BỘ DỮ Các bước thực LIỆU Bước 1: Sử dụng cv2 edge detection để cắt gọn khoảng trắng dư thừa để thu ận ti ện vi ệc lọc chữ 3 MƠ TẢ BỘ DỮ LIỆU Bước 2: Lọc ô chữ sau cắt gọn 3 MÔ TẢ BỘ DỮ LIỆU Bước 3: Sau có vị trí hàng vị trí hàng Nhóm tiến hành duyệt chữ lưu vào drive 3 MÔ TẢ BỘ DỮ LIỆU Bước 4: Sau lọc cắt ảnh chứa chữ riêng biệt phân loại ảnh thành thư mục riêng Phân loại đưa vào thư mục MÔ TẢ BỘ DỮ LIỆU - Sau phân loại gán nhãn cho liệu, có tổng cộng 29.211 mẫu với 89 class, trung bình class có khoảng 328 ảnh - Nhóm chia liệu thu thập thành tập: 20.740 Validation set với 5.229 mẫu, Test set với 3.512 mẫu mẫu, mẫu từ training set không dùng để huấn thu thập riêng biệt validation set thu luyện mơ hình mà dùng để đánh với hai tập thập từ nhiều người viết giá mơ hình sau train Training khác set với XỬ LÍ DỮ LIỆU VÀ TRÍCH XUẤT ĐẶC TRƯNG Tiền Xử lý liệu  - Các ảnh tập train tập validation chuyển thành ảnh nhị phân (trắng đen) xử lý nhiễu - Cắt bớt khoảng trắng dư thừa xung quanh chữ thống kê width height (4, 15)  - Tiếp theo tiến hành thử resize kích thước (4, 15) vài hình, nhận thấy hình khơng cịn rõ Do nhóm định xố hình có width < 14 height = 15 - Sau resize kích thước 14x16 để tránh số chữ y, h không rõ bị hư 4 XỬ LÍ DỮ LIỆU VÀ TRÍCH XUẤT ĐẶC TRƯNG Xử lý liệu - Sử dụng phương pháp trích xuất đặc trưng HOG (Histogram of oriented gradient) - Hình ảnh chia thành nhỏ nối tiếp nhau, có kích thước x pixel Sẽ có giá trị hướng giá trị độ lớn ứng với ô - Mỗi ô vuông ảnh có kích thước 2x2 pixel có giá trị hướng giá trị độ lớn sau: XỬ LÍ DỮ LIỆU VÀ TRÍCH XUẤT ĐẶC TRƯNG - Tiếp theo, thực vote giá trị độ lớn pixel có khoảng hướng có vị trí tọa độ vào bin sau xác định hướng pixel thuộc pin tương ứng Công thức linear interpolation   Giá trị phương gradient x tương ứng với độ lớn gradient y có vị trí tọa độ (x thuộc [ , ]) Khi đó:  Tại bin thứ l – 1:  Tại bin thứ l: XỬ LÍ DỮ LIỆU VÀ TRÍCH XUẤT ĐẶC TRƯNG - Chuẩn hóa vector histogram theo block gồm ô, ô x pixel - Sau dịch block sang ô ta thực chuẩn hóa cho block Đầu vào ảnh có kích thước 14x16, áp dụng thuật tốn tính HOG với kích thước cells 2x2 thu lưới ô vng có kích thước 14/2 = theo chiều rộng 16/2 = ô theo chiều dài Sau khối block có kích thước 2x2 trải qua bước theo chiều rộng bước theo chiều ghép nối tiếp vector có 36 phần tử lại với ta có vector có 36 x x = 1512 phần tử Đây vector HOG đại diện cho tồn hình ảnh TRAINING VÀ ĐÁNH GIÁ CÁC MODEL - Với bài toán phân loại chữ viết tay tiếng việt, nhóm em sẽ dùng các model sau để huấn luy ện: +  Logistic Regression +  Support vector machine (SVM) +  Multi layer Perceptron (MLPClassifier) - Để đánh giá kết quả, chúng em sẽ sử dụng cách tính accuracy, accuracy càng cao thì mô hình càng tốt Thực nghiệm trên Logistic Regression - Thời gian train: 2m 23s - Thời gian test (tập validation tập test): 39s 5 TRAINING VÀ ĐÁNH GIÁ CÁC -MODEL Đánh giá kết + Kết tập validation:  Accuracy: 67% + Kết tập test:  Accuracy: 63% - Nhận xét: Các mẫu liệu mà model dự đoán sai (dựa điểm f1-score): ẫ(39%), ẩ(34%), ỗ(36%), ỵ (27%) Ảnh minh họa cho trường hợp class bị dự đoán sai: TRAINING VÀ ĐÁNH GIÁ CÁC MODEL Dự đoán class ‘ẫ’ model Logistic Regression Dự đoán class ‘ẩ’ model Logistic Regression Dự đoán class ‘ỗ’ model Logistic Regression Dự đoán class ‘ỵ’ model Logistic Regression TRAINING VÀ ĐÁNH GIÁ CÁC MODEL Thực nghiệm trên Support vector machine (SVM) - Thời gian train: 18m 12s - Thời gian test (tập validation tập test): 8m 16s - Đánh giá kết + Kết tập validation:  Accuracy: 70% + Kết tập test:  Accuracy: 67% TRAINING VÀ ĐÁNH GIÁ CÁC -MODEL Nhận xét: Các mẫu liệu mà model dự đoán sai (dựa điểm f1-score): đ (36%) Ảnh minh họa cho trường hợp class bị dự đoán sai: Dự đoán class ‘đ’ model Support vector machine (SVM) Thực nghiệm trên Multi layer Perceptron (MLPClassifier) - Thời gian train: 8m 41s - Thời gian test (tập validation tập test): 45s 5 TRAINING VÀ ĐÁNH GIÁ CÁC -MODEL Đánh giá kết + Kết tập validation:  Accuracy: 71% + Kết tập test:  Accuracy: 68% - Nhận xét: Các mẫu liệu mà model dự đoán sai (dựa điểm f1-score): ỗ (34%), ỵ(25%) Ảnh minh họa cho trường hợp class bị dự đoán sai: TRAINING VÀ ĐÁNH GIÁ CÁC MODEL Dự đoán class ‘ỗ’ model MLP * Nhận xét chung cho model: - Các mơ hình cho kết tốt (đều 60%), điểm accuracy cao đạt đến 71% - Mơ hình MLP - Classifier cho kết tốt tập validation test - Class ‘ỵ’ bị dự đoán sang class ‘y’ ‘ỷ’ nhiều Dự đoán class ‘ỵ’ model MLP HƯỚNG CẢI THIỆN VÀ ỨNG DỤNG - Các hướng cải thiện tốn: + Accuracy model nhóm em chọn cho kết chung cao có nhiều class dự đốn sai, nên phải học tìm hiểu thêm nhiều model tốt + Tìm hiểu thêm phương pháp rút trích đặc trưng khác ngồi rút trích đặc trưng HOG + Cải thiện cách thu thập liệu tiền xử lý ảnh có nhiều ảnh bị nhiễu nhiều + Tăng thêm kích thước liệu cho toán - Ứng dụng: ứng dụng thực tế toán nhận dạng chữ viết tay tiếng Việt chấm thi trắc nghiệm - Đối với toán thực tế dạng này, toán ta chia thành toán nhỏ hơn: + Bài toán xác định (Detection) + Bài toán nhận dạng (Classification) Tờ phiếu trắc nhiệm thông thường XIN CẢM ƠN! ... THIỆN GIỚI THIỆU ĐỀ TÀI Mô tả toán Tổng quan đề tài - Bài tốn thuộc lớp tốn phân loại, có tổng cộng 89 lớp đại Phân loại chữ viết tay đề tài nghiên cứu diện cho 89 chữ tiếng Việt viết thường bao... biến Nhưng chữ Tiếng Việt dấu phụ (sắc, huyền, hỏi, ngã, nặng) chưa nghiên cứu nhiều Đó lí nhóm - định thực đề tài Đầu vào toán ảnh chứa chữ tiếng Việt viết thường   Đầu kết dự đoán chữ tương... thước liệu cho toán - Ứng dụng: ứng dụng thực tế toán nhận dạng chữ viết tay tiếng Việt chấm thi trắc nghiệm - Đối với toán thực tế dạng này, toán ta chia thành toán nhỏ hơn: + Bài toán xác định (Detection)

Ngày đăng: 18/08/2021, 18:24

Mục lục

    NỘI DUNG BÁO CÁO