Báo cáo bài tập lớn Môn Học sâu và ứng dụng ĐỀ TÀI Sử dụng mạng CNN phân loại chữ số viết tay

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ********** Báo cáo tập lớn Môn Học sâu ứng dụng ĐỀ TÀI: Sử dụng mạng CNN phân loại chữ số viết tay Giảng viên hướng dẫn : TS Trịnh Anh Phúc Sinh viên thực : Hà Nội, 12 – 2020 MỤC LỤC Lởi cảm ơn Phần mở đầu Phần nội dung Mô tả toán Giới thiệu mơ hình kết thực nghiệm 3.1 Cấu hình Google Colab 3.2 Bộ liệu hình ảnh 3.4 Độ đo đánh giá 3.3 Thời gian train, test Phần kết luận 11 Lởi cảm ơn Lời cho phép chúng em gửi lời cảm ơn chân thành tới thầy Trịnh Anh Phúc giảng viên môn Học sâu ứng dụng, cảm ơn thầy dạy cho chúng em kiến thức hay deep learning, cảm ơn thầy tiết học nhiều kiến thức đầy thư giãn, mang lại cho chúng em niềm say mê học tập để hồn thành tập lớn mơn học Tuy nhiên, với kiến thức bản, nhập môn, tập lớn chúng em chắn tồn nhiều sai sót, mong nhận góp ý từ thầy Em xin chân thành cảm ơn Phần mở đầu Hiện nay, thuật ngữ deep learning trở nên phổ biến Deep learning – học sâu tập hợp các máy học nơi mạng nơ-ron nhân tạo, thuật tốn mơ não người, học hỏi từ lượng lớn liệu Mỗi ngày tạo khoảng 2.6 nghìn tỷ bytes liệu, nguồn học thuật tốn học sâu Vì vậy, học sâu năm gần có bước phát triển vũ bão, số ví dụ thực tế học sâu: trợ lý ảo, ứng dụng tự động dịch giữ ngôn ngữ, nhận diện khuôn mặt, xe tự hành,… Để có hiểu biết mạng học sâu, khuôn khổ môn học Học sâu ứng dụng, chúng em lựa chọn đề tài sử dụng mạng CNN để nhận diện chữ số viết tay Phần nội dung Mơ tả tốn Nhận diện chữ số viết tay toán deep learning có nhiều ứng dụng sống nhận diện biển báo, nhận diện chi phiếu ngân hàng, nhận mã bì thư dịch vụ bưu chính, hay chữ số biểu mẫu nói chung… Đầu vào: Hình ảnh chứa chữ số viết tay Đầu ra: Nhãn tương ứng với chữ số Giới thiệu mơ hình LeNet-5 kiến trúc mạng CNN cũ, phát triển vào năm 1998 Andre LeCun, Leon Bottou, Yoshua Bengio, Patrick Hafner LeNet-5 dùng cho nhận dạng chữ viết tay trở thành sở thiết kế cho mạng lớn sau Trong này, chúng em sử dụng kiến trúc mạng Lenet-5 có chút thay đổi, cụ thể thay lớp AVG Pooling lớp Max Pooling hàm kích hoạt sau tầng tích chập tầng kết nối đầy đủ ReLU Kiến trúc mơ hình: Lớp lớp tích chập nhận đầu vào ảnh kích thước 28x28x1 Nó sử dụng hạt nhân kích thước 5x5x1, thực tích chập padding “same”, bước nhảy tạo tensor kích thước 28x28x6 Tensor chuyển qua hàm kích hoạt ReLU, sau trở thành đầu vào cho lớp Lớp lớp gộp max pooling, nhận đầu vào tensor kích thước 28x28x6 Lớp thực lấy mẫu khơng đệm, cách sử dụng hạt nhân kích thước 2x2 với bước nhảy tạo tensor kích thước 14x14x6 tới lớp trở thành đầu vào Lớp lớp tích chập, đầu vào tenensor kích thước 14x14x6 Lớp sử dụng 16 hạt nhân kích thước 5x5x6, thực tích chập khơng đệm, bước nhảy thu tensor kích thước 10x10x16, tensor đưa qua hàm kích hoạt ReLU trở thành đầu vào cho lớp Lớp lớp gộp max pooling, đầu vào tensor 10x10x16 kích thước hạt nhân 2x2 bước nhảy Đầu lớp tensor 5x5x16 Lớp kết nối đầy đủ (Dense), nhận đầu vào vector duỗi từ tensor 5x5x16 (đầu lớp 4), hàm kích hoạt ReLU, đầu vector kích thước 120 Lớp lớp kết nối đầu đủ, vector đầu vào kích thước 120, hàm kích hoạt ReLU, vector đầu kích thước 84 Lớp 7: lớp kết nối đầu đủ, lấy đầu lớp làm đầu vào, sử dụng kích hoạt softmax để tiến hành phân loại cho 10 lớp tương ứng 10 node đầu Tổng kết lớp: 1: convolutional layer 2: max pooling 3: convolutional layer 4: max pooling 5: 6:full connected 7: full connected 28x28x1 kernel (5,5) padding=”same” stride=1 activate fuction: ReLU 28x28x6 kernel(2,2) padding=0 stride=2 14x14x6 16 kernel (5,5) padding=0 stride=1 activate function: ReLU 10x10x16 kernel (2,2) padding=0 stride=2 400(=5x5x16) activate function: ReLU 120 activate function: ReLU 84 activate function: ReLU 28x28x6 Parameters 6x5x5x1+6 =156 14x14x6 - 10x10x16 16x5x5x6+16 =2416 5x5x16 - 120 120x400+120 =48120 84x120+84 =10164 84x10+10 =850 61706 84 10 Tổng Operations (5x5x1)x(28x28x6) =117600 (5x5x6)x(10x10x16 ) =240000 120x400 =48000 120x84 =10080 84x10 =840 416520 kết thực nghiệm 3.1 Cấu hình Google Colab: Cấu hình phần cứng Google colab: - GPU: Up to Tesla K80 with 12 GB of GDDR5 VRAM CPU: Intel Xeon Processor with two cores @ 2.20 GHz Memory: 13 GB RAM 3.2 Bộ liệu hình ảnh Trong toán sử dụng liệu MNIST sở chữ số viết tay, cải biên từ sở liệu gốc NIST giúp dễ sử dụng MNIST tập hợp gồm 70000 mẫu ảnh chứa liệu chữ số viết tay từ đến Trong liệu huấn luyện 60000 liệu test 10000 mẫu ảnh Mỗi mẫu ảnh gồm phần hình ảnh grayscale kí tự chữ số kích thước 28x28 nhãn tương ứng với Hình 1: Một số hình ảnh mẫu liệu MNIST Thống kê hai tập train, test: Chữ số Tổng Tập train Số lượng mẫu 5923 6742 5958 6131 5842 5421 5918 6265 5851 5949 60000 Chữ số Tổng Tập test Số lượng mẫu 980 1135 1032 1010 982 892 958 1028 974 1009 10000 Hình 2: Biểu đồ thống kê tập train, test MNIST 3.3 Độ đo đánh giá Có nhiều cách để đánh giá mơ hình phân lớp: accuracy score, confusion matrix, ROC curve, Area Under the Curve, Precision and Recall, F1 score, Top R error,… Tuy nhiên, đơn giản, toán này, chúng em sử dụng accuracy score (độ xác) Đây cách đánh giá dựu tỉ lệ số dự đoán tổng số dự đoán tập test 3.4 Thời gian train, test Trainning tập diệu huấn luyện 60000 mẫu liệu với batch-size=32, epoch=20 hết 100s 60ms thu độ xác training accuracy=0.9945 Thời gian test 10000 mẫu liệu hết 1s, độ xác testing accuracy=0.9847, test loss 0,0769 Một số hình ảnh dự đốn sai: Phần kết luận Mơ hình sau chỉnh sửa so với mơ hình gốc có tỉ lệ lỗi cao 1,53%, cần có tìm hiểu sâu để cải tiến mơ hình Tuy nhiên bản, chúng em hiểu tầng mơ hình gốc tùy biến mơ hình theo ý, từ tự tạo mơ hình phục vụ cho toán khác tương lai ... chúng em lựa chọn đề tài sử dụng mạng CNN để nhận diện chữ số viết tay Phần nội dung Mơ tả tốn Nhận diện chữ số viết tay toán deep learning có nhiều ứng dụng sống nhận diện biển báo, nhận diện... triển vũ bão, số ví dụ thực tế học sâu: trợ lý ảo, ứng dụng tự động dịch giữ ngôn ngữ, nhận diện khuôn mặt, xe tự hành,… Để có hiểu biết mạng học sâu, khuôn khổ môn học Học sâu ứng dụng, chúng... bưu chính, hay chữ số biểu mẫu nói chung… Đầu vào: Hình ảnh chứa chữ số viết tay Đầu ra: Nhãn tương ứng với chữ số Giới thiệu mơ hình LeNet-5 kiến trúc mạng CNN cũ, phát triển vào năm 1998 Andre

Định dạng
Số trang	11
Dung lượng	329,83 KB