1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Deep learning, mạng nơ ron nhân tạo nhiều lớp MLP và bài toán nhận dạng hình ảnh mạng nơ ron tích chập (convolution neural network CNN)

76 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 76
Dung lượng 2,71 MB

Nội dung

LỜI CẢM ƠN Lời đầu tiên, em xin chân thành cảm ơn các thầy cô giáo trong trường Đại học Khoa Học cùng các thầy cô trong khoa Điện, Điện Tử và Công Nghệ Vật Liệu đã nhiệt tình giúp đỡ, giảng d.

LỜI CẢM ƠN Lời đầu tiên, em xin chân thành cảm ơn thầy cô giáo trường Đại học Khoa Học thầy cô khoa Điện, Điện Tử và Công Nghệ Vật Liệu nhiệt tình giúp đỡ, giảng dạy và mang đến cho em những điều bổ ích môn đại cương mơn chun ngành, giúp em có tảng sở lý thuyết vững chắc kiến thức cần thiết để thực đồ án tốt nghiệp và xa là có được hướng tốt tương lai Tiếp theo đó, em xin chân thành cảm ơn bạn lớp Điện tử - Viễn thông K40, gia đình và người đông hành, khích lệ, giúp đỡ và động viên em suốt thời gian vừa qua Đặc biệt nhất, em xin gửi lời cám ơn chân thành đến Thạc sĩ Vương Quang Phước, giảng viên Bộ môn Kỹ thuật Viễn thông - trường Đại học Khoa Học, người hướng dẫn, cung cấp tài liệu, động viên bảo nhiệt tình để em hồn thành đồ án tốt nghiệp Trong suốt trình thực đồ án, chắn khơng tránh khỏi sai sót Em mong nhận đóng góp từ thầy, để hồn thiện đồ án tốt nghiệp Em xin chân thành cám ơn! Sinh viên thực Nguyễn Trí Định i MỤC LỤC LỜI CẢM ƠN i MỤC LỤC ii DANH MỤC HÌNH ẢNH iv DANH MỤC BẢNG BIỂU vi DANH MỤC CÁC CHỮ VIẾT TẮT vii MỞ ĐẦU CHƯƠNG 1.DEEP LEARNING, MẠNG NƠ-RON NHÂN TẠO NHIỀU LỚP MLP VÀ BÀI TỐN NHẬN DẠNG HÌNH ẢNH 1.1.Giới thiệu chương 1.2.Deep learning 1.3.Mạng nơ-ron nhân tạo 1.3.1.Perceptron 1.3.2.Sigmoid 1.3.3.Mạng nơ-ron nhân tạo nhiều lớp MLP 1.3.4.Bài toán nhận dạng hình ảnh 1.4.Kết luận chương CHƯƠNG 2.LÝ THUYẾT CƠ BẢN VỀ MẠNG NƠ-RON TÍCH CHẬP CNN VÀ CÁC THAM SỐ LIÊN QUAN 2.1.Giới thiệu chương 2.2.Mạng nơ-ron tích chập 2.3.Lớp tích chập 2.3.1.Phép tích chập 2.3.2.Vùng tiếp nhận cục bộ 2.3.3.Số bước trượt (Strides) 2.3.4.Zero padding 11 2.4.Lấy mẫu xuống (Pooling) 12 2.5.Lớp Dropout 13 2.6.Hàm kích hoạt ngõ Softmax 14 2.7.Hàm tổn hao Cross Entropy 15 2.8.Tỷ lệ học 15 ii 2.9.Kết luận chương 16 CHƯƠNG 3.SO SÁNH MƠ HÌNH MLP VỚI CNN VÀ KHẢO SÁT SỰ ẢNH HƯỞNG CỦA CÁC THAM SỐ 17 3.1.Giới thiệu chương 17 3.2.Cơ sở liệu, so sánh mơ hình 17 3.2.1.Cơ sở liệu 17 3.2.2.So sánh mô hình MLP và CNN 18 3.3.Đánh giá ảnh hưởng của các tham số 21 3.3.1.Lớp tích chập 21 3.3.2.Hàm kích hoạt: 26 3.3.3.Pooling: 27 3.3.4.Dropout 28 3.3.5.Tỉ lệ học 30 3.3.6.Kết luận: 31 3.4.Kết luận chương 32 CHƯƠNG 4.SỬ DỤNG MÔ HÌNH CNN TỐI ƯU CHO VIỆC PHÂN LOẠI CỦ QUẢ 33 4.1.Giới thiệu chương 33 4.2.Cơ sở dữ liệu 33 4.3.Khảo sát với mạng Lenet 37 4.4.Khảo sát với mô hình CNN tối ưu: 39 4.5.Mở rộng sở dữ liệu 43 4.6.Kết luận chương 48 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 49 TÀI LIỆU THAM KHẢO 51 PHỤ LỤC 54 iii DANH MỤC HÌNH ẢNH Hình 1.1 Mối quan hệ AI/Machine Learning/Deep Learning [2] Hình 1.2 Sơ đồ mô tả cách mạng nơ-ron hoạt động [3] Hình 1.3 Một mạng nơ-ron nhân tạo Hình 1.4 Cấu trúc perceptron với đầu vào Hình 1.5 Mạng nơ-ron tích chập [5] 10 Hình 1.6 Thuật toán Gradient descent 14 Hình 1.7 Thuật toán SGD với động lượng (Stochastic gradient descent with momentum) [9] 15 Hình 1.8 Hình ảnh góc nhìn máy tính [13] 19 Hình 2.1 Nơ-ron lớp ẩn kết nối với vùng tiếp nhận cục 21 Hình 2.2 Quá trình trượt vùng tiếp nhận cục theo chiều ngang chiều dọc 22 Hình 2.3 Quá trình hình thành lớp ẩn sau trượt vùng tiếp nhận cục 22 Hình 2.4 Giá trị stride (a) stride (b) 23 Hình 2.5 Lớp ẩn giữ nguyên kích thước lớp ngõ vào thêm zero padding 24 Hình 2.6 Lớp ngõ vào (a), lọc (b) đồ đặc tính (c) 26 Hình 2.7 Đồ thị hàm ReLu 27 Hình 2.8 Lớp ngõ vào (a) lớp ngõ sau áp dụng lớp pooling (b) 28 Hình 2.9 Mạng nơ-ron sau áp dụng Dropout [16] 29 Hình 3.1 Hình ảnh chữ số viết tay từ tập MNIST [17] 32 Hình 3.2 Hình ảnh trích xuất từ sở liệu CIFAR10 [18] 33 Hình 3.3 Mơ hình mạng Multilayer Perceptron (MLP) 34 Hình 3.4 Mơ hình mạng Lenet-5 (CNN) Yan Lecun công bố năm 1998 [19] 34 Hình 3.5 Khảo sát mạng MLP với tỉ lệ học khác 38 Hình 3.6 Kết mạng MLP theo lớp ẩn 39 Hình 3.7 Kết mạng MLP theo số lượng nơ-ron lớp ẩn 40 Hình 3.8 Kết mạng MLP thay đổi giá trị Dropout 41 iv Hình 3.9 Khảo sát mạng CNN với tỉ lệ học khác 43 Hình 3.10 Kết mạng CNN tăng số khối tích chập .44 Hình 3.11 Kết mạng CNN tăng số lượng đồ đặc tính 44 Hình 3.12 Kết mạng CNN thay đổi giá trị Dropout 45 Hình 3.13 Sơ đồ biểu diễn kích thước lọc ảnh hưởng tới mơ hình 47 Hình 3.14 Sơ đồ thể kích thước bước trượt ảnh hưởng tới mơ hình mạng 48 Hình 3.15 Sơ đồ thể loại lấy mẫu xuống ảnh hưởng tới mơ hình mạng 49 Hình 3.16 Sơ đồ khối mơ hình CNN sử dụng để đánh giá 50 Hình 3.17 Tỉ lệ mát thuật toán tối ưu tập liệu MNIST 51 Hình 3.18 Tỉ lệ nhận dạng thuật toán tập huấn luyện tập đánh giá 52 Hình 3.19 Tỉ lệ mát thuật toán tối ưu tập liệu CIFAR-10 53 Hình 3.20 Tỉ lệ nhận dạng thuật toán tập huấn luyện tập đánh giá 53 Hình 4.1 Chế độ xem project (dự án) 56 Hình 4.2 Các mo-đun dự án hệ thống 57 Hình 4.3 Bộ mô cho loại thiết bị 59 Hình 4.4 Mơ hình mạng CNN sử dụng để phát triển lên ứng dụng .61 Hình 4.5 Tham số weight mơ hình tensorflow 64 Hình 4.6 Tham số weight mơ hình tensorflow lite 64 Hình 4.7 Mô hình CNN với định dạng tensorflow 65 Hình 4.8 Mơ hình CNN với định dạng tensorflow lite 65 Hình 4.9 Giao diện ứng dụng nhận dạng chữ số viết tay 66 Hình 4.10 Một số kết nhận dạng trích xuất từ ứng dụng 67 Hình 4.11 Một số nhận dạng sai trích xuất từ ứng dụng 68 Hình 4.12 Sơ đồ khối mơ hình mạng MLP sử dụng đánh giá khảo sát 72 Hình 4.13 Sơ đồ khối mơ hình mạng Lenet-5 sử dụng khảo sát đánh giá 75 Hình 4.14 Nhập mơ hình vào Android studio với định dạng tflite 85 DANH MỤC BẢNG BIỂU Bảng 3.1 Kết mạng MLP thay đổi kích thước gói 42 v Bảng 3.2 Kết mạng CNN thay đổi kích thước gói 46 Bảng 4.1 Chuyển đổi định dạng h5 thành tflite 63 Bảng 4.2 Xây dựng mơ hình MLP để tiến hành đánh giá ngôn ngữ Python 73 Bảng 4.3 Xây dựng mơ hình Lenet-5 tiến hành đánh giá ngôn ngữ Python 76 Bảng 4.4 Xây dựng mô hình CNN để đánh giá thuật tốn tối ưu ngôn ngữ Python 79 Bảng 4.5 Huấn luyện đánh giá mơ hình CNN Google colab ngôn ngữ Python 82 vi DANH MỤC CÁC CHỮ VIẾT TẮT Từ viết tắt Nghĩa tiếng Anh Nghĩa tiếng Việt AI Artificial Intelligence Trí tuệ nhân tạo CNN Convolutional Neural Mạng nơ-ron tích chập Network FC Fully Connected Mạng kết nối hoàn toàn MLP Multi-Layers Perceptron Multi-Layers Perceptron CIFAR Canadian ReLU Institute for Viện nghiên cứu tiên Advanced Research tiến Canada Rectifier Linear Unit Bộ chuyển đổi tuyến tính GPU Graphics Processing Unit Bộ xử lý hình ảnh GD Gradient Descent Thuật tốn giảm dần độ dốc ANN Artificial Neural Network APK Android Package Mạng nơ-ron nhân tạo Application Bộ cài đặt ứng dụng hệ điều hành Android vii MỞ ĐẦU Lý lựa chọn đề tài Mục tiêu đề tài Nghiên cứu, đánh giá các kỹ thuật học sâu sở dữ liệu CIFAR10 Đánh giá tác động của số lớp, tốc độ học( learning rate), các hàm tối ưu (optimizers), tỉ lệ loại bỏ ngẫu nhiên (dropout)… Xây dựng mô hình thích hợp dựa những đánh giá để áp dụng vào bài toán phân loại củ quả Trong quá trình thực hiện đồ án, em đã học hỏi và rèn luyện được một số kiến thức và kỹ như:  Nâng cao kỹ lập trình với ngôn ngữ Python, mô phỏng google colab  Phát triển kỹ báo cáo nhóm, làm việc nhóm  Nâng cao kỹ đọc tài liệu khoa học, tài liệu tiếng anh Đối tượng nghiên cứu Bộ sở liệu CIFAR10 với 60000 hình ảnh màu gồm: máy bay, tơ, chim, mèo, hươu, chó, ếch, ngựa, tàu xe tải có kích thước 32x32 pixel Bộ sở dữ liệu Fruit-360 với 30080 ảnh màu thuộc 48 lớp với 22783 ảnh huấn luyện và 7297 ảnh kiểm tra, kích thước mỗi ảnh là 100x100 pixel Deep Learning(Mạng MLP và CNN – Các thông số, cấu trúc mạng) Ngôn ngữ lập trình Python ( Thư viện Keras, numpy, matplotlib…) Ngơn ngữ lập trình Python Phương pháp đánh giá Nghiên cứu lý thuyết, đánh giá thông qua mô phỏng thực nhiệm Google Colaboratory (Google Colab) Quá trình thực hiện gồm các bước:  Chuẩn bị sở dữ liệu  Xây dựng mô hình mạng  Chọn phương pháp đánh giá, hàm kích hoạt, hàm tối ưu và hàm tổn hao  Huấn luyện mô hình để tối ưu các thông số weight và bias  Đánh giá mô hình và dự đoán với dữ liệu mới Cấu trúc báo cáo đề tài Nội dung đồ án gồm chương:  Chương 1: Deep Learning, Mạng Nơ-ron nhân tạo nhiều lớp MLP tốn nhận dạng hình ảnh  Chương 2: Mạng nơ-ron tích chập (Convolution neural network - CNN)  Chương 3: So sánh mơ hình MLP với CNN và khảo sát đánh giá các thông số để xây dựng mơ hình  Chương 4: Ứng dụng mơ hình mạng nơ-ron tích chập (CNN) vào bài toán phân loại củ quả DEEP LEARNING, MẠNG NƠ-RON NHÂN TẠO NHIỀU LỚP MLP VÀ BÀI TỐN NHẬN DẠNG HÌNH ẢNH Giới thiệu chương Deep Learning là một kỹ thuật huấn luyện được nghiên cứu cũng ứng dụng rộng rãi, và bài toán nhận dạng hình ảnh là môt những vấn đề được quan tâm hàng đầu Chương giới thiệu tổng quan Deep Learning, cách thức cấu thành mạng nơ-ron, và phương pháp học, đặc điểm toán nhận dạng Deep learning Thuật ngữ AI (Artificial Intelligence) hay còn gọi là trí thơng minh nhân tạo nghiên cứu biết đến vào năm 1956, AI dùng để chỉ những cổ máy được chế tạo phức tạp, sở hữu những đặc tính gần giống với trí thông minh của người + Khối thứ 4: Convolution4 + MaxPooling4: 128 bản đồ đặc tính với kích thước 5x5, số bước trượt = 1, padding = MaxPooling kích thước 2x2 - Hàm truyền: Relu - Lớp liên kết đầy đủ: lần lượt là 1000 nơ-ron, 256 nơ-ron - Tỷ lệ Dropout: 50% - Ngõ ra: 10 nơ-ron với hàm kích hoạt ngõ softmax - Hàm tối ưu Adam với tỷ lệ học 0.0001 - Kích thước gói con: 32 - Chu kỳ học: 20  Kết quả đánh giá: Mô hình đánh giá qua 20 chu kỳ học cho kết quả Nhận thấy tỷ lệ nhận dạng đúng của tập huấn luyện đạt 98% và tập kiểm tra gần đạt kết quả cao với tỉ lệ xấp xỉ với tập huấn luyện, và với mô hình tối ưu này có thể thấy được hiện tượng overfitting đã được hạn chế mô hình được thêm vào các lớp Dropout Thời gian huấn luyện với tập dữ liệu 22783 ảnh chỉ nằm khoảng giờ đồng hồ (vì mô hình sử dụng kích thước bước trượt lớn và với lớp Max pooling thì kích thước cũng thông số mạng giảm đáng kể) Như vậy, sau quá trình khảo sát thì mô hình CNN tối ưu này cho kết quả tốt nhiều so với mô hình Lenet  Kết quả nhận dạng tập kiểm tra:  Kết quả nhận dạng với tập dữ liệu mới: 4.5 Mở rộng sở dữ liệu Với các bài toán về Deep Learning thì dữ liệu cực kỳ quan trọng, nó quyết định đến thành bài của bài toán Những bài toán có quá ít dữ liệu thì quá trình huấn luyện hiện tượng overfitting xảy rất nhiều, muốn tránh được điều này ta cần phải làm giàu những dữ liệu đó, và may mắn Keras cung cấp thư viện thuận tiện cho việc mở rộng sở dữ liệu, chỉ với một vài ảnh ta có thể tăng cường lên vài trăm thậm chí là vài trăm nghìn, triệu ảnh bằng cách: phóng to, thu nhỏ, lật ngang, lật dọc, tăng giảm độ sáng cho ảnh, dịch ảnh sang trái sang phải… Ví dụ:  Nếu muốn lật ảnh : Image = ImageDataGenerator(rotation_range=90) Lệnh thực hiện bằng cách xoay ảnh ngẫu nhiên theo chiều kim đồng hồ khoảng từ 00 đến 900 Kết quả thu được:  Dịch chuyển ảnh theo chiều dọc: Image = ImageDataGenerator(height_shift_range=0.5) dịch chuyển sang trái hoặc phải ngẫu nhiên 1/2 độ rộng ảnh  Dịch chuyển ảnh theo chiều ngang: Image = ImageDataGenerator(weight_shift_range=0.5) dịch chuyển lên hoặc xuống dưới ngẫu nhiên 1/2 độ rộng ảnh  Lật ảnh + thay đổi độ sáng tối: Image = ImageDataGenerator(brightness_range=[0.5, 1.5]) giá trị sẽ thay đổi ngẫu nhiên giữa 0.5 cho đến 1.5 Với những giá trị nhỏ thì ảnh sẽ tối, ở là ko có thay đổi và lớn ảnh sẽ sáng  Phóng to thu nhỏ kích thước ảnh: Image = ImageDataGenerator(zoom_range=[0.5, 1.5]) ảnh sẽ được phóng to hay thu nhỏ ngẫu nhiên khoảng 50% đến 150% lần kích thước ảnh  Kết quả từ một ảnh thu được sau: Như vậy có thể thấy chỉ với một bức ảnh có thể tạo bức ảnh khác và nếu áp dụng vào cở sở dữ liệu nhiều thì số lượng ảnh sẽ tăng lên rất nhiều lần 4.6 Kết luận chương Chương cách phát triển từ mơ hình mạng CNN lên thành ứng dụng nhận dạng chữ số viết tay nói riêng nhận dạng hình ảnh nói chung tảng di động Android Cùng với đó, rút nhận xét độ tối ưu hay lỗi ứng dụng KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Sau hoàn thành đề tài “Ứng dụng kĩ thuật học sâu vào toán nhận dạng chữ số viết tay tảng di động Android”, em xin trình bày số kết đạt sau: - Trình bày khái quát mạng nơ-ron nhân tạo, cụ thể mạng MLP mạng CNN - Cách thức xây dựng mơ hình mạng nơ-ron nhân tạo cho toán nhận dạng chữ số viết tay - Tìm hiểu thuật tốn, phương pháp học mạng nơ-ron nhân tạo - Khảo sát thực nghiệm tập liệu chữ số viết tay MNIST mơ hình mạng - Đánh giá tầm quan trọng tham số ảnh hưởng đến hiệu mơ hình - Từ sở mạng nơ-ron tích chập CNN, phát triển lên thành ứng dụng nhận dạng chữ số viết tay tảng di động Android với tỉ lệ mơ hình mạng 99.3% Hướng phát triển tương lai Do thời gian nghiên cứu hạn hẹp, kiến thức tiếp thu chưa đủ, đề tài đưa toán nhận dạng chữ số viết tay vấn đề liên quan Kết tập liệu nhằm múc đích làm đa dạng kết Việc tối ưu cho liệu cần có q trình thực nghiệm lâu dài Một số hướng mở rộng đề tài tương lai như: - Tiến hành khảo sát phát triển ứng dụng xây dựng mơ hình từ tập liệu khó - Nghiên cứu kỹ thuật để tối ưu mơ hình, giúp tăng tỉ lệ nhận dạng tối ưu thời gian huấn luyện mơ hình tập liệu - Phát triển ứng dụng nhận dạng chữ số viết tay chỉnh chu hướng đến cho việc học chữ số cho trẻ em TÀI LIỆU THAM KHẢO [1] Đề tài nghiên cứu khoa học Phạm Phú Quốc (2019) “Ứng dụng kĩ thuật học sâu vào tốn nhận dạng hình ảnh” Khoa điện tử - Viễn thông, Đại học Khoa học - Huế [2] Michael Copeland (2016) What’s the Difference Between Artificial Intelligence, Machine Learning, and Deep Learning?, NVIDIA Blog [3] Bill Schmarzo (2018) Using Confusion Matrices to Quantify the Cost of Being Wrong, View Blog [4] Michael A Nielsen (2015) Neural Networks and Deep Learning, Determination Press [5] V SHARMA (2018) Deep Learning – Introduction to Convolutional Neural Networks Vinod Sharma's Blog [6] Léon Bottou, Frank E Curtis, Jorge Nocedal (2016) Optimization Methods for Large-Scale Machine Learning, arXiv:1606.04838 [7] Goodfellow, Bengio & Courville 2016, p 200, "Furthermore, back propagation is often misunderstood as being specific to multi-layer neural networks, but in principle it can compute derivatives of any function" [8] Qian, N (1999) On the momentum term in gradient descent learning algorithms Neural Networks: The Official Journal of the International Neural Network Society, 12(1), 145–151 http://doi.org/10.1016/S0893-6080(98)00116-6 [9] Sutskever, I., Martens, J., Dahl, G.E and Hinton, G.E (2013) On the importance of initialization and momentum in deep learning ICML (3), Vol 28, pp 1139—1147 [10] Christian Igel and Michael H ̈usken (2000) Improving the Rprop Learning Algorithm http://citeseerx.ist.psu.edu/viewdoc/summary? doi=10.1.1.17.1332 [11] Alexandre Défossez, Léon Bottou, Francis Bach, Nicolas Usunier (2020) On the Convergence of Adam and Adagrad, arXiv:2003.02395 [12] Matthew D Zeiler (2012), ADADELTA: AN ADAPTIVE LEARNING RATE METHOD,arXiv:1212.5701v1 [cs.LG] 22 Dec 2012 [13] Jean-Louis Queguiner (2019) Deep Learning explained to my 8-yearold daughter OVHcloud blog [14] Fei-Fei Li, Andrej Karpathy, Justin Johnson (2016) Image Classification, in Convolutional Neural Networks for Visual Recognition, Stanford CS [15] Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton (2012) Imagenet classification with deep convolutional neural networks, NIPS, vol 25, pp 10971105 [16] Xiang Li, Shuo Chen, Xiaolin Hu, Jian Yang (2018) Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift arXiv:1801.05134 [17] Yann LeCun, Courant Institute (1989) The MNIST Database of Handwritten Digits [18] Alex Krizhevsky, Vinod Nair and Geoffrey Hinton (2009) The CIFAR10 dataset [19] Eugenio Culurciello (2017) “The History of Neural Networks” Medium [20] Sagar Sharma (2017) Epoch vs Batch Size vs Iterations Medium [21] Official homepage: developer.android.com [22] Margaret Maynard-Reid (2019) E2E tf.Keras to TFLite to Android Medium ... Chương 1: Deep Learning, Mạng Nơ- ron nhân tạo nhiều lớp MLP tốn nhận dạng hình ảnh  Chương 2: Mạng nơ- ron tích chập (Convolution neural network - CNN)  Chương 3: So sánh mơ hình MLP với... Ứng dụng mơ hình mạng nơ- ron tích chập (CNN) vào bài toán phân loại củ quả DEEP LEARNING, MẠNG NƠ -RON NHÂN TẠO NHIỀU LỚP MLP VÀ BÀI TOÁN NHẬN DẠNG HÌNH ẢNH Giới thiệu chương Deep Learning... 11 Mạng nơ- ron nhân tạo nhiều lớp MLP Mạng nơ- ron nhân tạo nhiều lớp MLP (Mutil Layer Perceptron) là sự kết hợp của nhiều lớp Perceptron và có cấu tạo hình dưới: Mỗi mơ hình

Ngày đăng: 03/08/2022, 15:43

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w