Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
63
Dung lượng
1,87 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HỒ CHÍ MINH Võ Đình Hùng CHÚ THÍCH ẢNH TỰ ĐỘNG DỰA TRÊN CNN, RNN VÀ LSTM LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thành phố Hồ Chí Minh – Năm 2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HỒ CHÍ MINH Võ Đình Hùng CHÚ THÍCH ẢNH TỰ ĐỘNG DỰA TRÊN CNN, RNN VÀ LSTM Chuyên ngành: Khoa Học Máy Tính Mã số: 8480101 NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TRẦN NGỌC BẢO Thành phố Hồ Chí Minh – Năm 2020 LỜI CAM ĐOAN Tôi xin cam đoan: luận văn “Chú thích ảnh tự động dự CNN, RNN LSTM.” cơng trình nghiên cứu tơi hướng dẫn giảng viên hướng dẫn, không chép lại người khác Các tài liệu luận văn tham khảo, kế thừa trích dẫn liệt kê danh mục tài liệu tham khảo Tôi xin chịu hoàn toàn trách nhiệm lời cam đoan TP.HCM, ngày tháng năm 2021 Học viên Võ Đình Hùng LỜI CẢM ƠN Tơi xin chân thành cảm ơn thầy cô Trường đại học sư phạm TP.HCM, đặc biệt thầy cô môn Khoa học máy tính, tận tình dạy dỗ, giúp đỡ tạo điều kiện tốt cho em suốt quãng thời gian em theo học trường, để em hồn thành đề tài Em tỏ lịng biết ơn sâu sắc với TS.Trần Ngọc Bảo, người thầy tận tình hướng dẫn khoa học giúp đỡ, bảo em suốt trình nghiên cứu hồn thành luận văn Tơi xin chân thành cảm ơn bạn học viên cao học khóa 27 Trường đại học sư phạm TP.HCM giúp đỡ trình theo học trường, giúp đỡ thực đề tài Xin trân trọng cảm ơn! MỤC LỤC LỜI CAM ĐOAN Trang LỜI CẢM ƠN MỤC LỤC DANH MỤC HÌNH ẢNH DANH SÁCH CÁC TỪ VIẾT TẮT MỞ ĐẦU Lý chọn đề tài Cơ sở khoa học thực tiễn đề tài Cấu trúc luận văn CHƯƠNG CƠ SỞ LÝ THUYẾT TRÌNH BÀY NHỮNG KHÁI NIỆM VÀ MƠ HÌNH TRONG HỌC SÂU 1.1 CNN (Mạng nơ-ron tích chập) 1.1.1 Khái niệm mạng nơ-ron tích chập 1.1.2 Mơ hình kiến trúc mạng CNN 1.1.3 Các vấn đề mạng CNN 1.1.4 Huấn luyện mơ hình 10 1.2 MƠ HÌNH YOLO 12 1.2.1 Cách thức hoạt động YOLO: 13 1.2.2 Chi tiết mơ hình YOLO 13 1.2.3 YOLO phát đối tượng CNN 15 1.2.4 Kiến trúc YOLO: 16 1.3 MẠNG RNN (Recurrent Neural Network) 18 1.3.1 Khái niệm mạng RNN 18 1.3.2 Huấn luyện mạng RNN 21 1.3.3 Các phiên mở rộng RNN 21 1.4 MẠNG LSTM (Mạng Long Short Term Memory) 22 1.4.1 Giới thiệu LSTM 22 1.4.2 Mơ hình LSTM 27 CHƯƠNG BÀI TỐN CHÚ THÍCH ẢNH TỰ ĐỘNG DỰA TRÊN CNN, RNN & LSTM 29 2.1 Xác định toán 29 2.2 Ý tưởng toán 29 2.3 Tiến trình thực tốn: 30 2.3.1 Phát đối tượng (Object detection) 30 2.3.2 Chú thích hình ảnh (Image Captioning) 35 2.3.3 CHUYỂN VĂN BẢN THÀNH GIỌNG NÓI (TEXT TO SPEECH) 39 CHƯƠNG 3: THỰC NGHIỆM MƠ HÌNH 41 3.1 DỮ LIỆU VÀ CÔNG CỤ THỰC NGHIỆM 41 3.1.1 Dữ liệu: 41 3.1.2 Công cụ sử dụng: 42 3.2 THỰC NGHIỆM 42 3.2.1 Cài đặt thực nghiệm mơ hình 42 3.2.2 Đánh giá độ xác mơ hình 51 3.2.3 Kết thực nghiệm 53 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 54 TÀI LIỆU THAM KHẢO 55 DANH MỤC HÌNH ẢNH Hình 1.1 Hình ảnh lớp Convolution với filter [11] Hình 1.2 Tính tốn với phương pháp MaxPooling [11] Hình 1.3 Trọng số CNN [11] Hình 1.4 Ví dụ ảnh CIFAR-10 [11] Hình 1.6 Tác động trọng số đến loss function [11] 11 Hình 1.7 Bước học (learning rate) [11] 11 Hình 1.8 Bộ lọc đặt tính [11] 12 Hình 1.9 Hình minh họa nguồn hộp giới hạn với tọa độ x,y,w,z điểm tin cậy.[Nguồn internet] 13 Hình 1.10 Hình minh họa phát tâm object.[12] 14 Hình 1.11 Dự đoán boundary box.[12] 15 Hình 1.12 Kiến trúc Darknet 19 [Nguồn internet] 17 Hình 1.13 Cấu trúc Darknet-53 [Nguồn internet] 18 Hình 1.14 Sơ đồ mơ hình mạng thần kinh nhân tạo lớp [Nguồn internet] 19 Hình 1.15 Q trình xử lý thơng tin mạng RNN [Nguồn internet] 20 Hình 1.16 RNN phụ thuộc long-term [13] 23 Hình 1.17 Các module lặp mạng RNN chứa layer [13] 24 Hình 1.18 Các mơ-đun lặp mạng LSTM chứa bốn layer [13] 24 Hình 1.19 Cell state LSTM giống băng truyền [13] 25 Hình 1.20 Cổng trạng thái LSTM tạo hàm sigmoid toán tử nhân [13] 25 Hình 1.21 LSTM focus I [13] 26 Hình 1.22 LSTM focus c [13] 26 Hình 1.23 LSTM focus o [13] 27 Hình 1.24 Mơ hình LSTM Networks [13] 27 Hình 2.1 Mơ hình thích ảnh tốn 29 Hình 2.2 Mơ hình hình ảnh 37 Hình 2.3 Mơ hình ngơn ngữ 38 Hình 2.4 Mơ hình tốn: 38 Hình 2.5 Mơ hình lớp 39 Hình 3.1 Ảnh Flickr8k 41 Hình 3.2 Giao diện mơ hình 53 Hình 3.3 Kết chọn ngôn ngữ tiếng Việt 53 DANH SÁCH CÁC TỪ VIẾT TẮT STT Kí hiệu viết tắt Nội dung viết tắt AI Artificial Intelligence (Trí tuệ nhân tạo) ANN Artificial Neural Network – Mạng nơ-ron nhân tạo API Application Programming Interface – giao diện lập trình CNN Convolutional Neuron Networks – Mạng nơ-ron xoắn CSLT Cơ sở lý thuyết DL Deep Learning – Học sâu GPU Graphics Processing Unit – Vi xử lý đồ họa IOT Internet of Things – Kết nối vạn vật KLT Kanade–Lucas–Tomasi – giải thuật thị giác máy tính 10 LTSM Long Short Term Memory networks – mạng nhớ dài- ngắn hạn 11 ReLU Rectified Linear Unit – Điều chỉnh đơn vị tuyến tính 12 RNN Recurrent Neural Network – mạng hồi quy 13 YOLO You Only Look Once – Một tảng xử lý ảnh MỞ ĐẦU Lý chọn đề tài Những năm gần đây, chứng kiến nhiều thành tựu vượt bậc lĩnh vực Thị giác máy tính (Computer Vision) Các hệ thống xử lý ảnh quy mô lớn Facebook, Google hay Amazon đưa vào sản phẩm chức thơng minh nhận diện khuôn mặt người dùng, phát triển xe tự lái hay thiết bị bay không người lái tự giao hàng Máy tính có sức mạnh tính tốn lớn giá thành lại mức phổ thông, dẫn tới người làm nghiên cứu dễ dàng để tự kiểm nghiệm lý thuyết trí tuệ nhân tạo mà nhiều năm trước gần Cùng với mã nguồn mở, sóng trí tuệ nhân tạo bùng nổ mạnh mẽ thời gian gần với nhiều ứng dụng đời sống Chính lý trên, việc tìm hiểu nghiên cứu thị giác máy tính có ý nghĩa thiết thực Hiện giới, nhiều nước ứng dụng thị giác máy tính vào đời sống hàng ngày, ví dụ SkyNet Trung Quốc, hệ thống kiểm duyệt nội dung tự động, vv Cơ sở khoa học thực tiễn đề tài Ngày nay, kỷ nguyên số, máy tính phần thiếu nghiên cứu khoa học đời sống hàng ngày Tuy nhiên, hệ thống máy tính dựa lý thuyết cổ điển (tập hợp, logic nhị phân), nên dù có khả tính tốn lớn độ xác cao, máy tính làm việc theo chương trình gồm thuật tốn viết sẵn lập trình viên chưa thể tự lập luận hay sáng tạo Mạng nơ ron Xoắn (Convolutional Neural Network) mơ hình học sâu đại Mạng nơ ron Xoắn thường sử dụng nhiều hệ thống thông minh ưu điểm mạng có độ xác cao tốc độ tính tốn lại nhanh Vì lý đó, mạng nơ ron xoắn mạnh xử lý hình ảnh, ứng dụng nhiều ngành thị giác máy tính tốn liên quan đến nhận dạng đối tượng Mạng nhớ dài-ngắn hạn (Long Short Term Memory networks) viết tắt LSTM - dạng đặc biệt RNN (Recurrent Neural Network – Mạng hồi quy), có khả học phụ thuộc xa LSTM giới thiệu Hochreiter & Schmidhuber (1997), sau cải tiến phổ biến hoạt động hiệu nhiều toán khác nên LSTM dần trở nên phổ biến LSTM thiết kế để tránh vấn đề phụ thuộc nhớ dài hạn (long-term dependency) Việc nhớ thông tin suốt thời gian dài đặc tính mặc định chúng, ta khơng cần phải huấn luyện để nhớ Tức nội ghi nhớ mà khơng cần can thiệp Ngày nay, với phát triển công nghệ bán dẫn, máy tính ngày nhỏ đi, lượng tiêu thụ ngày thấp xuống, sức mạnh lại ngày tăng lên Với ưu điểm vậy, thấy nhiều thiết bị thông minh diện nơi đời sống, với camera nhiều điểm ảnh, nhớ lớn vi xử lý mạnh như: điện thoại thông minh, máy ảnh kỹ thuật số, camera hành trình,… Ngồi ra, với bùng nổ xu hướng mạng vạn vật IOT, người ta cịn thấy nhiều thiết bị thông minh xuất hiện: xe ô tô tự lái, thiết bị bay không người lái tự giao hàng, Có thể thấy, việc sử dụng trí thơng minh nhân tạo để khai thác liệu hình ảnh thiết bị thông minh tương lai trở thành xu hướng Từ hình ảnh có từ camera, webcam, … ta phát đối tượng ảnh đưa lời thích tự động giọng nói với nhiều ngôn ngữ khác Với phát triển AI (Artificial Intelligence) người khiếm thị hồn tồn nhận biết vật xung quanh giọng nói thơng qua hình ảnh ghi nhận từ camera, webcam, … cơng việc di chuyển người khiếm thị trở nên dễ dàng Từ nhận định gợi ý giảng viên hướng dẫn, định chọn đề tài “CHÚ THÍ A child in a pink dress is climbing up a set of stairs in an entry way • A girl going into a wooden building • A little girl climbing into a wooden playhouse • A little girl climbing the stairs to her playhouse • A little girl in a pink dress going into a wooden cabin Hình 3.1 Ảnh Flickr8k ...BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HỒ CHÍ MINH Võ Đình Hùng CHÚ THÍCH ẢNH TỰ ĐỘNG DỰA TRÊN CNN, RNN VÀ LSTM Chuyên ngành: Khoa Học Máy Tính Mã số:... Memory) 22 1.4.1 Giới thiệu LSTM 22 1.4.2 Mơ hình LSTM 27 CHƯƠNG BÀI TỐN CHÚ THÍCH ẢNH TỰ ĐỘNG DỰA TRÊN CNN, RNN & LSTM 29 2.1 Xác định toán 29 2.2... BẢO Thành phố Hồ Chí Minh – Năm 2020 LỜI CAM ĐOAN Tơi xin cam đoan: luận văn ? ?Chú thích ảnh tự động dự CNN, RNN LSTM. ” cơng trình nghiên cứu hướng dẫn giảng viên hướng dẫn, không chép lại người