Nghiên cứu các đặc trưng trong ảnh được học bởi các môn hình mạng học sâu cho bài toán nhận dạng đối tượng

BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƯỜNG ĐẠI HỌC HỒNG ĐỨC - - LÊ VĂN SÂM NGHIÊN CỨU CÁC ĐẶC TRƯNG TRONG ẢNH ĐƯỢC HỌC BỞI CÁC MƠN HÌNH MẠNG HỌC SÂU CHO BÀI TOÁN NHẬN DẠNG ĐỐI TƯỢNG LUẬN VĂN THẠC SĨ MÁY TÍNH Chuy n ng nh: ho học máy tính M số: 8 Người hướng dẫn khoa học: PGS., TS Phạm Thế Anh TS Nguyễn Đình Cơng TH NH H , NĂM LỜI CAM ĐOAN Tôi xin c m đo n luận văn n y khơng trùng lắp với khóa luận, luận văn, luận án cơng trình nghiên cứu đ công bố Tác giả Lê Văn Sâm i LỜI CẢM ƠN Với tình cảm chân thành tơi xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo, giáo Trường Đại học Hồng Đức đ nhiệt tình giảng dạy v giúp đỡ tác giả trình học tập nghiên cứu thực luận văn Tác giả bày tỏ lịng kính trọng biết ơn sâu sắc PGS., TS Phạm Thế Anh TS Nguyễn Đình Cơng hai thầy giáo trực tiếp hướng dẫn, đ tận tình định hướng, dẫn, giúp đỡ tạo điều kiện cho tác giả suốt trình hoàn thành luận văn Tác giả xin chân thành cảm ơn bạn bè, đồng nghiệp gi đình đ động vi n, giúp đỡ, đóng góp ý kiến tạo điều kiện thuận lợi để tơi hồn thành luận văn n y Do điều kiện thời gian khả thân có hạn, đ có nhiều cố gắng, song chắn luận văn không tránh khỏi thiếu sót Kính mong góp ý kiến từ quý thầy cô giáo, bạn bè v đồng nghiệp để luận văn ho n thiện Xin chân thành cảm ơn! Thanh Hóa, tháng năm 2021 Tác giả luận văn Lê Văn Sâm ii MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC HÌNH VẼ v MỞ ĐẦU 1 Tính cấp thiết củ đề tài Mục đích v nhiệm vụ nghiên cứu Phương pháp nghi n cứu: Dự kiến kết đạt Cấu trúc nội dung luận văn Chƣơng CƠ SỞ LÝ THUYẾT 1.1.Một số khái niệm ảnh số, điểm ảnh 1.1.1.Ảnh màu RGB 1.1.2 Giới thiệu số loại ảnh 1.2 Phép tính tích chập 1.2.1 Tích chập (convolution) Bước nhảy (stride) Đệm (padding) 1.3 Giới thiệu mạng nơ ron 1.3.1 Khái niệm cách thức hoạt động củ nơ ron 1.3.2 Mơ hình mạng nơ ron nhân tạo đ tầng 11 1.4 Giới thiệu mạng nơ ron tích chập 12 1.4.1 Lớp tích chập 13 1.4.2 Lớp kích hoạt 14 1.4.3 Lớp gộp (Pooling layer) 15 1.4.4 Lớp kết nối đầy đủ (fully connected layer) 16 1.5 Tính khả diễn giải (interpretability) 17 1.5.1 Tại cần tính khả diễn giải 17 Đánh giá tính khả diễn giải 19 iii 1.5.3 Thuộc tính giải thích 19 1.6 Kết luận chương 21 Chƣơng 2: NGHIÊN CỨU TỔNG QUAN CÁC MẠNG NƠ RON HỌC SÂU CHO BÀI TOÁN NHẬN DẠNG ĐỐI TƢỢNG 23 2.1 Mơ hình AlexNeet 23 2.2 Mơ hình VGG16 24 2.3 Mô hình ResNet 26 2.4 Mơ hình Inception 28 2.5 Kết luận chương 31 Chƣơng DIỄN GIẢI MẠNG NƠ RON TÍCH CHẬP HỌC SÂU 33 3.1 Giới thiệu đặc trưng 33 3.2 Trực qu n hoá đặc trưng 34 3.3 Phân tách mạng (network dissection) 36 3.4 Thảo luận 37 3.5 Kết luận chương 38 Chƣơng THÍ NGHIỆM VÀ THẢO LUẬN 39 4.1 Mơ tả thí nghiệm 39 4.1.1 Mô tả liệu 39 4.1.2 Giao thức v th ng đo (metrics) 40 4.2 Trực qu n hoá đặc trưng v phân tách mơ hình 41 4.2.1 Trực qu n hố đặc trưng v phân tách mạng mơ hình AlexNet 41 4.2.2 Trực qu n hoá đặc trưng v phân tách mạng mơ hình VGG 45 4.2.3 Trực qu n hoá đặc trưng v phân tách mạng mơ hình ResNet 48 4.3 Kết luận chương 51 KẾT LUẬN VÀ HƢỚNG NGHIÊN CỨU 52 TÀI LIỆU THAM KHẢO 54 iv DANH MỤC HÌNH VẼ Hình 1.1 M u chọn l rgb ( , 55, 53), nghĩ l r= , g=255, b=153 [26] Hình 1.2: Tách ma trận biểu diễn màu ma trận, ma trận lưu giá trị màu [26] Hình 1.3: Ảnh đ cấp xám phần ảnh phóng to (các số tương ứng mức xám) [27] Hình 1.4: Ảnh ngồi bên trái ảnh màu, ảnh ảnh đ cấp xám ảnh bên phải ảnh nhị phân Hình 1.5: Hình vẽ biểu thị phép tích chập tín hiệu f(t) lọc g(t), hình vẽ sử dụng lại từ [28] Hình 1.6: Hình biểu diễn ý tưởng củ định lý Riemann, thay tính tồn miền liên tục, chúng rời rạc hoá thành miền rời rạc [28] Hình 1.7: Hình vẽ mơ tả trình sử dụng padding [28] Hình 1.8: Cơng thức mơ hình nơ ron nhân tạo [2] Hình 1.9: Mơ hình mạng nơ ron nhân tạo với tầng ẩn [29] 12 Hình 1.10: Ví dụ minh hoạ mạng CNN dùng để phân loại [30] 13 Hình 1.11: Quá trình di chuyển mặt nạ lọc dọc ảnh kết đồ đặc trưng [ ] 13 Hình 1.12: Ví dụ minh hoạ đặc trưng trích xuất lớp tích chập khác [36] 14 Hình 1.13: Một số hàm kích hoạt [21] 15 Hình 1.14: Lớp gộp bao gồm phương thức max pooling average pooling với kích thước x thực [32] 16 Hình 1.15: Lớp kết nối đầy đủ [32] 16 Hình 1.16: Dữ liệu xe đạp túi 18 Hình 2.1: Mơ hình cấu trúc hệ thống AlexNet [15] 23 Hình 2.2: Cấu hình mạng VGG16 [16] 25 v Hình 2.3: iến trúc củ VGG16 [34] 26 Hình 2.4: Hình mơ tả kiến trúc mạng dư v mạng thẳng [17] 26 Hình 2.5: Cộng trực tiếp v o đầu khối với nhanh lại khối identity block [17] 28 Hình 2.6: Mơ hình cấu trúc khối Inception [18] 28 Hình 2.7: Hình bên trái mơ tả kiến trúcInception-V1, th y đổi Inception-V3 đến từ hình bên phải việc sử dụng lớp tích chập có kích thước 3x3 [19] 30 Hình 2.8: Hình mơ tả kiến trúc Inception-A (trái) Inception-B (phải) cải tiến Inception-V3 với n=7 báo gốc [19] 30 Hình 2.9: Những cải tiến đến từ Inception-C (phải) so với Inception-B (trái) [19] 31 Hình 3.1: Các đặc trưng học mơ hình Inception huấn luyện tr n tập liệu Im geNet Các đặc trưng xếp thứ tự từ đặc trưng đơn giản lớp tích chập thấp (trái) đến trừu tượng lớp tích chập c o (phải) [ ] 34 Hình 3.2: Hình vẽ mơ tả q trình so khớp giữ đặc trưng tạo k nh v đặc trưng thực [20] 37 Hình 4.1: Hình ảnh trích dẫn từ liệu Broden, tác giả khuyến khích sử dụng in có màu [23] 39 Hình 4.2: Ví dụ việc tính IoU với bóng đèn tập ảnh đầu vào phía [20] 41 Hình 4.3: Trực quan hố lọc mơ hình đ huấn luyện tập ImageNet mơ hình mạng AlexNet, lọc chứa tham số 11x11x3 42 Hình 4.4: Trực qu n hố đặc trưng trích xuất từ mơ hình AlextNet với ảnh đầu vào cụ thể [39] 42 vi Hình 4.5: Trực quan hố ảnh đầu vào mơ hình AlexNet lớp mạng khác [39] 43 Hình 4.6: Trực quan hố hình ảnh đầu vào lớp cuối mơ hình [39] 44 Hình 4.7: Hình minh hoạ kỹ thuật phân tách mạng AlexNet lớp tích chập Conv5 sử dụng số giá trị IoU khác 44 Hình 4.8: Trực quan hố trọng số lọc mơ hình VGG Imagenet Hình bên trái lớp CONV2 bên phải lớp CONV2 [21] 45 Hình 4.9: Trực qu n hố đặc trưng học mạng VGG ImageNet số khối tích chập 46 Hình 4.10: Hình vẽ trực quan việc phân tách mạng VGG-ImageNet số lớp tích chập đầu lớp kích hoạt 47 Hình 4.11: Trực quan hố trọng số lọc lớp tích chập mơ hình ResNet-50 48 Hình 4.12: Một số minh hoạ đặc trưng học sau tích chập thứ mơ hình ResNet 49 Hình 4.13: Một số hình ảnh phân tách mạng mơ hình ResNet kênh tích chập 50 vii MỞ ĐẦU Tính cấp thiết đề tài Những năm gần đây, học máy (Machine learning) l n minh chứng củ cánh mạng công nghiệp lần thứ Những ứng dụng bật củ việc phát triển mơ hình học máy giải nhiều vấn đề khác nh u sống Nhưng thấy, đột phá phần nhiều đến từ mơ hình học sâu (Deep learning models) - nhánh phát triển củ học máy đ ng mở rộng dần đến loại nhiệm vụ cụ thể từ đơn giản đến phức tạp Theo thống k nhiệm vụ thực mơ hình học máy, Deep le rning chiếm phần lớn Dấu mốc cho phát triển bùng nổ củ ứng dụng dùng Deep le rning từ năm hình , lexnet thi ILSVRC lex rizhevsky công bố mô (Im geNet L rge Sc le Visu l Recognition Ch llenge) tr n liệu Im geNet đạt kết tốt thời điểm Từ s u đó, h ng năm nhiều cơng trình nghi n cứu phát triển, xây dựng mơ hình Deep le rning đạt nhiều th nh tựu rực rỡ Máy tính hỗ trợ người thực nhiệm vụ với mức độ khác nh u từ dễ tới khó Tuy nhi n, phát triển ứng dụng với mơ hình Deep learning qu n tâm tới đầu r củ mơ hình, h y kết dự đốn (prediction) m ý tới qu n hệ nhân (c us lity) v tính diễn giải (interpret bility) mơ hình Ví dụ, chúng t đư ảnh xe đạp v o mơ hình , giá trị trả đầu r l “Xe đạp” m l đồ vật khác Bộ phận n o tr n hình xe đạp mơ hình trích chọn để đư r định đó; bánh xe, vành xe, hay nan hoa xe Chủ đề n y gi nh nhiều qu n tâm củ nh kho học tr n giới, đ có nhiều b i báo nghi n cứu mối qu n hệ nhân n y các mơ hình Deep le rning Việc nghi n cứu n y chi l m https://paperswithcode.com nhóm nghi n cứu: l nghi n cứu lược đồ hoá liệu đầu v o trực qu n hoá đồ h i b chiều nhằm trực qu n hoá việc phân nhóm củ liệu Các nghi n cứu thuộc nhóm n y tìm thấy [14], [15], [16] tập trung v o thuật toán t-SNE H i l nhóm nghi n cứu tập trung v o mơ tả đặc trưng b n lớp mạng với đồ đặc trưng (Fe ture m p), trường tiếp nhận (receptive field) Các cơng bố tìm thấy [10], [17], [18] Từ việc tổng hợp nghi n cứu n y, tin rằng, chúng t thực hiểu đ ng diễn r mơ hình mạng học sâu, cụ thể cho b i toán nhận dạng đối tượng, chúng t thực l m chủ mơ hình Đó l lí chọn đề t i nghi n cứu “ Nghi n cứu đặc trưng ảnh học mơ hình mạng học sâu cho b i tốn nhận dạng đối tượng” Mục đích củ nghi n cứu n y l tìm hiểu v l m sáng toả th m cách thức vận h nh củ mô hình mạng học sâu cho b i tốn nhận dạng đối tượng theo phương pháp học có giám sát, l t i liệu th m khảo hiệu cho học vi n, sinh vi n đ ng tìm hiểu v nghi n cứu mơ hình học sâu có nhìn chi tiết q trình xử lí củ hệ thống nhận dạng đối tượng sử dụng mạng học sâu Mục đích nhiệm vụ nghiên cứu Nghi n cứu đặc trưng ảnh học mơ hình mạng học sâu cho b i toán nhận dạng đối tượng nhằm cụ thể hố, giải thích v thảo luận đặc trưng đóng v i trị định việc phân loại v nhận dạng củ hệ thống sử dụng mạng học sâu Các lập luận, kiểm chứng từ nghi n cứu n y l t i liệu th m khảo hiệu cho nghi n cứu tương tự tương l i Để thực mục ti u củ đề t i, cần nghi n cứu v tiến h nh nội dụng s u đây: - Nghi n cứu v tìm hiểu tổng qu n mơ hình, th nh phần củ mạng học sâu sử dụng b i toán nhận dạng - Triển kh i c i đặt v vận h nh số mơ hình để thảo luận, phân tích, giải thích đặc trưng để đư r định phân loại củ mơ hình Hình 4.3: Trực quan hố lọc mơ hình huấn luyện tập ImageNet mơ hình mạng AlexNet, lọc chứa tham số 11x11x3 Hình thu cách cực đại hố lớp kích hoạt s u tầng tích chập T có vùng m u v ng biểu thị có đặc trưng m ng ảnh hưởng lớn tới mơ hình mạng Có vẻ hệ thống đ ng học đặc trưng để phân loại Dễ d ng nhận r lớp tích chập tầng dưới, đặc trưng đơn giản mơ hình trích chọn Các vùng đặc trưng mức c o trích chọn tầng c o Hình 4.4:Trực quan hố đặc trƣng đƣợc trích xuất từ mơ hình AlextNet với ảnh đầu vào cụ thể [21] Hay góc nhìn khác, trực quan hoá ảnh tạo khối tích chập thơng qua việc hiển thị chủ yếu vùng đặc trưng vị trí tương ứng với giá trị điểm ảnh Mục đích l trực quan hình ảnh đầu vào qua khối tích chập hình 4.5 42 Hình 4.5: Trực quan hố ảnh đầu vào mơ hình AlexNet lớp mạng khác [21] Cũng thấy, việc học đặc trưng mức thấp n n lớp thấp nên phục hồi lại giá trị ảnh, tính tồn ảnh tương đối cao Tuy nhiên, mức c o hơn, đặc trưng mức c o biểu diễn vùng (regions) ngữ cảnh (textures) Dẫn đến ảnh bị mờ v biến dạng so với ảnh đầu vào Tại lớp kết nối đầy đủ (fully connected layers) số chiều ảnh bị giảm Tuy nhiên giữ lại đặc trưng giúp hệ thống đủ thơng tin để nhận dạng đối tượng Trong trường hợp hình 4.5 dễ dàng nhận thấy rằng, đặc trưng cuối để hệ thống phân biệt “chú khỉ” l khn mặt Một cách nhìn nhận tương tự biểu diễn hình 4.6 trực quan hố hình ảnh củ đối tượng “chim hạc” qu lớp cụ thể mơ hình Tại lớp kết nối đầy đủ, đặc trưng đư r nhằm phân biệt đối tượng với 43 Hình 4.6: Trực quan hố hình ảnh đầu vào lớp cuối mơ hình [21] Tiếp theo, chúng tơi sử dụng kỹ thuật phân tách mạng lớp cuối củ mơ hình lexNet để quan sát hệ thống đ học nhóm đặc trưng n o trước đư r kết luận kết nhận dạng Chúng sử dụng giá trị IoU đầu lớp kích hoạt nhằm diễn giải độ xác mà mơ hình biểu diễn Sử dụng giá trị ngưỡng đề xuất IoU xem đối tượng Một số kết minh hoạ hình 4.7 Tại lớp Conv5 – IoU = 0.16 Tại lớp Conv5 – IoU = 0.12 Tại lớp Conv5 – IoU = 0.05 Hình 4.7: Hình minh hoạ kỹ thuật phân tách mạng AlexNet lớp tích chập Conv5 sử dụng số giá trị IoU khác Dễ dàng nhận thấy ví dụ lớp kích hoạt cuối hệ thống AletNet định mạng ô tô th y đổi theo nhiều 44 trạng thái khác nhiên phần lớn thoả mãn giá trị để phát đối tượng IoU thực tế hình vẽ phận củ ô tô đ đư r Điều giúp tin rằng, việc đư r phán đầu nhận dạng ô tô tổng hợp từ phận cụ thể, phán ngẫu nhiên 4.2.2 Trực quan hoá đặc trưng phân tách mạng mơ hình VGG Hình 4.8: Trực quan hoá trọng số lọc mơ hình VGG Imagenet6 Hình bên trái lớp CONV2 bên phải lớp CONV2 [33] Hình 4.8 trực quan hoá trọng số lọc lớp tích chập thứ thứ hai mơ hình Có thể quan sát trọng số lớp đầu ti n tương tối mịn chia làm hai luồng riêng biệt, luồng màu xám th ng đo thành phần tần số cao thành phần màu thang đo thành phần tần số thấp V o sâu mô hình, lớp tích chập thứ lược tả Các lớp tích chập đầu ti n, đặc trưng mức thấp trích chọn cụ thể như: bi n, điểm khố V o sâu hơn, mơ hình trích chọn đặc trưng mức c o li n qu n tới vùng đặc trưng Hình 4.9 minh hoạ ví dụ trực quan việc trích chọn đặc trưng từ ảnh đầu https://cs231n.github.io/understanding-cnn/ 45 vào Các ảnh h ng minh hoạ củ đặc trưng mức thấp hàng l đặc trưng mức c o Hình 4.9: Trực quan hoá đặc trƣng đƣợc học mạng VGG ImageNet số khối tích chập Tiếp theo, sử dụng kỹ thuật phân tách mạng lớp cuối mơ hình VGG để quan sát hệ thống đ học nhóm đặc trưng n o trước đư r kết luận kết nhận dạng Chúng sử dụng giá trị IoU đầu lớp kích hoạt nhằm diễn giải độ xác mà mơ hình biểu diễn Sử dụng giá trị ngưỡng đề xuất IoU Một số kết minh hoạ hình 4.10 46 Tại lớp Conv5_3 – IoU = 0.11 Tại lớp Conv5_3 – IoU = 0.08 Tại lớp Conv5_3 – IoU = 0.06 Tại lớp Conv4_3 – IoU = 0.02 Tại lớp Conv4_3 – IoU = 0.01 Hình 4.10: Hình vẽ trực quan việc phân tách mạng VGG-ImageNet số lớp tích chập đầu lớp kích hoạt 47 Dễ dàng nhận thấy ví dụ lớp kích hoạt cuối hệ thống VGG-Imagenet định mạng ô tô th y đổi theo nhiều trạng thái khác nhiên phần lớn thoả mãn giá trị để phát đối tượng IoU lớp cuối thực tế hình vẽ phận củ tơ đ đư r Điều giúp tin rằng, việc đư r phán đầu nhận dạng ô tô tổng hợp từ phận cụ thể, phán ngẫu nhiên Tuy nhiên, lớp thấp ví dụ lớp tích chập số nhiều phán đư r hệ thống sai với giá trị IoU l tương đối nhỏ Điều lí giải cho việc tổng hợp đặc trưng từ lớp thấp tới lớp cao mơ hình VGG mang tính chấp kế thừa thay lớp 4.2.3 Trực quan hoá đặc trưng phân tách mạng mơ hình ResNet Hình 4.11: Trực quan hố trọng số lọc lớp tích chập mơ hình ResNet-50 48 Hình 4.11 minh hoạ 64 lọc lớp tích chập mơ hình mạng ResNet-50 [32] với lọc có kích thước 7x7 Nhận thấy phần khác với m u đen với trọng số thấp màu trắng với trọng số cao hi thực phép tích chập với ảnh đầu vào, phần có trọng số cao đóng v i trị kích hoạt thành phần đặc trưng ảnh Hay nói cách khác, mơ hình tập trung nhiều vào khu vực có trọng số lớn Từ lọc trên, đặc trưng trích chọn cho mơ hình học minh hoạ hình 4.12 Dễ dàng nhận thấy giống nhiều mơ hình mạng CNN khác, ResNet trích chọn đặc trưng mức thấp lớp tích chập mơ hình Hình 4.12: Một số minh hoạ đặc trƣng đƣợc học sau tích chập thứ mơ hình ResNet Tiếp theo, sử dụng kỹ thuật phân tách mạng lớp cuối mơ hình ResNet [32] để quan sát hệ thống đ học nhóm đặc trưng n o trước đư r kết luận kết nhận dạng Chúng sử dụng giá trị IoU đầu lớp kích hoạt nhằm diễn giải độ xác mà mơ hình biểu diễn Sử dụng giá trị ngưỡng đề xuất IoU Một số kết minh hoạ hình 4.13 49 Tại kênh 1632 – IoU = 0.15 Tại kênh 462 – IoU = 0.13 Tại kênh 510 – IoU = 0.11 Tại kênh 1727 – IoU = 0.11 Hình 4.13: Một số hình ảnh phân tách mạng mơ hình ResNet kênh tích chập Có thể nhận thấy mơ hình ResNet nhiều k nh khác nh u có khả phát r khái niệm, cụ thể kênh 1632, 510, 7, có khả phát r th nh phần to n hình ảnh tơ Thậm chí, chúng t sử dụng k nh n y để đư r định cho mơ hình ho n to n có khả đư r kết nhận dạng Điều n y chứng toả mơ hình đánh giá ResNet l kiến trúc có số lượng k nh tích chập có khả phát đối tượng nhiều Tiếp theo l VGG v cuối l 50 lexNet 4.3 Kết luận chƣơng Trong chương n y, chúng tơi đ trình bày số biểu diễn trực quan hố 03 mơ hình mạng nơ ron tích chập sử dụng cho tốn nhận dạng đối tượng l lexNet, VGG v ResNet Việc trực quan hoá giúp cho hiểu phần hoạt động mạng CNN từ việc trực quan trọng số số lọc tích chập đặc trưng m mạng CNN thu tương ứng với ảnh đầu vào cụ thể Thông qu điều thấy lớp tích chập phát kết cấu hình ảnh; th nh phần khái niệm trìu tượng phân vùng đối tượng nằm lớp cao Tiếp theo đó, việc phân tách mạng sử dụng giá trị IoU cung cấp thêm cho hiểu biết việc nhận dạng lớp tích chập mơ hình giúp cho việc giải thích mạng trở nên đo lường Tuy nhiên việc trực quan hoá phân tách mạng gặp phải số nhược điểm việc xây dựng liệu để đo lường mơ hình phức tạp Cần phải xây dựng mẫu gán nhãn cấp độ pixel Broden Do đó, khơng có nhiều liệu để giúp mơ hình kiểm tra nhằm tăng độ đ dạng 51 KẾT LUẬN VÀ HƢỚNG NGHIÊN CỨU Các mơ hình mạng nơ-ron tích chập (CNN) đ trở nên thành cơng năm gần đặc biệt tác vụ liên quan tới xử lý hình ảnh Đặc biệt tác vụ li n qu n đến nhận dạng phân loại đối tượng Để tạo dự đoán, liệu đươc qu nhiều tầng hay lớp nhân với trọng số đ huấn luyện mơ hình với phép biến đổi phi tuyến Một dự đốn đơn lẻ li n qu n đến hàng triệu phép tính phụ thuộc vào cấu trúc mạng nơ ron tích chập Rõ ràng theo dõi ánh xạ đơn lẻ diễn Do vậy, để giải thích mơ hình cần kỹ thuật xây dựng thiết kế đặc biệt Trong khuôn khổ nghiên cứu, chúng tơi tìm hiểu, tổng hợp phân tích nội dung sau Chƣơng 1: Chúng tơi tìm hiểu tổng quan khái niệm ảnh số Tiếp theo đó, khái niệm tích chập trình bày từ thuật toán b n đầu miền tần số Tiếp theo đó, chúng tơi tìm hiểu mạng nơ ron v th nh phần hệ thống mạng nơ ron tích chập Một số định nghĩ tính khả diễn giải củ mơ hình trình bày phần Chƣơng 2: Chúng tơi tìm hiểu tổng quan hệ thống mạng nơ ron tích chập cho toán nhận dạng đối tượng bao gồm mạng AlexNet, VGG16, ResNet Inception Các thông tin kiến trúc mơ hình chúng tơi mơ tả Chƣơng 3: Chúng tơi thảo luận tính khả diễn giải mơ hình mạng nơ ron tích chập Tìm hiểu định nghĩ ti u chí sử dụng nhằm giải thích mơ hình Trong luận văn, tập trung v o h i hướng l trực quan hố số đặc trưng mơ hình phân tách mạng 52 Chƣơng 4: Chúng tơi triển khai số thí nghiệm trực quan hoá đặc trưng v phân tách mạng số mơ hình mạng nơ ron tích chập sử dụng với liệu gán nhãn Broden Một số nhận định thảo luận đư r từ kết thu Hƣớng nghiên cứu Để thiết kế xây dựng hệ thống mạng CNN sử dụng để phân loại nhận dạng đối tượng nhỏ gọn độ xác cao Có thể sử dụng cho thiết bị có lực phần cứng giới hạn CPU hay thiết bị di động việc nghiên cứu tính khả diễn giải mơ hình l hướng tiếp cận có tiềm Một điển hình nghiên cứu cho việc tối ưu n y l hệ thống mạng YOLO với phiên 1, , 3, Để hiểu r mơ hình này, giới thiệu bạn đọc tham khảo liên kết [24], [30] Do đó, chúng tơi tiếp tục tìm hiểu sâu tính khả diễn giải với mong muốn đề xuất mơ hình tối ưu v nhỏ gọn 53 TÀI LIỆU THAM KHẢO Tiếng Việt Nam [1] Phạm Thế Anh, Nguyễn Mạnh An, Đỗ Năng To n (2017), Giáo trình Xử lý ảnh, Nhà xuất Giáo dục [2] Vũ Hữu Tiêp (2019), Machine learning bản, Nhà xuất Khoa học kỹ thuật [3] Lê Minh Trung (2005), Giáo trình mạng nơ ron nhân tạo, Nhà xuất Thống kê Tiếng nƣớc [4] Aggarwal, Charu C (2008), Neural Networks and Deep Learning: A Textbook, Springer [5] Aurélien Géron (2017), “Hands-On Machine Learning with ScikitLearn and TensorFlow”, O'Reilly Media [6] Bau, David, et al (2017), "Network dissection: Quantifying interpretability of deep visual representations", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition [7] Dreyfus, Stuart E, (1990), "Artificial neural networks, back propagation, and the Kelley-Bryson gradient procedure", Journal of guidance, control, and dynamics, 13(5), 926-928 [8] He, Kaiming, et al (2016), "Deep residual learning for image recognition", Proceedings of the IEEE conference on computer vision and pattern recognition [9] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E Hinton (2012), "Imagenet classification with deep convolutional neural networks", Advances in neural information processing systems, 25, 1097-1105 [10] Selvaraju, Ramprasaath R., et al (2019), "Grad-cam: Visual explanations from deep networks via gradient-based localization", preprint arXiv, 1610, 02391 54 [11] Simonyan, Karen, and Andrew Zisserman (2014), "Very deep convolutional networks for large-scale image recognition", arXiv preprint arXiv, 1409, 1556 [12] Szegedy, Christian, et al (2015), "Going deeper with convolutions", Proceedings of the IEEE conference on computer vision and pattern recognition [13] Szegedy, Christian, et al (2016), "Rethinking the inception architecture for computer vision", Proceedings of the IEEE conference on computer vision and pattern recognition [14] L.J.P van der Maaten (2009), “Learning a Parametric Embedding by Preserving Loc l Structure”, Proceedings of the Twelfth International Conference on Artificial Intelligence & Statistics (AI-STATS), JMLR W&CP, 5, 384-391 [15] L.J.P van der Maaten and G.E Hinton ( ), “Visualizing Non- Metric Similarities in Multiple Maps”, Machine Learning, 87(1), pp 33-55 [16] L.J.P van der Maaten Accelerating t-SNE using Tree-BasedAlgorithms (2014), Journal of Machine Learning Research, 3221-3245 [17] Van Molle, Pieter, et al (2018), "Visualizing convolutional neural networks to improve decision support for skin lesion classification", Understanding and Interpreting Machine Learning in Medical Image Computing Applications, 115-123 [18] Yu, Wei, et al (2014), "Visualizing and comparing convolutional neural networks", arXiv preprint arXiv, 1412, 6631 Internet [19] Doshi-Velez, F., & Kim, B (2017), “Towards a rigorous science of interpretable machine learning”, Preprint arXiv, 1702, 08608 https://arxiv.org/pdf/1702.08608.pdf [20] https://arxiv.org/abs/1511.06422 55 [21] https://arxiv.org/pdf/1412.0035.pdf [22] https://arxiv.org/pdf/1709.02495.pdf [23] https://distill.pub/2017/feature-visualization/appendix/ [24] https://github.com/AlexeyAB [25] https://github.com/CSAILVision/NetDissect [26] https://indico.in2p3.fr/event/19437/contributions/89216/attachments/61 331/83592/lecture3_AB.pdf [27] https://medium.com/@hannahfarrugia/ [28] https://nttuan8.com/bai-5-gioi-thieu-ve-xu-ly-anh/ [29] https://phamdinhkhanh.github.io/2020/05/31/CNNHistory.html [30] https://pjreddie.com/darknet/yolo/ [31] https://pytorch.org/hub/pytorch_vision_alexnet/ [32] https://pytorch.org/hub/pytorch_vision_resnet/ [33] https://stanford.edu/~shervine/teaching/cs-230 [34] https://towardsdatascience.com/a-comprehensive-guidetoconvolutional-neural-networks-the-eli5-way-3bd2b1164a53 [35] https://towardsdatascience.com/step-by-step-vgg16-implementation-inkeras-for-beginners-a833c686ae6c [36] https://vi.wikipedia.org/wiki/T%C3%ADch_ch%E1%BA%ADp [37] https://www.researchgate.net/figure/ [38] https://www.researchgate.net/figure/Digital-image-representation-bypixels-vii_fig2_311806469 [39] Molnar, Christoph (2020), Interpretable machine learning, Lulu.com 56

Định dạng
Số trang	64
Dung lượng	3,25 MB