Đồ án phân vùng ngữ nghĩa semantic segmentation

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	65
Dung lượng	4,09 MB
File đính kèm	Phân_vùng_ảnh_ Semantic_Segmentation.rar (4 MB)

Nội dung

Tìm hiểu các phương pháp cho bài toán phân vùng ngữ nghĩa trên ảnh (Semantic segmentation) và chương trình thử nghiệm giải pháp tiên tiến trên tập dữ liệu mẫu.Phân vùng ngữ nghĩa là miêu tả quá trình liên kết từng điểm ảnh với nhãnlớp hay là việc ta gán cho mỗi điểm ảnh của ảnh này một giá trị đặc trƣng cho nhãnlớp đối tƣợng mà điểm ở vị trí ấy thuộc về (ví dụ nhƣ mèo, bò, đƣờng, xe, cỏ,...)

TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ──────── * ─────── ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CƠNG NGHỆ THƠNG TIN TÌM HIỂU VÀ THỬ NGHIỆM GIẢI PHÁP TIÊN TIẾN CHO BÀI TOÁN PHÂN VÙNG NGỮ NGHĨA TRÊN ẢNH Sinh viên thực hiện: Nguyễn Thị Phƣơng Hằng Lớp CNTT 2.01 – K58 Giáo viên hƣớng dẫn: TS.Nguyễn Thị Oanh HÀ NỘI 5-2018 PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Thông tin sinh viên Họ tên sinh viên: Nguyễn Thị Phƣơng Hằng Điện thoại liên lạc: 01667701418 Email: phuonghangnt1407@gmail.com Lớp: CNTT 2.01-K58 – Viện CNTT & TT Hệ đào tạo: Kỹ sƣ Đồ án tốt nghiệp đƣợc thực tại: Bộ môn Hệ thống thông tin, Viện Công nghệ thông tin truyền thông, Đại học Bách Khoa Hà Nội Mục đích, nội dung nhiệm vụ ĐATN - Tìm hiểu tốn phân vùng ngữ nghĩa cho ảnh, ý nghĩa ứng dụng toán áp dụng toán cho số ảnh - Tìm hiểu, nghiên cứu mạng Neural Network kiến thức liên quan nhƣ mơ hình đồ thị tính tốn, hàm mát (loss function), hàm kích hoạt, Batch Normalization, trình lan truyền ngƣợc - Tìm hiểu, nghiên cứu mạng Convolutional Neural Network, lớp convolution, lớp pooling, lớp fully connected, số kiến trúc mạng CNN phổ biến - Tìm hiểu số phƣơng pháp cho toán phân vùng ngữ nghĩa nhƣ FCN, Segnet, PSPnet, Deeplab (v1, v2, v3, v3 plus) kỹ thuật tảng phục hồi ảnh nhƣ giải thuật atrous, modun ASPP, fully connected CRFs,… - Lựa chọn mơ hình tiến hành thử nghiệm, nhận xét hƣớng mở rộng Lời cam đoan sinh viên: Tôi - Nguyễn Thị Phương Hằng - cam kết ĐATN cơng trình nghiên cứu thân tơi dƣới hƣớng dẫn TS Nguyễn Thị Oanh Các kết nêu ĐATN trung thực, chép tồn văn cơng trình khác Tất tham khảo ĐATN – bao gồm hình ảnh, bảng biểu, - đƣợc ghi rõ ràng đầy đủ nguồn gốc danh mục tài liệu tham khảo Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 Hà nội ngày 27 tháng năm 2018 Tác giả ĐATN Nguyễn Thị Phương Hằng Xác nhận giảng viên hƣớng dẫn mức độ hoàn thành đồ án tốt nghiệp cho phép bảo vệ: Hà nội ngày 28 tháng năm 2018 Giảng viên hƣớng dẫn TS Nguyễn Thị Oanh Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 LỜI CẢM ƠN Đi qua năm tháng Bách Khoa, biết tuổi trẻ đáng trân trọng nhƣ Trân trọng, không có khó khăn, thách thức tƣởng chừng nhƣ gục ngã, khơng ta biết trƣởng thành đến đâu mà đơn giản ta làm tất điều Cảm ơn Bách Khoa! năm, có lẽ so với đời qng thời gian khơng đáng kể nhƣng phần quan trọng tuổi xuân Bản thân không muốn biết Bách Khoa cho bao nhiêu, lấy gì, biết tuổi trẻ có Bách Khoa Cảm ơn bạn đồng hành suốt chặng đƣờng năm đại học, cho niềm tin, giúp tơi vƣợt qua khó khăn, tơi chia sẻ buồn vui Cảm ơn bố mẹ vất vả kiếm đồng nuôi ăn học, động viên, dạy dỗ tơi trƣởng thành, để tơi có hội đƣợc viết dòng Và cảm ơn thầy cô Bách Khoa thân thƣơng, thầy cô viện công nghệ thông tin truyền thông, cô Nguyễn Thị Oanh, ngƣời thầy tận tâm hƣớng dẫn, bảo, giảng dạy tơi hồn thành đồ án tốt nghiệp Do kiến thức thân cịn hạn chế, với thời gian có hạn nên đồ án cịn nhiều sai sót mong thầy thơng cảm góp ý! Bách Khoa! Tháng năm 2018 Xin chân thành cảm ơn! Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Mục đích đề tài giúp hiểu sâu áp dụng hiệu kỹ thuật học máy nói chung kỹ thuật thị giác máy, kỹ thuật xử lý toán phân vùng ngữ nghĩa giúp ta giải toán phân vùng ảnh cách hiệu xác Với mục đích nói trên, tơi xin trình bày tốn tơi với nội dung sau: - Chƣơng 1: Giới thiệu toán phân vùng ngữ nghĩa, ứng dụng toán lĩnh vực đời sống - Chƣơng 2: Trình bày lý thuyết mạng noron bao gồm sở sinh học, mơ hình tốn học, kiến trúc mạng noron, lý thuyết mạng noron tích chập tìm hiểu số mạng phổ biến gồm VGG net, Google net, Resnet, Xcepion số kiến trúc mạng noron nhƣ loại hàm kích hoạt, hàm mát, Batch Normalization, trình huấn luyện,… - Chƣơng 3: Một số mơ hình sử dụng cho toán phân vùng ngữ nghĩa nhƣ FCN, PSP net, deeplab (v1, v2, v3, v3 plus) kỹ thuật phục hồi ảnh nhƣ giải thuật atrous, mô dun ASPP, Fully-connected CRFs, nội suy song tuyến tính, - Chƣơng 4: Tiến hành thực nghiệm số tập liệu nhƣ Pascal voc 2012, ADE20K Challenge 2016, kết đạt đƣợc đánh giá - Chƣơng 5: Kết luận hƣớng phát triển Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 MỤC LỤC PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP LỜI CẢM ƠN……… TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP DANH MỤC TỪ VIẾT TẮT DANH MỤC THUẬT NGỮ DANH MỤC HÌNH ẢNH DANH MỤC BẢNG BIỂU 12 CHƢƠNG 1: GIỚI THIỆU BÀI TOÁN 13 1.1 GIỚI THIỆU VỀ BÀI TOÁN PHÂN VÙNG NGỮ NGHĨA 13 1.2 MỘT SỐ ỨNG DỤNG CỦA BÀI TOÁN PHÂN VÙNG NGỮ NGHĨA 15 CHƢƠNG 2: MẠNG NORON VÀ MẠNG NORON TÍCH CHẬP 16 2.1 MẠNG NORON 16 2.1.1 Cơ sở mạng noron 16 2.1.2 Kiến trúc mạng noron 17 2.1.3 Một số kiến thức sở 18 2.2 MẠNG NORON TÍCH CHẬP 24 2.2.1 Kiến trúc mạng CNN 25 2.2.2 Một số mạng CNNs phổ biến 27 CHƢƠNG 3: GIẢI PHÁP PHÂN VÙNG NGỮ NGHĨA DỰA TRÊN MẠNG NEURON34 3.1 MỘT SỐ KỸ THUẬT NỀN TẢNG PHỤC HỒI ẢNH 34 3.1.1 Các kỹ thuật upsampling 34 3.1.2 Giải thuật hole (atrous) 36 3.1.3 Atrous Spatial Pyramid Pooling (ASPP) 37 3.1.4 Nội suy song tuyến tính (Bilinear Interpolation) 38 3.1.5 Fully-connected CRFs 39 3.2 MỘT SỐ MƠ HÌNH MẠNG NORON CHO BÀI TOÁN PHÂN VÙNG NGỮ NGHĨA 40 3.2.1 FCN (Fully convolutional Network) 40 3.2.2 Segnet 41 3.2.3 PSPnet 41 3.2.4 Deeplab 42 3.2.5 Nhận xét 48 CHƢƠNG 4: CÀI ĐẶT THỬ NGHIỆM 49 4.1 MƠ HÌNH THỬ NGHIỆM 49 4.2 TẬP DỮ LIỆU THỬ NGHIỆM 51 4.3 CÀI ĐẶT 54 4.3.1 Môi trường thực nghiệm 54 4.3.2 Quá trình huấn luyện 55 4.3.3 Kết thử nghiệm 57 4.4 NHẬN XÉT 59 CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 61 Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 5.1 KẾT LUẬN 61 5.2 HƢỚNG PHÁT TRIỂN 61 TÀI LIỆU THAM KHẢO 62 Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 DANH MỤC TỪ VIẾT TẮT STT Từ đầy đủ Từ viết tắt Artificial neural network ANN Convolutional Neural Network CNN Batch Normalization BN Convolutional Layer Conv Deep Neural Network DNN Deep Convolutional Neural Network DCNN Fully-connected FC Atrous Spatial Pyramid Pooling ASPP Spatial Pyramid Pooling SPP 10 Conditional Random Fields CRF 11 Output stride OS 12 Pyramid Scence Parsing PSP 13 Fully convolutional Network FCN 14 Support vector machines SVM Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 DANH MỤC THUẬT NGỮ STT Từ chuyên môn Nghĩa Semantic Segmentation Phân vùng ngữ nghĩa Feature map Bản đồ tính Neural Network Mạng noron Convolutional Neural Network Mạng noron tích chập Convolution layer Tầng tích chập Pooling Layer Tầng tổng hợp Fully-Connected Layer Tầng kết nối hoàn toàn Stride Bƣớc trƣợt Kernel, sliding window, filter Cửa sổ trƣợt, lọc 10 Receptive field Trƣờng tiếp nhận 11 Learning rate Tham số kiểm soát tốc độ học 12 Ground truth Ảnh đƣợc phân vùng chuẩn 13 Encoder-Decoder Mã hóa - Giải mã 14 Max-pooling Tổng hợp tối đa 15 Average-pooling Tổng hợp trung bình 16 Downsampling Thu nhỏ mẫu lại 17 Upsampling Phóng to mẫu 18 Subsampling Lấy mẫu Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 DANH MỤC HÌNH ẢNH Hình 1.1: Hình ảnh minh họa tốn Semantic Segmentation [28] 14 Hình 1.2: Một số toán xử lý ảnh [21] 14 Hình 2.1: Mạng noron sinh học [15] 16 Hình 2.2: Mơ hình tốn học noron [15] .17 Hình 2.3: Kiến trúc mạng noron Bên phải mạng tầng ẩn, bên trái mạng tầng ẩn [15]…… .17 Hình 2.4: Một số hàm kích hoạt phổ biến[30] 18 Hình 2.5: Minh họa hàm cross entropy [19] .19 Hình 2.6: Ví dụ minh họa hàm mát SVM [34] 20 Hình 2.7: Minh họa Softmax mạng neural network [31] 20 Hình 2.8: Mơ kỹ thuật Dropout [14] 22 Hình 2.9: Minh họa trình huấn luyện mạng noron [32] 22 Hình 2.10: Gradient descent [33] 23 Hình 2.11: Cơ chế tích chập mạng CNN [22] 24 Hình 2.12: Minh họa trình mạng CNN [14] 25 Hình 2.13: Phép tốn tích chập [23] 25 Hình 2.14: Max pooling với kernel 2x2 stride = [15] .26 Hình 2.15: Ví dụ minh họa mơ hình CNN phân loại ảnh [15] 27 Hình 2.16: Mơ hình mạng VGG16, VGG19 [38] .28 Hình 2.17: Modun Inception [5] 29 Hình 2.18: Mơ hình mạng googlenet [24] 29 Hình 2.19: Hình ảnh mạng Resnet với residual block [38] .30 Hình 2.20: Depthwise convolution (trái) pointwise convolution (phải)[43] 31 Hình 2.21: So sánh convolution depthwise separable convolution thấy depwise separable convolution cần số lƣợng tham số [37] 31 Hình 2.22: Modun Xception [4] 32 Hình 2.23: Mơ hình mạng Xception [4] 32 Hình 2.24: Biểu đồ so sánh độ xác tham số số mạng CNN [39]……………… .32 Hình 3.1: Quá trình unpooling [40] 34 Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 Hình 4.1: Mơ hình Aligned Xception [13] Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 50 Hình 4.2: 4.2 Mơ hình thử nghiệm DeeplabV3 plus [13] Tập liệu thử nghiệm  Tập liệu Pascal voc 20121 [18] Tập liệu gồm 21 lớp với 20 lớp đối tƣợng lớp Với 1464 (train), 1449 (val), 1456 (test), tập groundtruth đƣợc gắn nhãn điểm ảnh để huấn luyện Ngoài liệu đƣợc tăng cƣờng (augmented) tạo 10,582 ảnh (trainaug) Trong ảnh gốc định dạng JPEG, ảnh groundtruth định dạng PNG Kiến trúc dataset Pascal voc 2012 là: VOC2012  ImageSets o Segmentation  Train: Tập tin text chứa ảnh train  Trainval: Tập tin text chứa ảnh train ảnh val  Val: Tập tin text chứa ảnh val  JPEGImages: ảnh gốc  SegmentationClass: groundtruth màu  SegmentationClassRaw: groundtruth thô (chứa ảnh phân đoạn theo màu đơn sắc từ 0-> 20) Link download: http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 51 Minh họa tập ảnh gốc pascal voc 2012 Hình 4.3: Hình 4.4: Minh họa tập ảnh groundtruth pascal voc 2012 Hình 4.5: Hình 4.6: Minh họa tập ảnh groundtruth thơ Hình ảnh minh họa lớp tập pascal voc 2012 aeroplane bicycle, bike boat bottle bus car cat chair cow dog table horse motorbike person plant Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 52 sheep sofa train TV diningtable Bảng 4.1: 20 lớp đối tượng tập liệu Pascal Voc 2012  Tập liệu ADE20K2 (ADEChallengeData2016) :  ADEChallengeData2016 o Annotations: (định dạng PNG)  Training: 20210 ảnh ground truth  Validation: 2000 ảnh ground truth o Images: (định dạng JPEG)  Training: 20210 ảnh  Validation: 2000 ảnh Tập liệu gồm 150 lớp đối tƣợng lớp Link download: http://data.csail.mit.edu/places/ADEchallenge/ADEChallengeData2016.zip Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 53 Hình 4.7: Hình ảnh minh họa tập ảnh huấn luyện ADE20K dataset Hình 4.8: Minh họa groundtruth tập huấn luyện ADE20K dataset wall building sky floor tree ceiling road bed window grass ground door table mountain plant chair car water painting sofa shelf house sea mirror lamp bathtub box book flower pillow toilet can stove bench computer light bus television blanket traffic light Bảng 4.2 Một số lớp đối tượng tập ADE20K Challenge 2016 4.3 Cài đặt 4.3.1 Môi trường thực nghiệm  Framework: Tensorflow-GPU (1.8) Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 54  GPU: GeForce GTX (11177MiB), NVIDIA-SMI 390.48 Google Colab: GPU Tesla K80 (11.17GiB) với giới hạn thời gian sử dụng vịng 12h, đơi số lƣợng nhớ không đủ để huấn luyện Hình 4.9: Hình ảnh minh họa hết nhớ GPU Google Colab  Ngôn ngữ: Python (3.5) 4.3.2 Quá trình huấn luyện Tiền xử lý: Đầu tiên trình huấn luyện cần chuyển ảnh gốc sang định dạng Tfrecord [27] tensorflow để tăng tốc trình huấn luyện Khi ảnh có nhiều định dạng khác việc chuyển chung định dạng điều cần thiết, tfrecord đƣợc hỗ trợ Tensorflow nên giúp dễ dàng trộn làm việc với tập liệu định dạng khác Hình 4.10: Thư mục sau chuyển sang tfrecord tập (train, trainval, val) Pascal Voc 2012 Ảnh đầu vào đƣợc đƣa kích thƣớc 513x513 sử dụng atrous với tỉ lệ lớn muốn hiệu cần cắt ảnh Cắt ảnh kích thƣớc lớn kích thƣớc ảnh đƣa vào chút = OS * k + với OS Output stride, k số tự nhiên Ví dụ với ảnh Pascal Voc 2012 ta cắt ảnh kích thƣớc 513x513 kích thƣớc lớn ảnh 512 OS = 16 Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 55 Ta sử dụng mơ hình khởi tạo ban đầu đƣợc huấn luyện trƣớc tập Pascal Voc 2012 Hình 4.11: Mơ hình khởi tạo ban đầu pretrain tập Pascal voc 2012  Trên tập Pascal voc 2012 Đối với tập Pascal voc 2012 đƣợc huấn luyện trƣớc 30000 lần nên thực huấn luyện 10 lần với tập trainval sau tính tốn tập val để có kết dự đốn Hình 4.12:  Các thơng số huấn luyện tập Pascal voc 2012 Trên tập ADE20K: Với tập ADE20K, điều kiện phần cứng GPU Lab có nhiều ngƣời dùng nên em sử dụng GPU miễn phí Google Google Colab Tôi thực huấn luyện 2000 bƣớc tập train với batch_size = Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 56 Hình 4.13: Thơng số huấn luyện tập ADE20K Sau với mơ hình thu đƣợc từ bƣớc huấn luyện tiến hành kiểm tra số ảnh để chỉnh sửa thông số 4.3.3 Kết thử nghiệm Trên tập Pascal voc 2012: Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 57 Hình 4.14: Kết dự đốn Pascal voc 2012 Một số hình ảnh cá nhân đƣợc kiểm tra mơ hình Hình 4.15: Một số hình ảnh kiểm tra mơ hình huấn luyện tập Pascal voc 2012 Trên tập ADE20K: Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 58 Hình ảnh kiểm tra sau huấn luyện tập ADE20K Hình 4.16: 4.4 Nhận xét Khi thực kiểm tra Pascal voc 2012, kết tốt so với ADE20K mơ hình đƣợc huấn luyện trƣớc tập Pascal nên kết phân vùng rõ nét (Ví dụ nhƣ hình 4.15) Tơi tiến hành kiểm tra ảnh mà khơng có nhãn lớp ảnh kết sai Ví dụ: Hình 4.17, với hình ảnh mơ hình phân vùng khơng xác, hay hình dƣới phân vùng sai chó mèo Hình 4.17: Minh họa ảnh kiểm tra bị lỗi mơ hình huấn luyện tập Pascal Voc 2012 Đối với tập ADE20K, nhƣ hình 4.18, kết phân vùng phát phân vùng đƣợc đối tƣợng nhƣng chƣa rõ ràng Đây hình ảnh với đối tƣợng mờ, độ phân giải thấp nên mơ hình khơng phát phân vùng đƣợc Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 59 Hình 4.18: Hình ảnh kiểm tra mơ hình huấn luyện tập ADE20K Theo tơi nhận thấy có phân vùng sai, chƣa rõ nét hay chƣa xác số nguyên nhân nhƣ đối tƣợng ảnh kiểm tra khác với đối tƣợng ảnh huấn luyện, đối tƣợng ảnh kiểm tra khơng có lớp đối tƣợng liệu huấn luyện, đối tƣợng mờ, không rõ ràng, hay thời gian, số lần huấn luyện mơ hình chƣa đủ để đạt kết tốt Với ý kiến để cải thiện kết cần huấn luyện nhiều tập liệu với đa dạng đối tƣợng, huấn luyện nhiều lần Ngoài cần cải thiện mơ hình để kết tốt Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 60 CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 5.1 Kết luận Ƣu điểm: Đồ án giới thiệu toán phân vùng ngữ nghĩa, ứng dụng thiết thực tốn sống Trong đồ án có trình bày mạng noron, mạng noron tích chập, số kiến trúc mạng noron tích chập nhƣ VGG, Googlenet, Resnet, Xception hàm kích hoạt, hàm mát, q trình lan truyền ngƣợc, chuẩn hóa Batch Normalization,…Và để giải toán phân vùng ngữ nghĩa tơi giới thiệu số mơ hình sử dụng cho toán phân vùng ngữ nghĩa phổ biến nhƣ FCN, Segnet, PSP net, Deeplab (V1, V2, V3, V3 plus) số kỹ thuật tảng phục hồi ảnh nhƣ mơ dun ASPP, nội suy tuyến tính, Fully- connected CRFs, kỹ thuật upsampling, Và thực huấn luyện tập liệu (Pascal Voc 2012, ADE20K Challenge Data2016) tiến hành kiểm tra mơ hình đƣợc huấn luyện Hạn chế: Trong đồ án nhận thấy rằng, kiến thức thân cịn hạn chế, với kinh nghiệm giải tốn cịn chƣa nhiều nên kết chƣa tốt Đồ án chƣa có giải pháp đột phá để thay đổi cải thiện mơ hình sẵn có nhóm tác giả Khó khăn: Do q trình huấn luyện mơ hình cần GPU có tốc độ xử lý cao nên cịn gặp khó khăn phần cứng 5.2 Hƣớng phát triển Với mơ hình tìm hiểu đồ án mơ hình đứng đầu mơ hình cho tốn phân vùng ngữ nghĩa, hƣớng phát triển tơi tìm hiểu, nghiên cứu giải pháp để cải thiện kết hƣớng tới sử dụng mơ hình mạng nhẹ đơn giản song kết cần đƣợc cải thiện Hơn tập liệu huấn luyện đồ án, muốn huấn luyện tập liệu khác nhƣ ảnh y tế, đồ ăn, ảnh vệ tinh để ứng dụng vào lĩnh vực sống Ví dụ nhƣ tập liệu đồ ăn, tiến hành xử lý với tập liệu FOOD 101, lấy 17 lớp đối tƣợng, tiến hành chuyển đổi liệu huấn luyện song thời gian có hạn nên chƣa có kết nên tiếp tục huấn luyện tập liệu để phát triển mơ hình Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 61 TÀI LIỆU THAM KHẢO *Bài báo khoa học SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation, Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla (2 Nov 2015 (v1), last revised 10 Oct 2016 (this version, v3), ArXiv preprint https://arxiv.org/pdf/1511.00561.pdf Very Deep Convolutional Networks for Large-Scale Image Recognition, Karen Simonyan, Andrew Zisserman, Sep 2014 (v1), last revised 10 Apr 2015 (this version, v6, ArXiv preprint, https://arxiv.org/abs/1409.1556 Deep Residual Learning for Image Recognition, Kaiming He, Xianguy Zhang, Shaoqing Ren, Jian Sun, ILSVRC & COCO, 10 Dec 2015, ArXiv preprint https://arxiv.org/abs/1512.03385 Xception: Deep Learning with Depthwise Separable Convolutions, Franc¸ois Chollet, Google, Inc., Oct 2016 (v1), last revised Apr 2017 (this version, v3), ArXiv preprint, https://arxiv.org/pdf/1610.02357.pdf Going Deeper with Convolutions, Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich, ILSVRC 2014, ArXiv preprint https://arxiv.org/abs/1409.4842 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, Sergey Ioffe, Christian Szegedy, 11 Feb 2015 (v1), last revised Mar 2015 (this version, v3), ArXiv preprint, https://arxiv.org/abs/1502.03167 MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications, Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam, 17 Apr 2017, ArXiv, https://arxiv.org/pdf/1704.04861.pdf Fully Convolutional Networks for Semantic Segmentation, Jonathan Long, Evan Shelhamer, Trevor Darrell, 2014, https://arxiv.org/pdf/1411.4038.pdf Pyramid Scene Parsing Network, Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, Jiaya Jia, Dec 2016 (v1), last revised 27 Apr 2017 (this version, v2), ArXiv preprint, https://arxiv.org/pdf/1612.01105.pdf 10 Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs, Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, Alan L Yuille, 22 Dec 2014 (v1), last revised Jun 2016 (this version, v4), ArXiv preprint, https://arxiv.org/pdf/1412.7062.pdf Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 62 11 DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs, Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, Alan L Yuille, Jun 2016 (v1), last revised 12 May 2017 (this version, v2), ArXiv preprint https://arxiv.org/pdf/1606.00915.pdf 12 Rethinking Atrous Convolution for Semantic Image Segmentation, Liang-Chieh Chen, George Papandreou, Florian Schroff, Hartwig Adam, 17 Jun 2017 (v1), last revised Dec 2017 (this version, v3), ArXiv preprint https://arxiv.org/pdf/1706.05587.pdf 13 Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation, Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, Hartwig Adam, Feb 2018 (v1), last revised Mar 2018 (this version, v2), ArXiv preprint https://arxiv.org/pdf/1802.02611.pdf 14 Dropout: A Simple Way to Prevent Neural Networks from Overfitting, Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov; JMLR, 15(Jun), 1929−1958, 2014 http://jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf * Tài liệu tham khảo từ internet 15 CS231n Convolutional Neural Networks for Visual Recognition 16 http://www.cnblogs.com/sandy-t/p/7474686.html 17 http://web.cs.ucdavis.edu/~yjlee/teaching/ecs289g-winter2018/DeepLab.pdf 18 http://host.robots.ox.ac.uk/pascal/VOC/ 19 http://ml-cheatsheet.readthedocs.io/en/latest/loss_functions.html 20 Semantic Segmentation, Taeoh Kim Page76https://www.slideshare.net/TaeohKim4/pr045-deep-labsemanticsegmentation 21 Car image segmentation using Convolutional Neural Nets https://medium.com/weightsandbiases/car-image-segmentation-usingconvolutional-neural-nets-7642448028f6 22 Mạng nơ-ron tích chập – convolutional neural network http://nhiethuyettre.net/mang-no-ron-tich-chap-convolutional-neural-network/ 23 Convolutional Neural Networks https://tiendv.wordpress.com/2016/12/25/convolutional-neural-networks/ 24 https://leonardoaraujosantos.gitbooks.io/artificialinteligence/content/googlenet.html 25 https://github.com/tensorflow/models/blob/master/research/deeplab Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 63 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 https://culurciello.github.io/tech/2016/06/20/training-enet.html https://www.tensorflow.org/programmers_guide/datasets https://jamie.shotton.org/work/research.html Mạng noron nhân tạo https://vi.wikipedia.org/wiki/M%E1%BA%A1ng_n%C6%A1ron_nh%C3%A2n_t%E1%BA%A1o Neural Network: https://tiendv.wordpress.com/2016/11/19/neural-networks/ https://machinelearningcoban.com/2017/02/17/softmax/#-softmax-function http://bis.net.vn/forums/t/482.aspx https://dominhhai.github.io/vi/2017/12/ml-gd/ http://cs231n.stanford.edu/slides/2018/cs231n_2018_lecture03.pdf http://cs231n.github.io/optimization-1/ https://www.pyimagesearch.com/2017/03/20/imagenet-vggnet-resnet-inceptionxception-keras/ Depthwise Separable Convolution - A FASTER CONVOLUTION! https://www.youtube.com/watch?v=T7o3xvJLuHk https://www.vincentqin.tech/2017/11/07/CNN-Architectures/ https://www.groundai.com/project/an-analysis-of-deep-neural-network-modelsfor-practical-applications/ https://jinzequn.github.io/2018/01/28/deconv-and-unpool/ https://github.com/yhenon/keras-spp https://en.wikipedia.org/wiki/Bilinear_interpolation Slide: MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications, 29 October 2017, Pr12 paper Review, Jinwon Lee, Samsung Electronics https://www.slideshare.net/JinwonLee9/mobilenet-pr044 Nguyễn Thị Phƣơng Hằng – 20131345 – K58 - CNTT2.01 64 ... với phân vùng ngữ nghĩa Hình 1.2: Một số toán xử lý ảnh [21] Phân vùng ngữ nghĩa: Thực gán nhãn đối tƣợng điểm ảnh, nghĩa liên kết điểm ảnh với nhãn lớp Phân loại kết hợp với khoanh vùng: Phân. .. toán phân loại ảnh để phân vùng ngữ nghĩa, nhiên kết phân vùng kém, chƣa rõ nét Cũng giống với phân loại ảnh, mạng noron tích chập đạt đƣợc nhiều thành cơng lớn tốn phân vùng ảnh Vậy nên, tơi... Phƣơng Hằng – 20131345 – K58 - CNTT2.01 DANH MỤC THUẬT NGỮ STT Từ chuyên môn Nghĩa Semantic Segmentation Phân vùng ngữ nghĩa Feature map Bản đồ tính Neural Network Mạng noron Convolutional Neural

Ngày đăng: 03/07/2020, 21:57