Nghiên cứu phương pháp phân đoạn ngữ nghĩa ảnh cho bài toán gán nhãn vùng trên ảnh món ăn Nghiên cứu phương pháp phân đoạn ngữ nghĩa ảnh cho bài toán gán nhãn vùng trên ảnh món ăn Nghiên cứu phương pháp phân đoạn ngữ nghĩa ảnh cho bài toán gán nhãn vùng trên ảnh món ăn luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Đỗ Tuấn Khải NGHIÊN CỨU PHƯƠNG PHÁP PHÂN ĐOẠN NGỮ NGHĨA ẢNH CHO BÀI TOÁN GÁN NHÃN VÙNG TRÊN ẢNH MÓN ĂN LUẬN VĂN THẠC SỸ KỸ THUẬT CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN Hà Nội, 10 – 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Đỗ Tuấn Khải NGHIÊN CỨU PHƯƠNG PHÁP PHÂN ĐOẠN NGỮ NGHĨA ẢNH CHO BÀI TOÁN GÁN NHÃN VÙNG TRÊN ẢNH MÓN ĂN LUẬN VĂN THẠC SỸ KỸ THUẬT CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: TS Nguyễn Thị Oanh Hà Nội, 10 – 2018 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Đỗ Tuấn Khải Đề tài luận văn: Nghiên cứu phương pháp phân đoạn ngữ nghĩa ảnh cho toán gán nhãn vùng ảnh ăn Chun ngành: Cơng nghệ thơng tin Mã số HV: CB150287 Tác giả, người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 27/10/2018 với nội dung sau: - Chương 2: Căn chỉnh cơng thức tốn luận văn: + Đánh máy lại công thức nội suy tuyến tính chiều mục 2.3.3 (trang 31), cơng thức tính tích chập giãn mục 2.4.3 (trang 33) thay cho hình ảnh cơng thức cũ - Chương 3: Bổ sung phần minh họa ground truth tập liệu huận luyên mục 3.2 (trang 47): Cụ thể thêm phần minh họa nhãn phân đoạn thủ cơng xây dựng liệu Hình 3.2b Bổ sung phần lựa chọn thử nghiệm với tham số huấn luyện mục 3.3.2 (trang 49, 50): Phần bổ sung trình bày việc lựa chọn tham số batch_size, tỷ lệ học, output_stride huấn luyện thử nghiệm để có tham số phù hợp qua trình Đồng thời, nêu lên ảnh hưởng tham số kết huấn luyện tác giả tiến hành thực nghiệm: + Đối với batch_size: thực thử nghiệm với nhiều batch_size khác tăng dần cho phù hợp với tài ngun tính tốn để thu kết tối ưu + Đối với tham số tỷ lệ học output_stride, thực trình huấn luyện với giá trị khác mơ hình đề xuất để đánh giá lựa chọn tham số tốt - Sửa số lỗi tả Hà Nội, ngày 26 tháng 11 năm 2018 Giáo viên hướng dẫn Tác giả luận văn TS Nguyễn Thị Oanh Đỗ Tuấn Khải CHỦ TỊCH HỘI ĐỒNG PGS.TS Trần Đình Khang LỜI CAM ĐOAN Tơi xin cam đoan luận văn “Nghiên cứu phương pháp phân đoạn ngữ nghĩa ảnh cho toán gán nhãn vùng ảnh ăn” cơng trình nghiên cứu riêng Các số liệu công bố luận văn hoàn toàn trung thực chưa cơng bố cơng trình khoa học khác Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu có liên quan nước quốc tế Tôi cam đoan không chép, sử dụng lại số liệu, kết nghiên cứu khác mà khơng ghi rõ tài liệu tham khảo Ngồi tài liệu tham khảo có liên quan luận văn kết nghiên cứu cá nhân Hà Nội, tháng 10/2018 Đỗ Tuấn Khải LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn sâu sắc tới TS Nguyễn Thị Oanh – Bộ môn Hệ thống thông tin, Viện Công nghệ thông tin truyền thông, Đại học Bách khoa Hà Nội, người tận tình hướng dẫn tơi từ bước nghiên cứu hồn thành luận văn Tơi xin chân thành cảm ơn thầy cô môn Hệ thống thông tin – Đại học Bách khoa Hà Nội hỗ trợ nhiều kiến thức chun mơn q trình thực hiện, hồn thành đề tài Cuối cùng, xin gửi lời cảm ơn tới gia đình bạn bè, nguồn động viên tinh thần to lớn với tôi, cổ vũ tin tưởng Hà Nội, tháng 10/2018 Đỗ Tuấn Khải MỤC LỤC BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ LỜI CAM ĐOAN .5 LỜI CẢM ƠN .6 Danh mục ký hiệu, chữ viết tắt .9 Danh mục bảng 10 Danh mục hình vẽ, biểu đồ 11 MỞ ĐẦU 13 Chương 1: Giới thiệu toán 15 1.1 Đặt vấn đề 15 1.2 Phân đoạn ngữ nghĩa ảnh 15 1.3 Các vấn đề cần giải toán .17 Chương 2: Cơ sở lý thuyết số phương pháp phân đoạn ngữ nghĩa ảnh 19 2.1 Tiêu chí đánh giá kết phân đoạn ngữ nghĩa 19 2.2 Một số kiến trúc mạng nơ-ron tích chập 20 2.2.1 Mạng VGG 21 2.2.2 Mạng Google 22 2.2.3 ResNet 24 2.2.4 Xception 26 2.2.5 So sánh kiến trúc mạng CNN 28 2.3 Các kỹ thuật upsampling .29 2.3.1 Unpooling .29 2.3.2 Giải tích chập (deconvolution) .29 2.3.3 Kỹ thuật nội suy tuyến tính chiều (bilinear inteporation) 30 2.4 Các kỹ thuật kết hợp thông tin ngữ cảnh .31 2.4.1 Mơ hình đồ thị xác xuất CRF .32 2.4.2 Pyramid pooling 32 2.4.3 Tích chập giãn (atrous/diated convolution) 33 2.5 Một số mơ hình phân đoạn ngữ nghĩa ảnh 34 2.5.1 Mơ hình mạng nơ-ron tích chập đầy đủ 34 2.5.2 Mơ hình SegNet 37 2.5.3 Mơ hình mạng CNN-CRF 37 2.5.4 Mơ hình mạng PSPNet 38 2.5.5 Các mô hình Deeplab 40 2.5.6 So sánh mơ hình .44 Chương 3: Mơ hình thử nghiệm đánh giá 45 3.1 Lựa chọn mơ hình thử nghiệm 45 3.2 Xây dựng tập liệu thử nghiệm 45 3.3 Cài đặt 47 3.3.1 Môi trường cài đặt 47 3.3.2 Bước huấn luyện mạng 48 3.3.3 Kết 50 3.4 Đánh giá kết thử nghiệm .56 Chương 4: Kết luận hướng phát triển 58 4.1 Kết luận 58 4.2 Hướng phát triển 58 TÀI LIỆU THAM KHẢO 59 Danh mục ký hiệu, chữ viết tắt STT Tên đầy đủ Tên ký hiệu, chữ viết tắt mIoU Mean Intersection of Union SVM Support Vector Machine EM Expected Maximum CNN Convolution Neural Network DCNN Deep Convolution Neural Network PSP Pyramid Scence Parsing FC Fully Connected Layer CONV Convlution layer VGG Visual Geometry Group 10 FCN Fully Convolution Network 11 ResNet Residual Network 12 CRF Conditional Random Field 13 MRF Markov Random Field 14 RNN Recurrent Neural Network 15 ASPP Atrous Spatial Pyramid Pooling 16 ILSVRC ImageNet Large Scale Visual Recognition Challenge Danh mục bảng Bảng 2.1 - Độ xác phân đoạn ngữ nghĩa mạng FCN .37 Bảng 2.2 - So sánh kết phân đoạn mơ hình 44 Bảng 3.1 - Các lớp đối tượng tập liệu thử nghiệm .46 Bảng 3.2 -So sánh kết thử nghiệm mơ hình cài đặt 57 10 (a) - Ảnh đầu vào (b) – Ảnh ground truth Hình 3.2 - Một số ảnh tập liệu thử nghiệm 3.3 Cài đặt 3.3.1 Môi trường cài đặt Framework: Tensorflow 1.8 47 GPU: GeForce GTX (11177MiB), NVIDIA-SMI 390.48 Google Colab: GPU Tesla K80 (11.17GiB Python 3.5 3.3.2 Bước huấn luyện mạng Bộ tham số khởi đầu: Trong mơ hình thử nghiệm này, sử dụng tham số khởi đầu mạng Resnet dùng huấn luyện mạng phân loại với liệu ImageNet Tiền xử lý ảnh đầu vào: Dữ liệu đưa vào huấn luyện cặp ảnh (image, label), image ảnh đầu vào, label ảnh đơn sắc (giá trị điểm ảnh nhận giá trị từ - 18) Do cần chuyển liệu huấn luyện sang dạng Tfrecord dạng đầu vào mạng huấn luyện tảng Tensorflow Sau chuyển sang dạng tfrecord, ta tệp liệu dùng cho huấn luyện (data_train.record) đánh giá (data_val.record), dung lượng 99MB 24MB Hình 3.3 –Các file liệu sau chuyển sang dạng tfRecord Ngoài bước padding cho cặp ảnh đầu bào, bước tiền xử lý khác trộn liệu (shuffle), tăng cường ảnh (cắt ảnh, xoay ảnh) thực trình huấn luyện Phần cài đặt gồm sử dụng mạng Resnet thư viện Tensorrflow (Resnet-50 Resnet-101 vào cài đặt tham số cấu hình huấn luyện) cài đặt cho mạng decoder Các tham số huấn luyện gồm: o train_epochs: Số epoch đưa vào huấn luyện o batch_size: Kích thước batch o learning_rate_policy: Phương thức thay đổi tỷ lệ học huấn luyện o max_iter: Số bước huấn luyện (số lần lặp) o base_architecture: Mạng CNN lựa chọn (Resnet-50 Resnet-101) o output_stride: Tỷ lệ đặc trưng thu từ CNN so với ảnh đầu vào 48 o initial_learning_rate: Tỷ lệ học khởi đầu Tỷ lệ giảm theo hàm đa thức o end_learning_rate: Tỷ lệ học kết thúc o weight_decay Phương pháp học: Sử dụng thuật toán học tham số MomentumOptimizer cung cấp thư viện Tensorflow Đây thuật toán học dựa giải thuật Stochastic Gradient Descent giúp điều chỉnh tốc độ học bước huấn luyện cập nhật tham số mạng nhanh hội tụ tới hàm mục tiêu Huấn luyện: Bộ liệu huấn luyện 30,000 bước mơ hình Deeplab v3+ với mạng base_architecture Resnet-50 Resnet-101 với tham số huấn luyện sau: train_epochs = 26 batch_size = 10 learning_rate_policy = poly max_iter = 30,000 base_architecture = ['resnet_v2_50','resnet_v2_101'] output_stride = initial_learning_rate = 7e-3 end_learning_rate = 1e-6 weight_decay=2e-4 Trước thực huấn luyện mạng với liệu thử nghiệm ảnh ăn Mơ hình mạng huấn luyện kiểm tra tập liệu PASCAL VOC cho kết mIoU đạt gần 78%[20], tham số huấn luyện sử dụng lại cho tập liệu thử nghiệm kết cho thấy đạt kết tốt Cụ thể, thử nghiệm huấn luyện đánh giá với điều chỉnh tham số batch_size, tỷ lệ học khởi đầu tỷ lệ học kết thúc điều chỉnh mạng CNN xương sống mơ hình với lựa chọn mạng ResNet-50 ResNet-101 Đối với batch_size, tăng dần batch_size lên giá trị 1, 8, 10 độ xác mơ hình tăng lên tương ứng mIoU = 0.22; 0.5; 0.72 thực thử nghiệm với mạng xương sống ResNet-101 Do giới hạn tài nguyên nhớ Google Colab nên chưa thể thực hiên thử nghiệm với giá trị batch_size cao Tuy nhiên, rõ 49 ràng batch_size tham số ảnh hưởng lớn tới kết huấn luyện thử nghiệm để mơ hình hội tụ tốt Đối với tham số tỷ lệ học, tỷ lệ học thay đổi trình học giữ nguyên đạt đến end_learning_rate Tuy nhiên, độ xác mơ hình khơng khác biệt nhiều thay đổi end_learning_rate điều kiện dừng số bước huấn luyện Khi giảm end_learning_rate tăng initial_learning_rate, tốc độ học thay đổi chậm qua quan sát hàm loss giảm chậm mơ hình lâu hội tụ Đối với tham số output_stride tỷ lệ kích thước ảnh đầu vào với kích thước đặc trưng thu trước upsample, giữ nguyên giá trị tham số kết thử nghiệm deeplab v3+ với mơ hình đề xuất trước cho kết tốt output_stride = Đối với tham số base_architecture tham số cho kiến trúc CNN sử dụng mơ hình, tơi thử nghiệm với kiến trúc mạng ResNet-50 ResNet-101 cài đặt mơ hình Và kết cài đặt cho mạng thực huấn luyện với batch_size 10 3.3.3 Kết 3.3.3.1 Với mạng Resnet-50 Bộ tham số mạng sau huấn luyện có kích thước 315MB Giá trị hàm lỗi liệu huấn luyện đánh giá giảm trình huấn luyện, nhiên số bước huấn luyện cịn hạn chế, giá trị loss giảm tăng số bước huấn luyện Dưới biểu đồ mô tả đồ thị hàm lỗi số bước huấn luyện tăng đến 30,000 bước Biểu đồ 3.1 - Mô tả giá trị hàm lỗi huấn luyện với mạng Resnet-50 50 (Đường cam đồ thị hàm lỗi liệu huấn luyện Đường màu xanh đồ thị hàm lỗi tập liệu đánh giá) Độ xác liệu đánh giá (500 ảnh) tăng số bước huấn luyện tăng Cụ thể đạt mIoU = 0.7 pixel acc = 0.885 số huấn luyện với 30,000 bước Biểu đồ 3.2 – Kết mIoU cài đặt Deeplab v3+ với mạng ResNet-50 Biểu đồ 3.3 - Độ xác pixcel acc cài đặt Deeplab v3+ với mạng ResNet-50 Kết quả: Bộ tham số huấn luyện mơ hình Deeplab v3+ với mạng Resnet50 thu kết tương đối tốt liệu đánh giá cụ thể: - Pixcel acc = 88.5% - mIoU = 70% Biểu đồ cho thấy độ xác tăng dần số bước huấn luyện tăng lên, tăng số bước huấn luyện đạt kết tốt Dưới số 51 kết kiểm tra ảnh chọn từ liệu FOOD101 không thuộc tập huấn luyện đánh giá: Hình 3.4 - Kết thử nghiệm Deeplab v3+ cài đặt với mạng ResNet-50 Kết cho thấy mô hình phân vùng gán nhãn xác với ảnh kiểm tra lấy từ tập liệu FOOD101 3.3.3.2 Với mạng Resnet-101 Bộ tham số mạng sau huấn luyện có kích thước 464MB Giá trị hàm lỗi liệu huấn luyện giảm theo biểu đồ Biểu đồ 3.4 - Mô tả giá trị hàm lỗi huấn luyện với mạng Resnet-101 52 (Đường cam đồ thị hàm lỗi liệu huấn luyện Đường màu xanh đồ thị hàm lỗi tập liệu đánh giá) Biểu đồ thể độ xác liệu đánh giá.Cụ thể đạt mIoU = 0.72 pixel acc = 0.89 số huấn luyện với 30,000 bước Biểu đồ 3.5 - Kết mIoU cài đặt Deeplab v3+ với mạng ResNet-101 (3.4b) Biểu đồ độ xác pixcel acc tập đánh giá Biểu đồ 3.6 - Độ xác pixcel acc cài đặt Deeplab v3+ với mạng ResNet-101 Kết quả: Bộ tham số huấn luyện mơ hình Deeplab v3+ với mạng Resnet101 thu kết tương đối tốt liệu đánh giá, cụ thể: - Pixcel acc = 89% - mIoU = 72% Dưới số kết kiểm tra ảnh tập huấn luyện đánh giá chứa lớp đồ ăn tập huấn luyện: 53 Hình 3.5 - Kết thử nghiệm Deeplab v3+ cài đặt với mạng ResNet-101 Kết phân đoạn ảnh có ăn (như ảnh từ tập liệu FOOD101) xác Mơ hình Deeplab v3+ với mạng Resnet cho đầu phân đoạn tốt (Hình 3.4 Hình 3.5) So sánh hai cài đặt với Resnet-50 Resnet101, ta thấy kết lệch không đáng kể dù tham số Resnet-50 nhỏ nhiều so với Resnet-101 Nguyên nhân bước huấn luyện chưa đủ lớn để mơ hình hội tụ đến tham số tối ưu cho mạng Khi thử nghiệm với ảnh phức tạp lấy từ internet mơ hình cài đặt với mạng Resnet-101 Một số vùng ảnh chứa đối tượng tập lớp biết 54 mơ hình đưa kết dự đoán Tuy nhiên, kết xác với ảnh khơng chứa lớp ăn tập huấn luyện (3.6a) – Kết tốt: Gán nhãn đúng, đủ cho lớp huấn luyện (3.6b) – Kết tốt: không gán nhãn cho khơng có nhãn tập huấn luyện (3.6c) – Một số vùng gán nhầm nhãn bên cạnh số vùng gán nhãn ăn (3.6d) – Gán sai nhãn cho khơng nằm tập nhãn huấn luyện Hình 3.6 – Kết thử nghiệm với số hình ảnh từ internet 55 Kết hình 3.6 cho thấy mơ hình phân đoạn cho kết xác với trường hợp ảnh có ăn nằm tập nhãn huấn luyện số ảnh phức tạp, nhiều khơng nằm tập nhãn cho trước kết thiếu xác Cụ thể: - Hình 3.6a gồm ảnh 1, 2, 3, 4, 5, cho kết phân đoạn ngữ nghĩa tốt xác định biên vùng gán nhãn vùng đủ, trường hợp có ảnh chứa nhiều - Hình 3.6b gồm ảnh 16, 17 cho kết phân đoạn ngữ nghĩa tốt mơ hình khơng gán nhãn cho ăn khơng nằm tập nhãn huấn luyện - Hình 3.6c gồm ảnh 7, 8, 9, 10, 11, 12 Mơ hình phân đoạn số vùng chứa tập nhãn huấn luyện Tuy nhiên, có vùng bị gán nhầm nhãn như: ảnh số 7, 12 gán nhầm nhãn hot_dog cho khoai tây chiên; ảnh 8, 11 bị gán nhầm nhãn vùng ảnh pizza; ảnh 9, 10 gán nhầm nhãn chicken_wing (cánh gà) cho sườn nướng đùi gà Nguyên nhân vùng (bị gán nhầm nhãn) tương đồng màu sắc hình dạng với nhãn tập huấn luyện Ngoài vùng bị chồng lấp nguyên nhân dẫn đến số sai sót kết phân đoạn - Hình 3.6d gồm ảnh 13, 14, 15 Kết bị phân vùng gán nhãn vùng sai Cụ thể ăn ảnh khơng có tập nhãn huấn luyện phân vùng gán nhãn Nguyên nhân chúng tương đồng màu sắc, hình dạng với số nhãn ăn tập huấn luyện, ví dụ ảnh 15 chứa mỳ hải sản bị nhận nhầm nhãn ramen; ảnh 13 có vùng đậu phụ bị gán nhầm nhãn hot_dog (bánh mì que), vùng chứa rau thịt gán nhãn phở; ảnh 14, nem rán bị gán nhầm nhãn hot_dog Qua đó, ta thấy để mơ hình đạt kết phân đoạn thực tế tốt hơn, cần cải thiện tập liệu huấn luyện đa dạng phong phú 3.4 Đánh giá kết thử nghiệm Kết cài đặt huấn luyện mạng ResNet-101 tốt so với ResNet-50 khác biệt không nhiều (~2% mIoU) Tuy nhiên tham số pretrained mạng ResNet-101 lớn nhiều Nguyên nhân số bước 56 huấn luyện thấp Đây hạn chế cải thiện thêm thời gian tới để có lựa chọn mơ hình phù hợp cho hướng phát triển thành ứng dụng di động Dưới bảng so sánh cài đặt thử nghiệm mơ hình thử nghiệm với Deeplab v3+: mIoU Pixcel acc Pretrained model Deeplab ResNet-50 70% 88.5% 315 MB Deeplab ResNet-101 72% 89% 464 MB Bảng 3.2 -So sánh kết thử nghiệm mơ hình cài đặt Kết thử nghiệm cịn thấp so với mơ hình pre-trained mà Deeplabv3+ thử nghiệm tập PASCAL VOC2012 (khi huấn luyện với tập JFT) chưa đạt độ xác cao số liệu thực tế Tuy nhiên, khác biệt tính chất liệu số lượng liệu tập huấn luyện Với tập liệu thử nghiệm luận văn này, số lượng ảnh huấn luyện cịn ít, chưa đa dạng, tồn nhiễu liệu phân đoạn thủ cơng Ngồi ra, khó khăn việc giới hạn tài ngun tính tốn thời gian huấn luyện thử nghiệm nên số bước huấn luyện hạn chế 30,000 bước Do kết quan sát ảnh kiểm tra, có vùng phân đoạn sai chưa rõ ràng, kết cải thiện ta tăng số bước huấn luyện tăng độ đa dạng liệu hiệu chỉnh tham số mơ batch_size 57 Chương 4: Kết luận hướng phát triển 4.1 Kết luận Luận văn đưa toán gán nhãn vùng cho ảnh ăn, xác định tốn phân vùng ngữ nghĩa ảnh giải thuật sở cần giải Qua đó, Luận văn tập trung vào nghiên cứu mơ hình phân đoạn ngữ nghĩa thực nội dung sau: - Xây dựng thủ cơng liệu ảnh ăn cho tốn phân đoạn ngữ nghĩa ảnh - Tìm hiểu lựa chọn mơ hình phân đoạn ngữ nghĩa cho tốn gán nhãn vùng ảnh ăn Trong đó, tơi tìm hiểu phân tích số mơ hình phân đoạn ngữ nghĩa sử dụng mạng tích chập học sâu có giám sát kỹ thuật liên quan mơ hình FCN, Segnet, PSPNet Deeplab có kết phân đoạn tốt - Cài đặt đánh giá thực nghiệm với mơ hình Deeplab v3+ liệu ảnh ăn xây dựng Kết thu khả quan, phát triển áp dụng cho ứng dụng thực tế Tuy nhiên, trình thực luận văn, khó khăn mơi trường cài đặt tài ngun tính tốn, nên chưa thể thử nghiệm nhiều với tham số huấn luyện khác Bộ liệu chưa đa dạng phong phú nên kết thu cịn có nhiều hạn chế 4.2 Hướng phát triển Với kết tại, tơi tiếp tục hướng nghiên cứu tốn phân vùng ngữ nghĩa ảnh để giải toán gán nhãn vùng cho ảnh ăn hướng đến xây dựng ứng dụng thiết bị di động cho người dùng giúp theo dõi, tư vấn chế độ dinh dưỡng hàng ngày Để thực việc đưa ứng dụng thực tế, cơng việc cần phải thực gồm: - Đa dạng hóa liệu huấn luyện với đa dạng ăn nhiều ảnh - Hiệu chỉnh mơ hình tăng cường số bước huấn luyện để có kết phận đoạn ngữ nghĩa xác 58 TÀI LIỆU THAM KHẢO * Các báo khoa học [1] S Arumugadevi, V Seenivasagam , Color image segmentation using feedforward neural networks with FCM, International Journal of Automation and Computing 13(5), July 2016 [2] Xiang yang Wang, Xian-Jin Zhang, Hong-Ying Yang, Juan Bu, A pixel-based color image segmentation using support vector machine and fuzzy C-means, Neural networks: the official journal of the International Neural Network Society 33:148-59, May 2012 [3] Chris Vutsinas, Image Segmentation: K-Means and EM Algorithms, 2007 [4] Zhi-Kai Huang, De-Hui Liu, Segmentation of Color Image Using EM algorithm in HSV Color Space, in Proceedings of IEEE International Conference on Information Acquisition, Jul 2007, pp 316-319 [5] J Long, E Shelhamer, T Darrell, Fully convolutional networks for semantic segmentation, arXiv:1411.4038, 2014, https://arxiv.org/pdf/1411.4038.pdf [6] Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla, SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation, arXiv:1511.00561(2 Nov 2015 (v1), last revised 10 Oct 2016 (this version, v3), https://arxiv.org/pdf/1511.00561.pdf [7] Shuai Zheng, Sadeep Jayasumana, Bernardino Romera-Paredes, Vibhav Vineet, Zhizhong Su, Dalong Du, Chang Huang, and Philip H S Torr, Conditional Random Fields as Recurrent Neural Networks, arXiv:1502.03240, 2016 https://arxiv.org/pdf/1502.03240.pdf [8] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, Jiaya Jia, Pyramid Scene Parsing Network, arXiv:1612.01105, Dec 2016 (v1), last revised 27 Apr 2017 (this version, v2), https://arxiv.org/pdf/1612.01105.pdf [9] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, Alan L Yuille, DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs, 59 arXiv:1606.00915, Jun 2016 (v1), last revised 12 May 2017 (this version, v2), https://arxiv.org/pdf/1606.00915.pdf [10] Liang-Chieh Chen, George Papandreou, Florian Schroff, Hartwig Adam, Rethinking Atrous Convolution for Semantic Image Segmentation, arXiv: 1706.05587, 17 Jun 2017 (v1), last revised Dec 2017 (this version, v3), https://arxiv.org/pdf/1706.05587.pdf [11] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, Hartwig Adam, Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation, arXiv: 1802.02611,7 Feb 2018 (v1), last revised Mar 2018 (this version, v2), https://arxiv.org/pdf/1802.02611.pdf [12] Kaiming He, Xianguy Zhang, Shaoqing Ren, Jian Sun, Deep Residual Learning for Image Recognition, arXiv: 1512.03385, 10 Dec 2015, https://arxiv.org/abs/1512.03385 [13] Franc¸ois Chollet, Google, Inc., Xception: Deep Learning with Depthwise Separable Convolutions, arXiv: 1610.02357, Oct 2016 (v1), last revised Apr 2017 (this version, v3), https://arxiv.org/pdf/1610.02357.pdf [14] Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam, MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications, arXiv: 1704.04861, 17 Apr 2017, https://arxiv.org/pdf/1704.04861.pdf [15] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermane, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich, Going deeper with convolutions , arXiv: 1409.4842, 2014, https://arxiv.org/pdf/1409.4842v1.pdf [16] Christian Szegedy, Vincent Vanhoucke , Sergey Ioffe, Jonathon Shlens, Zbigniew Wojna, Rethinking the Inception Architecture for Computer Vision, arXiv:1512.00567, 2015, https://arxiv.org/pdf/1512.00567v3.pdf * Các nguồn tham khảo từ Internet [17] FOOD101 dataset: https://www.vision.ee.ethz.ch/datasets_extra/food-101/ 60 [18] CS231n Convolutional Neural Networks for Visual Recognition : http://cs231n.github.io/convolutional-networks/ [19] PASCAL VOC 2012: http://host.robots.ox.ac.uk/pascal/VOC/ [20] https://github.com/rishizek/tensorflow-deeplab-v3-plus [21] http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf [22] https://arxiv.org/pdf/1603.05027.pdf [23] https://www.groundai.com/project/an-analysis-of-deep-neural-networkmodelsfor-practical-applications/ [24] https://jinzequn.github.io/2018/01/28/deconv-and-unpool/ [25] https://en.wikipedia.org/wiki/Bilinear_interpolation [26] VGG16 in Tensorflow: https://www.cs.toronto.edu/~frossard/post/vgg16/ [27] PASCAL VOC 2012 Leader board: http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?cls=mean&challeng eid=11&compid=6&submid=17681 * Mã nguồn cài đặt thử nghiệm liệu thử nghiệm [28] Bộ liệu: https://github.com/taaskardox/food17-dataset [29] Mã nguồn: https://github.com/taaskardox/deeplabv3plus-resnet 61 ... liệu ảnh cho truy vấn ảnh ăn Đối tượng phạm vi nghiên cứu Luận văn tập trung nghiên cứu việc phân đoạn ngữ nghĩa ảnh màu thực nghiệm với liệu ảnh ăn Phương pháp nghiên cứu 13 Phương pháp nghiên cứu. .. ngữ nghĩa ảnh, bước tác vụ xử lý ảnh để máy tính hiểu thành phần ảnh ngữ nghĩa đối tượng chứa ảnh Do tơi lựa chọn đề tài ? ?Nghiên cứu phương pháp phân đoạn ngữ nghĩa ảnh cho toán gán nhãn vùng ảnh. .. phân tích mơ hình phân đoạn ngữ nghĩa có - Xây dựng liệu ảnh ăn cài đặt thử nghiệm cho toán phân đoạn ngữ nghĩa ảnh tập liệu ảnh ăn 18 Chương 2: Cơ sở lý thuyết số phương pháp phân đoạn ngữ nghĩa