Bài viết đề xuất hệ thống không chỉ có thể tự động nhận biết các thực phẩm mà còn có thể cho phép ước tính giá trị dinh dưỡng của chúng, làm cho chúng hữu ích trong việc lập kế hoạch ăn uống sao cho phù hợp với chế độ ăn uống của những người khác nhau.
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00195 NHẬN DẠNG HÌNH ẢNH THỰC PHẨM BẰNG PHƯƠNG PHÁP DEEP LEARNING Phan Anh Cang1, Nguyễn Thanh Hoàng1, Trần Hồ Đạt1, Nguyễn Văn Hiếu1, Phan Thượng Cang2 Khoa Công nghệ thông tin, Trƣờng Đại học Sƣ phạm Kỹ thuật Vĩnh Long Khoa Công nghệ thông tin Truyền thông, Trƣờng Đại học Cần Thơ cangpa@vlute.edu.vn, hoangnt@vlute.edu.vn, datth@vlute.edu.vn, hieunv@vlute.edu.vn, ptcang@cit.ctu.edu.vn TÓM TẮT: Thói quen ăn uống khơng hợp lý yếu tố nguy hàng đầu dẫn đến tử vong gánh nặng bệnh tật toàn cầu Việc trì chế độ ăn lành mạnh suốt đời giúp phòng tránh nhiều nguy bệnh Để có chế độ ăn uống lành mạnh cần nắm rõ giá trị dinh dưỡng thực phẩm cách lựa chọn thực phẩm cho bữa ăn Hệ thống nhận dạng thực phẩm tự động dự đoán dinh dưỡng thực phẩm ngày cần thiết nhằm cung cấp chế độ ăn lành mạnh chìa khóa để giải vấn đề dinh dưỡng bao gồm thừa, thiếu dinh dưỡng thiếu vi chất dinh dưỡng Trong nghiên cứu này, đề xuất hệ thống không tự động nhận biết thực phẩm mà cịn cho phép ước tính giá trị dinh dưỡng chúng, làm cho chúng hữu ích việc lập kế hoạch ăn uống cho phù hợp với chế độ ăn uống người khác Chúng thực thu thập sở liệu ảnh thực phẩm cho hệ thống nhận dạng thực phẩm phục vụ huấn luyện phát 17 loại thực phẩm phổ biến Bên cạnh đó, chúng tơi đề xuất mơ hình mạng nơron tích chập (Faster R-CNN) sử dụng kiến trúc AlexNet VGG16 nhận dạng hình ảnh thực phẩm gợi ý giá trị dinh dưỡng thực phẩm Kết thực nghiệm cho thấy phương pháp cho kết nhận dạng hiệu hầu hết loại thực phẩm Từ khóa: Faster R-CNN, mạng nơron tích chập, nhận dạng hình ảnh thực phẩm I GIỚI THIỆU Sự xuất ngày nhiều thực phẩm chế biến, tốc độ thị hóa cao với thay đổi lối sống kéo theo thay đổi cách ăn uống, ngày ngƣời tiêu thụ ngày nhiều thức ăn giàu lƣợng, chất béo, đƣờng tự do, muối Việc lập kế hoạch ăn uống phần cho bạn thấy đƣợc chất dinh dƣỡng mà bạn nạp vào ngày, từ cân dinh dƣỡng bữa ăn tránh trƣờng hợp bổ sung nhiều làm ảnh hƣởng đến sức khỏe Vì vậy, việc phát hiện, nhận dạng hình ảnh thực phẩm để đƣa gợi ý thành phần dinh dƣỡng thực phẩm trở nên cần thiết Trong thời gian gần đây, nhờ có phát triển mạnh mẽ khả tính tốn hệ máy tính đại nhƣ bùng nổ liệu thông qua mạng lƣới Internet, ta chứng kiến nhiều đột phá lĩnh vực máy học, đặc biệt lĩnh vực thị giác máy tính Sự phát triển vƣợt bậc phƣơng pháp học sâu giúp thị giác máy tính đạt đƣợc thành tựu đáng kể lĩnh vực nhận dạng ảnh, có tốn nhận dạng thực phẩm Nội dung trình bày báo gồm giới thiệu công việc liên quan; thu thập xây dựng sở liệu ảnh cho hệ thống nhận dạng 17 loại thực phẩm; ứng dụng mơ hình mạng Faster R-CNN phát đối tƣợng ảnh; số kết thực nghiệm đạt đƣợc Các nhà nghiên cứu không ngừng cố gắng phát triển cải thiện mơ hình học sâu nhằm ngày nâng cao chất lƣợng nhận dạng ảnh Mặc dù trƣớc chƣa có hệ thống nhận dạng thành phần thực phẩm chuyên dụng nào, nhƣng có nhiều cách tiếp cận để nhận dạng hình ảnh thực phẩm khứ đƣợc đề cập ngắn gọn hệ thống tiêu biểu dƣới Đầu tiên nhóm nghiên cứu Yang [1] sử dụng thuật toán STF (Semantic texton forests) ứng dụng 61 loại thực phẩm dựa tập ảnh thức ăn nhanh (Pittsburgh Fast-food Image Dataset) kết hợp với mơ hình SVM cho kết xác đƣợc 28,2 % Nhóm Matsuda [2] sử dụng phƣơng pháp mơ hình biến dạng phân phối (Deformable part model) để xử lý trích chọn đặc trƣng, sử dụng cửa sổ trƣợt ảnh theo định dạng kim tự tháp áp dụng mô hình SVM để phân loại đối tƣợng Họ đạt đƣợc 55,8 % cho phƣơng pháp nhận dạng nhiều đối tƣợng 68,9 % cho phƣơng pháp nhận dạng đối tƣợng, cải thiện đáng kể so với nghiên cứu trƣớc Tuy nhiên, nghiên cứu trƣớc dựa trích xuất đặc trƣng đƣợc xác định cách thủ công, chẳng hạn nhƣ màu sắc kết cấu Do đó, kết từ cơng trình nghiên cứu khơng đánh giá đƣợc hiệu suất giới thực điều kiện khác thực tế xảy Với đời mạng nơron tích chập lựa chọn tối ƣu bải tốn nhận dạng ảnh Nhóm Yanai [3] cơng khai nghiên cứu họ dựa mơ hình mạng nơron tích chập túy đạt đƣợc kết 72,26 % tập ảnh UEC-FOOD100 (University of ElectroCommunications Food 100) đƣợc xuất công khai vào năm 2012, độ xác cao mà họ làm đƣợc tính thời điểm Vào năm 2014, phiên dựa tập ảnh UEC-FOOD100 đƣợc xuất bản, tập ảnh UEC-FOOD256 (University of Electro-Communications Food 256) chứa 256 loại thực phẩm khác với tập ảnh UEC-FOOD100 chứa 100 loại đạt đƣợc độ xác 67,57 % tập II CƠNG VIỆC LIÊN QUAN 2.1 Mạng nơron tích chập (CNN - Convolutional Neural Network) Mạng nơron tích chập (CNN - Convolutional Neural Network) mô hình mạng phổ biến hệ thống nhận dạng Mạng CNN có khả xây dựng liên kết sử dụng phần cục ảnh kết nối đến nút lớp thay tồn ảnh nhƣ mạng nơron truyền thẳng Các lớp mạng Phan Anh Cang, Nguyễn Thanh Hoàng, Trần Hồ Đạt, Nguyễn Văn Hiếu, Phan Thƣợng Cang 421 CNN bao gồm: lớp tích chập (Convolutional); lớp lấy mẫu (Pooling); lớp kích hoạt phi tuyến ReLU (Rectified Linear Unit) lớp kết nối đầy đủ (Fully connected) Hình Cấu trúc mạng nơron tích chập Hình mơ tả cấu trúc mạng nơron tích chập Trong mơ hình mạng nơron tích chập lan truyền thẳng nơron đầu vào cho nơron đầu tầng tiếp theo, mơ hình gọi mạng liên kết đầy đủ (Fullyconnected) Các tầng liên kết đƣợc với thơng qua chế tích chập, tầng kết tích chập từ tầng trƣớc đó, nhờ mà ta có đƣợc kết nối cục Nhƣ nơron tầng sinh từ kết mặt nạ chập áp lên vùng ảnh cục nơron trƣớc 2.2 Faster R-CNN R-CNN đƣợc giới thiệu lần đầu vào 2014 Ross Girshick cộng UC Berkeley Kiến trúc RCNN gồm thành phần: vùng đề xuất hình ảnh (Region proposal); trích lọc đặc trƣng (Feature Extractor) phân loại (classifier) Một nhƣợc điểm phƣơng pháp chậm, đòi hỏi phải vƣợt qua nhiều module độc lập có trích xuất đặc trƣng từ mạng CNN học sâu vùng đề xuất hình ảnh đƣợc tạo thuật tốn đề xuất vùng chứa ảnh Năm 2015, mạng Fast R-CNN đời với đột phá phƣơng pháp sử dụng cách sử dụng single model thay pipeline để phát vùng phân lớp lúc Ngay sau đó, Shaoqing Ren [4] cộng đề xuất mạng Faster R-CNN cải thiện tốc độ huấn luyện nhận dạng Faster R-CNN thuật toán để tìm kiếm vị trí vật thể ảnh Thuật tốn có đầu hình hộp, với vật thể bên hộp Mơ hình mạng Faster R-CNN đƣợc mơ tả theo Hình Hình Kiến trúc mơ hình mạng Faster R-CNN [5] Theo [5] Faster R-CNN có tốc độ nhanh 10 lần so với Fast R-CNN 200 lần so với chạy thuật toán R-CNN Kết thực nghiệm đƣợc tác giả trình bày Hình Hình So sánh thời gian thuật tốn phát đối tƣợng NHẬN DẠNG HÌNH ẢNH THỰC PHẨM BẰNG PHƢƠNG PHÁP DEEP LEARNING 422 Trong nội dung báo, đề xuất phƣơng pháp phát thành phần ảnh thực phẩm dựa mơ hình mạng Faster R-CNN Bƣớc kế tiếp, tiến hành so sánh đánh giá mơ hình với mục đích tìm mơ hình tốt nhận dạng Một lý cần xét tới tiêu chí có nhiều trƣờng hợp mơ hình chạy tốt tập liệu chuẩn, nhƣng bị hạn chế tập liệu thực tế tính phức tạp liệu Bênh cạnh đó, tốc độ nhƣ thời gian xử lý đóng vai trị quan trọng ứng dụng Hơn nữa, việc cân độ xác tốc độ xử lý thách thức Để đánh giá yếu tố này, sử dụng độ đo đánh giá mơ hình tốn nhận dạng đối tƣợng nhằm tìm mơ hình có độ xác cao ứng dụng hiệu toán nhận dạng ảnh thực phẩm 2.3 Kiến trúc mạng AlexNet VGGNet AlexNet kiến trúc mạng nơron tích chập đặt móng cho kiến trúc mạng nơron sử dụng mạng nơron tích chập Krizhevsky cha đẻ Alexnet chiến thắng thi ImageNet năm 2012 với tỉ lệ lỗi khoảng 15,4 % tốt hẳn so với phƣơng pháp đƣợc sử dụng trƣớc Kiến trúc mơ hình mạng AlexNet đƣợc trình bày Hình Hình Mơ hình mạng AlexNet [6] Kiến trúc sử dụng tầng mạng nơron tích chập để phân loại cho 1000 lớp Điểm đặc biệt Alexnet không nằm tầng mạng nơron tích chập mà cịn việc sử dụng hàm kích hoạt ReLU đƣợc chứng minh cho tốc độ huấn luyện hiệu so với hàm kích hoạt khác trƣớc Kiến trúc mơ hình đƣợc mơ tả Hình 2.4 Đến năm 2014, VGGNet đứng hạng hai thi ImageNet 2014 đứng sau mạng GoogleNet ConvNet Configuration B C 13 weight 16 weight layers layers Input (224 x 224 RGB image) conv3-64 conv3-64 conv3-64 conv3-64 maxpool conv3-128 conv3-128 conv3-128 conv3-128 maxpool conv3-256 conv3-256 conv3-256 conv3-256 conv1-256 conv3-512 conv3-512 conv3-512 conv3-512 A 11 weight layers A-LRN 11 weight layers conv3-64 conv3-64 LRN conv3-128 conv3-128 conv3-256 conv3-256 conv3-256 conv3-256 conv3-512 conv3-512 conv3-512 conv3-512 D 16 weight layers E 19 weight layers conv3-64 conv3-64 conv3-64 conv3-64 conv3-128 conv3-128 conv3-128 conv3-128 conv3-256 conv3-256 conv3-256 conv3-256 conv3-256 conv3-256 conv3-256 maxpool conv3-512 conv3-512 conv3-512 conv3-512 conv1-512 conv3-512 conv3-512 conv3-512 conv3-512 conv3-512 conv3-512 conv3-512 maxpool conv3-512 conv3-512 conv3-512 conv3-512 conv1-512 conv3-512 conv3-512 conv3-512 conv3-512 conv3-512 conv3-512 conv3-512 maxpool FC-4096 FC-4096 FC-1000 soft-max Hình Kiến trúc mạng VGG16 [6] Phan Anh Cang, Nguyễn Thanh Hoàng, Trần Hồ Đạt, Nguyễn Văn Hiếu, Phan Thƣợng Cang 423 Kiến trúc mạng VGGNet đƣợc mô tả Hình chuẩn thiết kế mạng học sâu Visual Geometry Group thuộc đại học Oxford Mơ hình đơn giản có độ sâu so với kiến trúc AlexNet Tất tầng mạng nơron tích chập mơ hình gồm có lọc 3x3 với bƣớc nhảy = 1, kích thƣớc lề = tầng tổng hợp cực đại Chính điều làm giảm số lƣợng tham số mạng Dựa nghiên cứu tác giả [7], [5] cho thấy việc rút trích đặc trựng nhận dạng ảnh thực phẩm dựa kiến trúc AlexNet VGG16 cho kết tốt Vì vậy, nội dung báo chúng tơi đề xuất mơ hình mạng nơron tích chập (Faster R-CNN) sử dụng kiến trúc AlexNet VGG16 nhận dạng hình ảnh thực phẩm 2.4 Độ đo đánh giá mơ hình Độ đo mAP (Mean Average Precision) [8] theo chuẩn đánh giá PASCAL VOC [9] đƣợc sử dụng để đánh giá cho mô hình phát đối tƣợng ảnh theo cơng thức (1) Khác với phƣơng pháp đo lƣờng theo độ xác thông thƣờng, mAP cho phép kiểm nghiệm chất lƣợng cho tập ảnh không cân số lƣợng liệu loại cách tốt Đo thời gian huấn luyện mơ hình thời gian dự đoán ảnh giây Cơng thức tính độ đo mAP: mAP = ∑ (1) Trong Q số lƣợng lớp đối tƣợng (thành phần thực phẩm) có tập liệu, AP độ xác trung bình lớp đƣợc tính công thức nhƣ sau: AP = ∑ (2) III MƠ HÌNH ĐỀ XUẤT Trong mơ hình nhận dạng thực phẩm trƣớc việc nhận dạng ảnh thực phẩm đƣợc thực hiện phƣơng pháp trích xuất đặc trƣng trực tiếp từ ảnh đầu vào sau sử dụng phân loại để thực nhận dạng loại thực phẩm Tuy nhiên, nhƣợc điểm phƣơng pháp gặp khó khăn việc trích xuất đặc trƣng từ ảnh, độ xác nhận dạng khơng cao có xu hƣớng giảm dần số lƣợng ảnh đầu vào tăng lên Trong nghiên cứu gần [10] [7] [11] minh chứng việc thực nhận dạng ảnh phƣơng pháp Deep Learning có kết tốt phƣơng pháp trƣớc độ xác tăng dần tập liệu ảnh đầu vào lớn Do đó, chúng tơi đề xuất mơ hình tổng quát nhận dạng thực phẩm phƣơng pháp Deep Learning nhằm tối ƣu hóa cơng việc trích xuất đặc trƣng ảnh đầu vào tăng cƣờng độ xác q trình nhận dạng Bộ trích chọn đặc trƣng Ảnh đầu vào Bộ phân loại Faster R-CNN Kết nhận dạng Hình Mơ hình tổng qt đề xuất hệ nhận dạng ảnh thực phẩm phƣơng pháp Faster R-CNN Hình mơ tả q trình nhận dạng đƣợc thực bao gồm bƣớc: (1) Huấn luyện ảnh đầu vào mơ hình Faster R-CNN; (2) Thực kiểm thử tinh chỉnh trọng số nhằm tìm mơ hình tốt nhất; (3) Nhận dạng ảnh thực phẩm dựa mơ hình Faster R-CNN đánh giá độ xác Từ Hình ta thấy mơ hình mạng Faster R-CNN mạng CNN có kiến trúc tổng qt chung, mơ hình gồm ba giai đoạn giai đoạn huấn luyện, giai đoạn đánh giá giai đoạn kiểm thử, thành phần hai giai đoạn huấn luyện đánh giá gồm có trích chọn đặc trƣng phân loại, nhận dạng xác định vị trí bao đóng Trong lần học, đánh giá đƣợc chuẩn đoán so khớp chất lƣợng pha chọn mơ hình dự đốn tốt Riêng với pha kiểm thử, mơ hình bắt đầu dự đốn, tính tốn số liệu liên quan đến chất lƣợng mơ hình đánh giá kết cho mơ hình Sau mơ hình đƣợc ứng dụng vào triển khai thực tế 3.1 Phát đối tượng ảnh mơ hình Faster R-CNN: Các bƣớc thực bao gồm: Bộ trích chọn đặc trƣng Bộ phân loại xác định vị trí bao đóng: phát đối tƣơng (Object Detector) tiếp nhận đồ đặc trƣng từ hai mạng nơron tích chập mạng RPN đƣa qua tầng liên kết đầy đủ (FC Layers) để thực phân loại đối tƣợng hàm softmax dự đoán tọa độ tầng đối tƣợng kỹ thuật hồi quy (bounding-box regression) Lựa chọn mơ hình có giá trị mAP cao nhất, tính tốn độ xác cho mơ hình NHẬN DẠNG HÌNH ẢNH THỰC PHẨM BẰNG PHƢƠNG PHÁP DEEP LEARNING 424 Lựa chọn mơ hình có độ xác cao đƣa vào nhận dạng Tiếp nhận đồ đặc trƣng từ đầu mạng nơron tích chập Sau có đƣợc đặc trƣng học sâu (feature maps) từ tầng tích chập (CNN), mạng RPN sử dụng cửa sổ trƣợt đồ đặc trƣng (feature map) để rút trích đặc trƣng cho vùng đề xuất RPN đƣợc xem nhƣ mạng nơron tích chập đầy đủ lúc thực hai nhiệm vụ dự đốn tọa độ cho đối tƣợng (bounding box) gán điểm số (là đối tƣợng) (không đối tƣợng) cho đối tƣợng (objectness score) 3.2 Xây dựng hệ thống nhận dạng Bên cạnh đó, chúng tơi xây dựng hệ thống nhận dạng ảnh thực phẩm bao gồm module: Cơng cụ suy luận Hình Hệ thống nhận dạng ảnh thực phẩm Nhƣ Hình hệ thống nhận dạng thành phần thực phẩm ăn đƣợc thiết kế theo mơ hình clientserver đó: Giai đoạn giai đoạn giao diện ngƣời dùng, cụ thể ứng dụng client điện thoại di động website, quản lý tƣơng tác ngƣời dùng nhƣ chụp ảnh, chọn ảnh gửi lên server hiển thị kết nhận dạng server gửi Giai đoạn hai giai đoạn server quản lý giao thức gửi/nhận liệu với client, cụ thể giao thức đƣợc sử dụng hệ thống giao thức HTTP/HTTPS Server thực xử lý yêu cầu từ client, nhƣ quản lý phân phối luồng xử lý độc lập, đảm bảo hiệu chất lƣợng tính tốn nhận dạng cho nhiều client thời điểm Giai đoạn ba, server cịn đảm nhiệm xây dựng mơ hình, tinh chỉnh quản lý phiên mơ hình nhận dạng cho hệ thống quản lý liệu, bao gồm thơng tin thành phần thực phẩm có ăn, thành phần có thơng tin chi tiết số lƣợng calo, protein, chất béo, IV KẾT QUẢ THỰC NGHIỆM 4.1 Môi trường liệu kiểm thử Cấu hình thử nghiệm: Mơi trƣờng đƣợc sử dụng để huấn luyện mơ hình nhận dạng thành phần thực phẩm ăn máy tính với vi xử lý intel core i5, nhớ 16 GB, xử lý đồ họa GTX 1060 với kích thƣớc nhớ GB, hệ điều hành Ubuntu 16.04, ngôn ngữ Python với framework CNTK (Computational Network Toolkit) Sau trình tìm hiểu so sánh framework, định chọn CNTK làm công cụ cài đặt triển khai ứng dụng cho toán nhận dạng thành phần ảnh Microsoft tích hợp mã nguồn có sẵn cho mơ hình Faster R-CNN giúp giảm thời gian xây dựng mơ hình huấn luyện Tập liệu huấn luyện: Do tập ảnh dùng để nhận dạng thành phần ăn khơng có gán nhãn sẵn nên chúng tơi tự gán nhãn thủ công tập ảnh riêng để sử dụng từ hình ảnh đƣợc lấy tập ảnh Food-101 [12] Tập ảnh Food-101 liệu hình gồm 101 loại thực phẩm (Hình 8), loại thực phẩm có 1.000 hình (tổng hình tập ảnh 101.000 hình) Mỗi lớp (class) tập ảnh có 250 hình để kiểm tra (test) 750 hình để huấn luyện (training) Kích thƣớc tất hình tập ảnh 512 pixel Hình Tập ảnh Food-101 Phan Anh Cang, Nguyễn Thanh Hoàng, Trần Hồ Đạt, Nguyễn Văn Hiếu, Phan Thƣợng Cang 425 Tập ảnh dùng để nhận dạng gồm 17 loại thành phần khác (gọi tắt tập ảnh) nhƣ: bánh mì, bánh ngơ, bún, chanh, cà chua, cá, giá, đậu, hành lá, hành tây, khoai tây, nƣớc sốt, phơ mai, rau húng quế, thịt bị, thịt heo, tƣơng cà, xúc xích Trong hệ thống lƣu trữ, tập ảnh đƣợc chia thành thƣ mục riêng biệt: tập tin ảnh, hai tập tin chứa tầng tƣơng ứng với đối tƣợng ảnh ba tập tin chứa vị trí đối tƣợng có ảnh Chúng tơi sử dụng lại tập ảnh đƣợc xây dựng từ mơ hình mạng Faster R-CNN Tập ảnh gồm 17 loại thực phẩm khác Hệ thống lƣu trữ đƣợc chia thành thƣ mục nhƣ sau: Thƣ mục gốc: Gồm thƣ mục chứa tập ảnh với tập đầu đƣợc chia theo tỉ lệ 60 % ảnh huấn luyện, 20 % ảnh đánh giá, 20 % ảnh kiểm thử Tập lại với 70 % ảnh huấn luyện, 10 % ảnh đánh giá 20 % ảnh kiểm thử Thƣ mục con: Thƣ mục chứa ảnh huấn luyện, ảnh đánh giá ảnh kiểm thử nằm riêng biệt thƣ mục Mỗi thƣ mục nhận tƣơng ứng hai tập tin, tập tin chứa thông tin đƣờng dẫn tới ảnh, tập tin thứ hai chứa thơng tin đối tƣợng có ảnh nhƣ vị trí đối tƣợng ảnh, đối tƣợng ảnh thuộc tầng Hình Hình ảnh tập liệu kết tƣơng ứng với đầu mơ hình Hình mơ tả ứng dụng xây dựng thực nhận dạng hình ảnh với loại thực phẩm khác với kết đầu tƣơng ứng đƣợc thể bên cạnh Xác định tham số huấn luyện: Chúng thực huấn luyện mơ hình Faster R-CNN sử dụng kiến trúc AlexNet VGG16 với tập ảnh tỉ lệ 6:2:2 7:1:2 Mơ hình đƣợc huấn luyện ảnh đầu vào có kích thƣớc 512x512 Tùy vào kích thƣớc đối tƣợng chứa ảnh mà chọn hộp mẫu (Anchor box) phù hợp Theo tính tốn, kích thƣớc hộp mẫu tƣơng đối thích hợp với tập ảnh với tỉ lệ (4, 8, 12) kết hợp với tỉ lệ (8x24, 16x16, 24x8) ta đƣợc hộp mẫu = (32x96, 64x64, 96x32, 64x192, 128x128, 192x64, 96x288, 192x192, 288x96) ứng với kích thƣớc ảnh gốc Điều chỉnh tầng softmax mơ hình ứng với 17 loại thực phẩm Về thuật toán tối ƣu, mơ hình sử dụng thuật tốn SGD để tối ƣu hàm lỗi Với tốc độ học learning rate = 0.001 cho 10 lần học đầu tiền, 0.0001 cho 10 lần học 0.00001 cho lần học cịn lại Tồn q trình huấn luyện đƣợc thực 30 lần học Kết huấn luyện mơ hình Faster R-CNN sử dụng kiến trúc AlexNet VGG16 với tập ảnh tỉ lệ 6:2:2 7:1:2 nhƣ sau: Hình 10 Q trình học mơ hình mạng Faster R-CNN sử dụng kiến trúc VGG16 tập liệu tỉ lệ 6:2:2 NHẬN DẠNG HÌNH ẢNH THỰC PHẨM BẰNG PHƢƠNG PHÁP DEEP LEARNING 426 Hình 11 Quá trình học mơ hình mạng Faster R-CNN sử dụng kiến trúc VGG16 tập liệu tỉ lệ 7:1:2 Hình 10 Hình 11 biểu diễn trình học mơ hình Faster R-CNN, với loss độ lỗi tập liệu huấn luyện, mAP độ đo đƣợc tính tập liệu đánh giá, ta thấy giá trị độ đo mAP ngƣng tăng mơ hình qua 12 lần học sau bão hịa, sử dụng mơ hình đƣợc lƣu lần học thứ 12 làm mơ hình cho việc đánh giá cho tập liệu kiểm thử Phƣơng pháp tƣơng tự đƣợc áp dụng cho mơ hình khác Kết nhận dạng mơ hình đƣợc trình bày phần kết thực nghiệm 4.2 Kết thực nghiệm Chúng thực so sánh tập liệu huấn luyện sử dụng công thức (1) (2) đƣợc trình bày mục 2.4 Kết nhận dạng mơ hình Faster R-CNN sử dụng kiến trúc AlexNet VGG16 với tập ảnh tỉ lệ 6:2:2 7:1:2 17 loại thực phẩm nhƣ sau: Bảng So sánh kết thực phẩm kiến trúc AlexNet VGG16 sử dụng độ đo AP Thành phần thực AlexNet VGG16 phẩm 6:2:2 (% AP) 7:1:2 (% AP) 6:2:2 (% AP) 7:1:2 (% AP) Bánh mỳ Bánh ngô Bún Chanh Cà Chua Cá Giá Đậu Hành Lá Hành Tây Khoai Tây Nƣớc Sốt Phô Mai Rau Húng Quế Thịt Bò Thịt Heo Tƣơng Cà Xúc Xích 43,66 28,0 20,84 35,63 3,95 18,93 29,52 7,23 6,27 45,86 43,04 18,49 16,45 2,43 43,09 11,49 17,87 28,75 38,85 34,37 29,03 12,38 14,04 36,45 6,12 14,54 37,58 51,83 27,41 20,03 4,07 61,91 16,43 25,82 55,35 36,95 42,08 33,6 14,86 26,43 33,76 6,17 9,35 57,12 51,14 23,23 21,33 3,25 53,89 28,36 27,52 47,08 51,17 49,04 40,32 17,4 18,61 43,86 5,4 16,56 52,11 48,75 25,74 16,62 7,13 70,45 26,5 26,41 Bảng Kết so sánh độ đo mAP kiến trúc AlexNet VGG16 Kiến trúc AlexNet VGG16 mAP(%) 23,10 27,04 30,85 33,13 Dựa vào kết Bảng Bảng cho thấy kiến trúc VGG16 cho chất lƣợng nhận dạng tốt hẳn so với kiến trúc AlexNet, tập ảnh tỉ lệ 6:2:2 với kiến trúc VGG16 tốt 7,75 % so với kiến trúc AlexNet với tập ảnh Chất lƣợng tƣơng tự đƣợc biểu tập ảnh tỉ lệ 7:1:2, kiến trúc VGG16 nhận dạng tốt tới 5,59 % so với AlexNet Phần lớn chất lƣợng mơ hình kiến trúc VGG16 cao chất lƣợng kiến trúc Alex mặt, chứng minh VGG16 có khả chọn lọc đặc trƣng tốt xác dựa vào tính chất học sâu mơ hình với 13 lớp tích chập AlexNet có lớp tích chập Hầu hết kết kiểm nghiệm tập liệu tỉ lệ 7:1:2 cao so với tập tỉ lệ 6:2:2 thành phần thực phẩm nhƣng có số thành phần tập 6:2:2 biểu tốt nhƣ bánh mỳ, cá, khoai tây, rau húng quế tƣơng cà Phan Anh Cang, Nguyễn Thanh Hoàng, Trần Hồ Đạt, Nguyễn Văn Hiếu, Phan Thƣợng Cang 427 Thời gian Mơ hình Hình 12 Biểu đồ phân bố thời gian thực mô hình Trong Hình 12, mơ hình Faster R-CNN với kiến trúc AlexNet, VGG16 có thời gian tối đa từ đến cho 30 lần học khác Thông qua kết thời gian độ xác bảng số liệu chúng tơi thấy độ xác mơ hình ảnh hƣởng nhiều vào mạng sở rút trích đặc trƣng phần mạng phía sau dùng để xử lý đặc trƣng nhƣ hàm tính độ lỗi huấn luyện mơ hình V KẾT LUẬN Trong nghiên cứu này, thực nhận dạng phân loại tự động thực phẩm ảnh màu Chúng thực thu thập sở liệu ảnh thực phẩm từ nhiều nguồn khác cho hệ thống nhận dạng thực phẩm hoàn thiện xây dựng sở liệu ảnh phục vụ huấn luyện phát đối tƣợng thực phẩm cho 17 loại phổ biến Chúng xây dựng hệ thống nhận dạng thực phẩm phƣơng pháp Faster R-CNN Kết thực nghiệm cho thấy phƣơng pháp đề xuất đạt kết xác cao nhận dạng số loại thực phẩm phổ biến Trong nghiên cứu tới, tiếp tục cải tiến tập liệu phong phú so với 17 loại thời điểm đồng thời tăng tốc độ nhận dạng phƣơng pháp đề xuất Mặt khác, thực so sánh, đánh giá với kiến trúc mạng khác (Yolo, Mark-RCNN,…) nhằm tìm phƣơng pháp tối ƣu việc cung cấp thông tin xác hiệu giá trị dinh dƣỡng loại thực phẩm để ngƣời có chế độ ăn lành mạnh chìa khóa giải vấn đề dinh dƣỡng bao gồm thừa, thiếu dinh dƣỡng thiếu vi chất dinh dƣỡng TÀI LIỆU THAM KHẢO [1] S C M P D & S R Yang, "Food recognition using statistics of pairwise local features", Computer Society Conference on Computer Vision and Pattern Recognition, pp 2249-2256, 2010 [2] Y H H & Y K Matsuda, "Recognition of multiple-food images by detecting candidate regions", International Conference on Multimedia and Expo, pp 25-30, 2012 [3] Y & Y K Kawano, "Real-time mobile food recognition system", Conference on Computer Vision and Pattern Recognition Workshops, pp 1-7, 2013 [4] S e a Ren, "Faster r-cnn: Towards real-time object detection with region proposal networks", Advances in neural information processing systems, 2015 [5] S H K G R & S J Ren, "Faster r-cnn: Towards real-time object detection with region proposal networks", In Advances in neural information processing systems, pp 91-99, 2015 [6] K & Z A Simonyan, "Very deep convolutional networks for large-scale image recognition.", arXiv preprint arXiv:1409.1556., 2014 [7] S & K S B Mezgec, "NutriNet: a deep learning food and drink image recognition system for dietary assessment.", Nutrients, 2017 [8] J Hui, "mAP (mean Average Precision) for Object Detection", 2018 [9] L V G C K I W a J W M Everingham, "The PASCAL Visual Object Classes (VOC) Challenge", International Journal of Computer Vision, p 303-338, 2010 [10] E E S A J B K & R S Cust, "Machine and deep learning for sport-specific movement recognition: a systematic review of model development and performance.", Journal of sports sciences, pp 568-600, 2019 [11] H & A K Kagaya, Highly accurate food/non-food image classification based on a deep convolutional neural network.", International conference on image analysis and processing, pp 350-357, 2015 [12] K.-H e a Lee, "Cleannet: Transfer learning for scalable image classifier training with label noise.", Proceedings 428 NHẬN DẠNG HÌNH ẢNH THỰC PHẨM BẰNG PHƢƠNG PHÁP DEEP LEARNING of the IEEE Conference on Computer Vision and Pattern Recognition, 2018 FOOD IMAGE RECOGNITION USING DEEP LEARNING Phan Anh Cang, Nguyen Thanh Hoang, Tran Ho Dat, Nguyen Van Hieu, Phan Thuong Cang ABSTRACT: In appropriate eating habits are among the leading risk factors for death and the global burden of disease Maintaining a healthy diet throughout life will help preventing many risks of disease To have a healthy diet needs to understand the nutritional value of foods as well as how to choose foods for meals The automatic food identification and nutritional prediction system is necessary and is the key to solve nutritional problems including excess and lack of nutrition and lack of micronutrients In this study, we propose the system which is not only automatically recognize foods, but also allows for an estimate of their nutritional value, making them useful in star eating planning to suit the diets of different people We collected a food photo database for our food identification system for training and found 17 common foods In addition, we propose a convolutional neural network model (Faster R-CNN) using AlexNet and VGG16 architectures in food image recognition and suggesting the nutritional value of food Experimental results show that our method provides effective identification on almost all foods ... dựng hệ thống nhận dạng ảnh thực phẩm bao gồm module: Công cụ suy luận Hình Hệ thống nhận dạng ảnh thực phẩm Nhƣ Hình hệ thống nhận dạng thành phần thực phẩm ăn đƣợc thiết kế theo mơ hình clientserver... chọn mơ hình có giá trị mAP cao nhất, tính tốn độ xác cho mơ hình NHẬN DẠNG HÌNH ẢNH THỰC PHẨM BẰNG PHƢƠNG PHÁP DEEP LEARNING 424 Lựa chọn mơ hình có độ xác cao đƣa vào nhận dạng Tiếp nhận đồ... nhận dạng Bộ trích chọn đặc trƣng Ảnh đầu vào Bộ phân loại Faster R-CNN Kết nhận dạng Hình Mơ hình tổng qt đề xuất hệ nhận dạng ảnh thực phẩm phƣơng pháp Faster R-CNN Hình mơ tả q trình nhận dạng