(Tóm tắt luận văn thạc sĩ) nghiên cứu mô hình học sâu và ứng dụng bigdl cho bài toán nhận diện và phân loại nông sản

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG PHẠM NGỌC HỒN NGHIÊN CỨU MƠ HÌNH HỌC SÂU VÀ ỨNG DỤNG BIGDL CHO BÀI TỐN NHẬN DIỆN VÀ PHÂN LOẠI NƠNG SẢN CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH Mã số: 8.48.01.01 TÓM TẮT LUẬN VĂN THẠC SỸ ( Theo định hướng ứng dụng) Hà Nội – 2023 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS NGUYỄN VĂN THUỶ Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: Có thể tìm hiểu luận văn tại: Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Tính cấp thiết đề tài Học sâu có ứng dụng sâu rộng lĩnh vực đời sống tìm kiếm khác văn bản, phát gian lận, phát spam, nhận dạng chữ viết, giọng nói, nhận dạng hình ảnh, … góp phần quan trọng việc hỗ trợ người nhiều lĩnh vực đời sống Từ ứng dụng thực tế lợi ích mà Học sâu đem lại, đề tài nghiên cứu “Nghiên cứu mơ hình học sâu ứng dụng BIGDL cho toán nhận diện phân loại nông sản ” đưa với hy vọng ứng dụng thành cơng mơ hình học sâu xây dựng hệ thống nhận diện nông sản tự động Tổng quan vấn đề nghiên cứu Nhận diện vật thể ảnh coi toán lĩnh vực Thị giác máy tính, tảng cho nhiều toán mở rộng khác toán phân lớp, định vị, tách biệt vật thể Tuy toán tồn hàng kỷ người chưa thể giải cách triệt để, tồn nhiều khó khăn để máy tính hiểu thông tin ảnh: đa dạng điểm nhìn, đa dạng kích thước, điều kiện khác ánh sáng, lộn xộn phức tạp nền,… Với ưu điểm trên, Đề tài nghiên cứu lựa chọn mơ hình CNNs áp dụng cho tốn nhận diện phân loại nơng sản thơng qua mã nguồn mở BIGDL Mục đích nghiên cứu Đề tài tìm hiểu ứng dụng nhận diện phân loại nơng sản cách triển khai cơng cụ tìm kiếm hình ảnh phần mềm tự động để giảm nguồn nhân lực đảm bảo chất lượng phần với cơng việc tìm kiếm tay Mục tiêu đề tài nghiên cứu mơ hình học sâu ứng dụng nhận diện phân loại nông sản để đạt tốc độ tìm kiếm nhanh chuẩn xác người dùng không nhiều thời gian tìm kiếm sản phẩm - Nghiên cứu hệ thống nhận diện hình ảnh - Thử nghiệm, đánh giá độ hiệu thuật toán - Xây dựng hệ thống nhận diện phân loại nông sản tự động Đối tượng phạm vi nghiên cứu  Đối tượng nghiên cứu Đối tượng nghiên cứu đề tài mơ hình học sâu ứng dụng mã nguồn mở BIGDL cho toán nhận diện phân loại nông sản  Phạm vi nghiên cứu - Số lượng nông sản nhận diện: 40 loại nông sản phổ biến nước ta nho, táo, chuối, long… - Số lượng ảnh gốc cho loại quả: 500 ảnh, bao gồm ảnh chụp nơng sản góc độ khác với tùy ý, lấy từ nguồn mạng tự chụp thiết bị camera cá nhân Phương pháp nghiên cứu - Phương pháp nghiên cứu lý thuyết + Đọc phân tích tài liệu phương pháp, thuật toán sử dụng để xây dựng hệ thống nhận diện hình ảnh - Phương pháp thực nghiệm + Thử nghiệm đánh giá độ hiệu thuật toán + Xây dựng hệ thống nhận diện hình ảnh CHƯƠNG GIỚI THIỆU TỔNG QUAN 1.1 Bài tốn nhận diện phân loại nơng sản Nhận dạng vật thể ảnh coi toán lĩnh vực Thị giác máy tính, tảng cho nhiều tốn mở rộng khác toán phân lớp, định vị, tách biệt vật thể Tuy toán tồn hàng kỷ người chưa thể giải cách triệt để, tồn nhiều khó khăn để máy tính hiểu thông tin ảnh Là trường hợp cụ thể toán nhận dạng phân lớp, tốn nhận dạng nơng sản kế thừa khó khăn vốn có tốn gốc, kèm theo khó khăn riêng nó, như: đa dạng đối tượng; quy mơ độ phức tạp; đặc trưng thuộc tính; ứng dụng ngành nơng nghiệp Tổng quan, tốn nhận diện phân loại nông sản đặt thách thức riêng yêu cầu kiến thức nông nghiệp, công nghệ thông tin ứng dụng lĩnh vực nông nghiệp Dữ liệu đầu vào đầu tốn nhận diện phân loại nơng sản đa dạng, tùy thuộc vào phạm vi mục đích cụ thể tốn 1.2 Các hướng tiếp cận giải toán Bài tốn tự động nhận dạng nơng sản xuất từ lâu có nhiều báo, cơng trình khoa học đưa nhằm đề xuất cải tiến thuật tốn nhận dạng Trong đó, xuất sớm phương pháp Xử lý ảnh – Image Processing, phương pháp tập trung vào phát triển thuật tốn nhằm trích xuất thơng tin, ví dụ tham số màu sắc, hình dạng, kết cấu, kích thước…, từ ảnh đầu vào để nhận dạng nông sản [2, 3] Do đơn xử lý vài ảnh đầu vào biến thiên màu sắc, hình dạng, kích thước… nông sản phức tạp, kết đạt phương pháp không cao phạm vi áp dụng số lượng loại nông sản bị hạn chế Hình 1.1: Các thơng tin hình học tính tốn thuật tốn Xử lý ảnh 1.2.1 Phương pháp Học máy truyền thống Học máy lĩnh vực trí tuệ nhân tạo, nghiên cứu việc phát triển thuật tốn mơ hình để giúp máy tính có khả học hỏi cải thiện hiệu suất việc giải vấn đề Học máy áp dụng để giải toán nhiều lĩnh vực khác thị giác máy tính, xử lý ngơn ngữ tự nhiên, truy vấn thông tin, điều khiển robot phân tích liệu 1.2.1.1 Trích chọn đặc trưng Trích chọn đặc trưng (Feature Engineering Feature Extraction) q trình lựa chọn trích xuất đặc trưng quan trọng phù hợp để mô tả liệu đầu vào trình học máy Các đặc trưng thơng tin trực tiếp từ liệu độ dài, chiều rộng, màu sắc, cường độ, tạo thông qua kỹ thuật phân tích liệu phức tạp PCA (Principal Component Analysis) LDA (Linear Discriminant Analysis) 1.2.1.2 Thuật toán Thuật toán phân loại thuật tốn học máy, sử dụng để phân loại liệu vào nhóm khác dựa đặc trưng chúng 1.2.2 Phương pháp Học sâu Học sâu (deep learning) lĩnh vực trí tuệ nhân tạo (AI) liên quan đến việc sử dụng mạng lưới nơ-ron nhân tạo (artificial neural network) để học trích xuất đặc trưng từ liệu đầu vào Phương pháp học sâu đạt nhiều thành công đáng kể lĩnh vực xử lý ngôn ngữ tự nhiên, thị giác máy tính nhận dạng giọng nói Hình 1.2: Mối quan hệ Học sâu với lĩnh vực liên quan Các phương pháp học sâu bao gồm nhiều lớp nơ-ron kết nối với để tạo thành mạng lưới nơ-ron sâu(Deep Neural Network) Mỗi lớp nơ-ron đóng vai trị trích xuất đặc trưng từ liệu đầu vào, lớp kết hợp với để tạo mơ hình học sâu có khả tự động học cải thiện (xem Hình 1.6) Các phương pháp học sâu thường huấn luyện thơng qua q trình tối ưu hóa tham số, ví dụ sử dụng thuật tốn lan truyền ngược (backpropagation) để điều chỉnh trọng số liên kết nơ-ron mạng lưới Hình 1.3: Bức ảnh tạ hai đầu sinh mô hình dự đốn Học sâu 1.3 Thành tựu phương pháp Học sâu lĩnh vực Học sâu (deep learning) đạt nhiều thành tựu quan trọng lĩnh vực khác nhau, bao gồm: Phân tích ngữ nghĩa văn Y học Tài Tự động lái xe Thị giác máy tính 1.4 Kết luận chương Như trình bày phần mở đầu, mục đích luận văn tìm hiểu ứng dụng mơ hình Học sâu vào tốn nhận dạng, phân loại nơng sản, ngun nhân khiến Học sâu chọn làm giải pháp khả mạnh mẽ vượt trội phương pháp Học máy truyền thống áp dụng vào toán nhận dạng vật thể, vật thể đối tượng khó chọn lọc đặc trưng phù hợp, cụ thể với trường hợp nông sản Để chứng minh cho nhận định này, luận văn thực phép so sánh độ xác hai mơ hình nhận dạng, huấn luyện hai phương pháp với liệu đầu vào Kết cụ thể trình bày Chương – Kết thực nghiệm Đánh giá CHƯƠNG PHƯƠNG PHÁP NHẬN DIỆN, PHÂN LOẠI NƠNG SẢN 2.1 Mơ hình mạng nơron tích chập Các lớp mạng CNN bao gồm: Lớp tích chập (Convolutional), Lớp kích hoạt phi tuyến ReLU (Rectified Linear Unit), Lớp lấy mẫu (Pooling) Lớp kết nối đầy đủ (Fullyconnected) Trong số trường hợp, lớp xếp chồng lên để tạo thành kiến trúc mạng phức tạp Ví dụ, mơ hình CNN thơng thường bao gồm nhiều lớp tích chập, lớp kích hoạt lớp tổng hợp, trước kết thúc lớp kết nối đầy đủ đầu Hình 2.1: Kiến trúc mạng tích chập - Lớp tích chập: Lớp tích chập (convolutional layer) lớp quan trọng kiến trúc mạng nơ-ron tích chập (CNN) Lớp tích chập giúp mạng CNN trích xuất đặc trưng từ liệu đầu vào cách sử dụng lọc (filters) để quét (convolve) qua vùng liệu 13 Hình 2.6: Bảng so sánh tốc độ xử lý độ xác lớp model[20] 2.3 Mơ hình mã nguồn mở BigDL 2.3.1 Tổng quan BigDL Hình 2.7: BigDL 2.3.2 Mơ hình thực thi BigDL Trong sử dụng phương pháp tiêu chuẩn huấn luyện song song liệu, máy chủ tham số để huấn luyện có khả mở rộng, điểm BigDL cách triển khai hiệu chức 14 mơ hình tính toán cấu trúc Apache Spark Trong cộng đồng học máy, truy cập liệu chi tiết thực sửa đổi liệu chỗ xem quan trọng để hỗ trợ cho việc huấn luyện phân tán hiệu với máy chủ tham số Tuy nhiên, hệ thống big data Spark, mô hình tính tốn cấu trúc khác áp dụng, liệu khơng thay đổi chuyển đổi thành liệu mà khơng có tác động phụ (tức chép cần thiết); ra, phép biến đổi thao tác cấu trúc thô (tức áp dụng phép biến đổi cho tất mục liệu lúc)  Mơ hình tính tốn Spark Hình 2.8: Mơ hình Spark: Driver Node có chức lập lịch phân cơng cơng việc cho Worker Node Hình 2.9: Tác vụ “forward-backword” Spark tính tốn gradient cho mơ hình mạng nơ-ron song song BigDL không hỗ trợ phân tán mơ hình (model parallelism) tức khơng có việc phân phối mơ hình worker khác Tuy nhiên, điều khơng gây hạn chế thực tế, BigDL chạy 15 máy chủ Intel Xeon CPU, thường có dung lượng nhớ lớn (100s GB) dễ dàng chứa mơ hình lớn  Đồng hóa tham số BigDL Đồng hóa tham số phép tính quan trọng huấn luyện mơ hình phân tán song song liệu (về tốc độ khả mở rộng) Để hỗ trợ đồng hóa tham số hiệu quả, framework học sâu có thường triển khai máy chủ tham số AllReduce cách sử dụng phép tính truy cập liệu chi tiết thay đổi liệu chỗ Thật không may, phép tính khơng hỗ trợ mơ hình tính tốn chức hệ thống liệu lớn (như Spark) Hình 2.10: Đồng hóa tham số BigDL 2.3.3 Ứng dụng BigDL cho toán nhận diện phân loại hình ảnh BigDL sử dụng để giải toán nhận diện phân loại hình ảnh cách sử dụng mơ SSD DeepBit, thể hình 2.12 Đầu tiên, sử dụng BigDL SSD model để phát vật thể hình ảnh Các thơng tin địa điểm kích thước vật thể trích xuất sử dụng để cắt hình ảnh đầy đủ tập trung vào đối tượng cần nhận diện 16 Sau đó, sử dụng BigDL DeepBit model để trích xuất đặc trưng hình ảnh cắt từ bước Các đặc trưng sử dụng để phân loại ảnh thành loại khác lưu trữ kết (RDD đặc trưng đối tượng trích xuất) HDFS Hình 2.11: Ứng dụng BigDL với toán nhận diện phân loại hình ảnh  SSD Model Mơ hình SSD xây dựng sở mạng neural tích chập (Convolutional Neural Network - CNN) lớp tích chập bổ sung Kiến trúc mơ hình SSD bao gồm hai phần chính:  Base Network: Một mạng neural tích chập (CNN) sử dụng để xử lý ảnh đầu vào trích xuất đặc trưng ảnh Mạng CNN thường huấn luyện trước liệu lớn ImageNet để trích xuất đặc trưng có giá trị từ ảnh  MultiBox Head: Các lớp tích chập bổ sung thêm vào sau mạng CNN để dự đoán bounding box xác suất lớp cho đối tượng ảnh MultiBox Head bao gồm lớp tích chập kết nối đầy đủ (fully connected) để biến đổi đầu vào từ mạng CNN thành vector đặc trưng dùng để dự đốn vị trí lớp đối tượng Bounding box dự đoán cách 17 áp dụng số lượng đặc trưng vị trí ảnh dự đốn vị trí kích thước bounding box Xác suất lớp cho đối tượng dự đoán cách áp dụng số lượng đặc trưng vị trí ảnh tính xác suất đối tượng thuộc lớp biết Với kiến trúc này, SSD dự đoán bounding box xác suất lớp tương ứng cho tất đối tượng ảnh lần chạy (single shot), giúp cho việc phát đối tượng nhanh chóng tiết kiệm tài ngun tính tốn Hình 2.12: Sơ đồ kiến trúc mạng SSD [20] SSD dựa việc áp dụng kiến trúc chuẩn (Ví dụ: VGG16) để thực tiến trình lan truyền thuận tạo khối feature map 3D giai đoạn sớm Kiến trúc mạng gọi "base network" (từ input Image đến Conv7) Sau đó, thêm kiến trúc phía sau "base network" để tiến hành phát vật thể, gọi "Extra Feature Layers" sơ đồ Các lớp giải thích cách đơn giản sau: 18 Hình 2.13: Vị trí default bounding box ảnh gốc áp dụng feature map có kích thước4 x Như vậy, ô lưới feature map có kích thước 4x4 liên kết với default bounding box khác minh họa hình vẽ Tất bounding box có tâm trùng tọa độ tâm ô lưới mà chúng liên kết Tại default bounding box feature map, dự báo offsets tương ứng với tọa độ kích thước Các offsets biểu diễn tọa độ gồm tham số (cx, cy, w, h), (cx, cy) xác định tọa độ tâm (w, h) xác định kích thước bounding box Phần thứ hai dự báo điểm số bounding box tương ứng với lớp Lưu ý có lớp thứ C+1 để đại diện cho trường hợp mà default bounding box không chứa vật thể (hoặc thuộc lớp background) Tương tự anchor boxes mạng faster R-CNN, default boxes sử dụng vài feature maps với độ phân giải khác Điều giúp cho default bounding box phân biệt hiệu kích thước vật thể khác  DeepBit Model

Định dạng
Số trang	29
Dung lượng	2,3 MB