Mô hình thùng rác thông minh

Mô hình thùng rác thông minh sử dụng Rashberry Pi 5 dùng để nhận diện vật thể cụ thể ở đây là rác thải chai nhựa và tự động đóng mở ngăn chứa phù hợp khi nhận diện được vật thể rác được đưa vào

Trang 1

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA ĐIỆN – ĐIỆN TỬ

ĐỒ ÁN TỐT NGHIỆP

NGÀNH CÔNG NGHỆ KỸ THUẬT MÁY TÍNH

HỆ THỐNG QUẢN LÝ VÀ PHÂN LOẠI RÁC THẢI

MSSV: 20119034

TRẦN BÌNH NGUYÊN MSSV: 20119257

TP HỒ CHÍ MINH – 06/2024

Trang 2

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA ĐIỆN – ĐIỆN TỬ

ĐỒ ÁN TỐT NGHIỆP

NGÀNH CÔNG NGHỆ KỸ THUẬT MÁY TÍNH

HỆ THỐNG QUẢN LÝ VÀ PHÂN LOẠI RÁC THẢI

Trang 3

v

Trang 4

vi

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM

KHOA ĐIỆN – ĐIỆN TỬ

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc Lập – Tự Do – Hạnh Phúc

**********

BẢN GIẢI TRÌNH CHỈNH SỬA BÁO CÁO ĐỒ ÁN TỐT NGHIỆP

1 Tên đề tài: Hệ thống quản lý và phân loại rác thải

2 Họ tên sinh viên 1: Đặng Thanh Duy MSSV: 20119034 Họ tên sinh viên 2: Trần Bình Nguyên MSSV: 20119257 3 Ngành: Công nghệ kỹ thuật máy tính

4 GVHD: Th.S Huỳnh Thị Thu Hiền

5 Tổng hợp các yêu cầu chỉnh sửa báo cáo ĐATN của hội đồng: - Sắp xếp lại danh mục viết tắt theo thứ tự abc

- Tỉ lệ đạo văn 48%

- Bổ sung phương án khi thiết kế mạch - Giải thích sự kết nối các khối

- Trích dẫn theo thứ tự - Đánh số lại công thức

6 Giải trình chỉnh sửa báo cáo ĐATN

TT Nội dung góp ý của HĐ Kết quả chỉnh sửa bổ sung 1 Sắp xếp lại danh mục viết tắt

Sinh viên thực hiện ĐATN (Ký tên)

Trang 5

vii

Trang 6

viii

LỜI CẢM ƠN

Nhóm thực hiện đề tài trân trọng gửi lời tri ân sâu sắc đến tất cả những người đã đóng góp và hỗ trợ trong quá trình nghiên cứu và thực hiện báo cáo về đề tài "Hệ thống quản lí và phân loại rác thải" trong lĩnh vực kỹ thuật máy tính

Đầu tiên và quan trọng nhất, nhóm thực hiện đề tài xin bày tỏ lòng biết ơn chân thành đến Cô Huỳnh Thị Thu Hiền, Giảng viên Bộ môn Kỹ thuật máy tính - Viễn thông, Trường Đại Học Sư Phạm Kỹ Thuật TP.HCM đã theo sát, tận tình hướng dẫn, giúp đỡ cũng như tạo những điều kiện thuận lợi trong suốt quá trình thực hiện để nhóm thực hiện đề tài có thể hoàn thành đề tài một cách tốt nhất

Nhóm thực hiện đề tài không thể quên sự hỗ trợ của Thầy Cô trong khoa Điện – Điện Tử và khoa Đào tạo Chất lượng cao, Trường Đại Học Sư Phạm Kỹ Thuật TP.HCM Kiến thức quý báu mà Thầy Cô truyền đạt đã là động lực quan trọng, giúp cho nhóm thực hiện đề tài có thể xây dựng nền móng vững chắc cho đề tài của mình

Cuối cùng, nhóm thực hiện đề tài xin gửi lời cảm ơn chân thành đến tất cả những người đã dành thời gian để đọc và đánh giá bài báo cáo này Trong quá trình nghiên cứu, mặc dù nhóm đã nỗ lực hết mình, nhưng do trình độ và kiến thức còn hạn chế, việc tìm hiểu và mô phỏng đồ án không tránh khỏi những sai sót Nhóm thực hiện đề tài mong nhận được sự góp ý và chỉ dẫn từ Cô cùng các bạn, để đề tài có thể hoàn thiện hơn và ứng dụng được trong thực tế

Xin chân thành cảm ơn và chúc mọi người sức khỏe và thành công!

Trân trọng

Trang 7

ix

LỜI CAM ĐOAN

Nhóm sinh viên Đặng Thanh Duy và Trần Bình Nguyên thực hiện đề tài “ Hệ thống quản lý và phân loại rác thải ” dưới dự hướng dẫn của cô Huỳnh Thị Thu Hiền xin cam đoan các nội dung như sau:

1 Sản phẩm của Đồ án tốt nghiệp là do nhóm sinh viên Đặng Thanh Duy và Trần Bình Nguyên thực hiện, không mượn, thuê, mua từ người khác 2 Quyển báo cáo Đồ án tốt nghiệp là do nhóm sinh viên Đặng Thanh Duy

và Trần Bình Nguyên tự viết, tỷ lệ trùng lắp là 19%, các nội dung tham khảo đã được trích dẫn đầy đủ

3 Kết quả thực hiện trong quyển báo cáo bao gồm hình ảnh, độ chính xác của mô hình là hoàn toàn đúng với mô hình, phần cứng nhóm đã thực hiện

Nhóm sinh viên cam đoan các nội dung trên là hoàn toàn chính xác và chịu trách nhiệm hoàn toàn với những cam đoan trên

Sinh viên thực hiện đồ án tốt nghiệp (ký và ghi rõ họ tên)

Đặng Thanh Duy Trần Bình Nguyên

Trang 8

x

TÓM TẮT

Với động lực nghiên cứu mạnh mẽ về việc phát triển hệ thống quản lý và phân loại rác thải tự động, nhóm đã thực hiện đề tài " Hệ thống quản lý và phân loại rác thải " với ứng dụng IoT và nhận diện hình ảnh bằng AI Mục tiêu chính của đề tài là phát triển hệ thống phân loại rác thải, dựa trên dữ liệu và thông tin thu thập từ các cảm biến, hình ảnh được đưa vào, nhằm phân loại rác thải dựa trên loại rác được đưa vào và tối ưu hóa được quy trình xử lý rác thải Các nội dung chính của hệ thống nhóm thực hiện đề tài dự kiến thiết kế bao gồm:

- Cảm biến phát hiện người vứt rác và lượng rác thải: Sử dụng các cảm biến để nhận diện người vứt rác bao gồm cảm biến siêu âm, các loại cảm biến lượng rác thải gồm cảm biến khí gas

- Xử lý ảnh để nhận diện rác: Hệ thống sử dụng camera và thuật toán AI để nhận diện các loại rác từ hình ảnh Khi đưa một loại rác đã được chỉ định trước đó trước camera, camera sẽ nhận diện xem đúng loại rác đã được chỉ định trước đó hay không, sau đó thùng rác sẽ mở ngăn dành riêng cho loại rác đã được chỉ định Nếu là các loại rác thải khác, thùng rác sẽ mở ngăn còn lại

- Quản lý dữ liệu: Hệ thống thu nhập, lưu trữ và xử lý dữ liệu từ các cảm biến, các loại vi điều khiển, các thuật toán AI để nhận diện rác, theo dõi lưu lượng rác khi nào đầy

- Thông báo và bảo trì: Hệ thống gửi thông báo khi thùng rác cần được bảo trì hoặc đã đầy, giúp đảm bảo hiệu quả quản lí rác thải và giảm thiểu công sức của con người

- Giao diện web: Phát triển một giao diện web để theo dõi các thùng rác, bao gồm thông tin địa chỉ thùng rác được đặt ở đâu, lưu lượng rác khi nào đầy và tình trạng bảo trì

Thông qua đề tài “ Hệ thống quản lý và phân loại rác thải”, nhóm thực hiện đề tài đã thực hiện được việc phân loại rác thải tự động nhằm dễ dàng vận chuyển,

Trang 9

xi

tái chế, qua đó cũng nhằm giảm lượng rác thải ra môi trường, đồng thời nâng cao ý thức của cộng đồng trong việc vứt rác đúng nơi qui định và bảo vệ môi trường

Trang 10

xii

ABSTRACT

With strong research motivation on developing an automatic waste management and classification system, the group carried out the project "Waste management and classification system" with IoT applications and image recognition using AI The main goal of the project is to develop a waste classification system, based on data and information collected from sensors and images, to classify waste based on the type of waste included and optimize Optimize the waste treatment process The main contents of the proposed project implementation group system include:

- Sensor detects people throwing trash and the amount of waste: Using sensors to identify people throwing trash, including ultrasonic sensors, types of waste sensors including gas sensors

- Image processing to identify trash: The system uses cameras and AI algorithms to identify types of trash from images When you put a previously designated type of trash in front of the camera, the camera will identify whether it is the correct type of trash that was previously designated, then the trash can will open the compartment reserved for the designated type of trash If it is other types of waste, the trash bin will open the remaining compartment

- Data management: System to collect, store and process data from sensors, microcontrollers, AI algorithms to identify garbage, monitor garbage flow when it is full

- Notification and maintenance: The system sends notifications when the trash needs maintenance or is full, helping to ensure effective waste management and reduce human effort

- Web interface: Develop a web interface to monitor trash bins, including information about where the trash can is located, when the trash flow is full, and maintenance status

Through the project "Waste management and classification system", the project implementation team has implemented automatic waste classification for easy transportation and recycling, thereby also reducing the amount of waste

Trang 11

xiii

produced environment, while raising community awareness in properly disposing of trash and protecting the environment

Trang 12

xiv

MỤC LỤC

DANH MỤC HÌNH XVII DANH MỤC BẢNG XX CÁC TỪ VIẾT TẮT XXII

1.4.PHƯƠNGPHÁPNGHIÊNCỨU 3

1.5.ĐỐITƯỢNGVÀPHẠMVINGHIÊNCỨU 4

1.5.1 Đối tượng nghiên cứu 4

1.5.2 Phạm vi nghiên cứu 4

1.6.BỐCỤCQUYỂNBÁOCÁO 5

CHƯƠNG 2 6

CƠ SỞ LÝ THUYẾT 6

2.1.TRÍ TUỆ NHÂN TẠO 6

2.1.1 Trí tuệ nhân tạo là gì ? 6

2.4.MÔ HÌNH HUẤN LUYỆN YOLO 16

2.4.1 Vector dự đoán (The Predictions Vector) 17

2.4.2 Mạng neuron tích chập 17

2.4.3 Hàm chi phí (Loss function) 18

2.4.4 Quy trình phát hiện đối tượng 19

2.5.MÔHÌNHHUẤNLUYỆNSSD 22

2.5.1 Rút trích đặc trưng 22

Trang 13

xv

2.5.2 Bộ dự đoán tích chập dùng dự đoán đối tượng 22

2.5.3 Sử dụng nhiều tỷ lệ cho ánh xạ đặc trưng để phát hiện đối tượng 23

2.5.4 Lựa chọn box mặc định 23

2.5.5 Phát hiện đối tượng 23

2.5.6 Box mặc định và ma trận đặc trưng nhiều tỷ lệ 23

2.5.7 Kiến trúc mạng SSD 24

2.5.8 Hàm chi phí (Loss Function) 24

2.5.9 Tỷ lệ co giản và tỷ lệ khung hình của box mặc định 25

2.6.MÔ HÌNH HUẤN LUYỆN YOLOV8 26

2.6.1 Giới thiệu về mô hình YOLO và các phiên bản của mô hình YOLO 26

2.6.2 Giới thiệu mô hình YOLOv8 28

2.6.3 Kiến trúc mạng YOLOv8 29

2.7.SOSÁNHYOLOVÀSSD 30

2.7.1 Về phương pháp 30

2.7.2 Về thực nghiệm 31

2.8.GIỚI THIỆU VỀ NỀN TẢNG TRỰC TUYẾN FIREBASE 32

2.9.GIỚI THIỆU PHẦN MỀM LẬP TRÌNH WEB VSCODE 32

2.10.CÁC PHẦN MỀM ĐƯỢC DÙNG ĐỂ HUẤN LUYỆN MÔ HÌNH AI 33

2.10.1 Phần mềm gán nhãn dữ liệu LabelImg 33

2.10.2 Nền tảng trực tuyến Kaggle được dùng huấn luyện mô hình AI 34

2.11.CÁC PHẦN MỀM ĐƯỢC DÙNG THIẾT KẾ GIAO DIỆN 35

2.11.1 Phần mềm viết giao diện Qt Designer 35

2.11.2 Phần mềm Pycharm lập trình với ngôn ngữ Python 36

Trang 14

xvi

3.3.PHƯƠNGÁNTHIẾTKẾ 39

3.4.THIẾTKẾPHẦNCỨNG 40

3.4.1 Sơ đồ khối của hệ thống 40

3.4.2 Khối xử lý trung tâm 42

3.5.1 Quá trình huấn luyện mô hình nhận diện rác thải qua hình ảnh 64

3.5.2 Thiết kế giao diện mô phỏng nhận diện rác thải qua hình ảnh 67

3.5.3 Thiết kế web quản lý và điều khiển hệ thống 69

CHƯƠNG 4 71

KẾT QUẢ 71

4.1.KẾTQUẢTHỰCHIỆNMÔHÌNH 71

4.1.1 Kết quả thiết kế mô hình phần cứng 71

4.1.2 Kết quả thiết kế web quản lý và điều khiển hệ thống 77

4.1.3 Kết quả thiết kế giao diện mô phỏng 83

4.2.ĐÁNH GIÁ MÔ HÌNH 86

4.2.1 Đánh giá kết quả của mô hình nhận diện rác thải qua hình ảnh 86

4.2.2 Đánh giá quá trình hoạt động của giao diện 91

4.2.3 Đánh giá các tính năng của mô hình thùng rác và trang web 93

Trang 15

Hình 2.6: Các bước cơ bản trong xử lí ảnh [4] 16

Hình 2.7: Hệ thống phát hiện đối tượng YOLO đơn giản [5] 16

Hình 2.8: Kiến trúc mạng CNN trong YOLO [5] 18

Hình 2.9: Ảnh đầu vào cho YOLO [5] 19

Hình 2.10: Hệ thống lưới được YOLO chia cho ảnh đầu vào [5] 19

Hình 2.11: Mô hình huấn luyện trong YOLO [5] 20

Hình 2.12: Ví dụ về anchor box [5] 21

Hình 2.13: Hai loại anchor box [5] 21

Hình 2.14: Ảnh trái: ảnh gốc Ảnh phải: 4 bounding box được dùng dự đoán tại mỗi điểm [5] 22

Hình 2.15: SSD sử dụng ma trận nhỏ để phát hiện đối tượng trong ma trận [5] 22 Hình 2.16: Các ma trận tỷ lệ khác nhau được dùng phát hiện đối tượng [5] 24

Hình 2.17: Kiến trúc mạng SSD [5] 24

Hình 2.18: So sánh YOLOv8 với các phiên bản trước [7] 29

Hình 2.19: Sơ đồ về Firebase [8] 32

Hình 2.20: Phần mềm lập trình Visual Studio Code [9] 33

Hình 2.21: Giao diện của công cụ LabelImg [10] 34

Trang 16

xviii

Hình 3.2: Máy Tính Nhúng Raspberry Pi 5 [14] 43

Hình 3.3: Kí hiệu Raspberry Pi 5 trong sơ đồ nguyên lý 44

Hình 3.4: ESP32 NodeMCU LuaNode32 Module Thu Phát Wifi 38 Chân [14] 44 Hình 3.5: Kí hiệu module ESP32 trong sơ đồ nguyên lý 46

Hình 3.6: Cảm Biến Siêu Âm HC-SR04 [14] 47

Hình 3.7: Kí hiệu Cảm Biến Siêu Âm trong sơ đồ nguyên lý 47

Hình 3.8: Cảm Biến Khí Gas [14] 48

Hình 3.9: Kí hiệu Cảm Biến Khí Gas trong sơ đồ nguyên lý 48

Hình 3.10: Camera USB 2.0 cho Raspberry Pi [14] 49

Hình 3.11: Kí hiệu USB Camera trong sơ đồ nguyên lý 49

Hình 3.12: Nút nhấn nhả 10mm 2 chân màu xanh [14] 50

Hình 3.13: Kí hiệu nút nhấn trong sơ đồ nguyên lý 50

Hình 3.14: Động Cơ Servo 180 Độ với Mô-men 2.5kg.cm và Động Cơ Servo 180 Độ với Mô-men 5.5kg.cm [14] 51

Hình 3.15: Kí hiệu Động Cơ Servo 180 Độ trong sơ đồ nguyên lý 51

Hình 3.16: LED Phủ Màu 5mm Xanh Lá [14] 52

Hình 3.17: Kí hiệu LED trong sơ đồ nguyên lý 52

Hình 3.18: Mạch Phát Âm Thanh MP3 Kết Hợp Amply DFPlayer Mini [15] 53

Hình 3.19: Kí hiệu Mạch Phát Âm Thanh MP3 trong sơ đồ nguyên lý 54

Hình 3.20: Loa 3W 4 Ohm 50mm 87dB [14] 54

Hình 3.21: Kí hiệu loa 3W trong sơ đồ nguyên lý 55

Hình 3.22: Nguồn Power Supply PD 5.1VDC 5A 27W USB-C [16] 57

Hình 3.23: Kí hiệu nguồn 5.1V~5A trong sơ đồ nguyên lý 57

Hình 3.24: Nguồn adapter 12V~2A [14] 58

Hình 3.25: Kí hiệu nguồn 12V~2A trong sơ đồ nguyên lý 58

Hình 3.26: Module LM2596S Mạch Giảm Áp 3A LED Hiển Thị [14] 59

Hình 3.27: Kí hiệu Module LM2596S trong sơ đồ nguyên lý 60

Hình 3.28: Sơ đồ nguyên lý của hệ thống 60

Hình 3.29: Lưu đồ giải thuật của hệ thống 61

Trang 17

xix

Hình 3.30: Lưu đồ giải thuật của chức năng điều khiển mở/ đóng nắp thùng rác

và phân loại rác thải 63

Hình 3.31: Cấu trúc thư mục dữ liệu dùng để huấn luyện mô hình 65

Hình 3.32: Sơ đồ tóm tắt quá trình huấn luyện mô hình YOLOv8 với dữ liệu tùy chỉnh 66

Hình 3.33: Sơ đồ hoạt động của giao diện mô phỏng nhận diện rác thải qua hình ảnh 68

Hình 3.34: Sơ đồ của trang web quản lý và điều khiển hệ thống 70

Hình 4.1: Mạch hệ thống hoàn chỉnh được đặt trong hộp bảo vệ 71

Hình 4.2: Mặt sau của thùng rác 72

Hình 4.3: Mặt trước của thùng rác 72

Hình 4.4: Nắp thùng rác được mở tự động 73

Hình 4.5: Các ngăn chứa bên trong thùng rác 74

Hình 4.6: Hộp kẹo được vứt vào thùng rác 75

Hình 4.7: Nắp ngăn chứa được mở và sau đó nắp thùng rác sẽ đóng lại 75

Hình 4.8: Các cảm biển được lắp ở mỗi ngăn trong thùng rác 76

Hình 4.9: Nút nhấn được lắp trên hộp đựng mạch hệ thống 76

Hình 4.10: Dữ liệu của hệ thống được lưu trữ ở Realtime Database 77

Hình 4.11: Trang thông tin đầu tiên của web quản lý và điều khiển hệ thống 77

Hình 4.12: Trang đăng nhập thông tin tài khoản 78

Hình 4.13: Trang đăng ký thông tin tài khoản 78

Hình 4.14: Trang quản lý thùng rác 79

Hình 4.15: Trang thông tin chi tiết của thùng rác 1 79

Hình 4.16: Trạng thái web và thùng rác khi nhấn bật nguồn 81

Hình 4.17: Trạng thái web và thùng rác khi nhấn tắt nguồn 82

Hình 4.18: Trạng thái web và thùng rác khi rác đã đầy 83

Hình 4.19: Giao diện mô phỏng nhận diện rác thải qua hình ảnh bằng mô hình YOLOv8 84

Hình 4.20: Kết quả mô phỏng nhận diện “có chai” và “Không có chai” của mô hình YOLOv8 85

Trang 18

Bảng 3.3: Thông số kỹ thuật của Cảm Biến Siêu Âm HC-SR04 [14] 47

Bảng 3.4: Thông số kỹ thuật của Cảm Biến Khí Gas [14] 48

Bảng 3.5: Thông số kỹ thuật của Camera USB 2.0 cho Raspberry Pi [14] 49

Bảng 3.6: Thông số kỹ thuật của nút nhấn nhả 10mm 2 chân màu xanh [14] 50

Bảng 3.7: Thông số kỹ thuật của Động Cơ Servo 180 Độ với Mô-men 2.5kg.cm và Động Cơ Servo 180 Độ với Mô-men 5.5kg.cm [14] 51

Bảng 3.8: Thông số kỹ thuật của LED Phủ Màu 5mm Xanh Lá [14] 52

Bảng 3.9: Thông số kỹ thuật của Mạch Phát Âm Thanh MP3 Kết Hợp Amply DFPlayer Mini [15] 53

Bảng 3.10: Thông số kỹ thuật của loa 3W 4 Ohm 50mm 87dB [14] 54

Bảng 3.11: Điện áp và dòng điện tiêu thụ của các linh kiện 55

Bảng 3.12: Thông số kỹ thuật của nguồn Power Supply PD 5.1VDC 5A 27W USB-C [16] 57

Bảng 3.13: Thông số kỹ thuật của nguồn adapter 12V~2A [14] 58

Bảng 3.14: Thông số kỹ thuật của Module LM2596S Mạch Giảm Áp 3A LED Hiển Thị [14] 59

Trang 19

xxi

Bảng 4.1: Bảng kết quả huấn luyện mô hình YOLOv8 với 2 tập dữ liệu khác nhau 86 Bảng 4.2: Bảng kết quả huấn luyện mô hình MobileNet với 2 tập dữ liệu khác nhau 87 Bảng 4.3: Đồ thị biểu diễn độ chính xác của mô hình YOLOv8 trên tập huấn luyện và tập xác thực cho hai nhóm dữ liệu qua các lần đào tạo 89 Bảng 4.4: Đồ thị biểu diễn độ chính xác của mô hình MobileNet trên tập huấn luyện và tập xác thực cho hai nhóm dữ liệu qua các lần đào tạo 90 Bảng 4.5: Kết quả nhận diện rác thải qua hình ảnh thực tế của mô hình 92

Trang 20

xxii

AI Artificial Intelligence

ANN Artificial Neural Network

CNN Convolutional Neural Network

COCO Common Objects in Context

FLOPs Floating-point Operations Per Second

IoT Internet of Things

mAP Mean Average Precision

MCU Microcontroller Unit

MMYOLO OpenMMLab YOLO series toolbox and benchmark

NVIDIA Nvidia Visualization Intelligence Development Architecture

ONNX Open Neural Network Exchange

SSD Single Shot MultiBox Detector

YOLO You Only Look Once

Trang 21

1

CHƯƠNG 1 TỔNG QUAN 1.1 GIỚI THIỆU

Trong những năm gần đây, việc xả rác và vứt rác bừa bãi gây ô nhiễm môi trường đang trở thành một chủ đề nóng bỏng và đáng báo động ở mọi quốc gia trên thế giới Riêng ở Việt Nam, một số nơi đã bị ô nhiễm nghiêm trọng như là các con kênh, bãi rác tự phát, khu đất trống… , dẫn đến ảnh hưởng tới sức khỏe và sự phát triển bền vững Để giải quyết vấn đề này, điều kiên quyết và chủ yếu nằm ở ý thức mỗi người dân không xả rác bừa bãi, nhưng cũng qua đó, việc xây dựng hệ thống quản lí và phân loại rác thải một cách tự động cũng sẽ thúc đẩy và nâng cao ý thức người dân vứt rác đúng nơi quy định, nhằm hạn chế những vấn đề trên là vô cùng cần thiết Trong nghiên cứu này, nhóm thực hiện đề tài sẽ thực hiện tạo ra một thùng rác có thể nhận diện loại rác và tự động phân loại rác thải một cách tự động

Sự tiến bộ mạnh mẽ của công nghệ trong thời đại Công nghiệp 4.0 mở ra cơ hội áp dụng công nghệ vào cuộc sống hàng ngày, và trong trường hợp nhận diện và phân loại rác thải, Internet of Things (IoT) và nhận diện AI (Artificial Intelligence) có thể là một giải pháp hiệu quả Các công nghệ IoT đã và đang phát triển mạnh mẽ và được áp dụng rộng rãi trong đời sống hiện nay Một số hệ thống ứng dụng IoT xuất hiện nhiều trong đời sống hiện nay có thể kể đến như là ngôi nhà thông minh, hệ thống tự lái trong ô tô, hệ thống chống trộm, hệ thống tự động tưới cây Không chỉ có IoT đang phát triển mạnh mẽ mà bên cạnh đó hệ thống ứng dụng trí tuệ nhân tạo AI cũng đang phát triển mạnh mẽ song song với IoT AI đang được ứng dụng rất nhiều trong đời sống hiện nay và là công nghệ đang được quan tâm và ứng dụng bậc nhất hiện nay Có thể kể đến một số công nghệ được áp dụng AI như là nhận diện khuôn mặt, trợ lí ảo, sinh trắc học Ngày nay, việc áp dụng công nghệ IoT và AI vào đời sống hiện nay nhằm mục đích tạo ra hệ thống tự động, giảm chi phí nhân công, tăng năng suất làm việc

Trang 22

2

Và việc tạo ra hệ thống tự động để quản lí rác thải, phân loại rác để bảo vệ môi trường đang là vấn đề đang được quan tâm hiện nay Nhiều nhóm nghiên cứu cũng đã tạo ra được các loại mô hình giúp bảo vệ môi trường như là rô bốt tự động nhặt rác hay các công nghệ xử lí rác thải tự động Và thiết kế một thùng rác có thể quản lí, nhận diện và phân loại rác thải đang là đề tài được quan tâm hiện nay Trong nghiên cứu này, nhóm thực hiện đề tài sẽ tập trung vào việc phân loại rác thải nhằm cải thiện quá trình xử lý rác và giảm thiểu ô nhiễm môi trường Sự hạn chế lớn nhất của việc phân loại rác thải thủ công là thiếu chính xác và tốn nhiều công sức Đa phần việc phân loại rác hiện nay vẫn được thực hiện bằng tay, dẫn đến việc lẫn lộn các loại rác và khó khăn trong việc tái chế

Trong nghiên cứu này, nhóm thực hiện đề tài xây dựng một hệ thống tự động phân loại rác thải Đầu tiên, hệ thống sẽ thực hiện nhận dạng các loại rác thông qua hình ảnh được chụp, và tự động phân loại vào các thùng chứa khác nhau Nghiên cứu chỉ tiến hành nhận dạng, phân loại một số loại rác thải đơn giản với hy vọng đây là tiền đề cho việc phát triển các thiết bị phân loại rác thải tự động Thiết bị được phát triển hướng đến có thể được sử dụng trong hai trường hợp cụ thể: hỗ trợ việc phân loại rác tại các hộ gia đình và tự động phân loại rác thải tại các khu vực công cộng.

1.2 MỤC TIÊU ĐỀ TÀI

Mục tiêu chính của đề tài là tạo ra thùng rác tự động có khả năng nhận diện và phân loại các loại rác thải khác nhau Đối với các loại rác thải như chai nhựa, hệ thống sẽ mở ngăn bên ngoài, đối với các loại rác thải khác, hệ thống sẽ mở ngăn bên trong Xây dựng và triển khai một hệ thống quản lý và phân loại rác thải qua giao diện web Hệ thống này sẽ tích hợp nhiều chức năng quan trọng, nhằm đảm bảo sự thuận tiện và hiệu quả trong việc quản lý và phân loại rác thải

Hệ thống này có các tính năng sau: tự động đóng mở nắp thùng rác, tự động mở nắp khi có người lại gần để vứt rác và đóng lại khi không có người Khi thùng rác đầy, loa sẽ phát thông báo "Thùng rác đã đầy" khi có người đến gần thùng rác Hệ thống cũng có khả năng tự động phân loại rác thải, nhận diện loại rác qua camera và điều khiển nắp ngăn chứa rác đóng/mở phù hợp Ngoài ra, hệ

Trang 23

3

thống còn theo dõi vị trí và trạng thái hoạt động của thùng rác thông qua trang web quản lý, cho phép kiểm tra xem thùng rác còn hoạt động hay không và báo cáo về trang web

Bằng cách này, việc áp dụng công nghệ IoT và trí tuệ nhân tạo AI vào hệ thống này sẽ việc quản lý và xử lý rác trở nên dễ dàng hơn, không chỉ góp phần giải quyết vấn đề rác thải hiện nay mà còn tạo tiền đề cho việc phát triển các hệ thống quản lý rác thải thông minh trong tương lai, hướng tới một môi trường sống bền vững và sạch đẹp

1.3 GIỚI HẠN ĐỀ TÀI

Giới hạn của đề tài bao gồm:

- Nhận diện hình ảnh: Đề tài chỉ tập trung nghiên cứu nhận dạng vật thể ở điều kiện ban ngày, đủ ảnh sáng, góc chụp trực diện, khoảng cách từ camera chụp tới vật thể là 35cm

- Diện tích chứa rác: Nhóm thực hiện đề tài sử dụng mô hình thùng rác cỡ nhỏ dùng để chứa các loại rác thải cỡ nhỏ và vừa

- Vị trí thùng rác: Thùng rác được ứng dụng đặt trong những nơi có diện tích nhỏ như phòng học, phòng làm việc, nhà vệ sinh…

1.4 PHƯƠNG PHÁP NGHIÊN CỨU

Phương pháp tổng hợp tài liệu lý thuyết sẽ được thực hiện bằng cách nghiên cứu và đánh giá các nguồn thông tin chính, như datasheet, tài liệu hướng dẫn và các tài liệu liên quan khác về vi điều khiển và cảm biến Phương pháp này sẽ tập trung vào cấu trúc, tính năng, giao tiếp và cách sử dụng của từng thành phần, đặc biệt là trong ngữ cảnh của hệ thống quản lý và phân loại rác thải

Phương pháp mô phỏng sẽ được áp dụng để xây dựng một môi trường ảo, giúp kiểm thử và thử nghiệm phần mềm trước khi triển khai lên hệ thống thực tế Việc này giúp xác định và khắc phục các lỗi và vấn đề tiềm ẩn trước khi đưa hệ thống vào sử dụng Phương pháp này sẽ đóng vai trò quan trọng trong việc đảm bảo

Trang 24

1.5 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 1.5.1 Đối tượng nghiên cứu

Đối tượng nghiên cứu của đề tài này là hệ thống tự động phân loại rác thải sử dụng công nghệ nhận dạng hình ảnh Cụ thể, hệ thống sẽ tập trung vào phân loại rác thải là chai nhựa và rác thải không phải chai nhựa Hệ thống sẽ sử dụng các cảm biến và camera để nhận dạng và phân loại các loại rác này

1.5.2 Phạm vi nghiên cứu

Phạm vi nghiên cứu bao gồm các khía cạnh sau:

- Nhận dạng hình ảnh: Sử dụng các kỹ thuật và mô hình học máy để nhận

dạng và phân loại rác thải từ hình ảnh Các mô hình này sẽ được huấn luyện để phân biệt các loại rác thải

- Thiết kế hệ thống phân loại: Xây dựng và thử nghiệm một mô hình hệ

thống phân loại rác thải tự động bao gồm phần cứng (cảm biến, camera, bộ điều khiển) và phần mềm (thuật toán nhận dạng, giao diện người dùng)

- Môi trường thử nghiệm: Hệ thống sẽ được thử nghiệm trong môi trường

kiểm soát để đánh giá hiệu quả phân loại Các thử nghiệm sẽ tập trung vào độ chính xác của việc nhận dạng và phân loại, tốc độ xử lý, và khả năng ứng dụng vào thực tế

- Phân tích kết quả: Đánh giá kết quả thử nghiệm, xác định các yếu tố ảnh

hưởng đến hiệu quả của hệ thống và đề xuất các cải tiến cần thiết Ngoài ra, nghiên cứu cũng sẽ xem xét tính khả thi của việc triển khai hệ thống trên quy mô lớn

Trang 25

5

1.6 BỐ CỤC QUYỂN BÁO CÁO

Nội dung chính của đề tài được trình bày với 5 chương:

- Chương 1 TỔNG QUAN: giới thiệu chung về đề tài, mục tiêu nghiên cứu, giới hạn đề tài, phương pháp nghiên cứu, đối tượng và phạm vi nghiên cứu

- Chương 2 CƠ SỞ LÝ THUYẾT: giới thiệu về tình hình nghiên cứu, hướng nghiên cứu, các dịch vụ đang được sử dụng

- Chương 3 THIẾT KẾ HỆ THỐNG: đưa ra mô hình chung của toàn hệ thống, các khối của hệ thống, thiết kế từng khối và các thiết bị được sử dụng trong các khối

- Chương 4 KẾT QUẢ: trình bày kết quả thi công của mô hình hệ thống - Chương 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN: rút ra các kết luận, điểm mạnh điểm yếu và hướng phát triển của mô hình

Trang 26

6

CHƯƠNG 2

CƠ SỞ LÝ THUYẾT 2.1 TRÍ TUỆ NHÂN TẠO

2.1.1 Trí tuệ nhân tạo là gì ?

Trí tuệ nhân tạo là khả năng thông minh của máy móc được tạo ra bởi con người Từ khi máy tính đầu tiên xuất hiện, các nhà nghiên cứu đã nỗ lực phát triển cả phần cứng và phần mềm để làm cho chúng có khả năng thông minh như con người Ví dụ, phần mềm chơi cờ trên siêu máy tính GeneBlue có thể đánh bại nhà vô địch cờ vua thế giới, và các ứng dụng khác có thể giải quyết các vấn đề hình học phức tạp Trong một số lĩnh vực, máy tính có thể vượt trội hoặc bằng ngang con người, tạo thành các hệ thống thông minh [1]

Có nhiều cách tiếp cận để phát triển trí tuệ nhân tạo Một số phương pháp nghiên cứu bắt chước cách bộ não con người sản sinh trí thông minh, trong khi những cách khác sử dụng nguyên lý khác nhưng vẫn tạo ra máy móc thông minh hơn Tương tự như máy bay vượt trội so với chim nhờ cơ chế bay khác biệt, trí tuệ nhân tạo không cần phải bắt buộc giống con người để đạt được sự thông minh [1]

Trí tuệ nhân tạo được hiểu là khả năng của máy móc thực hiện các công việc mà con người thường làm Khi máy móc thể hiện hành vi hoặc kết quả tốt hơn hoặc tương đương với con người, chúng được coi là thông minh Đánh giá sự thông minh của máy không dựa trên việc chúng thực hiện nhiệm vụ giống con người hay không, mà dựa vào kết quả và hành vi bên ngoài có tương đồng với con người hay không [1]

Các nhiệm vụ phổ biến mà con người thường làm bao gồm giải quyết vấn đề, học tập, giao tiếp, thể hiện cảm xúc, và thích nghi với môi trường xung quanh Môn học Trí tuệ nhân tạo cung cấp các phương pháp để phát triển các hệ thống

Trang 27

7

có khả năng thực hiện những nhiệm vụ này, tập trung vào kết quả và hành vi bên ngoài tương đương với con người, không cần phải giống hệt nhau về cách thức thực hiện [1]

2.1.2 Các lĩnh vực ứng dụng của AI

Trong lĩnh vực Trí tuệ nhân tạo (AI), lập luận và suy diễn đóng vai trò quan trọng Lập luận là quá trình suy diễn logic từ các giả thiết để rút ra kết luận, dựa trên cơ sở tri thức Để thực hiện lập luận, cần có phương pháp lưu trữ tri thức và quy trình lập luận phù hợp [1]

Biểu diễn tri thức là cách để máy tính lưu trữ và xử lý tri thức, sử dụng các ngôn ngữ và kỹ thuật biểu diễn Một ngôn ngữ biểu diễn tri thức được đánh giá tốt khi có khả năng biểu đạt cao và thuật toán lập luận hiệu quả trên đó Tuy nhiên, đôi khi tính biểu đạt cao có thể làm phức tạp hóa thuật toán lập luận, trong khi ngôn ngữ đơn giản hơn có thể đem lại hiệu quả cao hơn Điều này tạo ra thách thức trong AI: phải xây dựng ngôn ngữ biểu diễn tri thức cân bằng giữa tính biểu đạt và hiệu quả, phù hợp với từng ứng dụng cụ thể [1]

Lập kế hoạch trong AI là khả năng đặt ra mục tiêu và lên kế hoạch hành động để đạt được những mục tiêu đó Học máy, một lĩnh vực phát triển mạnh mẽ của AI, có nhiều ứng dụng trong khai phá dữ liệu và khám phá tri thức Xử lý ngôn ngữ tự nhiên tập trung vào các ứng dụng liên quan đến ngôn ngữ con người như nhận dạng tiếng nói, dịch tự động và tìm kiếm thông tin Hệ chuyên gia là các hệ thống có khả năng suy diễn từ dữ liệu lớn, ví dụ như hệ chuyên gia y học MYCIN và hệ đoán nhận cấu trúc phân tử DENDRAL [1]

2.2 CẤU TRÚC MẠNG NƠRON 2.2.1 Mạng nơ-ron

Nhiều nhiệm vụ liên quan đến trí thông minh nhân tạo, nhận dạng mẫu và phát hiện đối tượng là cực kỳ khó trong tự động hóa, nhưng lại được thực hiện dễ dàng và rất tự nhiên bởi động vật và trẻ nhỏ Ví dụ, làm thế nào mà con chó của một gia đình nhận ra chủ của nó mà không nhầm lẫn với một người hoàn toàn xa lạ? Làm thế nào mà một em bé học cách nhận ra sự khác biệt giữa xe buýt đưa

Trang 28

8

đón của trường học và xe buýt công cộng? Và làm thế nào mà bộ não của chúng ta tự động thực hiện các nhiệm vụ nhận dạng mẫu phức tạp hàng ngày mà chúng ta không hề nhận ra? [2]

Câu trả lời nằm trong chính cơ thể của chúng ta Mỗi người đều sở hữu một mạng nơ-ron sinh học thực sự, được kết nối trong hệ thống thần kinh, tạo thành từ một số lượng lớn các tế bào nơ-ron liên kết với nhau Từ "nơ-ron" ám chỉ các tế bào nơ-ron, và "mạng" mang nghĩa là một cấu trúc giống như dạng đồ thị Do đó, một mạng nơ-ron nhân tạo được hiểu là một hệ thống tính toán cố gắng bắt chước (hoặc ít nhất là lấy ý tưởng từ) các kết nối nơ-ron trong hệ thống thần kinh Mạng nơ-ron nhân tạo, hay còn gọi là hệ thống nơ-ron nhân tạo, thường được viết tắt là ANN hoặc NN - và chúng ta sẽ sử dụng cả hai từ viết tắt này trong suốt phần còn lại của cuốn sách [2]

Để một hệ thống được coi là NN, nó phải chứa một cấu trúc đồ thị có hướng, trong đó mỗi nút trong đồ thị thực hiện một số tính toán đơn giản Từ lý thuyết đồ thị, chúng ta biết rằng một đồ thị có hướng bao gồm một tập hợp các nút (đỉnh) và một tập hợp các kết nối (cạnh) liên kết các cặp nút với nhau Hình 2.1 là một ví dụ về đồ thị NN như vậy [2]

Mỗi nút thực hiện một tính toán đơn giản và mỗi kết nối mang một tín hiệu (đầu ra của tính toán) từ nút này sang nút khác, được gắn nhãn bằng trọng số cho biết mức độ tín hiệu được khuếch đại hay giảm đi Một số kết nối có trọng số lớn, dương giúp khuếch đại tín hiệu, cho thấy tín hiệu rất quan trọng khi thực hiện phân loại Ngược lại, những kết nối có trọng số âm làm giảm cường độ tín hiệu, cho thấy rằng đầu ra của nút ít quan trọng hơn trong phép phân loại cuối cùng Hệ thống này được gọi là mạng nơ-ron nhân tạo nếu nó bao gồm một cấu trúc đồ thị (như hình 2.1) với các trọng số kết nối có thể điều chỉnh bằng thuật toán huấn luyện [2]

Trang 29

9

2.2.2 Mạng CNN

Mạng nơ-ron tích chập (CNN), còn được biết đến với tên gọi tiếng Anh là Convolutional Neural Network, là một thuật toán học máy đột phá, góp phần tạo nên những hệ thống trí tuệ nhân tạo thông minh và chính xác cao Nổi bật trong các ứng dụng như nhận diện khuôn mặt trên Facebook và Google, CNN đang dần khẳng định vị thế quan trọng trong lĩnh vực Deep Learning [3]

Điểm đặc biệt của CNN:

Khả năng học tập từ dữ liệu dạng lưới: CNN được thiết kế để xử lý dữ liệu dạng lưới, đặc biệt là hình ảnh, một cách hiệu quả Nhờ vậy, CNN có thể nhận diện các đối tượng trong hình ảnh, bất kể vị trí hay cách thức thể hiện của chúng có thay đổi

Hệ thống lọc thông minh: Thay vì sử dụng các kết nối phức tạp như mạng ron nhân tạo truyền thống, CNN sử dụng các bộ lọc (kernel) di chuyển trên dữ liệu Quá trình này giúp CNN tập trung vào các đặc điểm quan trọng của đối tượng, từ đó nâng cao độ chính xác trong nhận diện

nơ-Hình 2.1: Một kiến trúc mạng nơ-ron đơn giản Đầu vào được đưa vào mạng

Mỗi kết nối mang một tín hiệu thông qua hai lớp ẩn trong mạng Một hàm cuối

cùng tính toán lớp nhãn đầu ra [2]

Trang 30

10

Khả năng tự động chiết xuất đặc điểm: CNN có khả năng tự động học hỏi và chiết xuất các đặc điểm quan trọng từ dữ liệu, thay vì dựa vào việc cài đặt thủ công Điều này giúp đơn giản hóa quá trình huấn luyện và tăng tính ứng dụng của CNN [3]

Mạng nơ-ron tích chập (CNN) - bộ não thông minh của trí tuệ nhân tạo - được cấu tạo từ hai thành phần chính, mỗi phần đảm nhiệm vai trò riêng biệt trong việc xử lý và phân tích dữ liệu hình ảnh:

"Vùng thị giác" - Nơi tiếp nhận và trích xuất đặc trưng:

- Tầng tích chập (Convolutional layer): Giống như võng mạc của mắt người, tầng tích chập sử dụng các bộ lọc (kernel) di chuyển trên ảnh để thu thập thông tin và trích xuất các đặc trưng quan trọng Mỗi bộ lọc tập trung vào một đặc điểm cụ thể như đường nét, cạnh, màu sắc,

- Tầng hợp nhất (Pooling layer): Giảm kích thước dữ liệu và loại bỏ bớt các thông tin nhiễu, giúp mạng tập trung vào những đặc trưng nổi bật nhất Hai phương pháp pooling phổ biến là Max Pooling và Average Pooling

"Bộ não" thông minh - Phân loại và đưa ra quyết định:

Trang 31

11

- Tầng kết nối đầy đủ (Fully connected layer): Nhận thông tin từ tầng tích chập và hợp nhất, tầng kết nối đầy đủ thực hiện liên kết các nơ-ron theo mạng lưới phức tạp Giống như quá trình suy luận của con người, tầng này phân tích thông tin, so sánh với dữ liệu đã học và đưa ra kết quả phân loại chính xác nhất

- Sự kết hợp hoàn hảo:

- Sự kết hợp nhịp nhàng giữa hai thành phần này tạo nên sức mạnh của CNN: - Khả năng học tập vượt trội: CNN có thể tự động học hỏi và trích xuất các đặc trưng quan trọng từ dữ liệu, thay vì phụ thuộc vào việc cài đặt thủ công - Hiệu quả cao: Nhờ sử dụng các bộ lọc và kỹ thuật pooling, CNN có thể xử lý dữ liệu hình ảnh một cách hiệu quả, giảm thiểu thời gian và tài nguyên tính toán

- Độ chính xác cao: CNN liên tục được cải tiến và đã đạt được độ chính xác ấn tượng trong nhiều nhiệm vụ nhận diện và phân loại hình ảnh

- Nhờ cấu trúc thông minh này, CNN đang ngày càng khẳng định vị thế trong lĩnh vực trí tuệ nhân tạo, góp phần tạo nên những ứng dụng đột phá trong nhiều lĩnh vực như nhận diện khuôn mặt, xe tự lái, y tế ảnh,… [3]

Hình 2.2: Cấu trúc của CNN [3]

Lớp tích chập (convolution): Trong CNN, một ma trận đầu vào thời gian thực sẽ được xử lý qua một ma trận khác, thường được gọi là kernel hoặc hạt nhân, để tạo ra một bản đồ đặc trưng, sử dụng cho lớp tiếp theo Phép toán tích chập trong toán học được thực hiện bằng cách trượt kernel qua ma trận đầu vào Tại mỗi vị

Trang 32

12

trí, phép nhân ma trận được thực hiện và các kết quả thu được sẽ được cộng vào bản đồ đặc trưng cuối cùng Ví dụ, giả sử có một bộ lọc kernel hai chiều K và hình ảnh đầu vào hai chiều I Trong trường hợp này, hình ảnh phức hợp được tính toán như mô tả trong công thức (2.1):

(2.1) Trong thế giới mạng nơ-ron tích chập (CNN), hàm kích hoạt phi tuyến tính (ReLU) đóng vai trò vô cùng quan trọng, được ví như "chìa khóa" mở ra sức mạnh tiềm ẩn của mô hình này Sau mỗi lớp tích chập, ReLU xuất hiện như một "nút thần kinh" thông minh, giúp CNN học hỏi và xử lý thông tin hiệu quả hơn

Vậy ReLU hoạt động như thế nào?

Hãy tưởng tượng ReLU như một bộ lọc thông minh, chỉ cho phép những tín hiệu quan trọng nhất đi qua Cụ thể:

Đối với tín hiệu dương: ReLU giữ nguyên giá trị, đảm bảo thông tin quan trọng được truyền tải đầy đủ

Đối với tín hiệu âm: ReLU gán giá trị bằng 0, loại bỏ những nhiễu và thông tin không cần thiết

Tại sao ReLU lại hiệu quả?

Khả năng học tập phi tuyến tính: ReLU giúp CNN học được những mối liên hệ phức tạp giữa các dữ liệu, mô phỏng chính xác cách thức hoạt động của não bộ con người

Giải quyết vấn đề "mất tích gradient": ReLU giúp khắc phục hiện tượng "mất tích gradient" trong quá trình huấn luyện, đảm bảo mô hình học tập hiệu quả và chính xác hơn

Tăng tốc độ tính toán: ReLU đơn giản và dễ tính toán hơn so với các hàm kích hoạt khác, giúp giảm thiểu thời gian huấn luyện và tối ưu hóa hiệu suất mô hình

Biểu thức ReLU được biểu diễn như sau

(2.2) Hàm này và hình ảnh đạo hàm của nó được thể hiện trong hình 2.3 [3]

Trang 33

13

Hình 2.3: Hàm kích hoạt ReLU [3]

Lớp tổng hợp (Pooling): Một nhược điểm lớn của bản đồ đặc trưng đầu ra từ lớp CNN là nó ghi lại tất cả các đặc trưng tại vị trí chính xác của đầu vào Điều này có nghĩa là khi xoay, cắt xén hoặc thực hiện bất kỳ thay đổi nào khác đối với đầu vào, hình ảnh sẽ tạo ra một bản đồ đặc trưng hoàn toàn khác Để khắc phục vấn đề này, các lớp lấy mẫu khác nhau được sử dụng Lấy mẫu giảm được thực hiện bằng cách triển khai một lớp tổng hợp sau lớp phi tuyến tính Trong CNN, chủ yếu có hai loại chức năng tổng hợp được thể hiện trong hình 2.4 [3]

Hình 2.4: Lớp Pooling [3]

Lớp kết nối đầy đủ (Fully Connected - FC): Đầu ra cuối cùng của lớp tổng hợp đóng vai trò là đầu vào cho lớp kết nối đầy đủ trong CNN Có thể có một hoặc nhiều lớp kết nối đầy đủ này Kết nối đầy đủ có nghĩa là mỗi nút trong lớp hiện tại được kết nối với mọi nút trong lớp tiếp theo, như minh họa trong hình 2.5 [3]

Trang 34

Tại Việt Nam, giảng dạy xử lý ảnh ở đại học đã có nhưng số lượng sinh viên theo học còn hạn chế Tuy nhiên, tiềm năng phát triển rất lớn với nhu cầu ứng dụng rộng rãi

Cần đào tạo nguồn nhân lực chất lượng cao và nghiên cứu, phát triển các giải pháp xử lý ảnh phù hợp với thực tế Việt Nam để gặt hái thành tựu, thúc đẩy phát triển kinh tế - xã hội đất nước [4]

Để chinh phục Xử lý ảnh, hành trang kiến thức nền tảng là chìa khóa quan trọng mở ra cánh cửa thành công

Xử lý tín hiệu số - nền tảng cho xử lý tín hiệu nói chung - đóng vai trò tiên quyết Nắm vững các khái niệm như tích chập, biến đổi Fourier, Laplace, hay bộ lọc hữu hạn là nền tảng để chúng ta thấu hiểu bản chất của xử lý ảnh

Tiếp theo, Đại số tuyến tính, Xác suất thống kê là những công cụ toán học không thể thiếu, giúp chúng ta phân tích và xử lý dữ liệu hình ảnh hiệu quả

Cuối cùng, Trí tuệ nhân tạo và Mạng nơ ron nhân tạo sẽ mở ra cánh cửa mới trong việc phân tích và nhận dạng ảnh, đưa chúng ta đến với những ứng dụng xử lý ảnh thông minh và tiềm năng [4]

Trang 35

Năm 1964, máy tính đã có khả năng xử lý và nâng cao chất lượng ảnh từ mặt trăng và vệ tinh Ranger 7 của Mỹ, sử dụng các kỹ thuật như làm nổi đường biên và lưu ảnh Kể từ đó, các phương tiện và phương pháp xử lý, nâng cao chất lượng, và nhận dạng ảnh không ngừng phát triển, với sự áp dụng rộng rãi của các phương pháp trí tuệ nhân tạo như mạng nơ ron nhân tạo và các thuật toán hiện đại

Ngày nay, xử lý ảnh đã trở thành một công cụ không thể thiếu trong nhiều lĩnh vực như y tế, truyền thông, an ninh, công nghiệp, góp phần mang lại những hình ảnh sắc nét, rõ ràng và mang nhiều thông tin hữu ích hơn

Có thể nói, hành trình phát triển của xử lý ảnh chính là minh chứng cho sức mạnh của khoa học công nghệ, đưa chúng ta đến với những ứng dụng đầy tiềm năng và mang lại lợi ích to lớn cho cuộc sống [4]

Xử lý ảnh bắt đầu bằng việc thu nhận hình ảnh từ thế giới thực thông qua các thiết bị như camera hay máy ảnh Trước đây, ảnh thu từ camera là ảnh tương tự, nhưng với sự phát triển của công nghệ, ảnh màu hoặc đen trắng được lấy trực tiếp từ camera và chuyển đổi thành ảnh số, tạo điều kiện thuận lợi cho các bước xử lý tiếp theo Ảnh cũng có thể được thu nhận từ vệ tinh hoặc quét từ ảnh chụp bằng máy quét ảnh [4]

Trang 36

16

Hình 2.6: Các bước cơ bản trong xử lí ảnh [4]

2.4 MÔ HÌNH HUẤN LUYỆN YOLO

YOLO (You Only Look Once) là một mô hình mạng nơ-ron tích chập (CNN) mang tính đột phá trong lĩnh vực phát hiện đối tượng trong ảnh Điểm khác biệt chính của YOLO so với các mô hình truyền thống là nó chỉ thực hiện một lần tính toán trên toàn bộ ảnh để dự đoán tất cả các đối tượng, thay vì chia nhỏ ảnh thành nhiều phần và xử lý từng phần riêng biệt

Cách tiếp cận độc đáo này mô phỏng cách con người nhìn và nhận diện đối tượng, giúp YOLO đạt được tốc độ xử lý nhanh hơn đáng kể mà vẫn đảm bảo độ chính xác cao YOLO sử dụng các lớp tích chập để trích xuất các đặc trưng quan trọng của ảnh và lớp kết nối đầy đủ để dự đoán xác suất và tọa độ của các đối tượng, như minh họa trong hình 2.7

Hình 2.7: Hệ thống phát hiện đối tượng YOLO đơn giản [5]

Ghi chú: 1) Ảnh được điều chỉnh thành ảnh có kích thước phù hợp (chẳng hạn 448x448); 2) Chạy một mạng tích chập đề rút trích đặc trưng; 3) Kết quả phát hiện dựa trên ngưỡng rút ra từ độ tin cậy của mô hình, có thể xử

lý và phát hiện đối tượng 45 frames/s với độ chính xác cao

Trang 37

17

2.4.1 Vector dự đoán (The Predictions Vector)

Đây là vector đầu ra của YOLO Ảnh đầu vào được chia thành lưới SxS ô Mỗi ô trong lưới được xem như là một ứng cử viên để dự đoán đối tượng Mỗi ô này dự đoán B bounding box và C xác suất cho các lớp đối tượng Mỗi bounding box có 5 thành phần: (x, y, w, h, conf) Ở đó, (x, y) là tọa độ tương đối của tâm của bounding box so với ô đó (tức là nếu tâm của bounding box không nằm trong ô thì ô không được coi là ứng cử viên) Các tọa độ này được chuẩn hóa về khoảng [0, 1] (w, h) là chiều rộng và chiều cao tương đối của bounding box, cũng được chuẩn hóa về khoảng [0, 1] Phần conf là độ tin cậy của bounding box, được tính như sau:

(2.3) Trong đó, IOU là chỉ số Intersect Over Union (IOU) [7] Nếu không có đối tượng nào trong box, giá trị conf = 0; ngược lại, conf = IOU(pred, truth) Điều này có nghĩa là Pr(Object) = 0 khi không có đối tượng nào trong box và Pr(Object) = 1 khi có đối tượng trong box Chỉ số conf phản ánh sự hiện diện của một đối tượng thuộc một loại (lớp) trong box [5]

IOU là tỷ lệ giữa diện tích vùng giao nhau và diện tích vùng hợp nhất của hai box Thông thường, nếu IOU > 50%, box dự đoán được xem là có đối tượng Để dự đoán xác suất đối tượng thuộc loại nào, cần sử dụng xác suất có điều kiện Pr(Class(i) | Object) [5]

2.4.2 Mạng neuron tích chập

YOLO xây dựng một mạng CNN để dự đoán tensor có kích thước (7,7,30) Mạng CNN này giảm kích thước không gian của mỗi vị trí thành 7 x 7 với 1024 kênh đầu ra Hình 2.8 minh họa kiến trúc mạng YOLO Kiến trúc mạng CNN trong YOLO bao gồm 24 lớp tích chập, kết hợp với các lớp max pooling và 2 lớp fully connected Mỗi lớp tích chập lần lượt giảm kích thước không gian đặc trưng từ lớp trước đó

Trang 38

18

Hình 2.8: Kiến trúc mạng CNN trong YOLO [5]

Bảng 2.1: Liệt kê lớp trong mạng CNN (gọi là mạng CNN đầy đủ - full CNN)

của một hệ thống YOLO [5]

Một mạng CNN trong hệ thống YOLO không nhất thiết phải có đủ 24 lớp mà có thể điều chỉnh giảm số lớp tùy thuộc vào từng trường hợp để cải thiện tốc độ của YOLO Lớp cuối cùng của mạng YOLO thường sử dụng hàm kích hoạt tuyến tính, trong khi các lớp khác thường sử dụng hàm leaky ReLU (Rectified Linear Unit) để tăng tính phi tuyến và độ nhạy của mô hình

(2.4)

2.4.3 Hàm chi phí (Loss function)

Hàm chi phí được dùng để tối ưu hóa trong quá trình huấn luyện và có công thức

(2.5)

Trang 39

19

Trong đó: coord là hằng số cho trước (x,y) là tọa độ tương đối của box 𝟙 obj được định nghĩa như sau; 1, nếu một đối tượng có trong ô thứ i và box thứ j, mà box này là box ứng viên 0, đối với các trường hợp khác [5]

2.4.4 Quy trình phát hiện đối tượng

Quá trình phát hiện đối tượng trong một hệ thống YOLO có thể tóm lược trong các bước sau: YOLO nhận ảnh đầu vào, chẳng hạn như hình 2.9

Hình 2.9: Ảnh đầu vào cho YOLO [5]

Hệ thống thực hiện chia ảnh đầu vào thành lưới, để đơn giản chẳng hạn 3x3

Hình 2.10: Hệ thống lưới được YOLO chia cho ảnh đầu vào [5]

Phân lớp và định vị ảnh được thực hiện cho mỗi ô trong lưới Khi đó, YOLO dự đoán các box và xác suất đối tượng thuộc chủng loại nào (nếu có) Dữ liệu đã được gán nhãn sẽ được đưa vào mô hình để huấn luyện Trong Hình 4, hệ thống chia ảnh đầu vào thành ma trận 3 x 3, và giả sử hệ thống có 3 lớp: người đi bộ, xe hơi và xe máy Do đó, nhãn y cho mỗi ô trong lưới sẽ là một vector 8 chiều [5]

Trang 40

Xét ô có đối tượng xe hơi: Nhãn y sẽ là [1, bx, by, bw, bh, 0, 1, 0]

Như vậy, với mỗi ô trong 9 ô sẽ có một vector 8 chiều làm đầu ra Đầu ra sẽ là một ma trận có dạng 3 x 3 x 8

Hình 2.11: Mô hình huấn luyện trong YOLO [5]

Tính toán các chỉ số cho box: Trong YOLO, tọa độ tương đối của đối tượng trong ô được tính toán và loại bớt các box bằng phương pháp Non-max Suppression Trong trường hợp đối tượng nằm trong nhiều ô, các ô trong YOLO không dự đoán đối tượng trong ô một cách độc lập mà có sự liên kết giữa các ô, do mạng CNN không chỉ sử dụng dữ liệu trong ô mà còn sử dụng dữ liệu từ các ô lân cận