Đồ án này tập trung vào việc nghiên cứu và phát triển các ứng dụng sử dụng ESP32-CAM, đặc biệt trong các hệ thống giám sát và nhận diện hình ảnh, với mục đích xây dựng một mô hình giám s
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA ĐIỆN TỬ - VIỄN THÔNG □✰□
BÁO CÁO ĐỒ ÁN MÔN HỌC MÔN: NHẬP MÔN KỸ THUẬT (ĐTVT)
HK1 - NĂM HỌC: 2024-2025
TÊN ĐỒ ÁN: ESP 32 CAM
Xây dựng ý tưởng cho các dự án/sản phẩm phục vụ cộng đồng dùng các kỹ thuật điện tử - máy tính -viễn thông
LỚP : 24DTV1- Nhóm số : 1
Họ tên thành viên
1 Phạm Nguyên Hạnh Mua dụng cụ, thiết bị
3 Trần Nhật Minh Viết báo cáo
4 Lê Cao Đức Hiển Thuyết trình
7 Nguyễn Diên Tuấn Anh Viết báo cáo
Trang 28 Trần Đăng Huân Leader
9 Vũ Hoàng Thiên Ân Thuyết trình
BẢNG THỐNG KÊ CẬP NHẬT TÀI LIỆU KỸ THUẬT
SỐ LẦN CẬP NHẬT TÀI LIỆU KỸ THUẬT
Phiên
Xác nhận (Trưởng nhóm)
Ngày xác nhận
1.0 Tạo tài liệu Nhật Minh 5/11/2024 Đăng Huân 5/11/20242.0 Tạo/Cập nhật lần 1 Nhật Minh 13/11/2024 Đăng Huân 13/11/20243.0 Cập nhật lần 2 Tuấn Anh 14/11/2024 Đăng Huân 14/11/20244.0 Cập nhật lần 3 Tuấn Anh 17/11/2024 Đăng Huân 17/11/20245.0 Tổng duyệt Báo cáo Đăng Huân 19/11/2024 Đăng Huân 19/11/2024
Nhập môn Kỹ thuật – 24DTV1
Trang 3 Lời cảm ơn
Lời đầu tiên, chúng em xin gửi lời cảm ơn chân thành đến trường Đại học Khoa học Tự Nhiên - Đại học Quốc Gia thành phố Hồ Chí Minh đã đưa học phần “Nhập môn kỹ thuật ngành Điện tử -Viễn thông” vào chương trình giảng dạy Tiếp theo đó, chúng em xin cảm
ơn sâu sắc tới giảng viên bộ môn - thầy Lê Việt Dũng đã đồng hành, chia sẻ, hướng dẫn, truyền đạt những kinh nghiệm, kiến thức quý báu trong suốt quá trình học tập Qua thời gian học tập dưới sự chỉ bảo tận tình của thầy, nhóm em cũng như các bạn đã trau dồi được nhiều điều bổ ích, tinh thần học tập nghiêm túc Đó sẽ là hành trang cho chúng em vững bước trên con đường sau này
Dù cố gắng hết sức tuy nhiên do vốn kiến thức tích lũy còn hạn chế nên bản báo cáo đồ
án của nhóm em sẽ không thể tránh khỏi những sai sót Chúng em mong được thầy xem xét và đóng góp ý kiến để bài báo cáo của nhóm được hoàn thiện hơn
Chúng em xin chân thành cảm ơn!
TPHCM, ngày 20/11/2024
Trang 4Đồ án này tập trung vào việc nghiên cứu và phát triển các ứng dụng sử dụng ESP32-CAM, đặc biệt trong các hệ thống giám sát và nhận diện hình ảnh, với mục đích xây dựng một mô hình giám sát từ xa, sử dụng kết nối Wi-Fi để truyền tải hình ảnh thời gian thực Việc ứng dụng ESP32-CAM trong các hệ thống giám sát an ninh không chỉ giúp nâng cao tính hiệu quả trong việc bảo vệ tài sản mà còn có thể mở rộng thêm nhiều ứng dụng trong các lĩnh vực như y tế, giao thông thông minh và tự động hóa trong cuộc sống.
Thông qua đồ án này, chúng ta sẽ nghiên cứu về khả năng của ESP32-CAM, cách lập trình và ứng dụng nó trong các hệ thống thực tế, từ đó đưa ra giải pháp tối ưu và hiệu quả cho các nhu cầu giám sát hiện nay
2 Lý do chọn đề tài:
Công nghệ kỹ thuật càng phát triển, đời sống con người càng đòi hỏi sự tiện lợi, tiện nghi Các nhu yếu phẩm, thiết bị máy móc được đưa vào sử dụng ngày càng Với sự phát triển không ngừng của công nghệ, các hệ thống giám sát an ninh
Trang 5ngày càng trở nên quan trọng trong việc bảo vệ tài sản và nâng cao chất lượng sống Các giải pháp giám sát truyền thống đôi khi vẫn gặp phải một số hạn chế về chi phí, tính linh hoạt và khả năng kết nối Chính vì vậy, việc ứng dụng các thiết bịIoT thông minh như ESP32-CAM đang mở ra những cơ hội mới cho việc xây dựng các hệ thống giám sát hiện đại, dễ dàng triển khai và có chi phí hợp lý.
ESP32-CAM, với khả năng kết nối Wi-Fi và tích hợp module camera, là một nền tảng lý tưởng cho các ứng dụng giám sát hình ảnh từ xa, đặc biệt trong các môi trường cần quan sát và truyền tải hình ảnh thời gian thực Chọn đề tài này, tôi mong muốn nghiên cứu sâu về khả năng của ESP32-CAM trong việc thiết lập và triển khai các hệ thống giám sát an ninh, đồng thời khám phá các ứng dụng tiềm năng của công nghệ này trong các lĩnh vực như y tế, giao thông thông minh, hoặc
tự động hóa
Bên cạnh đó, việc nghiên cứu và làm quen với ESP32-CAM sẽ giúp tôi nâng cao kỹ năng lập trình, thiết kế hệ thống và giải quyết các vấn đề kỹ thuật trong việc phát triển các ứng dụng IoT Đề tài này không chỉ phù hợp với xu hướng pháttriển của công nghệ mà còn mang lại giá trị thực tiễn, góp phần vào việc xây dựng các hệ thống giám sát thông minh và tiết kiệm chi phí
3 Đối tượng nghiên cứu
- Vi điều khiển ESP32-CAM
- Module camera OV2640
4 Tiêu chí đặt ra:
- Độ chính xác và tinh chính
+Yêu cầu độ chính xác cao
+Tolerances (Dung sai):
- Vật Liệu có khả năng chịu nhiệt
Trang 65 Phân công hoạt động:
18/11 Trong ngày Cả nhóm Hoàn thành sản phẩm demo
Hoàn thành Báo cáoHoàn thành Powerpoint Hoàn thành kịch bản thuyết trình27/11 Trong ngày Cả nhóm Họp tổng duyệt + Chạy demo lần 3 +
Thuyết trình
30/11 Trong ngày Cả nhóm Thuyết trình về sản phẩm demo
Trang 7Bảng phân công nhiệm vụ chi tiết
Dây bệ cái dài 10 cm
Nguồn Power Adaptor AC-DC 5V 2A Acbel
3 Báo cáo phần mục lục, A,B,E Trần Nhật Minh+ TuấnAnh
4 Báo cáo phần C,D,F Trần Nhật Minh+ Tuấn
Anh
5 Soạn + chỉnh sửa Powerpoint Phạm Thành Quí
Lập trình + thử nghiệm giai đoạn 4 Đức Hiển + Tuấn Anh
8 Kiểm duyệt các nhóm Trần Đăng Huân
Trang 82 Bộ khung 2 trục FPV cho
RC Servo cỡ nhỏ 11.000đ P Nguyên Hạnh
3 Dây bẹ Đực-Đực dài 15cm 4.000đ P Nguyên Hạnh
4 ESP32 CAM AI- Thinker
Bluetooth Camera OV2640
Module
207.000đ P Nguyên Hạnh
5 Đế nạp ESP32 CAM 25.000đ P Nguyên Hạnh
6 Dây bệ cái dài 10 cm 3.000đ P Nguyên Hạnh
và Bluetooth, cùng với khả năng xử lý hình ảnh, làm cho nó trở thành một công cụ lý tưởng cho các ứng dụng giám sát, nhận diện khuôn mặt và các hệ thống thông minh
Mục tiêu của tiểu luận Tiểu luận nhằm mục đích phân tích và trình bày chi tiết về khả năng và ứng dụng của ESP32 CAM trong các hệ thống hiện nay Nó cũng đề cập đến cách lập trình và triển khai các dự án thực tế dựa trên ESP32 CAM, từ việc chuẩn bị phần cứng đến việc phát triển phần mềm và kiểm tra, tối ưu hóa hệ thống
Trang 9 Cảm biến và thiết bị ngoại vi: Các chân GPIO của ESP32 CAM cho phép kết nối với cảm biến, màn hình và thiết bị khác để mở rộng khả năng ứng dụng.
a Giới thiệu Phần cứng:
(a) ESP 32 CAM:
Kit phát triển Wifi BLE ESP32 Camera ESP32-CAM Development Board Ai-Thinker được phát triển trên nền Vi điều khiển trung tâm là ESP32 SoC với công nghệ Wifi, BLE
và kiến trúc ARM mới nhất hiện nay, kit kết hợp với Camera OV2640 sử dụng trong các ứng dụng truyền hình ảnh, xử lý ảnh qua Wifi, Bluetooth hoặc các ứng dụng IoT, mạch có chất lượng gia công tốt, độ bền cao
Trang 10Thông số kỹ thuật:
Model: Wifi BLE ESP32 Camera ESP32-CAM Development Board Ai-Thinker
Module trung tâm: Ai-Thinker ESP32-S
Power Supply: 5VDC (nguồn từ 2A trở lên)
Điện áp giao tiếp GPIO: 3.3VDC
SPI Flash: Default 32Mbit
RAM: 520KB SRAM +4M PSRAM
Bluetooth: Bluetooth 4.2 BR/EDR and BLE standards
Wi-Fi: 802.11 b/g/n/
Support interface: UART、SPI、I2C、PWM
Support TF card: Maximum support 4G
IO port: 9
UART Baudrate: Default 115200 bps
Image Output Format: JPEG( OV2640 support only ),BMP,GRAYSCALE
Turn off the flash lamp:180mA@5VDC
Turn on the flash lamp and turn on the brightness to the
maximum:310mA@5VDC
Deep-sleep: Minimum power consumption can be achieved 6mA@5VDC
Moderm-sleep: Minimum up to 20mA@5VDC
Light-sleep: Minimum up to 6.7mA@5VDC
Security: WPA/WPA2/WPA2-Enterprise/WPS
Dimensions: 40.5mm x27mm x4.5mm
Trang 11(b)ESP32 CAM MB
ESP32-CAM USB Programming Adapter giúp mạch ESP32-CAM nạp chương trình và giao tiếp truyền dữ liệu với máy tính qua giao IC chuyển USB-UART CH340 một cách dễ dàng, đế còn tích hợp hai nút nhấn cho chân RST và IO0 của ESP32-CAM để sử dụng trong quá trình nạp chương trình
IC chuyển giao tiếp USB-UART: CH340
Tích hợp hai nút nhấn RST và IO0 sử dụng trong quá trình nạp chương trình
Kích thước: 27x40mm
(c) Nguồn:
Nguồn Power Adaptor AC-DC 5V 2A Acbel được sử dụng để cấp nguồn cho các thiết bị sử dụng điện áp 5VDC, nguồn có thiết kế nhỏ gọn, linh kiện gia công chất lượng tốt, dây điện có lõi đồng dày, độ bền cao, dòng đầu theo thông số nhà sản xuất lên đến 2A
Trang 12 Kiểu nguồn: nguồn xung.
Kiểu giắc ngõ ra: Chuẩn Jack DC tròn 5.5*2.1~2.5mm
Chiều dài dây dẫn: 1.8m
3 Cơ sở lí thuyết:
AI (Artificial Intelligence) là trí tuệ nhân tạo, một lĩnh vực trong khoa học máy
tính tập trung vào việc phát triển các hệ thống hoặc máy móc có khả năng thực hiện các nhiệm vụ thường đòi hỏi trí thông minh của con người Những nhiệm vụ này bao gồm:
Học hỏi (Machine Learning): Hệ thống học từ dữ liệu và cải thiện hiệu suất theo
thời gian
Hiểu ngôn ngữ tự nhiên: Như việc xử lý văn bản hoặc giọng nói để giao tiếp với
con người
Nhận diện hình ảnh: Phân tích và nhận biết đối tượng trong hình ảnh hoặc video.
Ra quyết định: Đưa ra dự đoán hoặc lựa chọn dựa trên thông tin đầu vào.
Tự động hóa: Thực hiện các tác vụ lặp đi lặp lại mà không cần sự can thiệp của
con người
Trang 13AI được sử dụng rộng rãi trong nhiều lĩnh vực như chăm sóc sức khỏe, tài chính, giáo dục, giao thông, và cả giải trí (như chatbot, trò chơi) Những công nghệ nổi bật bao gồm trí tuệ nhân tạo tổng quát (AGI), học sâu (Deep Learning), và mạng nơ-ron nhân tạo.
1 Deeplearning?
Deep Learning (học sâu) là một nhánh của Machine Learning (học máy), tập
trung vào việc sử dụng các mô hình mạng nơ-ron nhân tạo có nhiều tầng (layers)
để xử lý và học từ dữ liệu Deep Learning lấy cảm hứng từ cách hoạt động của bộ não con người, nơi các nơ-ron kết nối với nhau để xử lý thông tin
Đặc điểm chính của Deep Learning
Mô hình mạng nơ-ron sâu:
o Deep Learning sử dụng mạng nơ-ron với nhiều tầng ẩn (hidden layers) để
tự động học các đặc trưng từ dữ liệu
o Các tầng này thực hiện các phép biến đổi toán học để trích xuất thông tin phức tạp hơn từ dữ liệu
Học không cần con người can thiệp nhiều:
o Deep Learning tự động trích xuất các đặc trưng (features) quan trọng từ dữ liệu mà không cần thiết kế thủ công như trong các thuật toán Machine Learning truyền thống
Xử lý dữ liệu lớn:
o Hiệu quả cao khi áp dụng với khối lượng dữ liệu khổng lồ, chẳng hạn như hình ảnh, âm thanh, và văn bản
Lý do gọi là "học sâu"
Tên gọi "học sâu" xuất phát từ việc các mô hình mạng nơ-ron có nhiều
tầng ẩn sâu, thường là từ hàng chục đến hàng trăm tầng Mỗi tầng học
một mức độ phức tạp khác nhau của dữ liệu, ví dụ:
Tầng đầu tiên học các đặc trưng cơ bản (như cạnh hoặc góc trong hình ảnh)
Tầng sau học các mẫu phức tạp hơn (như hình dáng hoặc cấu trúc)
Tầng cuối cùng đưa ra dự đoán hoặc phân loại
Cách hoạt động của Deep Learning
Đầu vào (Input): Dữ liệu thô (hình ảnh, âm thanh, văn bản, v.v.) được đưa vào
mô hình
Xử lý qua các tầng:
Trang 14o Mỗi tầng thực hiện các phép tính (nhân, cộng, kích hoạt) và học các đặc trưng từ dữ liệu.
o Trọng số (weights) của mạng được điều chỉnh thông qua thuật toán lan
truyền ngược (backpropagation) để giảm sai số.
Đầu ra (Output): Mô hình đưa ra kết quả cuối cùng, ví dụ như dự đoán hình ảnh
là "mèo" hay "chó"
Ứng dụng của Deep Learning
Xử lý hình ảnh: Nhận diện khuôn mặt, phân loại hình ảnh, xe tự lái.
Xử lý ngôn ngữ tự nhiên (NLP): Chatbot, dịch ngôn ngữ, tóm tắt văn bản.
Âm thanh và giọng nói: Nhận diện giọng nói, chuyển văn bản thành giọng nói.
Y tế: Chẩn đoán bệnh, phân tích hình ảnh y học.
Tài chính: Dự đoán thị trường, phát hiện gian lận.
Ưu điểm của Deep Learning
Hiệu suất cao trong các bài toán phức tạp
Tự động học và tối ưu các đặc trưng
Ứng dụng linh hoạt trong nhiều lĩnh vực
Hạn chế của Deep Learning
Đòi hỏi lượng lớn dữ liệu và tài nguyên tính toán
Mô hình phức tạp, khó giải thích
Thời gian huấn luyện lâu đối với mô hình lớn
2 Mobile net v2?
MobileNetV2 là một kiến trúc mạng nơ-ron nhân tạo được thiết kế đặc biệt để
chạy hiệu quả trên các thiết bị di động và nhúng, nơi tài nguyên tính toán và bộ
nhớ bị hạn chế Đây là phiên bản cải tiến của MobileNetV1, được giới thiệu bởi
nhóm nghiên cứu của Google vào năm 2018
Đặc điểm nổi bật của MobileNetV2Tối ưu hiệu quả tính toán:
MobileNetV2 tập trung vào việc giảm thiểu số lượng tham số (parameters) và số phép tính (computational cost) cần thiết để xử
lý dữ liệu, giúp tiết kiệm năng lượng và tài nguyên
Trang 15 Đây là khối cơ bản trong MobileNetV2.
Inverted Residual Block hoạt động theo cơ chế:
Mở rộng kích thước (expansion) của các đặc trưng đầu vào bằng cách tăng số lượng kênh (channels)
Áp dụng các phép tính toán trên dữ liệu mở rộng
Nén (projection) kích thước dữ liệu lại để giảm số lượng đầu ra
Cấu trúc "inverted" có nghĩa là thay vì tăng kích thước đầu ra (như trong Residual Block của ResNet), nó giảm kích thước lại
1 Linear Bottlenecks:
Sử dụng lớp đầu ra tuyến tính (linear layer) thay vì lớp phi tuyến (non-linear activation, như ReLU) để tránh mất thông tin khi kíchthước kênh bị nén
2 Depthwise Separable Convolution:
Đây là loại convolution giúp giảm khối lượng tính toán bằng cách chia phép tính thành hai phần:
Depthwise Convolution: Áp dụng bộ lọc riêng biệt trên mỗi
kênh đầu vào
Pointwise Convolution: Sử dụng các bộ lọc 1×11 \times 11×1
để kết hợp thông tin giữa các kênh
Kiến trúc của MobileNetV2
MobileNetV2 được xây dựng từ nhiều khối Inverted Residual
Blocks, với các thông số tùy chỉnh như:
Kích thước đầu vào (input size)
Số lượng kênh (channels)
Tăng cường (expansion factor)
Kích thước lớp convolution (kernel size)
Ưu điểm của MobileNetV2
Hiệu quả tính toán cao:
Ít phép tính hơn so với các mạng nơ-ron lớn khác, nhưng vẫn đạt được hiệu suất cao
Thích hợp cho thiết bị di động:
Được thiết kế đặc biệt để hoạt động tốt trên CPU và GPU của cácthiết bị nhúng như điện thoại thông minh và IoT
Cân bằng giữa tốc độ và độ chính xác:
Trang 16 MobileNetV2 duy trì độ chính xác tốt trong các bài toán phân loại hình ảnh và phát hiện đối tượng, ngay cả với tài nguyên hạn chế.
Ứng dụng của MobileNetV2
Phân loại hình ảnh (Image Classification):
Ví dụ: Xác định một bức ảnh chứa chó, mèo, hoặc xe
Nhận diện đối tượng (Object Detection):
Kết hợp với các mô hình như SSD (Single Shot Detector) để pháthiện đối tượng trong ảnh
Ứng dụng trong AI trên thiết bị di động:
Trợ lý ảo (Google Assistant)
Ứng dụng nhận diện khuôn mặt hoặc hình ảnh
Tăng cường thực tế (Augmented Reality):
Xử lý hình ảnh và đối tượng trong các ứng dụng AR thời gian thực
MobileNetV2 là một kiến trúc mạng nơ-ron nhẹ, tối ưu cho các thiết bị di động, sử dụng kỹ thuật chập phân tách sâu (depthwise separable convolutions) và cấu trúc "inverted residuals" để giảm
độ phức tạp tính toán mà vẫn duy trì hiệu suất cao
3 MTMN? Multi-task Cascaded Convolutional Networks?
MTCNN (Multi-Task Cascaded Convolutional Networks) là một
kiến trúc mạng nơ-ron nhân tạo được thiết kế để thực hiện hai nhiệm
vụ quan trọng trong nhận diện khuôn mặt:
Phát hiện khuôn mặt (Face Detection):
o Xác định vị trí khuôn mặt trong ảnh
Phát hiện các điểm mốc trên khuôn mặt (Facial Landmark Detection):
o Xác định các đặc trưng quan trọng trên khuôn mặt như mắt, mũi, miệng, v.v
Được giới thiệu lần đầu vào năm 2016, MTCNN đã trở thành một trong những phương pháp phổ biến nhờ hiệu quả và độ chính xác cao trong các bài toán liên quan đến xử lý khuôn mặt
Cách hoạt động của MTCNN
Trang 17MTCNN sử dụng một cấu trúc mạng dạng cascaded gồm ba bước
chính, mỗi bước là một mạng nơ-ron thực hiện nhiệm vụ lọc và tinh chỉnh kết quả:
a) P-Net (Proposal Network):
Vai trò: Lọc và đề xuất các khu vực có khả năng chứa khuôn mặt (proposal
regions)
Cách hoạt động:
o Nhận ảnh đầu vào và chia nhỏ thành các cửa sổ (sliding window)
o Xác định các khu vực có khả năng chứa khuôn mặt
o Trả về các bounding box thô và độ tin cậy (confidence score)
b) R-Net (Refinement Network):
Vai trò: Lọc các kết quả từ P-Net và tinh chỉnh vị trí bounding box.
Cách hoạt động:
o Chỉ xử lý những khu vực được P-Net đề xuất
o Loại bỏ các bounding box không đủ chính xác
o Tinh chỉnh vị trí và kích thước của bounding box
c) O-Net (Output Network):
Vai trò: Đưa ra kết quả chính xác cuối cùng.
Cách hoạt động:
o Xử lý những bounding box được R-Net chọn
o Tinh chỉnh thêm vị trí bounding box
o Dự đoán các điểm mốc trên khuôn mặt (facial landmarks)
Nhiệm vụ đa tác vụ trong MTCNN
Phát hiện khuôn mặt:
o Dự đoán bounding box của các khuôn mặt trong ảnh
Phát hiện điểm mốc (Facial Landmark Detection):
o Xác định 5 điểm mốc chính: hai mắt, mũi, và hai khóe miệng
Các tác vụ này được thực hiện đồng thời trong mỗi mạng (P-Net, R-Net, O-Net), giúp tối ưu hóa hiệu quả tính toán
Ưu điểm của MTCNN Hiệu quả cao:
o Xử lý đồng thời nhiều nhiệm vụ giúp giảm thời gian và tài nguyên tính toán
Độ chính xác cao:
o Kết hợp tốt giữa phát hiện khuôn mặt và phát hiện điểm mốc