Các Phương Pháp Sử Dụng Được Sử Dụng Trong Lĩnh Vực Nhận Diện Đối Tượng Qua Hình Ảnh.... Trong lĩnh vực tự động hóa, việc nhận diện đối tượng trong hình ảnh có thể được sử dụng để tương
Trang 1TRƯỜNG ĐẠI HỌC CÔNG THƯƠNG TP.HCM
KHOA CÔNG NGHỆ THÔNG TIN
-
-BÀI BÁO CÁO ĐỒ ÁN TỐT NGHIỆP
HỌC PHẦN: ĐỒ ÁN TỐT NGHIỆP.
ĐỀ TÀI: Phân tích các phương pháp nhận diện đối tượng qua hình ảnh và minh họa bằng phương pháp học sâu để nhận diện đối tượng.
GVHD: Ths Nguyễn Thị Định.
THỰC HIỆN: Nhóm 71
Trang 3PHÂN CÔNG VÀ ĐÁNH GÍA CÁC THÀNH VIÊN
Bảng: Phân công và đánh giá các thành viên trong nhóm.
STT TÊN SINH VIÊN MSSV PHÂN CÔNG
TỈ LỆ HOÀN THÀNH
ĐÁNH GIÁ
1 Trần Thanh Nhạc 2001207111
Tìm hiểu thuật toán YOLO v7 và R-CNN
Thu nhập dữ liệu, chuẩn bị dữ liệu
2 Nguyễn Thành Phát
Kiểm thử ứng dụng nhận diện đối tượng qua hình ảnh trên bộ ảnh Flickr
Đánh giá các thuật toán YOLOv7
và R-CNN
3
Ứng dụng minh họa cho nhận diện đối tượng bằng thuật toán YOLO
và R-CNN
Trang 4MỤC LỤC
PHÂN CÔNG VÀ ĐÁNH GÍA CÁC THÀNH VIÊN 2
MỤC LỤC 3
LỜI MỞ ĐẦU 5
LỜI CẢM ƠN 6
CHƯƠNG 1 TỔNG QUAN 7
1.1 Lý do chọn đề tài 7
1.2 Phạm vi đề tài 7
1.3 Mục tiêu, lợi ích của 7
1.4 Sự cần thiết của đề tài 7
CHƯƠNG 2 DỮ LIỆU ĐA PHƯƠNG TIỆN 8
2.1 Khái niệm dữ liệu đa phương tiện 8
2.2 Ảnh số 9
2.3 Ảnh đa đối tượng 9
2.4 Bộ ảnh thực nghiệm Flickr 9
2.4.1 Nguồn gốc: 9
2.4.2 Dữ liệu hình ảnh: 9
2.4.3 Phân loại và chú thích: 9
2.4.4 Sử dụng trong nghiên cứu và phát triển: 10
2.4.5 Giới hạn quyền sở hữu và bản quyền: 10
CHƯƠNG 3 THUẬT TOÁN YOLO v7 & R-CNN 10
3.1 Các Phương Pháp Sử Dụng Được Sử Dụng Trong Lĩnh Vực Nhận Diện Đối Tượng Qua Hình Ảnh 10
3.1.1 Phân loại dựa trên Đặc trưng (Feature-based Classification): 10
3.1.2 Phát hiện đối tượng bằng Học sâu (Deep Learning Object Detection): 10
3.1.3 Phân loại dựa trên Mô hình Đặc trưng (Template Matching): 10
3.1.4 Phân loại dựa trên Mô hình Thống kê (Statistical Modeling): 11
3.1.5 Phát hiện đối tượng bằng Học tăng cường (Reinforcement Learning Object Detection): 11
3.1.6 Phát hiện đối tượng trong Video (Object Tracking): 11
3.2 Thuật Toán R-CNN 11
3.2.1 Khái Niệm 11
Trang 53.3 YOLO V7 12
3.3.1 Khái Niệm 12
3.3.2 YOLO hoạt động như thế nào? 12
3.3.3 Hạn Chế 13
3.3.4 Tổng Kết 13
Trang 6LỜI MỞ ĐẦU
Trong đồ án này, chúng tôi tập trung vào nghiên cứu và triển khai một hệ thống nhận diện đối tượng mạnh mẽ và hiệu quả dựa trên phương pháp học sâu
Lý do chúng tôi quan tâm đến việc nghiên cứu và phát triển nhận diện đối tượng qua hình ảnh là do vai trò quan trọng của nó trong thế giới thực Việc nhận diện đối tượng không chỉ hỗ trợ các ứng dụng di động thông minh, mà còn có ứng dụng rộng rãi trong lĩnh vực an ninh, tự động hóa công nghiệp, giao thông thông minh và nhiều lĩnh vực khác
Trong đồ án này, mục tiêu chính của chúng tôi là xây dựng một mô hình học sâu có khả năng nhận diện đối tượng trong hình ảnh với độ chính xác cao Chúng tôi sử dụng mạng nơ-ron sâu (deep neural networks) và các kiến trúc như Convolutional Neural Network (CNN)
để học và trích xuất đặc trưng từ hình ảnh
Trước khi triển khai mô hình, chúng tôi đã tiến hành nghiên cứu các công trình liên quan trong lĩnh vực nhận diện đối tượng bằng phương pháp học sâu Chúng tôi đã xem xét các
mô hình như YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector), Faster R-CNN (based Convolutional Neural Networks), và Mask R-CNN (Mask Region-based Convolutional Neural Networks) để hiểu và áp dụng các phương pháp tiên tiến trong
đồ án của chúng tôi
Qua đồ án này, chúng tôi hy vọng có thể đóng góp vào việc nâng cao hiệu suất và độ chính xác của nhận diện đối tượng qua hình ảnh bằng phương pháp học sâu Chúng tôi đã tiến hành các thí nghiệm, huấn luyện và đánh giá mô hình trên tập dữ liệu phù hợp và sử dụng các độ đo như độ chính xác, độ phủ và F1-score để đánh giá hiệu suất của mô hình Qua lời nói đầu này, chúng tôi hy vọng rằng bạn sẽ có cái nhìn tổng quan về đồ án của chúng tôi và tìm thấy nó thú vị và hữu ích Chúng tôi rất mong đợi được chia sẻ kết quả và những khám phá trong quá trình triển khai đồ án này
Trang 7LỜI CẢM ƠN
Đầu tiên, em muốn gửi lời cảm ơn sâu sắc đến giảng viên hướng dẫn và các thành viên trong nhóm nghiên cứu Sự hướng dẫn và sự đồng hành của các bạn đã giúp chúng em vượt qua những thách thức và đạt được những thành tựu quan trọng trong quá trình nghiên cứu
và triển khai đồ án này Sự đóng góp chuyên môn và sự hỗ trợ tận tâm của các bạn đã mang lại sự tự tin và sự khích lệ không thể đong đếm được
Tiếp theo, em muốn bày tỏ lòng biết ơn đến các bạn bè và gia đình đã luôn ủng hộ và động viên chúng em suốt quá trình nghiên cứu Những lời khích lệ và sự đồng hành của các bạn
đã truyền động lực mạnh mẽ và giúp tụi em vượt qua những khó khăn và thách thức Một lần nữa, chúng em xin chân thành cảm ơn tất cả những người và tổ chức đã đóng góp
và hỗ trợ đồ án này Sự đóng góp của các bạn đã làm cho đồ án trở nên đáng giá và có ý nghĩa Chúng em xin chân thành cảm ơn!
Trang 8CHƯƠNG 1 TỔNG QUAN 1.1 Lý do chọn đề tài
Nhận diện đối tượng qua hình ảnh bằng học sâu có ứng dụng rộng rãi trong nhiều lĩnh vực Ví dụ, trong lĩnh vực an ninh, việc nhận diện đối tượng giúp phát hiện hoạt động đáng ngờ hoặc xác định người nghi phạm Trong lĩnh vực tự động hóa, việc nhận diện đối tượng trong hình ảnh có thể được sử dụng để tương tác với các hệ thống tự động hoặc hỗ trợ trong việc phân loại và sắp xếp dữ liệu Nghiên cứu về nhận diện đối tượng qua hình ảnh bằng học sâu cung cấp cơ hội cho sinh viên phát triển kỹ năng trong việc xây dựng và huấn luyện mô hình học sâu, xử lý và trích xuất đặc trưng từ hình ảnh, và đánh giá hiệu suất của
mô hình cũng như giúp cho sinh viên tiếp cận với các công nghệ tiên tiến và cải thiện khả năng giải quyết vấn đề trong lĩnh vực thị giác máy tính
1.2 Phạm vi đề tài
Công cụ hỗ trợ xây dựng chương trình:
Tensorflow
Keras
Accord.NET
1.3 Mục tiêu, lợi ích của
Một trong những mục tiêu chính của đồ án là xây dựng một mô hình học sâu để nhận diện đối tượng trong hình ảnh Điều này bao gồm việc thiết kế kiến trúc mạng neural, huấn luyện mô hình trên tập dữ liệu phù hợp và kiểm tra hiệu suất của mô hình
1.4 Sự cần thiết của đề tài
Nhận diện đối tượng là một phần quan trọng trong phát triển trí tuệ nhân tạo và máy học Việc xây dựng mô hình nhận diện đối tượng đòi hỏi sự hiểu biết về các thuật toán học máy, mạng nơ-ron sâu và xử lý ảnh Đề tài này giúp nâng cao khả năng xử lý và hiểu biết của các
hệ thống trí tuệ nhân tạo
Sự phát triển nhanh chóng của công nghệ đã tạo ra các công cụ và thư viện mới để hỗ trợ nhận diện đối tượng, bao gồm các mô hình học sâu, khung công cụ và thuật toán tiên tiến Nghiên cứu và phát triển trong lĩnh vực này giúp đưa các công nghệ mới vào ứng dụng thực
tế và tạo ra những tiến bộ đáng kể
Trang 9CHƯƠNG 2 DỮ LIỆU ĐA PHƯƠNG TIỆN 2.1 Khái niệm dữ liệu đa phương tiện
Định nghĩa: Phương tiện là nhằm đến các kiểu thông tin hay kiểu thể hiện thông tin như
dữ liệu số, văn bản, hình ảnh, âm thanh, video
Đa phương tiện nhằm vào tập các kiểu phương tiện sử dụng cùng nhau Nó cũng ngầm xác định có kiểu dữ liệu khác số, văn bản Do vậy thuật ngữ “đa phương tiện” cũng nhằm chỉ tính chất như một tính từ Cũng có thể hiểu đơn giản đa phương tiện là tổ hợp của văn bản, hình ảnh, hoạt hình, âm thanh và video Và đa phương tiện có mặt trong mọi khía cạnh hoạt động, đời sống của con người như truyền thông, giải trí, thương mại, giáo dục,
Dữ liệu đa phương tiện (multimedia data) là dữ liệu hướng đến thể hiện máy đọc được của các kiểu phương tiện gộp
Đặc điểm quan trọng của dữ liệu đa phương tiện:
Đa dạng định dạng: Dữ liệu đa phương tiện có thể tồn tại trong nhiều định dạng khác
nhau, bao gồm JPEG, MP3, MP4, PDF, WAV, AVI, và nhiều định dạng khác Mỗi định dạng này thích hợp cho một loại phương tiện cụ thể (ảnh, âm thanh, video, văn bản)
Dữ liệu có liên quan: Trong dữ liệu đa phương tiện, các phương tiện khác nhau thường
có mối quan hệ với nhau Ví dụ, một video có thể đi kèm với mô tả văn bản và dữ liệu
âm thanh Điều này tạo ra cơ hội để kết hợp thông tin từ nhiều nguồn để hiểu sâu hơn về nội dung
Khối lượng lớn: Dữ liệu đa phương tiện thường rất lớn và đòi hỏi lưu trữ và xử lý
mạnh mẽ Chẳng hạn, video chất lượng cao có thể đòi hỏi nhiều terabyte lưu trữ và nhiều tài nguyên tính toán để mã hóa, phân tích và hiển thị
Khả năng tương tác: Dữ liệu đa phương tiện thường được sử dụng để tạo ra các ứng
dụng tương tác, chẳng hạn như trò chơi video, hệ thống giám sát video và ứng dụng giáo dục trực tuyến Người dùng có thể tương tác với dữ liệu này thông qua giao diện đa phương tiện
Trang 10Trong ngữ cảnh của dữ liệu đa phương tiện, "ảnh số" và "ảnh đa đối tượng" đề cập đến hai loại dữ liệu hình ảnh khác nhau
2.2 Ảnh số
Ảnh số trong dữ liệu đa phương tiện là hình ảnh được biểu diễn dưới dạng số hóa, và
nó thường được sử dụng như một phần của dữ liệu đa phương tiện tổng thể Các ảnh số có thể được lưu trữ ở nhiều định dạng, như JPEG, PNG, hoặc TIFF
Ảnh số thường xuất hiện trong các ứng dụng đa phương tiện như trang web, ứng dụng
di động, trò chơi video và hệ thống quảng cáo trực tuyến Chúng có thể được kết hợp với văn bản, âm thanh và video để tạo ra trải nghiệm đa phương tiện đầy đủ và hấp dẫn
2.3 Ảnh đa đối tượng
Ảnh đa đối tượng trong dữ liệu đa phương tiện thường đề cập đến hình ảnh chứa nhiều đối tượng hoặc thành phần khác nhau Đối tượng có thể là người, động vật, đối tượng vật lý, hoặc bất kỳ thứ gì có thể nhận biết được trong hình ảnh
Dữ liệu ảnh đa đối tượng có thể được sử dụng trong nhiều ứng dụng, bao gồm công nghệ nhận dạng đối tượng, xử lý ảnh y tế để phát hiện bệnh lý hoặc phân tích tế bào, hệ thống giám sát an ninh để nhận dạng người hoặc vật cụ thể, và nhiều ứng dụng khác trong lĩnh vực trí tuệ nhân tạo
Ở trong bối cảnh dữ liệu đa phương tiện, cả hai loại ảnh số và ảnh đa đối tượng có thể được sử dụng để làm giàu trải nghiệm người dùng và cung cấp thông tin phong phú thông qua sự kết hợp của nhiều phương tiện, chẳng hạn như hình ảnh, âm thanh, và văn bản, tạo ra môi trường đa phương tiện đầy đủ và đa chiều
2.4 Bộ ảnh thực nghiệm Flickr
Flickr là một dịch vụ chia sẻ và lưu trữ hình ảnh trực tuyến nổi tiếng, và bộ ảnh thực nghiệm Flickr thường đề cập đến tập hình ảnh được sử dụng cho mục đích thử nghiệm, nghiên cứu hoặc phát triển trong lĩnh vực xử lý ảnh, trí tuệ nhân tạo và thị giác máy tính Dưới đây là một tổng quan về bộ ảnh thực nghiệm Flickr:
2.4.1 Nguồn gốc:
Bộ ảnh thực nghiệm Flickr là một dự án được khởi xướng bởi Yahoo! Research (nay là Verizon Media) để cung cấp dữ liệu hình ảnh chất lượng cao cho các nhà nghiên cứu và phát triển ứng dụng trong lĩnh vực xử lý hình ảnh và trí tuệ nhân tạo
2.4.2 Dữ liệu hình ảnh:
Bộ ảnh thực nghiệm Flickr chứa một lượng lớn ảnh số từ các tác giả trên khắp thế giới, đóng góp dưới dạng hình ảnh đa dạng Các hình ảnh này bao gồm các chủ đề khác nhau như phong cảnh, con người, động vật, văn hóa, và nhiều lĩnh vực khác
2.4.3 Phân loại và chú thích:
Bộ ảnh thực nghiệm Flickr thường được phân loại và chú thích một cách chi tiết Mỗi ảnh có thể được đánh dấu với các từ khóa (tags) để mô tả nội dung, địa điểm, hoặc ngữ cảnh
Trang 112.4.4 Sử dụng trong nghiên cứu và phát triển:
Bộ ảnh thực nghiệm Flickr đã trở thành một nguồn dữ liệu phổ biến cho các nhiệm vụ
xử lý hình ảnh như nhận dạng đối tượng, phân loại hình ảnh, và phân tích nội dung hình ảnh
Các nhà nghiên cứu và nhà phát triển thường sử dụng dữ liệu từ Flickr để thử nghiệm
và phát triển các thuật toán và ứng dụng mới trong lĩnh vực trí tuệ nhân tạo
2.4.5 Giới hạn quyền sở hữu và bản quyền:
Hầu hết các ảnh trên Flickr được bảo vệ bởi bản quyền và quyền sở hữu của tác giả Việc sử dụng ảnh từ Flickr trong nghiên cứu hoặc ứng dụng thương mại thường đòi hỏi sự xin phép của tác giả và tuân thủ các quy định về bản quyền
Bộ ảnh thực nghiệm Flickr đã đóng một vai trò quan trọng trong việc cung cấp dữ liệu
đa dạng cho cộng đồng nghiên cứu và phát triển trong lĩnh vực hình ảnh và trí tuệ nhân tạo, giúp thúc đẩy sự phát triển và sáng tạo trong ngành này
CHƯƠNG 3 THUẬT TOÁN YOLO v7 & R-CNN 3.1 Các Phương Pháp Sử Dụng Được Sử Dụng Trong Lĩnh Vực Nhận Diện Đối Tượng Qua Hình Ảnh
Trong lĩnh vực nhận diện đối tượng qua hình ảnh, có nhiều phương pháp và kỹ thuật được sử dụng để xác định và phân biệt các đối tượng trong hình ảnh Dưới đây là một số phương pháp phổ biến:
3.1.1 Phân loại dựa trên Đặc trưng (Feature-based Classification):
Phương pháp này liên quan đến việc trích xuất đặc trưng quan trọng từ hình ảnh như các điểm đặc biệt, biên, màu sắc, hoặc texture
Sau khi trích xuất đặc trưng, các thuật toán máy học (chẳng hạn như Support Vector Machines, Random Forests, hoặc mạng nơ-ron sâu) được sử dụng để phân loại đối tượng
Trang 12 Một số phương pháp đơn giản bao gồm so khớp hình ảnh với mẫu đã biết hoặc sử dụng biểu đồ tương quan để tìm các kết quả phù hợp
3.1.4 Phân loại dựa trên Mô hình Thống kê (Statistical Modeling):
Sử dụng các phương pháp thống kê để xác định đối tượng trong hình ảnh Một số kỹ thuật bao gồm Gaussian Mixture Models (GMMs) và Hidden Markov Models (HMMs)
Phương pháp này thường được sử dụng khi có sẵn dữ liệu thống kê về đối tượng
3.1.5 Phát hiện đối tượng bằng Học tăng cường
(Reinforcement Learning Object Detection):
Sử dụng học tăng cường để xác định vị trí của đối tượng dựa trên tương tác với môi trường
Các thuật toán như Q-learning hoặc Policy Gradients có thể được sử dụng trong bài toán phát hiện đối tượng trong không gian 2D hoặc 3D
3.1.6 Phát hiện đối tượng trong Video (Object Tracking):
Theo dõi đối tượng trong chuỗi các hình ảnh liên tiếp để xác định vị trí và đối tượng
Các phương pháp như KLT Tracker hoặc Mean-Shift Tracker thường được sử dụng cho mục đích này
Các phương pháp này có ưu điểm và hạn chế riêng, và sự lựa chọn phụ thuộc vào bài toán cụ thể và tài nguyên có sẵn
窗体底端
3.2 Thuật Toán R-CNN
3.2.1 Khái Niệm
R-CNN là viết tắt của "Region-based Convolutional Neural Network," một mô hình được giới thiệu bởi Ross Girshick, Jeff Donahue, Trevor Darrell, và Jitendra Malik vào năm
2013 R-CNN là một trong những phương pháp đầu tiên đưa ra một giải pháp hiệu quả cho bài toán phát hiện đối tượng trong hình ảnh bằng cách sử dụng mạng nơ-ron sâu
R-CNN là một kiến trúc phức tạp bao gồm các thành phần sau:
Chọn Lọc Vùng Quan Tâm (Region Proposals):
Bước đầu tiên của R-CNN là tạo ra một danh sách các vùng quan tâm trong hình ảnh, gọi là các "region proposals."
Để làm điều này, R-CNN sử dụng một thuật toán chọn lọc tìm kiếm (selective search)
để đề xuất các vùng quan tâm có khả năng chứa đối tượng Selective search tìm kiếm các vùng với cường độ màu, kết cấu và độ tương tự kích thước khác nhau
Trích Xuất Đặc Trưng (Feature Extraction):
Trang 13Sau khi có các vùng quan tâm, mỗi vùng quan tâm được trích xuất thành một vectơ đặc trưng bằng cách sử dụng một mạng nơ-ron sâu (thường là một mô hình Convolutional Neural Network - CNN)
Ví dụ, mô hình CNN như AlexNet hoặc VGGNet được sử dụng để trích xuất đặc trưng từ mỗi vùng quan tâm
Phân Loại (Classification):
Đặc trưng từ các vùng quan tâm sau đó được sử dụng để phân loại xem mỗi vùng có chứa đối tượng gì không R-CNN thực hiện phân loại riêng lẻ cho từng vùng quan tâm Một mạng nơ-ron cụ thể dành cho phân loại đối tượng trong mỗi vùng được sử dụng
Hồi Quy Khung Giới Hạn (Bounding Box Regression):
Nếu một vùng quan tâm được phân loại chứa đối tượng, R-CNN sẽ cố gắng cải thiện việc định vị đối tượng bằng cách dự đoán lại khung giới hạn (bounding box) xung quanh đối tượng
Mục tiêu là tối ưu hóa vị trí của khung giới hạn để có kết quả định vị chính xác hơn R-CNN là một trong những phương pháp đầu tiên giúp phát hiện và định vị đối tượng trong hình ảnh bằng cách sử dụng học sâu Tuy nhiên, nó có một số hạn chế, bao gồm tốc độ chậm và không phải là một mô hình end-to-end Để giải quyết những hạn chế này, đã
có sự phát triển của các biến thể nhanh hơn như Fast R-CNN và Faster R-CNN, mà hiện đang được sử dụng rộng rãi trong lĩnh vực phát hiện đối tượng và xử lý hình ảnh
3.3 YOLO V7
3.3.1 Khái Niệm
3.3.2 YOLO hoạt động như thế nào?
Thuật toán Yolo v7 lấy hình ảnh làm đầu vào và sử dụng mạng nơ ron tích chập sâu đơn giản để phát hiện các đối tượng trong ảnh Kiến trúc của mô hình CNN là xương sống của YOLO được hiển thị bên dưới 20 lớp tích chập đầu tiên của mô hình được huấn luyện trước trên ImageNet bằng cách chèn các lớp tổng hợp trung bình theo thời