1. Trang chủ
  2. » Giáo Dục - Đào Tạo

NGHIÊN CỨU VÀ ÁP DỤNG PHƯƠNG PHÁP POSECONV3D TRONG BÀI TOÁN PHÁT HIỆN HÀNH VI GIAN LẬN TRONG PHÒNG THI THÔNG QUA CAMERA

65 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI PHÂN HIỆU TẠI THÀNH PHỐ HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN TỐT NGHIỆP ĐỀ TÀI: NGHIÊN CỨU VÀ ÁP DỤNG PHƯƠNG PHÁP POSECONV3D TRONG BÀI TOÁN PHÁT HIỆN HÀNH VI GIAN LẬN TRONG PHÒNG THI THÔNG QUA CAMERA Giảng Viên Hướng Dẫn: Th.S TRẦN THỊ DUNG Sinh viên thực hiện: NGUYỄN THÀNH NHÂN Lớp: CÔNG NGHỆ THÔNG TIN Khóa: 60 TPHCM, ngày 01 tháng 12 năm 2023 1 TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI PHÂN HIỆU TẠI THÀNH PHỐ HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN TỐT NGHIỆP ĐỀ TÀI: NGHIÊN CỨU VÀ ÁP DỤNG PHƯƠNG PHÁP POSECONV3D TRONG BÀI TOÁN PHÁT HIỆN HÀNH VI GIAN LẬN TRONG PHÒNG THI THÔNG QUA CAMERA Giảng Viên Hướng Dẫn: Th.S TRẦN THỊ DUNG Sinh viên thực hiện: NGUYỄN THÀNH NHÂN Lớp: CÔNG NGHỆ THÔNG TIN Khóa: 60 TPHCM, ngày 01 tháng 12 năm 2023 2 TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÂN HIỆU TẠI THÀNH PHỐ HỒ CHÍ MINH Độc lập - Tự do - Hạnh phúc - - MÔ TẢ TỔNG QUAN VỀ QUÁ TRÌNH NGHIÊN CỨU BỘ MÔN: CÔNG NGHỆ THÔNG TIN -*** - Mã sinh viên: 6051071079 Họ và Tên: Nguyễn Thành Nhân Khóa: 60 Lớp: Công Nghệ Thông Tin 1 Tên đề tài: NGHIÊN CỨU VÀ ÁP DỤNG PHƯƠNG PHÁP POSECONV3D TRONG BÀI TOÁN PHÁT HIỆN HÀNH VI GIAN LẬN THÔNG QUA CAMERA 2 Mục đích, yêu cầu: A) Mục đích: Nghiên cứu, tìm hiểu, tìm ra được đâu là phương pháp phù hợp nhất đối với bài toán Nhận diện hành vi trong thời gian hiện tại Đồng thời nêu ra điểm tương đồng giữa hai bài toán Phát hiện hành vi Gian lận trong thi cử và bài toán Nhận diện hành động Tìm hiểu đâu là những lớp hành vi được cho là gian lận Tiến hành thu thập dữ liệu theo những phân tích đánh giá trên Nghiên cứu áp dụng vào việc xây dựng một luồng hoàn chỉnh sử dụng những kiến trúc học máy đã có trước đó để xây dựng một ứng dụng Phát hiện hành vi gian lận trong phòng thi B) Yêu cầu: - Yêu cầu công nghệ: Sử dụng ngôn ngữ lập trình Python cho việc viết mã đồng thời sử dụng một số thư viện C++ trong việc tăng tốc và biểu diễn các Curve Learning - Sử dụng thư viện Pytorch để xây dựng, phát triển cũng như nghiên cứu các kiến trúc mô hình Deep Learning - Sử dụng Tensorboard như một trong những công cụ để đo đạc hiệu quả của mô hình Đồng thời phát hiện các vấn đề trong lúc train thông các Learning Curve - Yêu cầu phần cứng: Yêu cầu về mặt phần cứng được mô tả như sau Phần cứng tối thiểu được mô tả gồm 16GB Ram, 1 GPU Tesla T4 và 8 CPU còn phần cứng tối đa gồm 4 GPU Testla T4, 192 GB Ram và 40 CPU 3 - Yêu cầu kết quả nghiệm thu: Nghiên cứu triển khai được Mô hình Action Recognition từ phương pháp đã đặt ra 3 Công nghệ sử dụng và cấu hình: Về thư viện: Sử dụng nhiều thư viện phổ biến của Python ở thời điểm hiện tại có thể xem tổng quan tại file requirements.txt trong source code chính - Về Framework: sử dụng 2 frame work phát triển AI phổ biến ở hiện tại là Tensorflow và Pytorch Cả 2 Framework được sử dụng xen kẽ nhau để tối ưu hóa hiệu xuất, giảm thời gian thực thi đồng thời giảm sự tiêu hao phần cứng - Về cấu hình phần cứng: vì mục tiêu của đồ án là nghiên cứu hiệu năng, tăng cường hiệu suất đồng thời giảm tối thiểu thời gian nên việc đẩy mạnh phần cứng trong việc triển khai là 1 việc rất cần thiết 4 Kết quả dự kiến: - Kết quả dự kiến sẽ tạo ra một ứng dụng triển khai mô hình nhận diện hành vi gian lận với kết quả với các thông số metrics cao 5 Giảng viên và cán bộ hướng dẫn: - Họ và tên: Th.S Trần Thị Dung - Đơn vị công tác: Bộ Môn CNTT Emails: - Số điện Thoại: Đã giao nhiệm vụ TKTN Ngày Tháng 12 Năm 2023 Giảng viên hướng dẫn Trưởng BM Công nghệ thông tin Th.S Trần Phong Nhã Th.S Trần Thị Dung Email: Đã nhận nhiệm vụ TKTN Sinh viên: Ký tên: Điện thoại: LỜI CẢM ƠN 4 Được sự phân công của quý thầy cô Bộ môn Công Nghệ Thông Tin, Đại Học Giao Thông Vận Tải Phân Hiệu Thành Phố Hồ Chí Minh, sau gần ba tháng thực hiện, em đã có thể hoàn thành Khóa luận tốt nghiệp cuối khóa Để hoàn thành nhiệm vụ được giao, ngoài sự nỗ lực học hỏi của bản thân còn có sự hướng dẫn tận tình của thầy cô, các anh chị, và sự hỗ trợ của các bạn trong trường Em chân thành cảm ơn Cô - Th.S Trần Thị Dung, người đã hướng dẫn cho em trong suốt thời gian thực hiện Khóa luận Cô đã có những chỉ dẫn, góp ý để em có thể hoàn thành tốt nhiệm vụ của mình Một lần nữa, em chân thành cảm ơn cô và chúc cô ngày càng thành công trên sự nghiệp của mình Xin cảm ơn những anh, chị, em, đồng nghiệp cũng như các bạn cùng khóa và khác khóa đã hỗ trợ em khi em gặp những khó khăn, những lần bí ý tưởng Tuy nhiên vì kiến thức chuyên môn còn hạn chế và bản thân còn thiếu nhiều kinh nghiệm thực tiễn nên nội dung của báo cáo không tránh khỏi những thiếu xót, em rất mong nhận sự góp ý, chỉ bảo thêm của quý thầy cô cùng toàn thể anh, chị, em đồng nghiệp để báo cáo này được hoàn thiện hơn Cuối cùng em xin gửi đến quý thầy, cô, quý anh, chị, em đồng nghiệp, bạn bè lời cảm ơn chân thành nhất 5 NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… TP Hồ Chí Minh, Ngày ….… Tháng 01 Năm 2024 Giáo viên hướng dẫn Trần Thị Dung 6 MỤC LỤC MỞ ĐẦU 11 A Tổng quan đề tài 11 B Mục tiêu nghiên cứu 11 C Đối tượng nghiên cứu 12 D Phạm vi nghiên cứu 12 CHƯƠNG I CƠ SỞ LÝ THUYẾT 13 1 Giới thiệu chung về bài toán Nhận diện hành vi con người .13 2 Trích xuất tư thế (Pose Extraction) 18 2.1 Phát hiện con người (Human Detection) .20 2.2 Ước tính tư thế (Pose Estimation) .22 2.2.1 High-Resolution Network 22 3 Từ tư thế 2D chuyển thành khối biểu đồ nhiệt 3D .25 4 Những kiến trúc 3D-CNN phù hợp để áp dụng cho bài toán Skeleton-based Action Recognition .27 CHƯƠNG II ỨNG DỤNG PHƯƠNG PHÁP POSECONV3D VÀO BÀI TOÁN PHÁT HIỆN HÀNH VI GIAN LẬN TRONG PHÒNG THI 30 A Dữ liệu, cấu hình tối thiểu, thông số đánh giá 30 1 Giới thiệu bộ dữ liệu 30 2 Cấu hình phần cứng tối thiểu .33 3 Thông số metrics được dùng cho kiến trúc 34 B Mô hình cơ sở và phát triển mô hình 36 1 Mô hình cơ sở 36 1.1 ResNet50 [34] 36 1.2 Faster R-CNN 39 1.2.2 Triển khai xây dựng Faster R-CNN bài toán Human Detection 43 1.3 HRNet 44 2 Những kiến trúc 3D-CNN cho PoseConv3D .47 2.1 C3D .48 2.2 X3D 50 2.3 SlowOnly .52 3 Kết hợp các kiến trúc 53 C Áp dụng trên bài toán phát hiện hành vi gian lận trong phòng thi 55 1 Chuẩn bị dữ liệu 56 2 Tiến hành đào tạo mô hình 59 3 Kết quả và đánh giá mô hình .59 D Xây dựng ứng dụng 60 CHƯƠNG III KẾT LUẬN 62 A Ưu điểm của việc áp dụng PoseConv3D 62 B Hạn chế của PoseConv3D .62 C Hướng mở rộng .62 TÀI LIỆU THAM KHẢO 63 7 Mục lục hình ảnh Hình 1: Kiến trúc GCN .15 Hình 2: Kiến trúc 3D-CNN cơ bản 15 Hình 3: Luồng xử lý của Alpha-Pose - Mô hình sử dụng phương pháp Top-down Pose Estimation 19 Hình 4: Luồng hoạt động của Open-Pose - một mô hình Bottom-up Pose Estimation 19 Hình 5: Kiến trúc Faster R-CNN 20 Hình 6: Region proposal network (RPN) 21 Hình 7: Kiến trúc Fast R-CNN 22 Hình 8: Kiến trúc HRNet 23 Hình 9: Minh họa cách kết hợp thông tin ngữ nghĩa giữa các đặc trưng độ phân giải cao, trung bình và thấp 24 Hình 10: Ví dụ cho 3D joint heatmap volume và 3D limb heatmap volume 26 Hình 11: Mô tả kĩ thuật Subject-Centered Cropping 26 Hình 12: So sánh hiệu suất của Fix-Stride Sampling và Uniform Sampling 27 Hình 13: Mô tả kỹ thuật Uniform Sampling 27 Hình 14: Kiến trúc mạng C3D 28 Hình 15: Kiến trúc mạng SlowOnly 29 Hình 16: Kiến trúc mạng X3D 29 Hình 17: Bộ dữ liệu FineGYM 30 Hình 18: Bộ dữ liệu NTURGB+D 31 Hình 19: Bộ dữ liệu Kinetics400 31 Hình 20: Bộ dữ liệu Volleyball 32 Hình 21: Cấu hình GPU tối thiểu .34 Hình 22: Hàm Cross-Entropy 35 Hình 23: Công thức tính Accuracy 35 Hình 24: Công thức tính FLOPs .36 Hình 25: Kiến trúc ResNet50 38 Hình 26: Kiến trúc Faster R-CNN 39 Hình 27: Những Anchor có kích thước khác nhau 40 Hình 28: Kiến trúc cơ bản của Fast R-CNN .41 Hình 29: Region Proposal Network trong bài toán Object Detection 42 Hình 30: Hàm Loss Smooth-L1 .42 Hình 31: Kiến trúc Faster R-CNN cho module Human Detection 43 Hình 32: Bộ dữ liệu COCO 43 Hình 33: Loss function trên tập train và val .44 Hình 34: Kiến trúc HRNet-w32 được sử dụng 46 Hình 35: Khác nhau giữa tích chập 3D và 2D 48 Hình 36: C3D 49 Hình 37: Hiệu suất của C3D trên bộ UCF101 50 Hình 38: Kiến trúc mạng X3D 51 Hình 39: So sánh X3D với SOTA trên bộ Kinetics400-val và test 51 Hình 40: So sánh biến thể của X3D với SOTA của bộ Kinetics-600 .52 Hình 41: So sánh các biến thể của X3D và SOTA của bộ AVA .52 Hình 42: Kiến trúc mạng SlowOnly 52 Hình 43: So sánh hiệu suất của SlowOnly, FastOnly và kết hợp hai phương thức 53 Hình 44: Kiến trúc tổng hợp cơ bản của PoseConv3D 53 Hình 45: Visualization của những heatmap 54 Figure 46: Ví dụ về c7sav-heatmap 54 Hình 47: Luồng của dữ liệu khi đi qua Faster R-CNN .56 8 Hình 48: Một ví dụ về Pose Estimation 57 Hình 49: Kết quả Pose Estimation của HRNet 57 Hình 50: 3D Heatmap Volumes 58 Hình 51: Hiệu suất phần cứng trong quá trình training 58 Hình 52: Các thông số trong quá trình training 59 Hình 53: Đường cong accuracy của PoseConv3D được train trên tập NTU-120 59 Hình 54: Một kết quả dự đoán trong một video mẫu .60 Hình 55: Một kết quả khác khi đối tượng thay đổi hành động 61 Hình 56: Kết quả của mô hình PoseConv3D nguyên bản 61 9 DANH MỤC VIẾT TẮT STT Mô tả Ý nghĩa Ghi chú 1 CNN Convolutional Neural Mạng Neural tích chập Networks 2 SOTA State-of-the-art Tiên tiến nhất 3 Faster R-CNN Faster Region-based Mạng tích chập dựa Convolutional Neural trên vùng Networks 4 GCN Graph Convolutional Mạng tích chập đồ thị Networks 5 SPPE Single Person Pose Nhận diện tư thế một Estimation người 6 Accuracy Độ chính xác 7 Param Parameter Tham số 8 FLOPs floating point Giá trị thường được sử operations dụng để thể hiện độ phức tạp của thuật toán 9 GPU Graphics processing unit 10 NMS Non Maximum Suppresion 11 RoI Region of Interest 10

Ngày đăng: 24/03/2024, 10:57

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w