Nghiên cứu phát triển các thuật toán nhận dạng cử chỉ hành động ứng dụng cho nhà thông minh

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu phát triển thuật toán nhận dạng cử hành động ứng dụng cho nhà thông minh PHÙNG NGỌC TÂN Ngành: Kỹ thuật viễn thông Giảng viên hướng dẫn: TS Trần Mạnh Hoàng Viện: Điện tử - Viễn thông HÀ NỘI, 6/2021 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu phát triển thuật toán nhận dạng cử hành động ứng dụng cho nhà thông minh PHÙNG NGỌC TÂN Ngành: Kỹ thuật viễn thông Giảng viên hướng dẫn: TS Trần Mạnh Hoàng Chữ ký GVHD Viện: Điện tử - Viễn thông HÀ NỘI, 6/2021 LỜI CẢM ƠN Sau thời gian học tập thực đề tài luận văn tốt nghiệp, đến tơi hồn thành luận văn thạc sĩ khoa học thuộc chuyên ngành Kỹ thuật viễn thông với đề tài “Nghiên cứu phát triển thuật toán nhận dạng cử hành động ứng dụng cho nhà thông minh” Tôi xin chân thành cảm ơn giúp đỡ tận tình, yêu thương đến từ thầy Viện Điện, đặc biệt thầy hướng dẫn khoa học tơi TS Trần Mạnh Hồng Xin chúc thầy, cô luôn mạnh khỏe, nhiệt huyết để dạy bảo hệ sinh viên, học viên thành tài Chúc người sức khỏe thành công Xin trân trọng cảm ơn! Hà Nội, ngày tháng năm 2021 Tác giả Phùng Ngọc Tân MỤC LỤC Chương I: Giới thiệu chung 1.1 Giới thiệu chung 1.2 Bài toán nhận dạng cử 1.2.1 Ngôn ngữ cử tương tác người - máy .3 1.2.2 Phân tích tốn nhận dạng cử điều khiển nhà thông minh 1.2.3 Các kỹ thuật nhận dạng .6 1.2.4 Những vấn đề đặt .7 1.3 Ý tưởng xây dựng hệ thống kỹ thuật sử dụng 1.4 Các kỹ thuật đề xuất 11 1.4.1 Kỹ thuật phát đối tượng 11 1.4.2 Kỹ thuật bám đối tượng 12 1.4.3 Kỹ thuật phân loại đối tượng 13 1.5 Kết luận 13 Chương II: Cơ sở lý thuyết 14 2.1 Ảnh số xử lý ảnh số 14 2.1.1 Các loại ảnh số .14 2.1.2 Xử lý ảnh số 16 2.1.3 Các ví dụ kỹ thuật xử lý ảnh 18 2.1.4 Các phép toán xử lý ảnh .19 2.2 Thị giác máy tính .22 2.3 Trí tuệ nhân tạo, học máy học sâu 25 2.4 Kỹ thuật phát phân vùng đối tượng 27 2.4.1 Phương pháp mô tả đặc trưng HOG .27 2.4.2 Mơ hình SVM .31 2.4.3 Kỹ thuật kim tự tháp, cửa sổ trượt triệt tiêu không cực đại 38 i 2.5 Kỹ thuật bám đối tượng theo thời gian thực 41 2.6 Kỹ thuật phân loại, định dạng đối tượng 42 2.6.1 Giới thiệu mạng nơ-ron tích chập 42 2.6.2 Bài toán phân loại ảnh 43 2.6.3 Cấu trúc CNN 44 2.7 Kết luận 50 Chương III: Xây dựng chương trình nhận dạng cử 51 3.1 Các công cụ 51 3.1.1 Ngơn ngữ lập trình Python 51 3.1.2 Cơng cụ lập trình 51 3.1.3 Các thư viện hỗ trợ 52 3.2 Quá trình thực 53 3.2.1 Tiền xử lý 54 3.2.2 Xây dựng tập mẫu huấn luyện 56 3.2.3 Huấn luyện mơ hình phát tư bắt đầu 60 3.2.4 Huấn luyện mơ hình nhận dạng cử 61 3.3 Xây dựng chương trình 63 3.4 Kết luận 63 Chương IV: Kết thử nghiệm chương trình 65 4.1 Kết phát tay người 65 4.2 Kết nhận dạng tư 65 4.3 Kết nhận dạng cử chương trình 67 4.4 Đánh giá kết 67 Kết luận hướng phát triển 68 TÀI LIỆU THAM KHẢO 69 ii Danh mục ký hiệu, chữ viết tắt Ký hiệu, Tên đầy đủ viết tắt AI Artificial Intelligence AOI Automated Optical Inspection CLAHE CNN Contrast Limited Adaptive Histogram Equalization Convolutional Neural Network Giải thích Trí tuệ nhân tạo Hệ thống kiểm tra quang học tự động Cân biểu đồ histogram thích ứng có giới hạn độ tương phản Mạng thần kinh tích chập Central Processing Unit Bộ xử lý trung tâm Channel and Spatial Theo dõi độ tin cậy kênh Reliability Tracking không gian Generic Object Tracking Theo dõi đối tượng mạng Using Regression Networks hồi quy GPU Graphics Processing Unit Bộ xử lý hình ảnh HCI Human–computer interaction Tương tác người - máy Histogram of Oriented Đặc trưng hướng cường độ Gradients biến thiên mức xám KCF Kernelized Correlation Filter Bộ lọc tương quan Kernelized MIL Multiple instance learning Học nhiều trường hợp CPU CSRT GOTURN HOG Modified National Institute of MNIST Standards and Technology database MOSSE Một sở liệu lớn chứa chữ số viết tay Minimum Output Sum of Tổng kết tối thiểu bình Squared Error phương lỗi iii MRI Magnetic Resonance Imaging Ảnh chụp cộng hưởng từ Thuật toán chọn kết tốt NMS Non-maximum Suppression (trong phát đối tượng) ORC RGB ROI SIFT Optical Character Recognition Nhận dạng ký tự quang học Red - Green - Blue color Mô hình màu dựa ánh sáng model đỏ, xanh lục xanh lam Region Of Interest Vùng quan tâm Scale-invariant feature Thuật tốn mơ tả đặc trưng đối transform tượng David Lowe Phương pháp phát đối SSD Single Shot Detector SVM Support-vector machine Máy vector hỗ trợ Tracking – Learning – Theo dõi - Học tập - Phát TLD YOLO Detection You only look once tượng SSD Phương pháp phát đối tượng YOLO iv Danh mục bảng Bảng Kết đào tạo mẫu phân loại tư 63 Bảng Kết thử nghiệm phát đối tượng 65 Bảng Kết thử nghiệm nhận dạng tư 66 Bảng Kết thử nghiệm nhận dạng cử .67 v Danh mục hình vẽ, đồ thị Hình 1.1 Tương tác người – người tương tác người – máy Hình 1.2 Các cử điều khiển Hình 1.3 Quá trình nhận dạng cử Hình 1.4 Thuật toán nhận dạng cử kỹ thuật áp dụng 10 Hình 2.1 Hệ thống xử lý ảnh số 16 Hình 2.2 Cân biểu đồ mức xám [25] 21 Hình 2.3 Ảnh gốc (trái) ảnh Lọc Gaussian (phải) 22 Hình 2.4 Ứng dụng thị giác máy tính nhận dạng biển số xe [26] 24 Hình 2.5 Ứng dụng thị giác máy tính kiểm tra bảng mạch điện tử tự động (AOI) [27] 25 Hình 2.6 Mạng nơ-ron nhân tạo 27 Hình 2.7 Các bước tính tốn đặc trưng HOG 28 Hình 2.8 Minh họa tính tốn giá trị “vector gradient” [28] 29 Hình 2.9 Hình minh họa cho chia khối chồng lấp [29] 30 Hình 2.10 Minh họa cho HOG ô với p = [28] 31 Hình 2.11 Ví dụ liệu cần phân loại đơn giản 32 Hình 2.12 Ánh xạ liệu từ khơng gian hai chiều sang ba chiều 33 Hình 2.13 Các siêu phẳng khơng gian chiều 34 Hình 2.14 Trường hợp có điểm gây nhiễu tập liệu khơng xác 36 Hình 2.15 Điều kiện khơng gian liệu phi tuyến 37 Hình 2.16 Kim tự tháp hình ảnh với mức thu phóng [30] 39 Hình 2.17 Kết xử lý trước (trái) sau (phải) áp dụng NMS [31] 40 Hình 2.18 Sơ đồ khối trình bám đối tượng phương pháp KCF 42 Hình 2.19 Hình ảnh thực tế ảnh số máy thu [32] 44 Hình 2.20 Cấu trúc mơ hình CNN 45 Hình 2.21 Ví dụ lớp tích chập 46 Hình 2.22 Bộ lọc phát góc, cạnh 47 Hình 2.23 Quá trình xử lý lớp tích chập 48 vi Hình 2.24 Ví dụ lớp gộp 49 Hình 3.1 Lưu đồ thuật toán nhận dạng cử .54 Hình 3.2 Hình ảnh trước sau cân histogram thích ứng 56 Hình 3.3 Hình ảnh trước sau lọc trung vị 56 Hình 3.4 Tập ảnh chứa mẫu tay vị trí khác .58 Hình 3.5 Đánh giá kết xây dựng mẫu huấn luyện 58 Hình 3.6 Mẫu huấn luyện nhận dạng tư tay hướng lên 59 Hình 3.7 Ví dụ kết huấn luyện với thay đổi tham số C .60 Hình 3.8 Mơ hình CNN cho tốn nhận dạng cử 62 Hình 4.1 Ví dụ kết khơng nhận dạng tư 67 vii Hình 3.4 Tập ảnh chứa mẫu tay vị trí khác Ví dụ nội dung tệp chứa thơng tin tên file vùng ROI tương ứng: “0:(6,0,196,190),1:(12,0,202,190),2:(18,0,208,190),3:(24,0,214,190),4: (30,0,220,190),5:(36,0,226,190),6:(42,0,232,190),7:(48,0,238,190),8:(5 4,0,244,190),9:(60,0,250,190),10:(66,0,256,190), ” Sau thực chọn ngẫu nhiên số ảnh kiểm tra vị trí lưu tệp,từ đánh giá chất lượng mẫu khớp với ROI hay chưa Hình 3.5 Đánh giá kết xây dựng mẫu huấn luyện 58 Như vậy, xây dựng tập liệu nhận dạng, thực thêm nhiều lần ảnh khác ánh sáng thay đổi để tăng độ đa dạng cho tập liệu • Xây dựng tập mẫu huấn luyện nhận dạng Đối với tập mẫu huấn luyện nhận dạng, tác giả thực với ý tưởng tương tự mẫu huấn luyện phát hiện, thay đổi đầu lưu trữ file hình ảnh vùng ROI cắt từ khung hình Hình 3.6 Mẫu huấn luyện nhận dạng tư tay hướng lên Tăng số lần thực thay đổi môi trường thực để có kết mẫu ảnh đa dạng Do tập liệu đào tạo cho phát phân loại có hạn, tác giả xây dựng chương trình với tư bắt đầu tư kết thúc, đại diện cho cử động 59 Thực đủ chương trình với tư bắt đầu kết thúc, kết thu bốn tập liệu tương ứng với tư bắt đầu tư kết thúc cử Tác giả sử dụng chương trình để xây dựng tập liệu tương ứng với tư thế: xòe tay hướng lên, hướng sang trái, hướng sang phải nắm tay Mỗi tập liệu chứa 600 ảnh đặc trưng 3.2.3 Huấn luyện mơ hình phát tư bắt đầu Để thực huấn luận mơ hình phát hiện, tác giả sử dụng kỹ thuật HOG kết hợp với SVM hỗ trợ thư viện dlib với liệu đầu vào là: - Tập ảnh mẫu, phần tử: cấu trúc danh sách ma trận đại diện cho hình ảnh - Danh sách vùng ROI tương ứng với ảnh trên, phần tử: cấu trúc danh sách đối tượng dạng dlib.rectangle - Tham số với điều kiện 𝐶𝐶 > 0, trình bày phần 2.4.2, giá trị C nhỏ sai lệch cho phép lớn, dẫn tới đào tạo chưa khớp (Underfitting), C lớn, sai số cho phép nhỏ, gây mơ hình q phức tạp (Overfitting) Vì cần chọn tham số C phù hợp Underfitting Fit Overfitting Hình 3.7 Ví dụ kết huấn luyện với thay đổi tham số C 60 Lưu ý độ dài mảng tập ảnh mẫu độ dài mảng vùng ROI Trong tập lệnh tự xây dựng, tác giả tiến hành thử nghiệm chọn thông số 𝐶𝐶 = phù hợp Thực kiểm tra lại kết đào tạo tập mẫu kiểm tra (không sử dụng cho huấn luyện) cho kết sau: Training Metrics: precision: 1, recall: 0.995825, average precision: 0.996823 Như kết đào tạo tương đối tốt Kết lưu trữ dạng file *.svm để sử dụng phát 3.2.4 Huấn luyện mơ hình nhận dạng cử Đầu tiên tác giả thực xây dựng liệu từ tập ảnh tạo từ trước gồm thư mục cho tư thế, liệu đọc từ thư mục gắn nhãn tương ứng Kết tập liệu thu có dạng mảng với số lượng phần tử số lượng ảnh mẫu, phần tử có cấu trúc gồm ma trận mơ tả hình ảnh nhãn mơ tả tư có ảnh mẫu Q trình huấn luyện sử dụng thư viện tensorflow.keras để xây dựng mô hình Qua trình thử nghiệm huấn luyện với nhiều kiểu kết cấu mơ hình với số lượng kích thước lớp: • dense_layers thử nghiệm với số lượng 0, 1, • layer_sizes thử nghiệm với kích thước 32, 64, 128 • conv_layers thử nghiệm với số lượng 1, 2, Sau trình thử nghiệm với thơng số mơ đánh giá kết đào tạo với thông số tốt sau 300 lần đưa tập liệu vào mơ hình đào tạo: - Độ sai lệch đào tạo (Loss): 2.67 × 10−8 - Độ xác đào tạo (Accuracy): - Độ sai lệch kiểm tra (Validation loss): 9.92 × 10−7 - Độ xác kiểm tra (Accuracy): 61 Từ đó, tác giả lựa chọn mơ hình tối ưu với: - lớp Conv2D với kích thước 32, 64, 128, với hàm kích hoạt Relu, tương ứng lớp MaxPooling2D - lớp Flatten, - Đầu lớp Dense kích thước 128 cuối lớp Dense kích thước Như hình ảnh đầu vào có đầu mảng giá trị tương ứng với xác suất phân loại Dưới phần mơ tả mạng nơron Conv2D_1 Hình ảnh đầu vào Filters: 32 Kernel_size: 3x3 Strides: (1,1) Activation: ReLU Conv2D_2 Filters: 64 Kernel_size: 3x3 Strides: (1,1) Activation: ReLU Conv2D_3 Filters: 128 Kernel_size: 3x3 Strides: (1,1) Activation: ReLU MaxPooling 2D_1 Pool_size: 3x3 Strides: (3,3) Dense Units: 128 Activation: ReLU Flatten layer MaxPooling 2D_2 Pool_size: 3x3 Strides: (3,3) Kết xác suất cho mẫu Dense Units: Activation: softmax MaxPooling 2D_3 Pool_size: 3x3 Strides: (3,3) Hình 3.8 Mơ hình CNN cho toán nhận dạng cử Kết sau thực huấn luyện với tham số epoch (số lần đưa liệu vào mạng neural) 300 bảng 3.1: 62 Time for Epoch step Loss Accuracy Val_loss Val_accuracy 1/300 21ms/step 1.2469 0.5143 0.7816 0.7944 2/300 13ms/step 0.3194 0.9155 0.0726 0.9861 3/300 14ms/step 0.0568 0.9881 0.0281 0.9944 298/300 15ms/step 2.75E-08 1.00E-06 299/300 15ms/step 2.72E-08 9.98E-07 300/300 15ms/step 2.67E-08 9.92E-07 … … Bảng Kết đào tạo mẫu phân loại tư Trong đó: Loss độ sai lệch dự đốn thực tế (tập mẫu đào tạo); Accuracy tỷ lệ xác dự đốn thực tế (tập mẫu đào tạo); Val_accuracy tỷ lệ xác dự đốn thực tế (tập mẫu kiểm tra); Val_loss độ sai lệch dự đoán thực tế (tập mẫu kiểm tra); Kết huấn luyện với số val_loss nhỏ, việc đào tạo mơ hình hồn thành cho kết tương đối tốt 3.3 Xây dựng chương trình Như từ kết phần trên, thực phần thuật toán Bước cuối phối hợp thuật tốn vào khung hình thời gian thực từ webcam mà máy tính thu Việc kết hợp thuật toán làm gia tăng đáng kể thời gian xử lý, chương trình khơng thực phát đối tượng liên tục, tác giả thực mức ba khung hình tiến hành tìm kiếm tư lần Vẫn đảm bảo tốc độ cần thiết mà độ nhạy đảm bảo 3.4 Kết luận Trên bước xây dựng chương trình mơ máy tính với hy vọng mang lại kết tính tốn mức tương đối, thực tế nhiều đề cần phải giải Trong phạm vi luận văn này, tác 63 giả tập trung vào thuật tốn xử lý chính, cịn nhiều vấn đề phải giải muốn xây dựng ứng dụng thực tế phối hợp với ứng dụng khác nhà thông minh áp dụng với phần cứng phù hợp kết tốt mà giá thành không cao, tiết kiệm q trình tính tốn 64 CHƯƠNG IV: KẾT QUẢ THỬ NGHIỆM CHƯƠNG TRÌNH Phần mơ thử nghiệm thực máy tính cá nhân có cấu hình CPU Core i5 4310 với tốc độ GHz không sử dụng GPU Tác giả thử nghiệm cách sử dụng webcam để thu nhận hình ảnh cho máy tính, với khung hình nhận được, phần mềm tiến hành tìm kiếm, phát xuất tay người Mỗi phát tay người, phần mềm liên tục bám đối tượng tiến hành phân loại, nhận dạng cử bắt đầu kết thúc để đưa kết luận Kịch tác giả mô phỏng: người sử dụng giơ tay lên trạng thái bắt đầu cử chỉ, chờ khoảng 0.5 đến giây, trường hợp không phát cử bắt đầu giây tính lỗi Sau cử động tay trạng thái kết thúc cử khoảng 0.5 đến giây, trường hợp không xác định cử xác định sai cử giây tính lỗi 4.1 Kết phát tay người Tác giả thực đánh giá lại kết trình phát mục tiêu HOG SVM sử dụng nhiều tập ảnh với nhiều khác Tập ảnh chưa ảnh chứa bàn tay kích thước vị trí khác Trạng thái phát bàn tay cử bắt đầu cử động (trong toán trạng thái bàn tay hướng lên) Tư Bàn tay hướng lên Số lượng Phát sai Không phát mẫu đối tượng đối tượng phát 1000 85 Thời gian Độ 0.0635 xác 91.00% Bảng Kết thử nghiệm phát đối tượng 4.2 Kết nhận dạng tư Theo mơ hình CNN xây dựng trên, đầu phân loại mảng phần tử, phần tử đại diện cho nhãn phân loại, 65 phần tử có giá trị từ đến Khi giá trị đại diện nhãn gần kết phân loại có khả cao nhãn Tác giả chọn mức giới hạn 0.85, nghĩa nhãn chọn mức giá trị tương ứng lớn tập giá trị lớn 0.85 Trường hợp khơng có nhãn có giá trị tương ứng lớn 0.85, kết tính khơng thể nhận dạng Trường hợp có nhãn có giá trị tương ứng lớn 0.85 không nhãn xác định từ trước kiểm tra, kết tính nhận dạng sai Tư Bàn tay nắm lại Bàn tay hướng lên Số lượng Nhận dạng Khơng xác Thời gian Độ mẫu sai tư định tư phát xác 1000 2 0.0694 99.60% 1000 0.0722 99.50% 1000 0.0665 98.9% 1000 0.0673 99.30% Bàn tay hướng sang trái Bàn tay hướng sang phải Bảng Kết thử nghiệm nhận dạng tư Hình 4.1 ví dụ cho trường hợp khơng nhận dạng tư thế, hình ảnh thuộc tập hợp hình ảnh bàn tay nắm lại phần mềm nhận dạng cho thấy kết mảng xác suất [ 0.845; 0.155; 1.25 × 10−10 ; 3.74 × 10−4 ] , tương ứng với mức xác suất cho trạng thái tay nắm lại 0.845 < 0.85 Vì kết nhận dạng khơng xác định tư 66 Hình 4.1 Ví dụ kết khơng nhận dạng tư 4.3 Kết nhận dạng cử chương trình Thực nhận dạng cử webcam thời gian thực, với cấu hình máy tính mức độ trung bình, tốc độ xử lý ảnh đạt mức tiệm cận thời gian thực Cử Số lần thử Nhận dạng Khơng nhận Độ nghiệm dạng cử xác Chuyển trạng sai cử thái (bật/tắt) 30 93.33% Tăng 30 86.67% Giảm 30 90.00% Bảng Kết thử nghiệm nhận dạng cử 4.4 Đánh giá kết Tập mẫu cử thực nghiệm nhiều hạn chế nên chưa đánh giá hồn tồn xác hiệu phương pháp tác giả đề xuất, nhiên đánh giá thơng qua độ xác bước phát tư tay nhận dạng tư bắt đầu, kết thúc cử Dựa vào kết trên, cho thấy chương trình hoạt động theo yêu cầu toán nội dụng thực trình bày đầy đủ báo cáo Ngoài ra, cần phải tối ưu phần cứng cho phù hợp với thuật tốn, với chất lượng tốc độ camera cần phù hợp 67 Kết luận hướng phát triển Để mang lại hiệu cao vào áp dụng phương pháp vào thực tiễn, cịn cần cải tiến nhiều, khơng kỹ thuật áp dụng mà tập mẫu liệu cần đa dạng hơn, gần với người dùng Cùng với đó, để áp dụng phương pháp cho nhà thông minh, cần xây dựng hệ thống đồng bộ, đó, phương pháp ứng dụng cần thiết xử lý trung tâm, kết hợp nhận dạng giọng nói nhiều loại cử hơn, xử lý cảm biến điều khiển toàn nhà giúp thuận tiện cho người sử dụng Hơn nữa, hướng tới cử mở cho người sử dụng, nghĩa hoạt động xây dựng liệu đào tạo mơ hình thực ngày phía người dùng cho kết sát thực tế xác cho môi trường sử dụng Cụ thể, người sử dụng tự định nghĩa cử cách thiết lập qua camera cách đơn giản, thân thiện Hệ thống phải đảm bảo học tập nhanh xác cử người dùng, hướng giải quan tâm tới ứng dụng phần cứng, ví dụ sử dụng công nghệ mạng nơ ron tế bào (được sử dụng xử lý Cellular Nonlinear Network) Điều thiết thực tiết kiệm xử lý xử lý thực phép toán song song, cho tốc độ nhanh nhiều, đặc biệt xử lý ảnh Trong trình nghiên cứu xây dựng chương trình, tác giả tiếp thu thêm kiến thức mới, xây dựng kiến thức tảng cho toán nhận dạng cử nói riêng tốn nhận dạng ảnh nói chung Qua đó, phát triển đề tài tương lai với hướng tiếp cận mới, mà hướng tiếp cận phát triển từ kiến thức tảng tích lũy thời gian làm đề tài 68 TÀI LIỆU THAM KHẢO [1] Wehle, Hans-Dieter, "Machine Learning, Deep Learning, and AI: What’s the Difference?.," in Data Scientist Innovation Day, 2017 [2] M Hearst, S Dumais, E Osuna, J Platt and B Scholkopf, "Support vector machines," IEEE Intelligent Systems and their Applications, vol 13, no 4, pp 18 - 28, 1998 [3] P Viola and M Jones, "Robust real-time face detection," Proceedings Eighth IEEE International Conference on Computer Vision ICCV 2001, vol 2, p 747–747, 2001 [4] D Lowe, "Object recognition from local scale-invariant features," Proceedings of the Seventh IEEE International Conference on Computer Vision, vol 2, p 1150–1157, 1999 [5] H.-J L a J.-H Chung, "Hand gesture recognition using orientation histogram," Proceedings of IEEE IEEE Region 10 Conference TENCON 99 ’Multimedia Technology for Asia-Pacific Information Infrastructure, vol 2, pp 1355-1358, 1999 [6] Ross, Girshick, "Rich feature hierarchies for accurate object detection and semantic segmentation," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, p 580–587, 2014 [7] R Girschick, "Fast R-CNN," Proceedings of the IEEE International Conference on Computer Vision, p 1440–1448, 2015 [8] Shaoqing, Ren, "Faster R-CNN," Advances in Neural Information Processing Systems, 2015 [9] D A D E C S S R C.-Y F Wei Liu, "Ssd: Single shot multibox detector," in European Conference on Computer Vision (ECCV), 2016 [10] J Redmon, "You only look once: Unified, real-time object detection," Proceedings of the IEEE Conference on Computer Vision and Pattern 69 Recognition, 2016 [11] S Zhang, "Single-Shot Refinement Neural Network for Object Detection," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, p 4203–4212, 2018 [12] T.-Y Lin, "Focal Loss for Dense Object Detection," IEEE Transactions on Pattern Analysis and Machine Intelligence, p 318– 327, 2020 [13] L Breiman, "Bias, variance, and arcing classifiers," Technical Report 460, Statistics Department, University of California, Tech Rep, 1996 [14] L Dalei, L Ruitao, and Y Xiaogang, "Object tracking based on kernel correlation filter and multi-feature fusion," Chinese Automation Congress (CAC), p 4192–4196, 2019 [15] Dattathreya, S Han, M.-j Kim, V Maik, and J Paik, "Keypoint-based object tracking using modified median flow," IEEE International Conference on Consumer Electronics-Asia (ICCE-Asia), pp 1-2, 2016 [16] C Wang, H K Galoogahi, C.-H Lin, and S Lucey, "Deep-lk for efficient adaptive object tracking," IEEE International Conference on Robotics and Automation (ICRA), p 627–634, 2018 [17] D S Bolme, J R Beveridge, B A Draper, and Y M Lui, "Visual object tracking using adaptive correlation filters," 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, p 2544–2550, 2010 [18] F Feng, X.-J Wu, and T Xu, "Object tracking with kernel correlation filters based on mean shift," 2017 International Smart Cities Conference (ISC2), pp 1-7, 2017 [19] Manjunatha, B P Pradeep Kumar and M B., "A Hybrid Gesture Recognition Method for American Sign Language," Indian Journal of 70 Science and Technology, vol 10, 2017 [20] G Yadav, S Maheshwari and A Agarwal, "Contrast limited adaptive histogram equalization based enhancement for real time video system," 2014 International Conference on Advances in Computing, Communications and Informatics (ICACCI), pp 2392-2397, 2014 [21] Huang, Thomas S.; Yang, George J.; Tang, Gregory Y, "A fast twodimensional median filtering algorithm," IEEE Transactions on Acoustics, Speech, and Signal Processing., p 13–18, 1979 [22] C H Lampert, M B Blaschko and T Hofmann, "Beyond sliding windows: Object localization by efficient subwindow search," 2008 IEEE Conference on Computer Vision and Pattern Recognition, pp 18, 2008 [23] J Hosang, R Benenson and B Schiele, "Learning Non-maximum Suppression," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 6469-6477, 2017 [24] S Albawi, T A Mohammed and S Al-Zawi, "Understanding of a convolutional neural network," International Conference on Engineering and Technology (ICET), pp 1-6, 2017 [25] Khalifa, Tariq & Şengül, Gökhan, "The Integrated Usage of LBP and HOG Transformations and Machine Learning Algorithms for Age Range Prediction from Facial Images," Tehnicki Vjesnik, vol 25, pp 1356-1362, 2018 [26] Nguyen, Quang, "Detect and Recognize Vehicle’s License Plate with Machine Learning and Python," Apr 11, 2020 [Online] Available: https://medium.com/@quangnhatnguyenle/795fda47e922 [Accessed Jun, 2021] [27] PCB Directory, "What is Automated Optical Inspection (AOI)?," Sep 15, 2019 [Online] Available: 71 https://www.pcbdirectory.com/community/what-is-automated-opticalinspection [Accessed Jun, 2021] [28] Hải Hà, "Tìm hiểu phương pháp mơ tả đặc trưng HOG (Histogram of Oriented Gradients)," 2019 [Online] Available: https://viblo.asia/p/V3m5WAwxZO7 [Accessed 2021] [29] Aishwarya Singh, "Analytics Vidhya," [Online] Available: https://www.analyticsvidhya.com/blog/2019/09/feature-engineeringimages-introduction-hog-feature-descriptor/ [Accessed 4/ 9/ 2019] [30] Adrian Rosebrock, "Image Pyramids with Python and OpenCV," 03/2015 [Online] Available: https://www.pyimagesearch.com/2015/03/16/image-pyramids-withpython-and-opencv/ [Accessed 06/2021] [31] V Prisacariu and I Reid, "fastHOG-a real-time GPU implementation of HOG.," 2011 [32] Neves, António & Barbosa, Bruno & Soares, Sandra & Dimas, Isabel., "Analysis of Emotions From Body Postures Based on Digital Imaging," 2018 [33] A & Z M & S R Bogdanchikov, "Python to learn programming," Journal of Physics Conference Series, vol 423, p 2027, 2013 72 ... HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu phát triển thuật toán nhận dạng cử hành động ứng dụng cho nhà thông minh PHÙNG NGỌC TÂN Ngành: Kỹ thuật viễn thông Giảng viên hướng dẫn: TS Trần... giả tiếp cận kỹ thuật lựa chọn kỹ thuật ứng dụng giải toán điều khiển cử cho ứng dụng nhà thông minh 1.1 Giới thiệu chung Ngày nay, khoa học kỹ thuật phát triển nhanh tạo điều kiện cho công nghệ... 1.2 Bài toán nhận dạng cử 1.2.1 Ngôn ngữ cử tương tác người - máy .3 1.2.2 Phân tích tốn nhận dạng cử điều khiển nhà thông minh 1.2.3 Các kỹ thuật nhận dạng .6

Định dạng
Số trang	83
Dung lượng	2,64 MB