Nhận dạng và dự đoán hành động của con người ứng dụng xử lý ảnh

ỦY BAN NHÂN DÂN TP.HCM TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THỦ ĐỨC NGHIÊN CỨU KHOA HỌC NĂM HỌC 2020 -2021 Tên đề tài: NHẬN DẠNG VÀ DỰ ĐOÁN HÀNH ĐỘNG CỦA CON NGƯỜI ỨNG DỤNG XỬ LÝ ẢNH Mã số: Chủ nhiệm đề tài: NGUYỄN THỊ PHONG TP Hồ Chí Minh, năm 2021 I ỦY BAN NHÂN DÂN TP.HCM TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THỦ ĐỨC NGHIÊN CỨU KHOA HỌC NĂM HỌC 2020 -2021 Tên đề tài: NHẬN DẠNG VÀ DỰ ĐOÁN HÀNH ĐỘNG CỦA CON NGƯỜI ỨNG DỤNG XỬ LÝ ẢNH Mã số: Chủ nhiệm đề tài: NGUYỄN THỊ PHONG TP Hồ Chí Minh, ngày 10 tháng năm 2021 II MỤC LỤC MỤC LỤC III DANH MỤC CHỮ VIẾT TẮT V DANH MỤC HÌNH ẢNH VI PHẦN MỞ ĐẦU 1 Lý chọn đề tài Mục đích nghiên cứu Đối tượng khách thể nghiên cứu Giả thuyết nghiên cứu Nhiệm vụ nghiên cứu Phương pháp nghiên cứu Phạm vi ảnh hưởng CHƯƠNG 1: CƠ SỞ LÝ LUẬN 1.1 Đặc trưng HOG 1.2 Đặc trưng HOG chuyển động 1.3 Mơ hình BoW (Bag of Words) 1.4 Máy vector hỗ trợ SVM (Support Vetor Machines) 11 1.4.1 Phân loại tuyến tính với lề cực đại (maximum-margin linear classifier) 12 1.4.2 Các điều kiện Karush-Kuhn-Tucker 14 1.4.3 Hàm phân loại tuyến tính với lề mềm cực đại (Soft Margin Classifiers) 14 1.4.4 Hàm nhân SVM phi tuyến (Kernel function and nonlinear SVMs) 14 CHƯƠNG 2: THỰC TRẠNG VÀ GIẢI PHÁP CỦA VẤN ĐỀ NGHIÊN CỨU 17 2.1 Thực trạng 17 2.2 Giải pháp 17 CHƯƠNG 3: KẾT QUẢ NGHIÊN CỨU 18 3.1 Sơ đồ bước thực 18 3.2 Trích rút đặc trưng không gian 18 3.3 Trích rút đối tượng chuyển động 19 III 3.4 Xây dựng từ điển đặc trưng BoW 20 3.5 Học tập có giám sát để dự đốn hành động 21 3.6 Đánh giá kết thực nghiệm 23 KẾT LUẬN VÀ KIẾN NGHỊ 28 DANH MỤC TÀI LIỆU THAM KHẢO 29 IV DANH MỤC CHỮ VIẾT TẮT ACF - Aggregated Channel Features BoW - Bag of Words HOG - Histogram of Oriented Gradients GMM - Gausian Mixture Model ROI - Region of Interest V DANH MỤC HÌNH ẢNH HÌNH TRANG Hình 1.1: Sơ đồ tổng quan trích rút đặc trưng HOG tĩnh HOG chuyển động qua cửa sổ phát SVM phân loại đối tượng Hình 1.2: Mơ tả tồn q trình trích rút đặc trưng HOG Hình 1.3: Sơ đồ tổng quan trích rút đặc trưng HOG tĩnh Hình 1.4: Sơ đồ tổng quan trích rút đặc trưng HOG chuyển động Hình 1.5: Các siêu phẳng phân chia tập mẫu thành hai lớp support vector SVM 11 Hình 1.6: Các siêu phẳng H+ H- SVM 13 Hình 3.1: Sơ đồ bước thực nhận dạng dự đoán hành động người 18 Hình 3.2: Trích rút đặc trưng khơng gian 19 Hình 3.3: Một vài hình ảnh hành động người video tập liệu chuẩn 23 Hình 3.4: Một vài kết dự đoán hành động người video 25 Hình 3.5: Ma trận nhầm lẫn kết dự đoán 26 VI PHẦN MỞ ĐẦU Lý chọn đề tài Trong thập kỷ qua, hệ thống tự động phát người, nhận dạng theo dõi hành động dùng rộng rãi nhiều lĩnh vực khác phát hoạt động người an ninh, camera giám sát phát người ứng dụng xe thông minh,… Ngày nay, hệ thống phát dự đoán hành động người dựa vào thị giác máy tính coi nhiệm vụ nhiều ứng dụng hệ thống đại, tiềm tác động đến nhiều hệ thống tình báo giám sát Công việc nhận dạng hành động người nhằm xác định số loại hành động người đưa với điều kiện ngữ cảnh cụ thể Đối tượng/con người phát từ vùng quan tâm cách phân tích kết cấu cấu trúc hình ảnh Sau thành phần chuyển động trích rút để nghiên cứu dự đốn hành động Hai nhiệm vụ quan trọng để phát dự đoán hành động Nghiên cứu phát hành động người dựa vào mơ tả đặc trưng, sau dùng giải thuật học máy để học đặc trưng lớp hành động Cuối nhận dạng, phát hành động người video dùng mơ hình huấn luyện Đề tài “Nhận dạng dự đoán hành động người ứng dụng xử lý ảnh” nghiên cứu nhận dạng dự đoán hành động người video dựa vào mô tả đặc trưng HOG (Histogram of Oriented Gradients), mơ hình huấn luyện SVM (Support Vector Machines) Mục đích nghiên cứu Mục đích đề tài nghiên cứu giải thuật, xây dựng chương trình dự đốn hành động người dùng mơ tả đặc trưng HOG máy phân loại SVM (Support Vector Machines) để nhận dạng dự đoán hành động người video Đối tượng khách thể nghiên cứu - Đối tượng nghiên cứu: Đề tài nghiên cứu mô tả đặc trưng HOG chuyển động, máy phân loại SVM (Support Vector Machines) giải thuật nhận dạng dự đốn hành động người dùng mơ tả đặc trưng HOG máy phân loại SVM (Support Vector Machines) - Khách thể nghiên cứu: Đề tài hướng đến nhận dạng đối tượng chuyển động phân loại hành động phổ biến với hỗ trợ phần mềm Matlab 2019b Đề tài sử dụng liệu chuẩn UCF101 (Soomro, Zamir, & Shah, 2012) [1] gồm 13.320 video 101 lớp hành động phổ biến Giả thuyết nghiên cứu Giải thuật nhận dạng dự đoán hành động người video nghiên cứu sẽ giúp hiểu nguyên lý tự động nhận dạng dự đoán hành động người thị giác máy tính hệ thống giám sát an ninh Nhiệm vụ nghiên cứu  Tìm hiểu lý thuyết trích rút đặc trưng HOG chuyển động  Xây dựng mô tả đặc trưng HOG chuyển động cho lớp hành động  Xây dựng chương trình trích rút đặc trưng HOG chuyển động huấn luyện mẫu SVM  Xây dựng chương trình xây dựng thực nghiệm dự đốn hành động người video  Tóm tắt nội dung viết báo cáo Phương pháp nghiên cứu  Phương pháp phân tích lý thuyết: Nghiên cứu tài liệu để tìm hiểu tổng quan vấn đề nghiên cứu; tìm hiểu phương pháp trích rút đặc trưng HOG chuyển động, xây dựng mô tả đặc trưng HOG chuyển động, phương pháp học máy SVM, huấn luyện phân loại hành động  Phương pháp thực nghiệm: Xây dựng chương trình nhận dạng dự đốn hành động người dùng mô tả đặc trưng HOG máy phân loại SVM Việc mô xử lý liệu kết thực phần mềm Matlab, phiên R2019b Phạm vi ảnh hưởng Đề tài nghiên cứu nghiên cứu xây dựng chương trình nhận dạng dự đoán hành động người video giới thiệu cho sinh viên Khoa Điện – Điện tử ứng dụng xử lý ảnh giám sát an ninh, lĩnh vực chuyên môn chuyên ngành kỹ thuật điện tử Chương 1: CƠ SỞ LÝ LUẬN 1.1 Đặc trưng HOG Đặc trưng HOG (Histograms of Oriented Gradients) tiếng Dalal Triggs [2] đưa năm 2005 loại công cụ mô tả đặc trưng phổ biến Với đặc trưng HOG, hình dáng tư đối tượng đặc trưng phân bố hướng gradient Đặc trưng HOG tính vùng, vùng sẽ cho vector đặc trưng Trong trường hợp đối tượng người, mô tả đặc trưng HOG đặc trưng tồn cục để mơ tả người Nghĩa người tồn vẹn mơ tả vector đặc trưng Không gian ảnh chuyển sang khơng gian vector để xử lí tính tốn đơn giản máy tính Ảnh vào Các ảnh liên tiếp Kênh chuyển động Kênh xuất Mã hóa HOG chuyển động Mã hóa HOG tĩnh Gom HOGs cửa sổ phát SVM tuyến tính Quyết định Đối tượng/khơng phải đối tượng Hình 1.1 Sơ đồ tổng quan trích rút đặc trưng HOG tĩnh HOG chuyển động qua cửa sổ phát SVM phân loại đối tượng [2] tính không gian Đặc biệt, cho F biểu thị không gian đặc trưng Φ biểu thị ánh xạ, đó: Φ : Rd → F Đối với vector đặc trưng gốc ( x  R d ) , vector đặc trưng chuyển đổi cho  (x) Nhãn y giữ nguyên Do đó, mẫu huấn luyện ( xi , yi ) trở thành (( xi ), yi ) Sau đó, ta tìm siêu phẳng khơng gian chuyển đổi F phân tách mẫu huấn luyện (( x1 ), y1 ) ,…, (( xn ), y n ) Nghĩa ta muốn tìm siêu phẳng không gian chuyển đổi F mà vector đặc trưng chuyển đổi ( xi ) nằm phía siêu phẳng nhãn yi= -1 ( xi ) nằm phía siêu phẳng nhãn yi= Điều đưa đến kết phân loại phi tuyến 16 Chương 2: THỰC TRẠNG VÀ GIẢI PHÁP CỦA VẤN ĐỀ NGHIÊN CỨU 2.1 Thực trạng nghiên cứu Cùng với yêu cầu phát triển xã hội, phát đối tượng, nhận dạng theo dõi hành động quan tâm nhiều năm gần Một số cơng trình liên quan:  Đề tài “Giám sát an ninh dùng kỹ thuật xử lý hình ảnh” tác giả Hồ Quốc Thiền (Khóa 2015A- ĐHSPKTTPHCM) [8] thực việc phát người ảnh đặc trưng kênh tổng hợp ACF (Aggregated Channel Features) kết hợp với thuật toán máy học Adaboost, theo dõi đối tượng, biểu thị đặc trưng hành động người phương pháp trích đặc trưng HOG, sau thơng qua vector hỗ trợ máy học SVM để phân loại loại hành động  Đề tài “Nhận dạng hành động người mạng học sâu 3D-CNN” tác giả Lê Công Hiếu 2018- ĐH Bách Khoa Đà Nẵng [9], nhận dạng hành động người dựa kỹ thuật học sâu mạng tích chập 3D-CNN lĩnh vực thị giác máy tính  Tác giả Hồng Văn Dũng – 2017 [10] nghiên cứu đa phân loại dựa đặc trưng khơng gian để dự đốn hoạt động phổ biến  Các tác giả nước nghiên cứu lĩnh vực nhận dạng hành động González đồng nghiệp (2015) [11], Ziaeefard Bergevin (2015) [12], Liu, Xu, Qing, Tao (2016) [13], Shi, Laganière, and Petriu (2016) [14], Stefic Patras (2016) [15] 2.2 Giải pháp nghiên cứu Đầu tiên, tác giả tìm hiểu sở lý thuyết trích rút đặc trưng HOG phân loại SVM cho hành động người Tiếp theo, tác giả nghiên cứu giải thuật nhận dạng dự đoán hành động người cuối thực nghiệm – đánh giá 17 Chương 3: KẾT QUẢ NGHIÊN CỨU 3.1 Sơ đồ thực Cơ sở liệu hành động Chuỗi hình ảnh Trích rút đối tượng Trích rút đặc trưng chuyển động đối tượng Huấn luyện BoW Trích rút đặc trưng Mơ hình BoW Phân loại Huấn luyện SVM Mơ hình SVM Dự đốn Phân loại Nhận biết hành động Đúng Trích rút vùng quan tâm(ROI) Vùng chứa người Sai Tiếp tục trình Hình 3.1 Sơ đồ bước thực nhận dạng dự đốn hành động người [10] 3.2 Trích rút đặc trưng không gian Đầu tiên, cần xác định vị trí đặc trưng, bao gồm cấu trúc phong phú để theo dõi tốt Các mô tả đặc trưng cục trích rút vị trí phát frame ảnh Sau đó, vị trí đặc trưng trích rút khoảng thời gian chu kỳ hành động (gần hơn) Vào cuối chu kỳ hành động, đặc trưng không gian xây dựng L frame liên tiếp Chúng đưa vào bước qui trình dự đốn hành động Trong đề tài này, việc trích rút đặc trưng dày đặc tạo cách tách cell theo nhiều cấp tỷ lệ khác Ảnh đầu vào chia thành cell với kích (cw, ch), cw, ch chiều rộng chiều cao cell Điểm quan tâm (POI) để trích rút đặc trưng gọi vị trí đặc trưng Nên loại bỏ vùng 18 đồng nội dung để trích rút vị trí đặc trưng mạnh để theo dõi chúng frame liên tiếp Các luồng quang dày đặc trích rút thuật tốn Farneback Farnebäck (2003) [16] Trong phương pháp đó, luồng quang hai ảnh liên tiếp tính tốn dựa khai triển đa thức Tập hợp điểm khoảng thời gian L frame chia thành n khoảng frame σt để trích xuất xây dựng mô tả đặc trưng Các mô tả đặc trưng n frame khoảng t thời gian biểu diễn dạng ghép nối đặc trưng khơng gian đặt, số σt định nghĩa ước số L frame Đặc trưng âm lượng định nghĩa phần tử σx × σy × (L / σt) Các kỹ thuật để trích rút mơ tả đặc trưng HOG tham khảo Dalal Triggs (2005) [2] Hình 3.2 Trích rút đặc trưng khơng gian 3.3 Trích rút đối tượng chuyển động Các thành phần chuyển động người tín hiệu quan trọng, thể hoạt động Trong đó, thành phần tĩnh thường khơng rõ ràng để dự đốn hành động Vì vậy, việc trích rút phận chuyển động, liên quan đến thể người quan trọng Trong công việc thu đối tượng từ ảnh liên tiếp 19 từ camera động, không dễ phân đoạn vùng chuyển động đối tượng quan tâm, phải đối mặt với hai loại chuyển động, thứ chuyển động độc lập, chuyển động đối tượng gây ra, thứ hai chuyển động từ chuyển động camera Vấn đề chuyển động camera giải cách sử dụng đặc tính luồng quang học để phân đoạn chuyển động độc lập đối tượng chuyển động dựa kỹ thuật bù chuyển động tự (Hariyono, Hoang, & Jo, 2014) [17] Để trích rút đối tượng chuyển động, kỹ thuật trừ (BS) áp dụng cho ROI Quá trình cho biết mẫu tiền cảnh chuyển động hay tĩnh Mơ hình bao gồm hai bước chính, khởi tạo cập nhật để thích ứng với cảnh thay đổi theo thời gian Giả sử tập hợp ROI liên tiếp (ROI tiền cảnh) r = {r1, r2,…, rn}, với kích thước ROI m × n Bước đầu tiên, mơ hình ban đầu B (x, y) cho mẫu, ≤ x ≤ m ≤ y ≤ n Bước thứ hai, mơ hình cập nhật cho frame rt, phân loại pixel(x, y) thành mẫu chuyển động Mt(x,y) mẫu tĩnh St(x,y) Nếu mẫu phân loại tĩnh, mẫu tĩnh S(x,y) cần cập nhật, gọi mơ hình Bm Các quy trình thường tiến hành theo nhiều cách tiếp cận 3.4 Xây dựng từ điển đặc trưng BoW Một phân loại dựa khung BoW thảo luận đề xuất để áp dụng nhằm phân biệt đặc tính giảm kích thước mơ tả đặc trưng Thơng thường, mơ tả cục có nhiều chiều tương quan chặt chẽ Đây thách thức lớn thời gian xử lý độ xác hệ thống Có số bước để xây dựng mơ hình BoW Các mơ tả đặc trưng khơng gian trích rút từ liệu video huấn luyện Tập hợp vectơ đặc trưng đưa vào để huấn luyện mơ hình từ điển đặc trưng BoW Trong thực nghiệm này, phương pháp học không giám sát đề xuất để thực nhiệm vụ Do nhiều tình hoạt động điều kiện mơi trường khác nhau, số lượng đặc trưng trích rút frame chu kỳ hành động khác 20 Công việc phân loại hỗ trợ để thống miền vectơ đặc trưng để đưa vào bước dự đốn 3.5 Học tập có giám sát để dự đoán hành động Dựa cách tiếp cận máy có giám sát để xử lý vấn đề dự đoán hành động, đề tài sử dụng kỹ thuật SVM để huấn luyện mơ hình hành động SVM chứng minh ứng dụng thành công nhiều lĩnh vực Ưu điểm kỹ thuật SVM khả trích lợi nhuận có tính phân biệt cao Cho tập huấn luyện, bao gồm D = {(yi, yi) | i = n}, υi vectơ đặc trưng thành phần mẫu ROI mẫu negative nhãn yi biểu thị lớp hành động cho yi∈ {miền hành động} Để áp dụng cho nhiều lớp hành động, nhiều phân loại nhị phân xử lý cấu trúc tầng Mục tiêu huấn luyện SVM giải siêu phẳng tối ưu hóa ban đầu để phân loại lợi lề cực đại cho lớp theo biểu thức 2.18 Thí nghiệm sử dụng hàm nhân kernel (RBF) Gaussian theo biểu thức 2.26 Khoảng cách có dấu vectơ đặc trưng υ đến lề siêu phẳng mơ hình SVM trình bày sau: ns h( )   y i i k ((i), ( ))  b (3.1) i 1 Xác suất đầu dự đoán hành động xây dựng dạng: ( )  P( y  1 )  1  exp(h( ))' (3.2) υ vectơ đặc trưng đại diện cho lớp hành động  Thư viện libSVM: Nhiều gói SVM có sẵn libSVM gói phổ biến hồn chỉnh Nó thư viện nguồn mở phát triển Đại học quốc gia Đài loan (National Taiwan University), ngôn ngữ C++ hỗ trợ phân loại Nó phần mềm miễn phí [18, 19] cho phép sử dụng phạm vi rộng ngôn ngữ Code chuyển thành ngôn ngữ matlab cho phân loại tham số cấu trúc  Dữ liệu huấn luyện test: 21 Một số tập liệu chuẩn đưa để làm liệu đánh giá kiểm tra liệu KTH (Schuldt, C., Laptev, I., & Caputo, B., 2004) [20], UCF101 (Soomro, Zamir, & Shah, 2012) [1] Hầu hết tập liệu liệu màu có nhiều thơng tin cho việc trích xuất đặc trưng Ngày này, mô tả đặc trưng cục thu hút nhiều nhà nghiên cứu Đề tài sử dụng liệu chuẩn UCF101 (Soomro, Zamir, & Shah, 2012) [1] gồm 13.320 video 101 lớp hành động phổ biến Các lớp hành động sau: '1ApplyEyeMakeup'; '5HeadMassage'; '2ApplyLipstick'; '6Typing'; '10BandMarching'; '14BenchPress'; '7Archery'; '11BaseballPitch'; '15Biking'; '3CuttingInKitchen'; '16Billiards'; '8BabyCrawling'; '4Haircut'; '9BalanceBeam'; '12Basketball'; '13BasketballDunk'; '17BlowDryHair'; '18BlowingCandles'; '19BodyWeightSquats'; '20Bowling'; '21BoxingPunchingBag'; '22BoxingSpeedBag'; '23BreastStroke'; '24BrushingTeeth'; '27CricketBowling'; '28CricketShot'; '32FieldHockeyPenalty'; '36GolfSwing'; '25CleanAndJerk'; '29Diving'; '33FloorGymnastics'; '37HammerThrow'; '26CliffDiving'; '30Drumming'; '34FrisbeeCatch'; '38Hammering'; '31Fencing'; '35FrontCrawl'; '39HandstandPushups'; '40HandstandWalking'; '41HighJump'; '42HorseRace'; '43HorseRiding'; '44HulaHoop'; '45IceDancing'; '46JavelinThrow'; '47JugglingBalls'; '48JumpRope'; '49JumpingJack'; '50Kayaking'; '51Knitting'; '52LongJump'; '53Lunges'; '54MilitaryParade'; '55Mixing'; '56MoppingFloor'; '57Nunchucks'; '58ParallelBars'; '59PizzaTossing'; '60PlayingCello'; '61PlayingDaf'; '62PlayingDhol'; '63PlayingFlute'; '64PlayingGuitar'; '65PlayingPiano'; '66PlayingSitar'; '67PlayingTabla'; '68PlayingViolin'; '69PoleVault'; '70PommelHorse'; '71PullUps'; '72Punch'; '73PushUps'; '76RopeClimbing'; '77Rowing'; '81SkateBoarding'; '82Skiing'; '86SoccerPenalty'; '87StillRings'; '91TableTennisShot'; '74Rafting'; '78SalsaSpin'; '83Skijet'; '79ShavingBeard'; '84SkyDiving'; '88SumoWrestling'; '92TaiChi'; '75RockClimbingIndoor'; '85SoccerJuggling'; '89Surfing'; '93TennisSwing'; '80Shotput'; '90Swing'; '94ThrowDiscus'; '95TrampolineJumping'; '96UnevenBars'; '97VolleyballSpiking'; '98WalkingWithDog'; '99WallPushups'; '100WritingOnBoard'; '101YoYo' 22 Hình 3.3 Một vài hình ảnh hành động người video tập liệu chuẩn 3.6 Đánh giá kết thực nghiệm Đề tài đánh giá cách tiếp cận đề xuất liệu chuẩn từ Đại học Central Florida (Soomro cộng sự, 2012), gọi UCF101, bao gồm 101 lớp hành động thực tế, truy xuất từ YouTube 23 Tổng cộng, có 13.320 video tổng số 101 danh mục hành động Bộ video có diện mạo tư đối tượng đa dạng, tỷ lệ đối tượng, điểm nhìn, lộn xộn, điều kiện ánh sáng, chuyển động camera, v.v Video thống với tốc độ khung hình / giây độ phân giải video 320 × 240 pixel Các chủ đề phân loại thành ba tập hợp con: hành động chơi nhạc cụ (12 lớp hành động), hành động sống hàng ngày (20 lớp hành động) hành động khác (69 lớp) Tập liệu liên quan đến hoạt động chơi nhạc cụ, bao gồm 'Diễu hành ban nhạc', 'Đánh trống', 'Đóng đinh', 'Chơi Cello', 'Chơi Daf', 'Chơi Dhol', 'Chơi Sáo', 'Chơi Ghi-ta', 'Chơi Piano', 'Chơi Sitar', 'Chơi Tabla' 'Chơi Violin' Tập liệu thứ hai liên quan đến hoạt động sống hàng ngày bao gồm 'Trang điểm mắt', 'Thoa son mơi', 'Bé tập bị', 'Đi xe đạp', 'Sấy tóc', 'Thổi nến', 'Đánh răng', 'Cắt đồ bếp', 'cắt tóc', 'Ném búa', 'Massa đầu', 'Đan áo', 'Diễu hành quân sự', 'Pha trộn', 'Lau sàn nhà', 'Cạo râu', 'Nhảy bạt lị xo', 'Đánh máy', 'Dắt Chó dạo' 'Viết bảng' Bộ liệu thứ ba thể thao hoạt động khác bao gồm 69 lớp hành động lại liệu Chúng bao gồm 'ném bóng chày', 'Bóng rổ', 'Bida', 'Bơi ếch', 'Bơi sãi', 'Lặn biển', 'Nhảy dù', 'Đấu kiếm', 'Đánh gôn', 'Nhảy cao', 'Nhảy xa', 'Đua ngựa', 'Cưỡi ngựa', 'Ném lao', 'Tung bóng', 'Nhảy dây', 'Chèo thuyền kayak', 'nâng tạ', 'Quăng bánh pizza', 'Leo dây', 'Trượt ván', 'Trượt tuyết', 'TaiChi', 'Tennis', … 'YoYo' Video hành động thực tế, thu thập từ phim YouTube 24 Hình 3.4 Một vài kết dự đốn hành động người video Kết thực nghiệm cho thấy hiệu hệ thống dự đốn đạt độ xác cao khoảng 95,3964% UCF12, khoảng 84,4232% UCF20 với việc sử dụng 2000 từ BoW 1000 mẫu cho huấn luyện SVM Trên UCF69, hệ thống đạt tỉ lệ xác khoảng 78,1661% với cài đặt tham số 4000 từ BoW 1000 mẫu để huấn luyện Đề tài đánh giá kích thước khác từ điển BoW số lượng mẫu sử dụng để huấn luyện mơ hình SVM 25 Hình 3.5 Ma trận nhầm lẫn kết dự đoán Kết thực nghiệm thể Bảng Thực tế, kết minh họa từ điển BoW lớn nhiều mẫu cho huấn luyện SVM đạt tỷ lệ hiệu suất cao ngược lại Tuy nhiên, có đánh đổi độ xác thời gian tính tốn kích thước BoW số lượng mẫu huấn luyện 26 Tập liệu UCF12 UCF20 UCF69 Kích thước BoW Số lượng mẫu huấn luyện SVM Độ xác (%) 2000 1000 95.3964 2000 2000 96.6845 2000 3000 97.2467 2000 1000 84.4232 2000 2000 88.3467 2000 3000 89.8813 2000 1000 76.5808 2000 2000 81.1492 2000 3000 81.6430 4000 1000 78.1261 4000 2000 83.1576 4000 3000 83.9431 Bảng So sánh kết dự đốn dùng kích thước BoW số lượng mẫu dùng để huấn luyện mơ hình SVM khác 27 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận  Ưu điểm đề tài: Trên sở nghiên cứu toán nhận dạng hành động người, tác giả giải chuỗi nhiệm vụ hệ thống Đầu tiên, đặc trưng cục trích rút khung hình từ ảnh liên tiếp Thứ hai, mô tả đặc trưng không gian xây dựng dựa đặc trưng cục khoảng L frame hình Thứ ba, tập hợp vectơ đặc trưng không gian phân loại để phân biệt thống số lượng đặc trưng hành động ứng viên Lớp hành động cuối dự đốn cách sử dụng SVM tuyến tính Phương pháp dự đốn triển khai thành cơng để thử nghiệm liệu chuẩn UCF101 Nhược điểm đề tài: Mặc dù tác giả xây dựng thành cơng chương trình demo nhận dạng dự đốn hành động người video dùng mơ tả đặc trưng HOG mơ hình phân loại SVM với hỗ trợ phần mềm matlab Tuy nhiên thời gian độ xác nhận dạng cịn thách thức số mẫu huấn luyện cịn so với số mẫu dùng ứng dụng thực tế Kiến nghị - Đề tài hoàn thành yêu cầu đề ban đầu Đây tiền đề để phát triển toán nhận dạng ứng dụng sau - Có thể nghiên cứu kết hợp mơ tả HOG với mô tả khác để cải thiện tốc độ độ xác nhận dạng 28 DANH MỤC TÀI LIỆU THAM KHẢO [1] Soomro, K., Zamir, A R., & Shah UCF101: A dataset of 101 human actions classes from videos in the wild CRCV-TR-12–01, 2012 [2] Navneet Dalal, Bill Triggs, Cordelia Schmid Human Detection Using Oriented Histograms of Flow and Appearance ECCV 2006: Computer Vision – ECCV, pp 428-441, 2006 [3] Muja, M., & Lowe, D G (2009) Fast approximate nearest neighbors with automatic algorithm configuration VISAPP (1), 2(331–340), [4] Vladimir N Vapnik, Statistical Learning Theory, Copyright © 1998 by John Wiley & Sons, Inc All rights reserved [5] Burges, C J C, A tutorial on support vector machines for pattern recognition Data Mining and Knowledge Discovery, 2, (1998),121–167 [6] Henok Girma, A Tutorial on Support Vector Machine, Center of expermental mechanichs University of Ljubljana, 2009 [7] B Schoelkopf and A.J Smola Learning with Kernels MIT Press, Cambridge, MA,2002 [8] Hồ Quốc Thiền, Giám sát an ninh dùng kỹ thuật xử lý hình ảnh, Luận văn thạc sĩ, Trường Đại học sư phạm kỹ thuật TPHCM, 2016 [9] Lê Công Hiếu, Nhận dạng hành động người mạng học sâu 3D-CNN, Luận văn thạc sĩ, Trường ĐH Bách Khoa Đà Nẵng, 2018 [10] Van-Dung Hoang, Multiple classifier-based spatiotemporal features for living activity prediction, Journal of Information and Telecommunication, 100-112, 2017 [11].González,S.,Sedano,J.,Villar,J.R.,Corchado,E.,Herrero,Á,&Baruque,B.(2015) Features and models for human activity recognition Neurocomputing, 167, 52 –60 [12] Ziaeefard, M., & Bergevin, R (2015) Semantic human activity recognition: A literature review Pattern Recognition, 48(8), 2329–2345 29 [13] Liu, F., Xu, X., Qiu, S., Qing, C., & Tao, D (2016) Simple to complex transfer learning for action recognition IEEE Transactions on Image Processing, 25(2), 949–960 [14] Shi, F., Laganière, R., & Petriu, E (2016) Local part model for action recognition Image and Vision Computing, 46, 18 –28 [15] Stefic, D., & Patras, I (2016) Action recognition using saliency learned from recorded human gaze Image and Vision Computing, 52, 195–205 [16] Farnebäck, G (2003) Two-frame motion estimation basedon polynomial expansion In Scandinavian conference on Image analysis (pp 363–370) [17] Hariyono, J., Hoang, V.-D., & Jo, K.-H (2014) Motion segmentation using optical flow for pedestrian detection from moving vehicle InInternational Conference on Computational CollectiveIntelligence (pp 204–213) Retrieved from http://link.springer.com/chapter/10.1007/978-3-319-11289-3_21 [18] Chang, C.-C, and Lin, C.-J, LIBSVM: A library for support vector machines, http://www.csie.ntu.edu.tw/∼cjlin/libsvm, 2001 [19].Chih-Wei Hsu, Chih-Chung Chang, and Chih-Jen Lin, A Practical Guide to Support Vector Classification, Department of Computer Science National Taiwan University, Taipei 106, Taiwan, http://www.csie.ntu.edu.tw/~cjlin Initial version: 2003 Last updated: May 19, 2016 [20] Schuldt, C., Laptev, I., & Caputo, B (2004) Recognizing human actions: A local SVM approach In The 17th International Conference on Pattern Recognition (pp 32–36) Retrived ieee.org/abstract/document/1334462/ 30 from http://ieeexplore

Định dạng
Số trang	36
Dung lượng	1,7 MB