Tìm hiểu mô hình học máy giải quyết bài toán dự đoán dự báo ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ VĂN VỸ TÌM HIỂU MÔ HÌNH HỌC MÁY GIẢI QUYẾT BÀI TOÁN DỰ ĐOÁN DỰ BÁO ỨNG DỤNG TRONG PHÂN TÍCH HÀNH VI GIAO THÔNG SỬ DỤNG DỮ LIỆU CẢM BIẾN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ VĂN VỸ TÌM HIỂU MÔ HÌNH HỌC MÁY GIẢI QUYẾT BÀI TOÁN DỰ ĐOÁN DỰ BÁO ỨNG DỤNG TRONG PHÂN TÍCH HÀNH VI GIAO THÔNG SỬ DỤNG DỮ LIỆU CẢM BIẾN Ngành Chuyên ngành Mã số : Công nghệ thông tin : Hệ thống thông tin : 60.48.05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM Hà Nội – 2015 LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng tôi, với hỗ trợ từ người hướng dẫn khoa học PGS.TS Nguyễn Hà Nam Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Việc sử dụng liệu có luận văn thu thập từ nguồn thông tin khác có ghi phần tài liệu tham khảo Nếu phát gian lận nào, xin chịu trách nhiệm trước Hộiđồng, kết luận văn Hà Nội, tháng 11 năm 2015 Học viên Vũ Văn Vỹ i LỜI CẢM ƠN Tôi muốn bày tỏ lòng biết ơn sâu sắc tới người giúp đỡ trình làm luận văn, đặc biệt xin cám ơn PGS.TS Nguyễn Hà Nam, với lòng kiên trì, thầy bảo chi tiết cho định hướng quí báu trình bước làm luận văn Đồng thời xin gửi lời cảm ơn tới thầy cô giáo khoa Công nghệ thông tin – Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội truyền đạt kiến thức cho suốt thời gian học tập nghiên cứu vừa qua Tôi xin chân thành cảm ơn quan, bạn bè, đồng nghiệp, gia đình người thân chia sẻ, giúp đỡ, động viên, tạo điều kiện thuận lợi để hoàn thành nhiệm vụ học tập luận văn Hà Nội, tháng 11 năm 2015 ii MỤC LỤC MỤC LỤC iii DANH MỤC HÌNH VẼ iv DANH MỤC BẢNG BIỂU .v DANH MỤC CHỮ VIẾT TẮT vi PHẦN MỞ ĐẦU CHƢƠNG - TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU PHÁT HIỆN HÀNH VI THAM GIA GIAO THÔNG 1.1 Hành vi tham gia giao thông phát hành vi tham gia giao thông 1.2 Các nghiên cứu liên quan .3 1.3 Một số thách thức nghiên cứu 1.4 Đề xuất phƣơng pháp tiếp cận .7 CHƢƠNG - KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ GIỚI THIỆU MỘT SỐ KỸ THUẬT ÁP DỤNG TRONG ĐỀ TÀI 2.1 Giới thiệu khai phá liệu (Data Mining) 2.2 Phân lớp 10 2.3 Giới thiệu WEKA .19 CHƢƠNG - PHƢƠNG PHÁP PHÁT HIỆN HÀNH VI THAM GIA GIAO THÔNG DỰA TRÊN DỮ LIỆU CẢM BIẾN ĐIỆN THOẠI DI ĐỘNG 21 3.1 Sơ đồ hệ thống phát hành vi tham gia giao thông 21 3.2 Dữ liệu cảm biến 22 3.3 Lọc nhiễu .27 3.4 Chuyển hệ trục tọa độ không gian 30 3.5 Trích chọn đặc trƣng 34 CHƢƠNG - THỰC NGHIỆM VÀ ĐÁNH GIÁ 37 4.1 Thu thập liệu huấn luyện mô hình 38 4.2 Xây dựng liệu huấn luyện 40 4.4 Thực nghiệm phát hành vi tham gia giao thông thời gian thực .45 4.5 Phân tích, đánh giá trình thực nghiệm .46 KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 50 iii DANH MỤC HÌNH VẼ Hình 1.1: Xu hƣớng dùng điện thoại di động Hình 1.2: Sự bùng nổ smartphone máy tính bảng năm gần .3 Hình 2.1: Quá trình khám phá tri thức .10 Hình 2.2: (a) Bƣớc xây dựng mô hình phân lớp 11 Hình 2.3: (b1)Ƣớc lƣợng độ xác mô hình 12 Hình 2.4: (b2) Phân lớp liệu 12 Hình 2.5: Phƣơng pháp phân lớp Random Rorest 15 Hình 3.1: Sơ đồ hệ thống phát hành vi giao thông từ liệu cảm biến 21 Hình 3.2 : Cảm biến gia tốc kế .24 Hình 3.3: Cảm biến từ trƣờng .25 Hình 3.4: Cảm biến trọng lực .26 Hình 3.5: Dữ liệu gia tốc trục X qua lọc thông thấp .27 Hình 3.6: Dữ liệu gia tốc qua lọc nhiễu(trên) chƣa qua lọc nhiễu(dƣới) 28 Hình 3.7: Sự khác cảm biến gia tốc điện thoại khác 29 Hình 3.8: Hệ trục tọa độ điện thoại Hệ trục tọa độ Trái Đất 30 Hình 3.9: Các trạng thái xoay điện thoại 30 Hình 3.10: Sự khác đổi trục không đổi trục 31 Hình 3.11 Chuyển từ trục điện thoại trục Trái Đất 32 Hình 3.12: Hệ tọa độ không gian 32 Hình 4.1: Quá trình thực nghiệm phát hành vi tham gia giao thông 37 Hình 4.2: Giao diện thu liệu mẫu .38 Hình 4.3: Dữ liệu lƣu trữ điện thoại 39 Hình 4.4: Mẫu liệu hành vi Tăng tốc 40 Hình 4.5: Mô tả trình tính toán thông số đặc trƣng 41 Hình 4.6: Các tham số huấn luyện mô hình k-NN .42 Hình 4.7: Các tham số huấn luyện mô hình Naïve Bayes 43 Hình 4.8: Các tham số huấn luyện mô hình Random forest .44 Hình 4.9: Giao diện chƣơng trình phát hành vi thời gian thực 45 iv DANH MỤC BẢNG BIỂU Bảng 2.1: Ma trận thống kê 13 Bảng 3.1: Các loại cảm biến phiên hệ điều hành Android 23 Bảng 3.2: Các thông số gia tốc kế 25 Bảng 3.3: Các thông số từ trƣờng kế .25 Bảng 3.4: Các thông số gia tốc trọng lực .26 Bảng 4.1: Kết huấn luyện mô hình k-NN .42 Bảng 4.2: Kết huấn luyện mô hình Naïve Bayes 43 Bảng 4.3: Kết huấn luyện mô hình Random forest .44 Bảng 4.4: Kết thực nghiệm phát hành vi k-NN 46 Bảng 4.5 : Kết thực nghiệm phát hành vi Naïve Bayes 47 Bảng 4.6: Kết huấn luyện phát hành vi Random forest .47 v DANH MỤC CHỮ VIẾT TẮT ANN Artificial Neural Network FN False Negatives FP False Positives HAR Human Activity Recognition HMM Hidden Markov Model k-NN k - Nearest Neighbor TN True Negatives TP True Positives CSDL Cơ sở liệu KDD Knowledge Discovery in Database vi PHẦN MỞ ĐẦU Trong thập kỷ gân đây, phát triển vượt bậc khoa học công nghệ đem lại cho người tiện ích thiết thực thông qua thiết bị di động Thiết bị di động trở thành công cụ hỗ trợ đắc lực cho người hoạt động sống ngày Cùng với ứng dụng hỗ trợ công việc hàng ngày ứng dụng mang tính tiên đoán, nhắc nhở, điều hướng người dùng ngày trở nên phổ biến Bên cạnh việc tham gia giao thông người hoạt động tất yếu hàng ngày Việc tham gia giao thông tiềm ẩn nhiều rủi ro tác nhân có ý thức vô thức người Việc có ứng dụng nhắc nhở, điều hướng người tham gia giao thông cho an toàn trở thành nhu cầu thiết thực, cần có xã hội thiết bị di động trở nên phổ dụng với người Nội dung luận văn tập trung nghiên cứu mặt thuật toán, kết hợp lý thuyết áp dụng thực tiến để đánh giá phương pháp nhận diện hành vi người tham gia giao thông xe gắn máy, từ chọn phương pháp tối ưu gắn liền với thực tế người sử dụng điện thoại thông minh Đề tài có tính ứng dụng cao sống, làm tiền đề cho phát triển, nghiên cứu sâu hành vi người tham gia giao thông nhiều khía cạnh khác Từ đó, nghiên cứu luận văn hướng tới mục tiêu sau: - - Phát số hành vi giao thông người tham gia giao thông xe gắn máy: Dừng, Đang di chuyển, Tăng tốc, giảm tốc đưa cảnh báo So sánh số kỹ thuật học máy nhằm đưa kỹ thuật tối ưu Cấu trúc luận văn nhƣ sau: Chƣơng 1: Tổng quan lĩnh vực nghiên cứu phát hành vi tham gia giao thông dựa điều kiện khác nhau, phương pháp nghiên cứu trước đề xuất phương pháp tiếp cận vấn đề tối ưu thực tiễn Chƣơng 2: Khái quát khai phá liệu giới thiệu số kỹ thuật áp dụng đề tài Chƣơng 3: Phương pháp phát hành vi tham gia giao thông dựa vào liệu cảm biến điện thoại di động với mô hình học máy Chƣơng 4: Thực nghiệm đánh giá Kết luận CHƢƠNG - TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU PHÁT HIỆN HÀNH VI THAM GIA GIAO THÔNG Trong chương trình bày mục đích phát hành vi tham gia giao thông, nghiên cứu trước cách tiếp cận giải toán phát hành vi tham gia giao thông 1.1 Hành vi tham gia giao thông phát hành vi tham gia giao thông Trong suốt thập kỷ vừa qua có phát triển vượt bậc hệ thống vi điện tử máy tính, cảm biến thiết bị di động với tính đại Chúng có khả tính toán cao, kích thước nhỏ chi phí thấp, cho phép người tương tác với thiết bị phần sống hàng ngày Hình 1.1 cho thấy kết đáng kinh ngạc, dân số giới ước tính khoảng tỷ người, tỷ người sử dụng điện thoại di động Số lượng người dùng điện thoại thông minh cao so với số lượng người dùng điện thoại di động (1.5 tỷ người sử dụng điện thoại thông minh) Hình 1.1: Xu hướng dùng điện thoại di động Sự bùng nổ người sử dụng điện thoại thông minh năm gần dẫn đến bùng nổ ứng dụng cho điện thoại thông minh Hình 1.2 cho thấy số lượng đáng kinh ngạc thiết bị di động thông minh tăng nhanh qua năm Vì vậy, việc phát triển ứng dụng điện thoại di động xu hướng nóng có khả áp dụng cao vào đời sống Mobility  dy   var  y (t)  dt   var(y(t)) (3.15) Độ đo phức hợp Hjorth(Comlexity) đại diện cho thay đổi tần số, tỷ lệ độ đo di động Hjorth đạo hàm bậc tín hiệu độ đo di động Hjorth tín hiệu dy   Mobility  y  t   dt   Comlexity  Mobility  y  t   (3.16) Cả hai tính toán thời gian tuyến tính Chúng cung cấp cho ta số thông tin miền tần số mà tính toán phức tạp Nếu a tín hiệu ta có: TP= ∑ / N (3.17) M2 = ∑ di / N , di = - ai-1 (3.18) M4 = ∑( di - di-1)2 / N (3.19) M2 (3.20) Độ đo di động = TP Độ đo phức hợp = M4.TP M2.M2 (3.21) Sau trình ta trích chọn đặc trưng sau:  Năng lượng gia tốc ngang(hE)  Năng lượng gia tốc dọc (vE)  Độ đo di động ngang (hM)  Độ đo di động dọc (vM)  Độ đo phức hợp ngang (hC)  Độ đo phức hợp dọc (vC) Các đặc trưng sử dụng làm liệu cho trình huấn luyện mô hình liệu đầu vào trình phát hành vi tham gia giao thông theo thời gian thực 36 CHƢƠNG - THỰC NGHIỆM VÀ ĐÁNH GIÁ Chương trình bày trình thực nghiệm sử dụng số mô hình học máy mô thực phát hành vi tham gia giao thông theo thời gian thực thiết bị Android dựa liệu huấn luyện thu Hình 4.1 mô tả lại luồng thực trình thực nghiệm nghiên cứu Xử lý liệu Đổi trục, lọc thông thấp Thu liệu trục gia tốc kế Dữ liệu trục XYZ thô Đã lọc nhiễu Phân khung thời gian giây Trích chọn đặc trưng Mô hình học máy Bộ phân lớp Bộ đệm khung thời gian giây Tăng tôc Giảm tốc Di chuyển Dừng Hình 4.1: Quá trình thực nghiệm phát hành vi tham gia giao thông Quá trình thực nghiệm thực thiết bị di động sử dụng hệ điều hành Android 4.3 chạy thiết bị SamSung Galaxy S3 Vì lý thời gian ngắn qui mô nghiên cứu nên trình làm thực nghiệm thực người Kết nghiên cứu mang tính độc lập, khách quan áp đánh giá độ xác phần đề tài Thực nghiệm bao gồm phần : Huấn luyện mô hình thực nghiệm phát hành vi theo thời gian thực thiết bị 37 4.1 Thu thập liệu huấn luyện mô hình Dữ liệu ghi lại thiết bị Android có tích hợp cảm biến gia tốc, cảm biến từ trường kế, cảm biến trọng lực Tần số lẫy mẫu lấy mặc định theo tần số lấy mẫu nhanh thiết bị Android Thành phần gia tốc kế bao gồm thời gian ghi liệu giá trị gia tốc kế theo trục Dữ liệu từ trường kế trọng lực bao gồm liệu theo trục Trong nghiên cứu thực phân tích hành vi tham gia giao thông người xe máy Quá trình thu thập liệu thực sau: người thu thập xe máy, thiết bị cầm tay để điều khiển trình thu thập Khoảng thời gian lấy mẫu hành vi dài hay ngắn tùy thuộc vào hành vi Ví dụ: hành vi Dừng Di chuyển thu mẫu khoảng thời gian dài, hành vi Tăng tốc Giảm tốc phải thu mẫu khoảng thời gian ngắn khoảng 1s đến 2s Hình 4.2: Giao diện thu liệu mẫu Trên giao diện chương trình, người dùng chọn hành vi cần lấy mẫu ấn nút “Start” để bắt đầu chương trình thu liệu Với hành vi thu nhiều lần 38 tên liệu thu có kèm theo thứ tự lần ghi Trong trình thu liệu chương trình thu đồng thời liệu cảm biến gia tốc kế, từ trường kế, cảm biến trọng lực, xử lý trực tiếp qua cặp liệu cảm biến liệu cảm biến gia tốc qua đổi trục ghi liên tục vào file lấy mẫu lưu nhớ điện thoại Trạng thái trình ghi liệu là: cầm điện thoại cố định tay Vì sử dụng đặc trưng lượng trích xuất từ liệu trục gia tốc kế nên đăc trưng khác dòng điện thoại khác khác đặc tính hành vi người tham gia giao thông Do phạm vi luận văn liệu huấn luyện ghi lại người loại thiết bị di động Tên file lưu tương ứng với hành vi lấy mẫu, bao gồm thời gian, giá trị gia tốc kế tương ứng trục x, y, z , liệu gia tốc kế lọc nhiễu đổi trục Trái Đất Hình 4.3: Dữ liệu lưu trữ điện thoại Trong file lưu trữ điện thoại bao gồm thông tin: Tên hành vi, Thời điểm lấy mẫu, Giá trị trục x,y,z liệu cảm biến hình 4.4 thể 39 Hình 4.4: Mẫu liệu hành vi Tăng tốc 4.2 Xây dựng liệu huấn luyện - Dữ liệu thu từ gia tốc kế qua lọc nhiễu đổi trục tính thông số đặc trưng theo công thức (3.13) - (3.19) bao gồm :  Năng lượng gia tốc ngang(hE)  Năng lượng gia tốc dọc (vE)  Độ đo di động ngang (hM)  Độ đo di động dọc (vM)  Độ đo phức hợp ngang (hC)  Độ đo phức hợp dọc (vC) Sau thu liệu gia tốc kế với hành vi cụ thể, liệu gia tốc thu từ hành động dung lượng lớn nên ta xây dựng chương trình java chạy máy tính “HAR_ Features” tính toán thông số đặc trưng từ file lưu liệu gia tốc thu theo công thức từ (3.5) đến (3.19) Chương trình trả cho ta file định dạng csv gồm đặc trưng nhãn hành vi tương ứng (hình 4.4).Quá trình thu thập xây dựng liệu thể hình 4.5 40 Tín hiệu gia tốc(cửa sổ giây) [trục x, trục y, trục z] Chuyển hệ trục tọa độ [trục x, trục y, trục z] Phép tính độ nghiêng bất biến Tín hiệu gia tốc(cửa sổ giây) [ngang, dọc] Vectơ đặc trưng (cửa sổ giây): - Năng lượng gia tốc ngang Năng lượng gia tốc dọc Độ di động ngang Độ đ di động dọc Độ đo phức hợp ngang Độ đo phức hợp dọc Hình 4.5: Mô tả trình tính toán thông số đặc trưng 4.3 Huấn luyện mô hình Trong nghiên cứu thực thực nghiệm sử dụng mô hình học máy sau: k-NN, Random Forest Naïve Bayes Quá trình huấn luyện mô hình thực sau:       Bước 1: Chọn liệu Bước 2: Chọn mô hình Bước 3: Chỉnh tham số mô hình Bước 4: Chạy huấn luyện Bước 5: Quay lại bước kết chưa tốt Bước 6: Lấy mô hình Kết cho mô hình huấn luyện với tham số tối ưu Việc tìm tham số tối ưu quan trọng Nó ảnh hưởng lớn đến độ xác mô hình để đưa kết xác cao hay không Quá trình huấn luyện mô hình thực với tập liệu 2000 mẫu 41 *Huấn luyện với mô hình k-NN Các tham số k-NN huấn luyện Weka Hình 4.6: Các tham số huấn luyện mô hình k-NN - KNN: số láng giềng sử dụng Đây tham số quan trọng hiệu chỉnh trình huấn luyện - crossValidate: cross-validation sử dụng để tìm giá trị k tốt - distanceWeighting: lấy khoảng cách trọng số phương pháp sử dụng - nearestNeighbourSearchAlgorithm: Lựa chọn thuật toán - windowSize: đưa số lượng lớn instances sử dụng training Để không hạn chế số lượng Bảng kết lần trình huấn luyện: Ở thay đổi tham số có tác động đến kết trình huấn luyện Trong trình huấn luyện tham số nhận thấy không tác động đến kết bỏ qua (thay ký tự “-”) Bảng 4.1: Kết huấn luyện mô hình k-NN TT 10 11 12 13 KNN 1 1 2 10 Cross Validate Distance Weighting Mean Squared False True False True False False False False False False No No 1/distance No No 1/distance No No No No No False False False True False False False False False False False False Nearest Neighbour Search Algorithm Linear Linear Linear Linear BallTree Linear Linear Linear Linear Linear Linear Linear Linear Window Size Correctly 0 0 0 0 0 0 69.04% 69.04% 69.04% 69.04% 69.04% 71.00% 70.27% 69.04% 72.23% 73.21% 73.21% 74.21% 74.93% 42 Qua trình huấn luyện ta thấy với mô hình K-NN với 10 “láng giềng” cho kết tốt 74.93% *Huấn luyện với mô hình Naïve Bayes Các tham số Naïve Bayes huấn luyện Weka Hình 4.7: Các tham số huấn luyện mô hình Naïve Bayes Trong mô hình ta tập trung vào tham số: - useKernelEstimator: Sử dụng hàm ước lượng thay cho phân phối bình thường - useSupervisedDiscretization: Sử dụng rời rạc hóa có giám sát để chuyển đổi thuộc tính số dạng chuẩn hóa Kết trình huấn luyện Bảng 4.2: Kết huấn luyện mô hình Naïve Bayes TT useKernelEstimator False True False useSupervisedDiscretization False False True Correctly 61.67 % 66.09% 72.73% Qua bảng kết huấn luyện ta thấy kết tốt Naïve Bayes 72.73% 43 *Huấn luyện mô hình Random forest Các tham số huấn luyện Hình 4.8: Các tham số huấn luyện mô hình Random forest -maxDepth :chiều sâu cực đại không hạn chế chiều sâu - numFeatures : Số thuộc tính sử dụng lựa chọn ngẫu nhiên -numTrees : Tổng số sinh -seed: số ngẫu nhiên sử dụng Bảng kết trình huấn luyện với tham số Bảng 4.3: Kết huấn luyện mô hình Random forest TT maxDepth 0 0 numFeatures numTrees seed 10 10 1 10 11 10 10 Correctly 77.40% 67.56% 72.97% 75.92% 77.14% 76.41% Như mô hình đạt kết tốt 77.4% 44 4.4 Thực nghiệm phát hành vi tham gia giao thông thời gian thực Hình 4.9: Giao diện chương trình phát hành vi thời gian thực Mô hình sau huấn luyện copy vào thư mục assets chương trình Khi chạy chương trình đọc mô hình từ đây, sử dụng mô hình để phân tích hành vi Dữ liệu đầu vào chuỗi hành vi tham gia giao thông ghi lại chương trình thời gian thực Thực nghiệm với phương tiện xe máy, cầm điện thoại tay, thực chuỗi hành động liên tục Chương trình thu trực tiếp đồng thời liệu cảm biến: gia tốc kế, từ trường kế, gia tốc trọng lực khung thời gian thực giây, sau lọc nhiễu đổi trục cho ta giá trị gia tốc chuẩn để tính toán thông số đặc trưng Xong khung cửa sổ giây chương trình lại đếm giây cửa sổ tiếp theo, lặp lặp lại người dùng ấn nút Stop 45 Tính toán thông số đặc trưng từ liệu gia tốc kế sổ thời gian giây, sử dụng mô hình huấn luyện để kết luận hành vi giây vừa xọng, lặp lại với cửa sổ người dùng ấn nút stop 4.5 Phân tích, đánh giá trình thực nghiệm 4.5.1 Kết thực nghiệm mô hình Tiến hành nhận dạng hoạt động cách để người dùng thực ngẫu nhiên hành vi Dừng, Tăng tốc, Giảm tốc, Di chuyển ta lấy 200 mẫu, hành vi thực khoảng 30 lần Hành vi hệ thống nhận dạng hiển thị lên hình điện thoại ghi vào file riêng nhớ điện thoại Áp dụng công thức 2.2 2.3 tính giá trị cho Class precision Class Recall Kết thu qua mô bảng Bảng 4.4: Kết thực nghiệm phát hành vi k-NN Thực tế Di Dừng Tăng Giảm tốc tốc chuyển Class Precision Dự Di chuyển 18 11 43% Đoán Dừng 20 5 54% Tăng tốc 3 15 65% Giảm tốc 2 12 67% Class Recall 60% 67% 50% 40% Trung bình 54% 46 Bảng 4.5 : Kết thực nghiệm phát hành vi Naïve Bayes Thực tế Di Dừng Tăng Giảm tốc tốc chuyển Class Precision Dự Di chuyển 20 15 42% Đoán Dừng 21 58% Tăng tốc 3 15 65% Giảm tốc 10 77% Class Recall 67% 70% 50% 33% Trung bình 55% Bảng 4.6: Kết huấn luyện phát hành vi Random forest Thực tế Di Dừng Tăng Giảm tốc tốc chuyển Dự Di chuyển 23 Đoán Dừng 26 Tăng tốc Giảm tốc Class Recall Trung bình Class Precision 13 52% 67% 17 74% 0 12 86% 77% 87% 57% 40% 65% 47 4.5.2 Đánh giá trình thực nghiệm Qua trình thực nghiệm cho ta thấy hành vi Dừng Di chuyển cho tỉ lệ phát cao Tăng tốc Giảm tốc Hành vi Tăng tốc Giảm tốc xảy thời gian ngắn nên khó để phát dễ nhầm lẫn với hành vi Di chuyển Trong thực nghiệm huấn luyện mô hình Random forest có thời gian tính toán chậm so với mô hình K-NN Naïve Bayes Kết dự đoán mô hình Random forest có độ xác cao Quá trình lấy mẫu huấn luyện thực nghiệm thực xe gắn máy Thêm vào ảnh hưởng chất lượng đường không phẳng gây nhiễu gia tốc điện thoại Điều dẫn đến hệ thống nhận diện sai hành vi Ví dụ độ rung hay xóc xe qua ổ gà khiến tín hiệu gia tốc bị nhiễu Quá trình tăng tốc giảm tốc thường hay bị nhận diện nhầm sang hành vi di chuyển độ chênh lệch tín hiệu gia tốc hành vi nhỏ Để phát với độ xác cao hành vi tăng tốc, giảm tốc di chuyển ta cần thực lấy mẫu xác thời điểm tăng tốc giảm tốc cho trình huấn luyện Các hành vi tăng tốc giảm tốc xảy khoảng thời gian ngắn, khoảng 2s khung thời gian dùng duyệt liệu trình huấn luyện thực nghiệm nằm khoảng nhỏ 2s Với thực nghiệm sử dụng khung thời gian 1s cho kết cao Quá trình đánh giá thực nghiệm điện thoại đoán khoảng 65% Đây tỉ lệ xác chưa cao số yếu tố ảnh hưởng trình nghiên cứu Để nâng cao độ xác việc phát hành vi cần làm thêm thực nghiệm thu liệu mẫu trình huấn luyện Cố định lại vị trí điện thoại thu thập liệu Vị trí điện thoại thu thập cầm tay trái điều khiển xe máy tham gia giao thông nên gây tình trạng không bắt thời điểm xảy hành vi Nghiên cứu xây dựng thêm thuộc tính đặc trưng đặc trưng thực Ngoài tiến hành thực nghiệm thêm với nhiều thuật toán, cải tiến thuật toán nâng cao kết thực thêm số model điện thoại khác 48 KẾT LUẬN Đề tài giải phần toán phát hành vi tham gia giao thông dựa cảm biến tích hợp sẵn điện thoại di động Phương pháp phát tiến hành qua ba bước:  Xử lý liệu cảm biến: từ liệu thu lấy ba giá trị gia tốc (x, y, z) trục điện thoại chuyển trục Trái Đất thành (x’, y’, z’)  Trích chọn đặc trưng: từ ba giá trị gia tốc x’, y’, z’ trích chọn đặc trưng  Phân loại: Dùng thuật toán học máy huấn luyện phân loại Phiên chạy thời gian thực cài đặt điện thoại di động Quá trình huấn luyện thực tế tiến hành xe gắn máy Quá trình thực nghiệm cho thấy kết tốt mô hình Random Forest với kết dự đoán xác xấp xỉ 77% Đây kết có triển vọng cho ứng dụng phát hành vi tham gia giao thông Hƣớng phát triển đề tài: Hệ thống phát thêm hành vi phức tạp khác: rẽ trái, phải, lạng lách, quay đầu, chuyển làn, phanh gấp… Kết hợp cảm biến âm thanh, video, GPS để phân loại xác hành vi tham gia giao thông Phát triển hệ thống cảnh báo nhắc nhở cho người tham gia thông hành vi gây nguy hiểm 49 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Singh, P., Juneja, N., Kapoor, S.: Using mobile phone sensors to detect driving behavior In: Proceedings of the 3rd ACM Symposium on Computing for Development, ACM (2013) [2] Fazeen, M., Gozick, B., Dantu, R., Bhukhiya, M., Gonzalez, M.C.: SafeDrivingUsing Mobile Phones In:IEEE Transactions on Intelligent Transportation Systems (2012) [3] Chigurupa, S., Polavarap, S., Kancherla,Y., Nikhath, K.A.:Integrated Computing System for measuring Driver Safety Index In: International Journalof Emerging Technology and Advanced Engineering, ISSN 2250-2459,Volume (2012) [4] Johnson, D.A., Trivedi, M.M.:Driving Style Recognition using a smartphone as a sensor platform In: IEEE 14th International Conference on IntelligentTransportation system, October(2011) [5] Dai, J., Tang, J., Bai, X., Shen, Z., Xuan, D.:Mobile phone based drunk driving detection In: Proc 4th Int Conf Pervasive Health NO PERMISSIONS, pp.18 (2010) [6] Zhang, Y., Lin, W., Chin, Y.K.:A pattern-recognition approach for driving skill characterization In: IEEE Trans Intell Transp Syst., vol 11, no.4, pp.905916 (2010) [7] Gazali, H: Monitoring Erratic Driving Behavior caused by Vehicle Overtaking Using Off-theshelfTechnologies [8] Nguyen Thang Ngoc, “Real-Time human activity recognition using, mobile phone”, Posts and telecommunications institute of technology, 2013 [9] C W Han, S J Kang and N S Kim, “Implementation of HMM-BasedHuman Activity Recognition Using Single Triaxial Accelerometer,” IEICETransactions Fundamentals, Vol E93-A, No 7, July 2010 [10] Y Fujiki, “iPhone as a Physical Activity Measurement Platform,” in Proceedings of ACM CHI 2010 [11] Z He, Z Liu, L Jin, L.-X Zhen, and J.-C Huang, “Weightlessness feature; a novel feature for single tri-axial accelerometer based activity recognition,” in 19th International Conference on Pattern Recognition, pp 1–4, 2008 [12] Z He and L Jin, “Activity recognition from acceleration data based on discrete consine transform and svm,” in IEEE International Conference on Systems, Man and Cybernetics, pp 5041–5044, 2009 [13] Y.-P Chen, J.-Y Yang, S.-N Liou, Gwo-Yun=Lee, and J.-S Wang, “Online classifier construction algorithm for human activity detection using a triaxial accelerometer,” Applied Mathematics and Computation, vol 205, no 2, pp 849–860, 2008 50 [...]... hiện hành vi tham gia giao thông dựa trên dữ liệu cảm biến của điện thoại di động của để tài Trước tiên sẽ mô tả về sơ đồ hệ thống, tiếp theo giới thiệu về dữ liệu cảm biến của điện thoại di động, sau đó là vấn đề xử lý dữ liệu thô tìm ra các đặc trưng của dữ liệu để xây dựng mô hình 3.1 Sơ đồ hệ thống phát hiện hành vi tham gia giao thông Hình 3.1: Sơ đồ hệ thống phát hiện hành vi giao thông từ dữ liệu. .. tập dữ liệu đào tạo có thể đã kết hợp những đặc điểm riêng biệt của tập dữ liệu đó Do vậy cần sử dụng một tập dữ liệu kiểm tra độc lập với tập dữ liệu đào tạo Nếu độ chính xác của mô hình là chấp nhận được, thì mô hình được sử dụng để phân lớp những dữ liệu tương lai, hoặc những dữ liệu mà giá trị của thuộc tính phân lớp là chưa biết Hình 2.3: (b1)Ước lượng độ chính xác của mô hình Hình 2.4: (b2) Phân. .. có thể chia thành các bước thực hiện như hình 2.1 Trình diễn Khai phá dữ liệu Tri thức Chuyển đổi dữ liệu Mô hình Tiền xử lý dữ liệu Trích lọc Thu thập Dữ liệu Đã tiền xử lý Dữ liệu đã chuyển đổi Dữ liệu đích Dữ liệu Hình 2.1: Quá trình khám phá tri thức 2.2 Phân lớp 2.2.1 Giới thiệu về phân lớp Phân lớp dữ liệu (classification) là một trong những hướng nghiên cứu chính của khai phá dữ liệu Thực tế... loại cảm biến cùng một lúc bằng cách đăng ký lắng nghe chúng Trong đó một số là dựa trên phần cứng và một số dựa trên phần mềm Cảm biến dựa trên phần cứng là thành phần vật lý được tích hợp trong điện thoại hoặc máy tính bảng Cảm biến dựa trên phần mềm không phải là thiết bị vật lý, do đó họ bắt chước các cảm biến dựa trên phần cứng bằng cách tính toán dữ liệu từ một hoặc nhiều cảm biến phần cứng theo... những thay đổi trong môi trường xung quanh gần một thiết bị Trên nền hệ điều hành Android hỗ trợ ba loại cảm biến: Đầu tiên là cảm biến chuyển động: chúng bao gồm cảm biến gia tốc, cảm biến trọng lực, cảm biến con quay, cảm biến vectơ quay Loại thứ hai là các cảm biến đo vị trí của một thiết bị vật lý: cảm biến từ trường, cảm biến phương hướng, cảm biến tiệm cận Cuối cùng là cảm biến môi trường (áp... tập dữ liệu kiểm tra đã đưa là tỉ lệ phần trăm các các mẫu trong tập dữ liệu kiểm tra được mô hình phân lớp đúng (so với thực tế) Nếu độ chính xác của mô hình được ước lượng dựa trên tập dữ liệu đào tạo thì kết quả thu được là rất khả 11 quan vì mô hình luôn có xu hướng “quá vừa” dữ liệu Quá vừa dữ liệu là hiện tượng kết quả phân lớp trùng khít với dữ liệu thực tế vì quá trình xây dựng mô hình phân. .. đó Cảm biến dựa trên phần mềm có dữ liệu thu được từ một hoặc nhiều hơn các cảm biến dựa trên phần cứng và cảm biến ảo 23 Cảm biến gia tốc kế Hình 3.2 : Cảm biến gia tốc kế Một cảm biến gia tốc đo gia tốc áp dụng cho thiết bị theo 3 trục tọa đã loại bỏ thành phần của trọng lực Cảm biến gia tốc xác định gia tốc được áp dụng cho một thiết bị (Ad) bằng cách tự đo lường các lực được áp dụng cho các cảm biến. .. từ một cơ sở dữ liệu với nhiều thông tin ẩn con người có thể trích rút ra các quyết định nghiệp vụ thông minh Phân lớp và dự đoán là hai dạng của phân tích dữ liệu nhằm trích rút ra một mô hình mô tả các lớp dữ liệu quan trọng hay dự đoán xu hướng dữ liệu tương lai Phân lớp dự đoán giá trị của những nhãn xác định (categorical label) hay những giá trị rời rạc(discrete value), có nghĩa là phân lớp thao... tính toán trích xuất ra các đặc trưng 3.2 Dữ liệu cảm biến Hiện nay nhiều điện thoại di động có tích hợp bộ cảm biến, mỗi cảm biến có chức năng riêng của nó Chúng ta có thể sử dụng các bộ cảm biến để đo chuyển động, định hướng và điều kiện môi trường khác nhau Nhiều ứng dụng tận dụng lợi thế của các cảm biến này vì chúng có thể cung cấp dữ liệu thô với độ chính xác cao Chúng cũng có thể được sử dụng. .. ra các hành vi tham gia giao thông cơ bản: Dừng, Di chuyển, Tăng tốc, Giảm tốc Cách thức thực hiện nghiên cứu như sau: - Thu dữ liệu cảm biến từ 3 trục của gia tốc kế - Lọc nhiễu - Đổi hệ tọa độ Điện thoại sang Trái Đất 7 - Tính các thông số đặc trưng từ giá trị gia tốc kế sau khi đổi trục Xây dựng bộ dữ liệu huấn luyện cho hệ thống Sử dụng một số mô hình học máy huấn luyện mô hình Sử dụng mô hình đã ... hin hnh vi tham gia giao thụng, cỏc nghiờn cu trc õy v cỏch tip cn gii quyt bi toỏn phỏt hin hnh vi tham gia giao thụng 1.1 Hnh vi tham gia giao thụng v phỏt hin hnh vi tham gia giao thụng Trong. .. mt hnh vi ging nh hnh vi ang thc hin vi tng s cỏc hnh vi thc hin: Precision = TP TP +FP (2.2) Giỏ tr class recall l t l phõn loi ỳng mt hnh vi ging nh hnh vi ang thc hin vi tng s cỏc hnh vi c nhn... khụng tt cựng vi v trớ t in thoi ca ngi tham gia giao thụng Cỏc nghiờn cu trờn u thc hin nhm phỏt hin cỏc hnh vi ca ngi Cỏc hnh vi tham gia giao thụng cng tng t nh nhng hnh vi ca ngi Vic chy, nhy,

Định dạng
Số trang	58
Dung lượng	3,12 MB