50% 60% 70% 80% 90% 100% RF J48 NB KNN SVM Độ đo Ac cu rac y Thuật tốn H2 F2 T2 TH2 TF2 TFH2 0.5 0.6 0.7 0.8 0.9 1.0 RF J48 NB KNN SVM Độ đo AU C Thuật tốn H2 F2 T2 TH2 TF2 TFH2
Từ Hình 2-17 thể hiện kết quả thực nghiệm nhận dạng hành động với cùng một bộ dữ liệu được phân tích trên tất cả các tập thuộc tính thu được độ đo Accuracy và AUC của thuật tốn RF cao nhất trên tất cả các tập dữ liệu, tiếp đĩ là thuật tốn J48. Do vậy, thuật tốn RF được sử dụng cho hệ thống nhận dạng hành động, hành vi giao thơng.
2.5.5 Xây dựng dữ liệu huấn luyện
Mỗi hành động giao thơng của đối tượng khác nhau trong những hồn cảnh khác nhau thì cĩ những đặc điểm, chu kỳ khác nhau. Trong một số nghiên cứu đã sử dụng kích thước cửa sổ cố định để nhận dạng các loại hành động bằng cửa sổ đĩ. Từ đĩ, dẫn đến sự khĩ khăn khi phải lựa chọn một kích thước cửa sổ phù hợp cho tất cả các loại hành động. Để giải quyết vấn đề này, chúng tơi đã lựa chọn hướng tiếp cận khảo sát đánh giá, lựa chọn kích thước cửa sổ trên từng hành động dựa vào độ đo AUC nhằm chọn được các kích thước cửa sổ phù hợp, nâng cao độ chính xác phân lớp.
Với sự tiện dụng và phổ biến ở các thành phố của Việt Nam, phương tiện sử dụng chủ yếu là xe máy nên chúng tơi chọn loại phương tiện này để khảo sát, thu tập dữ liệu, phân tích và nhận dạng hành động giao thơng của người điều khiển.
Dữ liệu cảm biến gia tốc được thu thập với tần số 50Hz sau đĩ được biến đổi hệ tọa độ theo hệ tọa độ trái đất. Khoảng kích thước cửa sổ lựa chọn để khảo sát là: từ 1 giây đến 10 giây; tỉ lệ chồng dữ liệu 75%, 50% và 25% với mục đích tìm ra một kích thước phù hợp cho từng hành động. Thực nghiệm tiến hành trên tập thuộc tính TFH2 cùng với và kết quả phân lớp sử dụng thuật tốn rừng ngẫu nhiên được thể hiện ở bảng dưới đây:
- Kết quả độ đo AUC khi phân lớp với hành động “Dừng“ như Bảng 2-13 dưới đây với ký hiệu: OVL/W là cột chồng dữ liệu (%)và kích thước cửa sổ tính theo giây.
OVL/W 1 2 3 4 5 6 7 8 9 10
50% 0,922594 0,940615 0,963330 0,963095 0,963982 0,998994 0,999700 0,999829 0,999786 0,999401
25% 0,918458 0,943671 0,998806 0,997954 0,999049 0,991879 0,996485 0,994788 0,995152 0,994485
Bảng 2-13. Kết quả độ đo AUC của hành động dừng
- Kết quả độ đo AUC khi phân lớp đối với hành động “Đi thẳng” như Bảng 2-14 dưới đây:
1 2 3 4 5 6 7 8 9 10
75% 0,928616 0,955943 0,965958 0,967215 0,966412 0,988699 0,987950 0,988012 0,989448 0,987304
50% 0,913065 0,935925 0,963095 0,961592 0,959618 0,969978 0,967364 0,971009 0,969060 0,968582
25% 0,907150 0,934270 0,957993 0,957276 0,957637 0,987429 0,986971 0,988387 0,984058 0,985077
Bảng 2-14. Kết quả độ đo AUC của hành động đi thẳng
- Kết quả độ đo AUC khi phân lớp đối với hành động “Rẽ trái” nhận được như bảng Bảng 2-15 dưới đây:
1 2 3 4 5 6 7 8 9 10
75% 0,968710 0,982481 0,974725 0,974483 0,971390 0,987466 0,990798 0,992596 0,993971 0,993601
50% 0,960661 0,971513 0,985186 0,983805 0,996841 0,973741 0,966488 0,971506 0,966671 0,971334
25% 0,956457 0,969392 0,963152 0,961873 0,961388 0,990533 0,992754 0,991591 0,991432 0,992014
Bảng 2-15. Kết quả độ đo AUC của hành động rẽ trái
- Kết quả đo AUC khi phân lớp đối với hành động “Rẽ phải” nhận được như bảng Bảng 2-16 dưới đây:
1 2 3 4 5 6 7 8 9 10
75% 0,958724 0,972968 0,982021 0,982473 0,981457 0,986584 0,986836 0,986990 0,988919 0,984220
50% 0,947849 0,960313 0,977571 0,976844 0,976765 0,987251 0,979471 0,982263 0,980554 0,981414
25% 0,942924 0,959554 0,975552 0,974838 0,974842 0,985534 0,986797 0,986021 0,985256 0,985872
Bảng 2-16. Kết quả độ đo AUC của hành động rẽ phải
Để đánh giá sự thay đổi giá trị AUC của hai kích thước cửa sổ liền nhau cũng như thể hiện được sự thay đổi chung của kết quả nhận dạng. Giá trị tuyệt đối
của hai kích thước cửa sổ liền nhau trên từng hành động được biểu diễn như Hình 2-18: (a) (c) (b) (d)
Hình 2-18. Chu kỳ thay đổi độ đo AUC tƣơng ứng với hai kích thƣớc cửa sổ liền nhau của các hành động cơ bản với: (a) Dừng; (b) Đi thẳng; (c) Rẽ trái; (d) Rẽ phải
Từ các hình biểu diễn trên ta thấy, sự thay đổi của độ đo AUC hội tụ dần ở kích thước 4 giây. Đề phịng trường hợp mất mát thơng tin khi các hành động, hành vi xảy ra nhanh, đa dạng, chúng tơi chọn 2 cửa sổ liên tiếp và chồng dữ liệu 50% (tương ứng với 6 giây) để làm giá trị lớn nhất trong khoảng khảo sát kích thước cửa
0 0.0005 0.001 0.0015 0.002 0.0025 1 2 3 4 5 6 7 8 9 101112131415 Độ c hê nh lệc h AU C củ a hai cử a sổ Kích thƣớc cửa sổ 75% 50% 25% 0 0.001 0.002 0.003 0.004 0.005 0.006 0.007 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Đ ộ ch ên h lệ ch A U C c ủa h ai c ửa sổ Kích thước cửa sổ 75% 50% 25% 0 0.0005 0.001 0.0015 0.002 0.0025 0.003 0.0035 0.004 1 2 3 4 5 6 7 8 9 101112131415 Đ ộ chên h lệc h A U C c ủa h ai cửa sổ Kích thƣớc cửa sổ 75% 50% 25% 0 0.0002 0.0004 0.0006 0.0008 0.001 0.0012 0.0014 0.0016 0.0018 0.002 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Đ ộ chên h lệc h A U C c ủa h ai cửa sổ Kích thước cửa sổ 75% 50% 25%
sổ. Do vậy, khoảng khảo sát kích thước cửa sổ là từ 1 giây, đến 6 giây được sử dụng với mục đích tìm ra kích thước cửa sổ phù hợp nhất đối trên từng nhãn lớp.
- Kết quả thu được là bộ tham số kích thước cửa sổ và chồng dữ liệu được thể hiện ở Bảng 2-17 dưới đây:
Hành động S G L R
Của sổ (giây) 4 6 5 6
Chồng dữ liệu 75% 75% 50% 50%
AUC 0,999422 0,992828 0,996841 0,987251
Bảng 2-17. Kích thƣớc cửa sổ đƣợc lựa chọn theo độ đo AUC
Các giá trị của kích thước cửa sổ tối ưu được sử dụng để xây dựng dữ liệu huấn luyện cho hệ thống nhận dạng hành động. Từ dữ liệu cảm biến gia tốc cĩ được, các kích thước cửa sổ tương ứng với từng hành động được sử dụng để biến đổi dữ liệu cảm biến gia tốc này thành dữ liệu đặc trưng dựa trên tập thuộc tính TFH2.
Để đánh giá kết quả nhận dạng với tập dữ liệu đã chuyển trục và hai tập đặc trưng TF2 và TFH2, sử dụng phương pháp kiểm chứng chéo CV10 với các thuật tốn phân lớp. Đồng thời, khẳng định tham số trên miền thời gian cĩ ý nghĩa quan trọng và sự bổ sung của tham số Hjorth trong bài tốn nhận dạng hành động giao thơng.
Thực nghiệm tiến hành đánh giá trên hai tập TF2 và TFH2 và thu được kết quả ở Bảng 2-18 dưới đây:
RF J48 NB KNN SVM
ACC AUC ACC AUC ACC AUC ACC AUC ACC AUC TF2 95,78% 0,998550 94,78% 0,978238 90,44% 0,967257 92,04% 0,965410 80,40% 0,836312
0.75 0.8 0.85 0.9 0.95 1 RF J48 NB KNN SVM Độ đo AU C Thuật tốn TF2 TFH2 70% 75% 80% 85% 90% 95% 100% RF J48 NB KNN SVM Độ đ o Accu ra cy Thuật tốn TF2 TFH2
Kết quả thực nghiệm với kích thước đã được lựa chọn sử dụng hai tập thuộc tính TF2 và TFH2 được minh họa như hình dưới đây:
Hình 2-19. Kết quả phân lớp với kích thƣớc cửa sổ lựa chọn trên tập TF2 và TFH2
Từ kết quả trên cho thấy, khi bổ sung tham số Hjorth vào tập thuộc tính TF2 ta thu được tập thuộc tính TFH2 mới cho kết quả độ đo Accuracy lớn hơn độ đo trên tập TF2 cùng một thuật tốn phân lớp RF được lựa chọn là 3,17% và giá trị độ đo AUC lớn hơn là 0,0013.
Tuy khơng sử dụng cố định vị trí điện thoại để thực nghiệm, việc xử lý dữ liệu gặp nhiều khĩ khăn nhưng kết quả nhận dạng các hành động cơ bản thu được kết quả khả quan đánh giá. So với các kết quả của các hệ thống nhận dạng đã trình bày trong Bảng 2-1 tổng hợp với một số nghiên cứu cĩ liên quan tham khảo ở Bảng 2-1, kết quả phương pháp đề xuất nhận dạng hành động giao thơng cơ bản cao hơn so với một số nghiên cứu này.
2.5.6 Đánh giá hệ thống đề xuất so với một số nghiên cứu hiện tại[CT4].
Phương pháp nhận dạng các đối tượng trong hệ thống giao thơng bằng các thuật tốn phân lớp là một phương pháp phổ biến được nhiều nghiên cứu sử dụng. Tùy theo dữ liệu, yêu cầu của bài tốn sẽ cĩ những hệ thống nhận dạng được thiết kế khác nhau. Hơn nữa, các dữ liệu phục vụ cho nhận dạng thường cĩ bản quyền và ít được cơng bố rộng rãi. Do vậy, để đánh giá hệ thống nhận dạng trên cùng một bộ dữ liệu đủ lớn được cơng bố gặp nhiều khĩ khăn.
Để đánh giá hệ thống nhận dạng được đề xuất, qua tìm hiểu thu thập, chúng tơi tiến hành thực nghiệm đánh giá hệ thống dựa trên tập dữ liệu được thu thập bởi cơng ty HTC của Đài Loan được cơng bố trong [56]. Hiện tại, tập dữ liệu được cơng bố với 25,6GB gồm các cảm biến gia tốc, con quay hồi chuyển, cảm biến từ và GPS. Dữ liệu được thu thập với các nhãn lớp là: dừng, đi bộ, chạy, xe đạp, xe buýt, ơ tơ, tàu điện ngầm, tàu hỏa, xe điện, tàu nhanh.
Một số nghiên cứu khác cũng đã thực hiện đánh giá kiểm thử các phương pháp, thuật tốn đề xuất để so sánh kết quả dựa trên tập dữ liệu này [31][32][56]. Tác giả trong nghiên cứu [57] tập trung phân biệt các dạng khơng phải động cơ đĩ là dừng chờ, đi bộ, chạy và đạp xe (still, walk, run, và bike) và các dạng phương tiện cơ giới khác. Hai hệ thống phát hiện cho hai dạng đối tượng khơng phải phương tiện cơ giới là dừng chờ và đi bộ (Still, walk) và phương tiện cơ giới là xe buýt, ơ tơ, xe điện ngầm, xe điện và tàu nhanh (bus, car, metro, train, tram, và HSR) từ cảm biến gia tốc, cảm biến từ và con quay hồi chuyển.
Trên thực tế, tiết kiệm số lượng các cảm biến sử dụng cho hệ thống sẽ tiêu hao ít năng lượng của thiết bị hơn. Bởi vậy, phương pháp nhận dạng của chúng tơi chỉ sử dụng cảm biến gia tốc nên về thực tế sẽ sử dụng năng lượng ít hơn. Hơn nữa, hệ thống của các cơng bố này sử dụng kích thước cửa sổ dữ liệu dài hơn với kích thước 17,06 giây và 60 giây, điều này cần nhiều thời gian để trả lại kết quả cũng như sử dụng tài nguyên tính tốn của thiết bị hơn so với hệ thống của chúng tơi. Đồng thời, hướng đề xuất của [32] cần sử dụng 348 thuộc tính đặc trưng sẽ gặp phải khĩ khăn khi hướng đến mục tiêu của các ứng dụng dự đốn tức thời so với hệ thống của chúng tơi chỉ sử dụng 27 thuộc tính đặc trưng [CT4]. Thêm vào đĩ, kết quả của phương pháp nhận dạng được chúng tơi đề xuất so với các hệ thống khác trên cùng một bộ dữ liệu của cơng ty HTC là 97,33% như trong Bảng 2-19, cao hơn so với hai nghiên cứu hiện tại [31][32].
Với tập thuộc tính được đề xuất như trong cơng bố [CT4], chúng tơi thực nghiệm trên bộ dữ liệu HTC[56] được thu thập bởi cơng ty HTC Đài Loan; kết quả thực nghiệm của chúng tơi cao hơn so với các phương pháp của một số nghiên cứu
trên cùng bộ dữ liệu này như trong Bảng 2-19 dưới đây. Qua những kết quả đánh giá này cho thấy, hệ thống nhận dạng là phù hợp và cĩ kết quả khả quan trong việc nhận dạng các đối tượng trong hệ thống giao thơng.
Nghiên cứu Kết quả phân lớp accuracy
Fang et al, [31] (Sử dụng KNN) 83,57% Guvensan et al [32], (Sử dụng RF) 91,63%
Phương pháp đề xuất (sử dụng RF) 97,33%
Bảng 2-19. Kết quả so sánh phƣơng pháp nhận dạng dựa trên tập thuộc tính đề xuất với các phƣơng pháp khác trên cùng bộ dữ liệu HTC [56] [CT4]
2.6 Kết luận
Trong chương này chúng tơi đề xuất hệ thống nhận dạng để thực hiện nhận dạng hành động giao thơng cơ bản là {Dừng, Đi thẳng, Rẽ trái, Rẽ phải } dựa trên cảm biến gia tốc thu được từ điện thoại thơng minh của người sử dụng phương tiện khi vị trí điện thoại khơng cố định.
Đồng thời sử dụng phương pháp biến đổi hệ tọa độ thiết bị theo hệ tọa độ của trái đất nhằm thu được dữ liệu hữu ích cho hệ thống nhận dạng hành động. Dựa trên dữ liệu thu được, đề xuất một tập thuộc tính đặc trưng phù hợp – TFH2 gồm 59 thuộc tính để trích xuất, biến đổi dữ liệu cảm biến gia tốc thành dữ liệu đặc trưng. Trong đĩ, tập thuộc tính Hjorth đã gĩp phần nâng cao kết quả phân lớp khi kết hợp cùng các thuộc tính miền thời gian và tần số.
Phương pháp tối ưu kích thước cửa sổ và con trượt dựa vào độ đo AUC được sử dụng để lựa chọn ra các kích thước cửa sổ phù hợp với từng nhãn lớp hành động. Qua đĩ, xây dựng được tập dữ liệu đặc trưng phụ vụ cho hệ thống nhận dạng. Từ thực nghiệm khảo sát, đánh giá các thuật tốn thơng dụng cho bài tốn nhận dạng. Thuật tốn RF cho kết quả độ đo Accuracy và độ đo AUC cao hơn các thuật tốn khác nên hệ thống chọn RF làm thuật tốn nhận dạng hành động giao thơng.
Dựa trên tập dữ liệu đã được cơng bố bởi cơng ty HTC của Đài Loan, thực nghiệm đánh giá hệ thống đề xuất trên cùng tập dữ liệu này cho kết quả chính xác hơn so với một số cơng bố tương tự [31], [32] cũng sử dụng tập dữ liệu này [CT4].
Chƣơng 3. NHẬN DẠNG HÀNH VI BẤT THƢỜNG 3.1 Giới thiệu 3.1 Giới thiệu
Trong bài tốn phân tích hành vi, cĩ nhiều mục đích hướng đến sau khi nhận biết được hành vi của con người ở các lĩnh vực khác nhau như y tế, giáo dục và trong lĩnh vực giao thơng. Việc tìm ra hành vi bất thường nhằm nhận dạng những hành vi khác với những tiêu chuẩn, quy định hoặc chuẩn mực thơng thường để giảm, tránh các tác động xấu do các hành vi này gây ra. Đây cũng như là cơ sở áp dụng cho những bài tốn khác. Hành vi giao thơng bất thường tiềm ẩn những nguy cơ với chính đối tượng điều khiển phương tiện cũng như các đối tượng và thành phần khác trong hệ thống gia thơng. Tuy nhiên, xác định được thế nào là hành vi bất thường phụ thuộc vào các điều kiện, bối cảnh khác nhau nên gặp nhiều khĩ khăn trong việc xác định, lựa chọn dữ liệu phân tích và đưa ra các phương pháp phát hiện bất thường. Sử dụng dữ liệu cảm biến của điện thoại thơng minh mà các đối tượng mang theo khi tham gia giao thơng. Luận án đã tìm hiểu, khảo sát đề xuất giải pháp nhận dạng ra hành vi bất thường dựa trên hệ thống nhận dạng hành động đã được trình bày trong chương 2,
3.2 Bài tốn nhận dạng hành vi bất thƣờng 3.2.1 Nhận dạng bất thƣờng
Dữ liệu bình thường và bất thường
3.2.1.1
Một dữ liệu bất thường là dạng mẫu mà nĩ khác với định nghĩa của mẫu dữ liệu bình thường. Ví dụ như trong Hình 3-1 cho thấy, với các mẫu ở hai tập N1 và N2 là hành vi bình thường thì các mẫu o1, o2 tập O3 là các mẫu bất thường. Các mẫu dữ liệu bất thường cĩ thể thu được bởi nhiều lý do khác nhau trong quá trình hệ thống thực hiện. Vấn đề thường được quan tâm đĩ là các đặc trưng điển hình của các mẫu bất thường cĩ hình dạng như thế nào.
Hình 3-1. Khái niệm dữ liệu bất thƣờng[58]
Tuy nhiên, trong thực tế việc định nghĩa một mẫu bất thường khĩ hơn rất nhiều so với việc định nghĩa mẫu bình thường. Do đĩ, một trong những hướng tiếp cận và định nghĩa một mẫu bất thường phổ biến đĩ là dựa vào định nghĩa của mẫu bình thường. Khi định nghĩa được tập các mẫu bình thường, nếu biểu diễn hoặc phát