Để đánh giá sự thay đổi giá trị AUC của hai kích thước cửa sổ liền nhau cũng như thể hiện được sự thay đổi chung của kết quả nhận dạng. Giá trị tuyệt đối
của hai kích thước cửa sổ liền nhau trên từng hành động được biểu diễn như Hình 2-18: (a) (c) (b) (d)
Hình 2-18. Chu kỳ thay đổi độ đo AUC tƣơng ứng với hai kích thƣớc cửa sổ liền nhau của các hành động cơ bản với: (a) Dừng; (b) Đi thẳng; (c) Rẽ trái; (d) Rẽ phải
Từ các hình biểu diễn trên ta thấy, sự thay đổi của độ đo AUC hội tụ dần ở kích thước 4 giây. Đề phịng trường hợp mất mát thơng tin khi các hành động, hành vi xảy ra nhanh, đa dạng, chúng tơi chọn 2 cửa sổ liên tiếp và chồng dữ liệu 50% (tương ứng với 6 giây) để làm giá trị lớn nhất trong khoảng khảo sát kích thước cửa
0 0.0005 0.001 0.0015 0.002 0.0025 1 2 3 4 5 6 7 8 9 101112131415 Độ c hê nh lệc h AU C củ a hai cử a sổ Kích thƣớc cửa sổ 75% 50% 25% 0 0.001 0.002 0.003 0.004 0.005 0.006 0.007 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Đ ộ ch ên h lệ ch A U C c ủa h ai c ửa sổ Kích thước cửa sổ 75% 50% 25% 0 0.0005 0.001 0.0015 0.002 0.0025 0.003 0.0035 0.004 1 2 3 4 5 6 7 8 9 101112131415 Đ ộ chên h lệc h A U C c ủa h ai cửa sổ Kích thƣớc cửa sổ 75% 50% 25% 0 0.0002 0.0004 0.0006 0.0008 0.001 0.0012 0.0014 0.0016 0.0018 0.002 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Đ ộ chên h lệc h A U C c ủa h ai cửa sổ Kích thước cửa sổ 75% 50% 25%
sổ. Do vậy, khoảng khảo sát kích thước cửa sổ là từ 1 giây, đến 6 giây được sử dụng với mục đích tìm ra kích thước cửa sổ phù hợp nhất đối trên từng nhãn lớp.
- Kết quả thu được là bộ tham số kích thước cửa sổ và chồng dữ liệu được thể hiện ở Bảng 2-17 dưới đây:
Hành động S G L R
Của sổ (giây) 4 6 5 6
Chồng dữ liệu 75% 75% 50% 50%
AUC 0,999422 0,992828 0,996841 0,987251
Bảng 2-17. Kích thƣớc cửa sổ đƣợc lựa chọn theo độ đo AUC
Các giá trị của kích thước cửa sổ tối ưu được sử dụng để xây dựng dữ liệu huấn luyện cho hệ thống nhận dạng hành động. Từ dữ liệu cảm biến gia tốc cĩ được, các kích thước cửa sổ tương ứng với từng hành động được sử dụng để biến đổi dữ liệu cảm biến gia tốc này thành dữ liệu đặc trưng dựa trên tập thuộc tính TFH2.
Để đánh giá kết quả nhận dạng với tập dữ liệu đã chuyển trục và hai tập đặc trưng TF2 và TFH2, sử dụng phương pháp kiểm chứng chéo CV10 với các thuật tốn phân lớp. Đồng thời, khẳng định tham số trên miền thời gian cĩ ý nghĩa quan trọng và sự bổ sung của tham số Hjorth trong bài tốn nhận dạng hành động giao thơng.
Thực nghiệm tiến hành đánh giá trên hai tập TF2 và TFH2 và thu được kết quả ở Bảng 2-18 dưới đây:
RF J48 NB KNN SVM
ACC AUC ACC AUC ACC AUC ACC AUC ACC AUC TF2 95,78% 0,998550 94,78% 0,978238 90,44% 0,967257 92,04% 0,965410 80,40% 0,836312
0.75 0.8 0.85 0.9 0.95 1 RF J48 NB KNN SVM Độ đo AU C Thuật tốn TF2 TFH2 70% 75% 80% 85% 90% 95% 100% RF J48 NB KNN SVM Độ đ o Accu ra cy Thuật tốn TF2 TFH2
Kết quả thực nghiệm với kích thước đã được lựa chọn sử dụng hai tập thuộc tính TF2 và TFH2 được minh họa như hình dưới đây:
Hình 2-19. Kết quả phân lớp với kích thƣớc cửa sổ lựa chọn trên tập TF2 và TFH2
Từ kết quả trên cho thấy, khi bổ sung tham số Hjorth vào tập thuộc tính TF2 ta thu được tập thuộc tính TFH2 mới cho kết quả độ đo Accuracy lớn hơn độ đo trên tập TF2 cùng một thuật tốn phân lớp RF được lựa chọn là 3,17% và giá trị độ đo AUC lớn hơn là 0,0013.
Tuy khơng sử dụng cố định vị trí điện thoại để thực nghiệm, việc xử lý dữ liệu gặp nhiều khĩ khăn nhưng kết quả nhận dạng các hành động cơ bản thu được kết quả khả quan đánh giá. So với các kết quả của các hệ thống nhận dạng đã trình bày trong Bảng 2-1 tổng hợp với một số nghiên cứu cĩ liên quan tham khảo ở Bảng 2-1, kết quả phương pháp đề xuất nhận dạng hành động giao thơng cơ bản cao hơn so với một số nghiên cứu này.
2.5.6 Đánh giá hệ thống đề xuất so với một số nghiên cứu hiện tại[CT4].
Phương pháp nhận dạng các đối tượng trong hệ thống giao thơng bằng các thuật tốn phân lớp là một phương pháp phổ biến được nhiều nghiên cứu sử dụng. Tùy theo dữ liệu, yêu cầu của bài tốn sẽ cĩ những hệ thống nhận dạng được thiết kế khác nhau. Hơn nữa, các dữ liệu phục vụ cho nhận dạng thường cĩ bản quyền và ít được cơng bố rộng rãi. Do vậy, để đánh giá hệ thống nhận dạng trên cùng một bộ dữ liệu đủ lớn được cơng bố gặp nhiều khĩ khăn.
Để đánh giá hệ thống nhận dạng được đề xuất, qua tìm hiểu thu thập, chúng tơi tiến hành thực nghiệm đánh giá hệ thống dựa trên tập dữ liệu được thu thập bởi cơng ty HTC của Đài Loan được cơng bố trong [56]. Hiện tại, tập dữ liệu được cơng bố với 25,6GB gồm các cảm biến gia tốc, con quay hồi chuyển, cảm biến từ và GPS. Dữ liệu được thu thập với các nhãn lớp là: dừng, đi bộ, chạy, xe đạp, xe buýt, ơ tơ, tàu điện ngầm, tàu hỏa, xe điện, tàu nhanh.
Một số nghiên cứu khác cũng đã thực hiện đánh giá kiểm thử các phương pháp, thuật tốn đề xuất để so sánh kết quả dựa trên tập dữ liệu này [31][32][56]. Tác giả trong nghiên cứu [57] tập trung phân biệt các dạng khơng phải động cơ đĩ là dừng chờ, đi bộ, chạy và đạp xe (still, walk, run, và bike) và các dạng phương tiện cơ giới khác. Hai hệ thống phát hiện cho hai dạng đối tượng khơng phải phương tiện cơ giới là dừng chờ và đi bộ (Still, walk) và phương tiện cơ giới là xe buýt, ơ tơ, xe điện ngầm, xe điện và tàu nhanh (bus, car, metro, train, tram, và HSR) từ cảm biến gia tốc, cảm biến từ và con quay hồi chuyển.
Trên thực tế, tiết kiệm số lượng các cảm biến sử dụng cho hệ thống sẽ tiêu hao ít năng lượng của thiết bị hơn. Bởi vậy, phương pháp nhận dạng của chúng tơi chỉ sử dụng cảm biến gia tốc nên về thực tế sẽ sử dụng năng lượng ít hơn. Hơn nữa, hệ thống của các cơng bố này sử dụng kích thước cửa sổ dữ liệu dài hơn với kích thước 17,06 giây và 60 giây, điều này cần nhiều thời gian để trả lại kết quả cũng như sử dụng tài nguyên tính tốn của thiết bị hơn so với hệ thống của chúng tơi. Đồng thời, hướng đề xuất của [32] cần sử dụng 348 thuộc tính đặc trưng sẽ gặp phải khĩ khăn khi hướng đến mục tiêu của các ứng dụng dự đốn tức thời so với hệ thống của chúng tơi chỉ sử dụng 27 thuộc tính đặc trưng [CT4]. Thêm vào đĩ, kết quả của phương pháp nhận dạng được chúng tơi đề xuất so với các hệ thống khác trên cùng một bộ dữ liệu của cơng ty HTC là 97,33% như trong Bảng 2-19, cao hơn so với hai nghiên cứu hiện tại [31][32].
Với tập thuộc tính được đề xuất như trong cơng bố [CT4], chúng tơi thực nghiệm trên bộ dữ liệu HTC[56] được thu thập bởi cơng ty HTC Đài Loan; kết quả thực nghiệm của chúng tơi cao hơn so với các phương pháp của một số nghiên cứu
trên cùng bộ dữ liệu này như trong Bảng 2-19 dưới đây. Qua những kết quả đánh giá này cho thấy, hệ thống nhận dạng là phù hợp và cĩ kết quả khả quan trong việc nhận dạng các đối tượng trong hệ thống giao thơng.
Nghiên cứu Kết quả phân lớp accuracy
Fang et al, [31] (Sử dụng KNN) 83,57% Guvensan et al [32], (Sử dụng RF) 91,63%
Phương pháp đề xuất (sử dụng RF) 97,33%
Bảng 2-19. Kết quả so sánh phƣơng pháp nhận dạng dựa trên tập thuộc tính đề xuất với các phƣơng pháp khác trên cùng bộ dữ liệu HTC [56] [CT4]
2.6 Kết luận
Trong chương này chúng tơi đề xuất hệ thống nhận dạng để thực hiện nhận dạng hành động giao thơng cơ bản là {Dừng, Đi thẳng, Rẽ trái, Rẽ phải } dựa trên cảm biến gia tốc thu được từ điện thoại thơng minh của người sử dụng phương tiện khi vị trí điện thoại khơng cố định.
Đồng thời sử dụng phương pháp biến đổi hệ tọa độ thiết bị theo hệ tọa độ của trái đất nhằm thu được dữ liệu hữu ích cho hệ thống nhận dạng hành động. Dựa trên dữ liệu thu được, đề xuất một tập thuộc tính đặc trưng phù hợp – TFH2 gồm 59 thuộc tính để trích xuất, biến đổi dữ liệu cảm biến gia tốc thành dữ liệu đặc trưng. Trong đĩ, tập thuộc tính Hjorth đã gĩp phần nâng cao kết quả phân lớp khi kết hợp cùng các thuộc tính miền thời gian và tần số.
Phương pháp tối ưu kích thước cửa sổ và con trượt dựa vào độ đo AUC được sử dụng để lựa chọn ra các kích thước cửa sổ phù hợp với từng nhãn lớp hành động. Qua đĩ, xây dựng được tập dữ liệu đặc trưng phụ vụ cho hệ thống nhận dạng. Từ thực nghiệm khảo sát, đánh giá các thuật tốn thơng dụng cho bài tốn nhận dạng. Thuật tốn RF cho kết quả độ đo Accuracy và độ đo AUC cao hơn các thuật tốn khác nên hệ thống chọn RF làm thuật tốn nhận dạng hành động giao thơng.
Dựa trên tập dữ liệu đã được cơng bố bởi cơng ty HTC của Đài Loan, thực nghiệm đánh giá hệ thống đề xuất trên cùng tập dữ liệu này cho kết quả chính xác hơn so với một số cơng bố tương tự [31], [32] cũng sử dụng tập dữ liệu này [CT4].
Chƣơng 3. NHẬN DẠNG HÀNH VI BẤT THƢỜNG 3.1 Giới thiệu 3.1 Giới thiệu
Trong bài tốn phân tích hành vi, cĩ nhiều mục đích hướng đến sau khi nhận biết được hành vi của con người ở các lĩnh vực khác nhau như y tế, giáo dục và trong lĩnh vực giao thơng. Việc tìm ra hành vi bất thường nhằm nhận dạng những hành vi khác với những tiêu chuẩn, quy định hoặc chuẩn mực thơng thường để giảm, tránh các tác động xấu do các hành vi này gây ra. Đây cũng như là cơ sở áp dụng cho những bài tốn khác. Hành vi giao thơng bất thường tiềm ẩn những nguy cơ với chính đối tượng điều khiển phương tiện cũng như các đối tượng và thành phần khác trong hệ thống gia thơng. Tuy nhiên, xác định được thế nào là hành vi bất thường phụ thuộc vào các điều kiện, bối cảnh khác nhau nên gặp nhiều khĩ khăn trong việc xác định, lựa chọn dữ liệu phân tích và đưa ra các phương pháp phát hiện bất thường. Sử dụng dữ liệu cảm biến của điện thoại thơng minh mà các đối tượng mang theo khi tham gia giao thơng. Luận án đã tìm hiểu, khảo sát đề xuất giải pháp nhận dạng ra hành vi bất thường dựa trên hệ thống nhận dạng hành động đã được trình bày trong chương 2,
3.2 Bài tốn nhận dạng hành vi bất thƣờng 3.2.1 Nhận dạng bất thƣờng
Dữ liệu bình thường và bất thường
3.2.1.1
Một dữ liệu bất thường là dạng mẫu mà nĩ khác với định nghĩa của mẫu dữ liệu bình thường. Ví dụ như trong Hình 3-1 cho thấy, với các mẫu ở hai tập N1 và N2 là hành vi bình thường thì các mẫu o1, o2 tập O3 là các mẫu bất thường. Các mẫu dữ liệu bất thường cĩ thể thu được bởi nhiều lý do khác nhau trong quá trình hệ thống thực hiện. Vấn đề thường được quan tâm đĩ là các đặc trưng điển hình của các mẫu bất thường cĩ hình dạng như thế nào.
Hình 3-1. Khái niệm dữ liệu bất thƣờng[58]
Tuy nhiên, trong thực tế việc định nghĩa một mẫu bất thường khĩ hơn rất nhiều so với việc định nghĩa mẫu bình thường. Do đĩ, một trong những hướng tiếp cận và định nghĩa một mẫu bất thường phổ biến đĩ là dựa vào định nghĩa của mẫu bình thường. Khi định nghĩa được tập các mẫu bình thường, nếu biểu diễn hoặc phát hiện được một số mẫu khơng thuộc về tập mẫu bình thường này thì ta coi đĩ là một mẫu bất thường. Tuy nhiên, cách thực hiện này gặp phải một số khĩ khăn như sau[58]:
- Thứ nhất, việc tìm một vùng chứa tồn bộ các mẫu bình thường là rất khĩ khăn do đường phân cách giữa vùng mẫu bình thường và mẫu bất thường là khơng chính xác, dẫn đến sự nhầm lẫn giữa hai loại mẫu.
- Thứ hai, dữ liệu bất thường được sinh ra bởi các tác nhân chủ động luơn cố gắng làm cho mẫu bất thường đĩ giống như mẫu bình thường, nên việc xác định chính xác mẫu bình thường trở nên rất khĩ khăn.
- Thứ ba, định nghĩa về mẫu bất thường khác nhau đối với các ứng dụng khác nhau. Do vậy, hướng nghiên cứu phát triển hệ thống chung cho các bài tốn khác trên các miền khác nhau là khơng khả thi.
- Thứ tư, việc thu thập, xử lý, gán nhãn cho dữ liệu bất thường để huấn luyện gặp rất nhiều khĩ khăn do số loại hành vi bất thường là khĩ xác định và số lượng mẫu thu thập được cũng rất hạn chế.
- Cuối cùng là dữ liệu thường chứa các thơng tin nhiễu và những mẫu dữ liệu nhiễu này thường giống với các mẫu bất thường trong thực tế nên các mẫu bất thường khĩ phân biệt và loại bỏ.
Từ những khĩ khăn của bài tốn phát hiện bất thường nêu trên. Các kỹ thuật phát hiện bất thường hướng tới việc xác định, xây dựng các hệ thống đặc thù với phương pháp riêng biệt phù hợp cho từng bài tốn. Dựa trên việc phân tích sâu những đặc điểm riêng biệt của từng yêu cầu bài tốn và đặc tính của dữ liệu tương ứng để nhận dạng, phát hiện ra các mẫu dữ liệu bất thường.
Sử dụng đặc tính của dữ liệu: Khi sử dụng đặc tính của dữ liệu trong hệ thống nhận dạng hành vi bất thường, đầu vào của bài tốn đĩ là đặc tính của dữ liệu thường là các đối tượng, bản ghi, điểm, véc tơ, mẫu, sự kiện, trường hợp, thực thể nên cần làm rõ đặc tính của từng dữ liệu khác nhau.
Dựa trên đặc tính của dữ liệu cĩ thể chia các dạng bất thường thành hai nhĩm chính, thứ nhất là sự bất thường của mẫu so với tập mẫu cịn lại, thứ hai là do trạng thái của mẫu dữ liệu. Với một điểm hoặc một mẫu dữ liệu được cho là bất thường đối với tập mẫu dữ liệu cịn lại thì điểm hay mẫu bất thường đĩ được coi là dạng điểm hoặc mẫu bất thường. Đây là một phương pháp được nhiều nghiên cứu sử dụng trong bài tốn tìm mẫu bất thường bên cạnh phương pháp tìm mẫu bất thường dựa vào trạng thái. Nếu một mẫu dữ liệu xác định một trạng thái bất thường thì đĩ là một mẫu dữ liệu bất thường.
Một số kỹ thuật gán nhãn bất thường
3.2.1.2
Trong các kỹ thuật nhận dạng hành vi bất thường, các phương pháp gán nhãn bất thường sẽ giúp hệ thống nhận dạng ra hành vi bình thường và hành vi bất thường.
Xác định dữ liệu bất thường bằng việc gán nhãn dữ liệu, nhãn kết hợp với mẫu dữ liệu để xác định mẫu dữ liệu đĩ là bình thường hay bất thường. Nhãn của dữ liệu thường được gán bởi các chuyên gia trong lĩnh vực đĩ. Gán nhãn bất thường khĩ hơn rất nhiều so với việc gán nhãn bình thường. Do nhãn bất thường luơn thay
phát hiện bất thường sử dụng phương pháp gán nhãn được chia thành 3 dạng chính sau[58][59]:
- Dạng 1: Phát hiện bởi phương pháp cĩ giám sát, kỹ thuật huấn luyện trong mơ hình học cĩ giám sát được sử dụng để huấn luyện tập dữ liệu cĩ hai nhãn lớp là bình thường và bất thường. Từ đĩ, cĩ thể gán nhãn cho một mẫu dữ liệu mới từ mơ