Tham số mặc định của thuật tốn phân lớp sử dụng cho thực nghiệm

Một phần của tài liệu (LUẬN án TIẾN sĩ) nhận dạng hành vi của người tham gia giao thông dựa trên cảm biến điện thoại luận án TS máy tính 94801 (Trang 69)

2.5.2 Dữ liệu thực nghiệm

Hệ thống nhận dạng hành động giao thơng được thực hiện trên từng loại phương tiện. Với mục đích làm cơ sở phát hiện hành vi bất thường, luận án tập trung nhận dạng 4 hành động cơ bản là đi thẳng, dừng, rẽ trái và rẽ phải. Dữ liệu cảm biến gia tốc được chuyển trục dựa vào cảm biến con quan hồi chuyển và cảm biến từ; sau đĩ thực hiện các bước tiền xử lý dữ liệu khác để thực hiện các thực nghiệm về: lựa chọn tập thuộc tính; khảo sát thuật tốn phân lớp; và xây dựng tập dữ liệu huấn luyện dựa trên tối ưu kích thước cửa sổ dữ liệu.

Số lƣợng Giới tính Độ tuổi Nghề nghiệp Địa điểm, thời gian thu dữ liệu

11 người 7 nam, 4 nữ 22 đến 40 Sinh viên, giảng viên, nhân viên văn phịng.

Khi đi học, đi làm và trở về trên đường phố Hà Nội

Bảng 2-7. Thơng tin đối tƣợng tham gia thực nghiệm

Thực nghiệm tiến hành thu dữ liệu khi các đối tượng ngồi sau hoặc điều khiển phương tiện trong hành trình lưu thơng. Tần số thu dữ liệu là 50Hz. Các hành động cần được nhận dạng là: {Dừng (S), Đi thẳng (G), Rẽ trái (L), Rẽ phải (R)}.

Hành động Số lượng Thời gian Vị trí của điện thoại

Dừng 11 6 phút Cầm tay khi lái xe, cầm tay ngồi sau

Đi thẳng 11 20 phút Cầm tay khi lái xe, cầm tay ngồi sau, bỏtúi

Rẽtrái 3 10 phút Cầm tay khi lái xe, cầm tay ngồi sau Rẽ phải 3 10 phút Cầm tay khi lái xe, cầm tay ngồi sau

Bảng 2-8. Cảnh huống thu thập dữ liệu của các hành động

Các cảnh huống thực hiện thu thập dữ liệu đối với từng hành động được bố trí như sau: Dữ liệu hành động dừng được thu thập khi phương tiện chuẩn bị dừng cho đến khi phương tiện dừng hẳn. Hành động đi thẳng được thực hiện khi phương tiện di chuyển khơng thay đổi hướng trong lộ trình.

Hình 2-10. Hành động dừng và hành động đi thẳng

Dừng chờ Di chuyển

-5 0 5 10 15 1 11 21 31 41 51 61 71 81 91 101 111 121 131 141 Dừng X Y Z -10 -5 0 5 10 15 1 11 21 31 41 51 61 71 81 91 101 111 121 131 141 Đi thẳng X Y Z -10 0 10 20 1 13 25 37 49 61 73 85 97 109 121 133 145 157 Rẽ trái X Y Z -10 0 10 20 1 11 21 31 41 51 61 71 81 91 101 111 121 131 141 151 Rẽ phải X Y Z α

- Hành động rẽ trái được thực hiện khi phương tiện chuẩn bị rẽ trái đến khi kết thúc rẽ trái, tương tự là hành động rẽ phải với gĩc chuyển hướng 450 được mơ phỏng như Hình 2-11.

Dữ liệu phát hiện được thu thập và phân tích nhằm phát hiện ra loại phương tiện mà người dùng điện thoại đang sử dụng, từ kết quả này hệ thống sẽ chuyển sang phát hiện các hành động cơ bản. Đây là cơ sở để phát hiện các hành động khác phức tạp hơn dựa trên tổ hợp từ 4 hành động cơ bản này.

(a) (b)

Hình 2-11. (a): Hành động rẽ phải; (b): Hành động rẽ trái

Khi thu thập dữ liệu cảm biến gia tốc, dữ liệu được thể hiện như hình sau:

(a) (b)

(c) (d)

361 3797 1750

1656

Số lượng mẫu của các hành động

Dừng Đi thẳng Rẽ trái Rẽ phải

Khi thực hiện phân tích dữ liệu với các kích thước cửa sổ khác nhau, số lượng các bản ghi tương ứng trong tập dữ liệu huấn luyện sử dụng để khảo sát các hành động được biểu diễn như hình sau:

Hành động Dừng Đi thẳng Rẽ trái Rẽ phải

Số lượng mẫu 361 3797 1750 1656

Bảng 2-9. Tập mẫu dữ liệu đặc trưng sử dụng nhận dạng hành động giao thơng cơ bản Thơng tin về tập dữ liệu đặc trưng trong Bảng 2-9 được minh họa bằng Hình Thơng tin về tập dữ liệu đặc trưng trong Bảng 2-9 được minh họa bằng Hình 2-13 dưới đây:

Hình 2-13. Tập dữ liệu đặc trƣng sử dụng cho nhận dạng hành động giao thơng cơ bản

Cũng cĩ thể thấy được phân bổ của dữ liệu đặc trưng đã được biến đổi với 59 thuộc tính từ dữ liệu cảm biến gia tốc thể hiện bởi Hình 2-14 sau:

Hình 2-14. Phân bổ của tập dữ liệu đặc trƣng đƣợc biến đổi với 59 thuộc tính

Với các tập dữ liệu đặc trưng được biến đổi với các tập thuộc tính khác nhau, áp dụng các phương pháp phân lớp và đánh giá kết quả bằng phương pháp kiểm chứng chéo để tiến hành các thực nghiệm trên.

2.5.3 Lựa chọn tập thuộc tính

Để đánh giá, lựa chọn tập thuộc tính phù hợp bằng cách đánh giá tên từng tập thuộc tính, sau đĩ tiến hành kết hợp các tập thuộc tính với nhau. Thực nghiệm tiến hành với tập thuộc tính: H2, T2, F2, TF2, TH2, TFH2. Dữ liệu cảm biến gia tốc thơ chưa chuyển trục được thu khi người tham gia giao thơng điều khiển phương tiện xe máy với tần số thu dữ liệu là 50Hz.

Cửa sổ dữ liệu là một tham số quan trọng trong phương pháp trích xuất các thơng tin bởi các thuộc tính đặc trưng với mong muốn tìm được nhiều thơng tin hữu ích cĩ trong cửa sổ đĩ. Tuy nhiên, tùy từng nghiên cứu khác nhau, các cửa sổ được lựa chọn với kích thước khác nhau – thường là từ thực nghiệm như kích thước 3 giây trong nghiên cứu [21]; hay 60 giây trong nghiên cứu [32]. Thơng qua thực nghiệm, với mong muốn lựa chọn một cửa sổ đồng nhất nhằm đánh giá tính chất của các thuộc tính phù hợp, cửa sổ dữ liệu được lựa chọn là 5 giây đối với tất cả hành động, cùng với tỉ lệ chồng dữ liệu là 50%. Một số thuật tốn phân lớp thơng dụng như rừng ngẫu nhiên, J48, Nạve Bayes, k- láng giềng gần nhất, máy véc tơ tựa với các tham số mặc định được lựa chọn để tiến hành thực nghiệm được lựa chọn như trong Bảng 2-6. Số lượng các thuộc tính trên mỗi tập được biểu diễn như Bảng 2-10. Phương pháp đánh giá sử dụng kiểm tra chéo – 10 tập.

Kiểu Tập đặc trưng Số lượng thuộc tính Áp dụng nhận dạng

T T2 34 Hành động F F2 7 Hành động T+F TF2 41 Hành động H H2 18 Hành động T+H TH2 52 Hành động T+F+H TFH2 59 Hành động

Bảng 2-10. Khảo sát tập thuộc tính cho hệ thống phát hiện hành động cơ bản

Trong Bảng 2-10, kiểu thuộc tính T: là dựa trên thời gian, F: dựa trên tần số; Áp dụng cho hệ thống nhận dạng hành động. Thực nghiệm với các tập thuộc tính trên thu được các kết quả về độ chính xác Accuracy (ACC) và AUC như sau:

0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00 RF J48 NB KNN SVM Độ đo AU C Thuật tốn H2 F2 T2 TH2 TF2 TFH2

Random Forest J48 Nạve Bayes KNN SVM

ACC AUC ACC AUC ACC AUC ACC AUC ACC AUC

H2 82,39% 0,9531 65,57% 0,8881 65,57% 0,8326 66,89% 0,8153 65,41% 0,7273 F2 82,85% 0,9530 79,16% 0,8690 54,29% 0,7970 75,99% 0,8120 51,12% 0,6551 T2 88,79% 0,9730 69,90% 0,9213 69,90% 0,8546 73,91% 0,8596 70,86% 0,7506 TH2 88,39% 0,975 82,06% 0,8620 38,19% 0,8440 78,56% 0,8400 76,45% 0,8090 TF2 88,85% 0,9752 70,60% 0,9134 70,60% 0,8462 74,08% 0,8481 70,99% 0,7384 TFH2 88,32% 0,9768 70,36% 0,9104 70,36% 0,8479 72,39% 0,8406 69,64% 0,7384

Bảng 2-11, Kết quả phân lớp hành động trên các tập thuộc tính

Để cĩ sự đánh giá sự kết hợp các thuộc tính ở các tập khác nhau giữa các miền tần số và thời gian, thực nghiệm phân lớp được khảo sát trên H2, T2, F2, TH2, TF2 và TFH2 với dữ liệu đặc trưng đã lựa chọn ở trên thu được kết quả như sau:

Hình 2-15. Kết quả phân lớp sử dụng các tập thuộc tính H2, T2, F2, TH2, TF2, TFH2

Kết quả ở Hình 2-15 cho thấy, kết quả phân lớp trên tập T2 cho kết quả cao hơn tập H2 và F2 nên các thuộc tính ở tập T2 được lấy làm thành phần chính khi khảo sát kết hợp thành ba tập thuộc tính để đánh giá đĩ là: TH2, TF2 và TFH2

50% 55% 60% 65% 70% 75% 80% 85% 90% 95% RF J48 NB KNN SVM Đ đo A cc ur ac y Thuật tốn H2 F2 T2 TH2 TF2 TFH2

nhằm thu được một tập thuộc tính kết hợp tốt nhất cho nhận dạng hành động. Kết quả lựa chọn dựa trên AUC thu được tập thuộc tính TFH2 với kết quả cao nhất.

Đồng thời, thực nghiệm cũng tiến hành đánh giá phương pháp biến đổi hệ tọa độ của thiết bị thu dữ liệu sang hệ tọa độ của trái đất nhằm tăng kết quả chính xác khi nhận dạng các hành động giao thơng.

- Thực nghiệm với dữ liệu đã biến đổi hệ tọa độ: Việc biến đổi hệ tọa độ của thiết bị thu dữ liệu theo hệ tọa độ trái đất sử dụng kết hợp các cảm biến con quay hồi chuyển và từ kế nhằm thu được dữ liệu cảm biến gia tốc mới ổn định hơn so với dữ liệu cảm biến thơ. Do đĩ, việc tiến hành thực nghiệm sử dụng dữ liệu cảm biến đã biến đổi hệ tọa độ cùng với dữ liệu gia tốc thơ để đánh giá, so sánh dựa trên cùng một kích thước cửa sổ và cùng tập thuộc tính TFH2 cho kết quả như sau:

RF J48 NB KNN SVM

AUC ACC AUC ACC AUC ACC AUC ACC AUC ACC

DL thơ 0,97676 88,32% 0,910449 85,55% 0,84794 70,36% 0,84058 72,39% 0,73837 69,64%

DL- CT 0,98541 90,97% 0,95921 89,94% 0,94450 86,05% 0,93778 86,40% 0,81313 74,87%

Bảng 2-12. Kết quả so sánh dữ liệu thơ và dữ liệu đã biến đổi hệ tọa độ

Thực nghiệm nhằm so sánh kết quả phân lớp dựa trên hai tập dữ liệu thơ và dữ liệu đã biến đổi hệ trục tọa độ được mơ tả như hình dưới đây:

Hình 2-16. Kết quả so sánh dữ liệu thơ và dữ liệu biến đổi hệ tọa độ

Kết quả thực nghiệm thể hiện trong Hình 2-16 cho thấy, sau khi biến đổi hệ tọa độ, kết quả nhận dạng hành động thu được cao hơn so với kết quả sử dụng dữ liệu thơ ở trên cả 5 thuật tốn. Một số hành động như rẽ trái, rẽ phải cũng như sự

60% 65% 70% 75% 80% 85% 90% 95% RF J48 NB KNN SVM Đ đo A cc ur ac y Thuật tốn

Dữ liệu thơ Dữ liệu chuyển trục

0.7 0.75 0.8 0.85 0.9 0.95 1 RF J48 NB KNN SVM Đ đo A C C Thuật tốn

thay đổi vị trí điện thoại dẫn đến dữ liệu cảm biến gia tốc thay đổi do độ nghiêng hoặc các gĩc xoay của điện thoại trong suốt hành trình giao thơng. Do vậy, chúng tơi lựa chọn dữ liệu chuyển trục để thực hiện nhận dạng hành động và hành vi giao thơng bất thường.

2.5.4 Khảo sát thuật tốn phân lớp

Đối với bài tốn nhận dạng sử dụng phương pháp phân lớp, cần lựa chọn một thuật tốn phân lớp phù hợp với yêu cầu cụ thể cũng như tính chất của dữ liệu. Dựa trên những nghiên cứu đã được cơng bố. Chúng tơi lựa chọn một số thuật tốn thường sử dụng để khảo sát và lựa chọn ra một thuật tốn để nhận dạng hành động, hành vi giao thơng sử dụng dữ liệu cảm biến gia tốc.

Tương tự như thực nghiệm trên, dữ liệu sử dụng cho thực nghiệm là dữ liệu cảm biến gia tốc thơ chưa chuyển trục được thu ở tần số 50Hz, được cắt bởi cửa sổ 5 giây, chồng dữ liệu 50% áp dụng tập thuộc tính TFH2 với 4 nhãn lớp là {S,G,L,R}, các giá trị kích thước cửa sổ này cũng thường được sử dụng trong [38][54][55]. Thực nghiệm cũng được tiến hành trên các thuật tốn thường được sử dụng trong phân tích hành động người là Random Forest, Nạve Bayes, J48, KNN và SVM với các giá trị mặc định thường dùng cho mỗi thuật tốn.

Phương pháp kiểm chứng chéo 10-fold được sử dụng để đánh giá thực nghiệm phân lớp và cho kết quả trên từng tập thuộc tính đặc trưng với từng thuật tốn phân lớp như trong Hình 2-17 dưới đây:

Hình 2-17. Kết quả độ đo thực nghiệm với các thuật tốn phân lớp

50% 60% 70% 80% 90% 100% RF J48 NB KNN SVM Độ đo Ac cu rac y Thuật tốn H2 F2 T2 TH2 TF2 TFH2 0.5 0.6 0.7 0.8 0.9 1.0 RF J48 NB KNN SVM Độ đo AU C Thuật tốn H2 F2 T2 TH2 TF2 TFH2

Từ Hình 2-17 thể hiện kết quả thực nghiệm nhận dạng hành động với cùng một bộ dữ liệu được phân tích trên tất cả các tập thuộc tính thu được độ đo Accuracy và AUC của thuật tốn RF cao nhất trên tất cả các tập dữ liệu, tiếp đĩ là thuật tốn J48. Do vậy, thuật tốn RF được sử dụng cho hệ thống nhận dạng hành động, hành vi giao thơng.

2.5.5 Xây dựng dữ liệu huấn luyện

Mỗi hành động giao thơng của đối tượng khác nhau trong những hồn cảnh khác nhau thì cĩ những đặc điểm, chu kỳ khác nhau. Trong một số nghiên cứu đã sử dụng kích thước cửa sổ cố định để nhận dạng các loại hành động bằng cửa sổ đĩ. Từ đĩ, dẫn đến sự khĩ khăn khi phải lựa chọn một kích thước cửa sổ phù hợp cho tất cả các loại hành động. Để giải quyết vấn đề này, chúng tơi đã lựa chọn hướng tiếp cận khảo sát đánh giá, lựa chọn kích thước cửa sổ trên từng hành động dựa vào độ đo AUC nhằm chọn được các kích thước cửa sổ phù hợp, nâng cao độ chính xác phân lớp.

Với sự tiện dụng và phổ biến ở các thành phố của Việt Nam, phương tiện sử dụng chủ yếu là xe máy nên chúng tơi chọn loại phương tiện này để khảo sát, thu tập dữ liệu, phân tích và nhận dạng hành động giao thơng của người điều khiển.

Dữ liệu cảm biến gia tốc được thu thập với tần số 50Hz sau đĩ được biến đổi hệ tọa độ theo hệ tọa độ trái đất. Khoảng kích thước cửa sổ lựa chọn để khảo sát là: từ 1 giây đến 10 giây; tỉ lệ chồng dữ liệu 75%, 50% và 25% với mục đích tìm ra một kích thước phù hợp cho từng hành động. Thực nghiệm tiến hành trên tập thuộc tính TFH2 cùng với và kết quả phân lớp sử dụng thuật tốn rừng ngẫu nhiên được thể hiện ở bảng dưới đây:

- Kết quả độ đo AUC khi phân lớp với hành động “Dừng“ như Bảng 2-13 dưới đây với ký hiệu: OVL/W là cột chồng dữ liệu (%)và kích thước cửa sổ tính theo giây.

OVL/W 1 2 3 4 5 6 7 8 9 10

50% 0,922594 0,940615 0,963330 0,963095 0,963982 0,998994 0,999700 0,999829 0,999786 0,999401

25% 0,918458 0,943671 0,998806 0,997954 0,999049 0,991879 0,996485 0,994788 0,995152 0,994485

Bảng 2-13. Kết quả độ đo AUC của hành động dừng

- Kết quả độ đo AUC khi phân lớp đối với hành động “Đi thẳng” như Bảng 2-14 dưới đây:

1 2 3 4 5 6 7 8 9 10

75% 0,928616 0,955943 0,965958 0,967215 0,966412 0,988699 0,987950 0,988012 0,989448 0,987304

50% 0,913065 0,935925 0,963095 0,961592 0,959618 0,969978 0,967364 0,971009 0,969060 0,968582

25% 0,907150 0,934270 0,957993 0,957276 0,957637 0,987429 0,986971 0,988387 0,984058 0,985077

Bảng 2-14. Kết quả độ đo AUC của hành động đi thẳng

- Kết quả độ đo AUC khi phân lớp đối với hành động “Rẽ trái” nhận được như bảng Bảng 2-15 dưới đây:

1 2 3 4 5 6 7 8 9 10

75% 0,968710 0,982481 0,974725 0,974483 0,971390 0,987466 0,990798 0,992596 0,993971 0,993601

50% 0,960661 0,971513 0,985186 0,983805 0,996841 0,973741 0,966488 0,971506 0,966671 0,971334

25% 0,956457 0,969392 0,963152 0,961873 0,961388 0,990533 0,992754 0,991591 0,991432 0,992014

Bảng 2-15. Kết quả độ đo AUC của hành động rẽ trái

- Kết quả đo AUC khi phân lớp đối với hành động “Rẽ phải” nhận được như bảng Bảng 2-16 dưới đây:

1 2 3 4 5 6 7 8 9 10

75% 0,958724 0,972968 0,982021 0,982473 0,981457 0,986584 0,986836 0,986990 0,988919 0,984220

50% 0,947849 0,960313 0,977571 0,976844 0,976765 0,987251 0,979471 0,982263 0,980554 0,981414

25% 0,942924 0,959554 0,975552 0,974838 0,974842 0,985534 0,986797 0,986021 0,985256 0,985872

Bảng 2-16. Kết quả độ đo AUC của hành động rẽ phải

Để đánh giá sự thay đổi giá trị AUC của hai kích thước cửa sổ liền nhau cũng như thể hiện được sự thay đổi chung của kết quả nhận dạng. Giá trị tuyệt đối

Một phần của tài liệu (LUẬN án TIẾN sĩ) nhận dạng hành vi của người tham gia giao thông dựa trên cảm biến điện thoại luận án TS máy tính 94801 (Trang 69)

Tải bản đầy đủ (PDF)

(121 trang)