Một số nghiên cứu nhận dạng hành động giao thơng

Một phần của tài liệu (LUẬN án TIẾN sĩ) nhận dạng hành vi của người tham gia giao thông dựa trên cảm biến điện thoại luận án TS máy tính 94801 (Trang 40)

Qua các nghiên cứu trong Bảng 2-1 cho thấy đối tượng nhận dạng của mỗi bài tốn là khác nhau được khảo sát theo thời gian cơng bố trong khoảng thời gian từ năm 2011 đến năm 2017. Các nghiên cứu cũng dựa vào các nguồn cảm biến của điện thoại, với vị trí điện thoại cĩ thể cố định hoặc thay đổi. Sử dụng các độ đo đánh giá các giải thuật phân lớp khác nhau cho nhiều nhãn lớp hành vi. Tuy nhiên, chúng cĩ một số điểm chung đĩ là các hành động được lựa chọn dựa trên hai yếu tố cơ bản: yếu tố thay đổi tốc độ và yếu tố điều khiển phương tiện chuyển hướng theo các hướng khác nhau khi tham gia giao thơng. Tùy thuộc vào mục đích đặt ra sẽ thực hiện nhận dạng, phát hiện tập các hành động theo tính chất, mức độ khác nhau. Hướng tiếp cận kết hợp dữ liệu cảm biến gia tốc với các cảm biến khác như con quay hồi chuyển, GPS, cảm biến từ trường, cảm biến hình ảnh được các nghiên cứu

tập trung. Bởi khi đĩ, cĩ thêm những nguồn dữ liệu khác nhau sẽ làm giàu thơng tin cho hệ thống, giúp hệ thống cải thiện hiệu quả thực hiện nhận dạng hành động.

Vị trí của các thiết bị thu dữ liệu cũng thường được đặt cố định [5] hoặc nếu cĩ thay đổi thì gĩc đặt ban đầu của thiết bị so với hướng chuyển động cũng được biết trước[15] từ đĩ cĩ thể kết hợp các phương pháp chuyển hệ trục tọa độ để tính được sự thay đổi của gĩc xoay. Trong trường hợp vị trí thay đổi và khơng biết trước. Phương pháp sử dụng kỹ thuật cửa sổ dữ liệu với các thuộc tính đặc trưng thường được áp dụng trong nghiên cứu [11][15]. Dẫn đến việc cần cĩ một tập thuộc tính phù hợp với yêu cầu, điều kiện cụ thể và kỹ thuật sử dụng cho từng bài tốn.

Một số phương pháp, kỹ thuật thơng dụng được dùng để nhận dạng, phát hiện hành động như kỹ thuật so khớp DTW, với tập dữ liệu mẫu hành động thu được sử dụng các giá trị ngưỡng của các gĩc xoay, vận tốc, gia tốc hoặc những giá trị trích xuất từ các đại lượng khác nhau làm cơ sở so sánh, đánh giá và quyết định loại hành động và hành vi giao thơng.

Để đánh giá, nhận dạng một hành động hay một hành vi cũng cĩ thể dựa theo giá trị ngưỡng đặc trưng nào đĩ của từng loại để nhận dạng khi hành động xảy ra[14][21]. Phương pháp này thực hiện đánh giá hành động phù hợp với các hệ thống yêu cầu tính tốn nhanh. Tuy nhiên, điểm mấu chốt đĩ là lựa chọn và tính tốn được giá trị nào được dùng để đánh giá và cách lựa chọn ngưỡng giá trị đủ tốt để phân loại, nhận dạng ra các hành động, hành vi.

Tùy thuộc vào yêu cầu và tiêu chí đặt ra của từng bài tốn, các hệ thống được thiết kế cho các mục đích khác nhau. Trong đĩ, một trong những tiêu chí quan trọng khi sử dụng điện thoại là việc tiêu hao năng lượng của thiết bị khi thực thi hệ thống. Các giải pháp thiết kế, xây dựng hệ thống hướng đến việc sử dụng ít cảm biến, giảm nhiễu, tiêu hao ít năng lượng mà vẫn đảm bảo kết quả yêu cầu đề ra.

Vì vậy, hướng nghiên cứu sử dụng tập thuộc tính đặc trưng được áp dụng để trích xuất, biến đổi dữ liệu cảm biến thơ thành dữ liệu đặc trưng, tạo thành nguồn dữ liệu mới hoặc lấy làm tập dữ liệu huấn luyện cho các mơ hình phân lớp để nhận dạng, phát hiện hành động. Một số nghiên cứu đã sử dụng các giải thuật phân lớp

thơng dụng để xây dựng hệ thống nhận dạng như trong nghiên cứu [11], tác giả sử dụng các thuật tốn NB, RF, ANN, SVM, để phân lớp nhận dạng các hành động thay đổi bất thường khi cố định điện thoại di động và sử dụng các thuộc tính trên miền thời gian và đánh giá mơ hình phân lớp dựa trên độ đo AUC.

2.4 Hệ thống nhận dạng hành động sử dụng cảm biến gia tốc 2.4.1 Một số kiến thức cơ sở 2.4.1 Một số kiến thức cơ sở

Tiền xử lý dữ liệu

2.4.1.1

Chuẩn bị dữ liệu là một bước quan trọng trong khai phá dữ liệu, dữ liệu được chuẩn bị tốt sẽ giúp hệ thống thực hiện hiệu quả hơn [36][37]. Chuẩn bị dữ liệu thường là một bước bắt buộc sử dụng để chuyển đổi dữ liệu ban đầu thành dữ liệu mới phù hợp với tiến trình khai phá dữ liệu. Trước hết, nếu dữ liệu khơng được chuẩn bị, các thuật tốn khai phá cĩ thể khơng nhận dạng được dữ liệu để hoạt động hoặc sẽ báo lỗi trong quá trình thực hiện. Trong trường hợp tốt nhất, thuật tốn sẽ làm việc, nhưng kết quả thu được sẽ khơng cĩ ý nghĩa hoặc khơng cĩ tính chính xác [37].

Một số kỹ thuật phổ biến được dùng để chuẩn bị đĩ là: làm sạch dữ liệu (Data Cleaning), chuẩn hĩa dữ liệu (Data Normalization), chuyển đổi dữ liệu (Data Transformation), tích hợp dữ liệu (Data Integretion), phát hiện nhiễu (Noise Indentification), tính giá trị thiếu (Missing Values Imputation) [37]. Các kỹ thuật này được minh họa như hình dưới đây:

Làm sạch dữ liệu

Chuyển đổi dữ liệu

Chuẩn hĩa dữ liệu

Bổ sung dữ liệu thiếu

Tích hợp dữ liệu Xác định nhiễu

Hình 2-1. Một số kỹ thuật chuẩn bị dữ liệu [37]

- Làm sạch dữ liệu (Data cleaning) bao gồm các hoạt động sửa dữ liệu xấu, lọc một số dữ liệu khơng chính xác ra khỏi tập dữ liệu và giảm bớt các chi tiết khơng cần thiết của dữ liệu. Đây là một khái niệm tổng quát bao gồm các kỹ thuật chuẩn bị dữ liệu khác như việc xử lý thiếu dữ liệu, nhiễu dữ liệu.

- Xác định nhiễu (Noise Identification) là một bước trong việc làm sạch dữ liệu, mục tiêu chính là để phát hiện ngẫu nhiên các lỗi hoặc chênh lệch độ đo. Khi một mẫu dữ liệu nhiễu được phát hiện chúng ta cĩ thể tiến hành xử lý nhiễu bằng một số dạng tính tốn khác nhau thay vì loại bỏ nhiễu.

- Bổ sung dữ liệu thiếu (Missing Data Imputation) là một hình thức làm sạch dữ liệu với mục đích lấp đầy các biến chứa dữ liệu bị thiếu. Trong hầu hết các trường hợp, thêm một giá trí ước tính hợp lý cho dữ liệu bị thiếu sẽ tốt hơn là để trống.

- Biến đổi dữ liệu (Data Transformation), dữ liệu được chuyển đổi, hợp nhất nhằm làm tăng kết quả trong bài tốn khai phá dữ liệu. Nhiệm vụ của chuyển đổi dữ liệu là làm mịn, xây dựng các thuộc tính, tập hợp hoặc tổng hợp dữ liệu, chuẩn hĩa, rời rạc và tổng quát dữ liệu.

- Tích hợp dữ liệu (Data Integration) bao gồm sự kết hợp dữ liệu từ nhiều kho dữ liệu. Quá trình này được thực hiện một cách chặt chẽ để tránh dư thừa và khơng

nhất quán trong bộ dữ liệu thu được. Thực hiện tích hợp dữ liệu là định danh và hợp nhất các biến và các miền, phân tích các thuộc tính tương quan, sự trùng lặp và phát hiện các xung đột giá trị của dữ liệu từ các nguồn khác nhau.

- Chuẩn hĩa dữ liệu (Data Normalization) sử dụng các đơn vị đo lường cĩ thể ảnh hưởng đến việc phân tích dữ liệu. Tất cả các thuộc tính phải được biểu diễn cùng độ đo, tỉ lệ và vùng giá trị dữ liệu thơng dụng.

- Giảm chiều dữ liệu (Data Reduction) bao gồm tập hợp các kỹ thuật bằng cách này hay cách khác để cĩ thể đạt được một biểu diễn khác của dữ liệu gốc; dữ liệu mới thường được duy trì các cấu trúc cần thiết và tính tồn vẹn của dữ liệu gốc, nhưng số lượng dữ liệu được cắt giảm.

Sự khác biệt của các kỹ thuật chuẩn bị dữ liệu tạo nên những dữ liệu phù hợp với mục tiêu nhận dạng các đối tượng. Nếu chuẩn bị dữ liệu khơng được thực hiện tốt, các thuật tốn nhận dạng sẽ khơng được chạy hoặc cĩ kết quả sai do một số biến cĩ thể bị ảnh hưởng trực tiếp từ kích cỡ dữ liệu đầu vào. Nếu kích thước vượt quá giới hạn hoặc khơng rõ định dạng thì thuật tốn cĩ thể bị dừng hoặc cho kết quả thiếu chính xác.

Tuy cĩ nhiều kỹ thuật tiền xử lý dữ liệu khác nhau, với từng bài tốn cụ thể, khi áp dụng sẽ ảnh hưởng đến thơng tin ban đầu của dữ liệu. Với bài tốn nhận dạng hành động giao thơng cơ bản này, chúng tơi chỉ sử dụng phương pháp biến đổi dữ liệu, từ dữ liệu cảm biến gia tốc thơ cĩ hệ tọa độ theo thiết bị sẽ được biến đổi thành dữ liệu cảm biến gia tốc theo hệ tọa độ trái đất nhằm tạo ra sự ổn định, hiệu quả trong nhận dạng hành động và nhận dạng hành vi bất thường – vốn cĩ tính phức hợp khĩ đốn nhận trong thực tế.

Trong bài tốn nhận dạng hành động giao thơng sử dụng dữ liệu cảm biến từ điện thoại dựa trên phương pháp phân lớp. Biến đổi dữ liệu cảm biến gia tốc bằng các thuộc tính đặc trưng để cĩ dữ liệu mới, phù hợp với yêu cầu bài tốn và thuật tốn phân lớp, mang lại hiệu quả nhận dạng hành động và hành vi mà yêu cầu bài tốn đặt ra.

Cửa sổ dữ liệu

2.4.1.2

Dữ liệu cảm biến gia tốc thu được từ điện thoại gồm các điểm dữ liệu là những véc tơ gồm ba số thực tương ứng trên ba trục X, Y, Z của hệ trục tọa độ thiết bị. Chuỗi tín hiện cảm biến gia tốc với các điểm được thêm vào theo thời gian cĩ tính chất của dữ liệu chuỗi thời gian. Vì một chuỗi thời gian dạng luồng bao gồm một số lớn các giá trị. Do đĩ, để phân tích một hành động trong một khoảng thời gian cụ thể được xác định trong một đoạn hay một chuỗi dữ liệu tín hiệu tương ứng.

Sự tính tốn hay so sánh độ tương tự nhằm tìm ra sự giống, khác nhau giữa hai chuỗi thường được thực hiện bởi tính chất và kích thước của các của chuỗi (số điểm dữ liệu cuối cùng của chuỗi) được gọi là kích thước cửa sổ của chuỗi tín hiệu, thường ký hiện là W. Nếu W = 256 thì mỗi chuỗi này cĩ 256 giá trị hay kích thước của cửa sổ là 256.

Do các nhân tố chủ quan, khách quan cũng như sự khác nhau về chủng loại thiết bị, tần số lấy mẫu khi thu dữ liệu sẽ cho các chuỗi dữ liệu sẽ khác nhau. Vì vậy, cần sử dụng những kỹ thuật tiền xử lý cũng như phân đoạn cửa sổ tín hiệu cĩ kích thước phù hợp sao cho thơng tin về đối tượng nhận dạng nhiều nhất trên cửa sổ dữ liệu đĩ.

Kỹ thuật cắt và chồng dữ liệu được sử dụng để phân đoạn một chuỗi dữ liệu cảm biến liên tục thành các cửa sổ cĩ kích thước là W với mong muốn là nhận dạng được các đối tượng dựa vào thơng tin của từng của sổ này như Hình 2-2. Cắt chồng dữ liệu là cách lấy lại một số điểm dữ liệu của cửa sổ trước đĩ làm một thành phần cho cửa sổ hiện tại. Kỹ thuật này được sử dụng trong nhiều nghiên cứu đã cơng bố về nhận dạng hành động, hành vi thơng qua dữ liệu cảm biến như [11][38][39][40].

Trong hệ thống nhận dạng đề xuất, cửa sổ dữ liệu được khảo sát nhằm chọn ra kích thước phù hợp với từng loại hành động với mục đích nâng cao kết quả nhận dạng được trình bày như Hình 2-2 dưới đây:

1 2 … k-1 k k+1 … N-1 N w =Độ dài của cửa sổ

Cửa sổ i-1 Cửa sổ i Cửa sổ i+1

Chồng dữ liệu

Hình 2-2. Phân đoạn chuỗi tín hiệu thành các cửa sổ dữ liệu

Ở trong Hình 2-2 biểu diễn phân đoạn chuỗi dữ liệu thành các cửa sổ i -1, cửa sổ i và cửa sổ i +1 cĩ kích thước là N và chồng dữ liệu là k, cửa sổ tiếp theo sử dụng k điểm dữ liệu của cửa sổ trước đĩ.

Dựa vào các cửa sổ dữ liệu, những phương pháp trích xuất, biến đổi dữ liệu được áp dụng để đưa ra những giá trị đặc trưng của các đối tượng cần nhận dạng. Tiếp đến là áp dụng những thuật tốn nhận dạng phù hợp để thu được kết quả mong muốn. Để cĩ được những giá trị đặc trưng này cần cĩ những thuộc tính phù hợp với yêu cầu bài tốn đặt ra thơng qua việc khảo sát, phân tích các tính chất của dữ liệu cảm biến trên các miền khác nhau.

Biến đổi hệ tọa độ

2.4.1.3

Khi thiết bị điện thoại khơng cố định theo hướng di chuyển của phương tiện. Điều này dẫn đến hệ trục tọa độ của thiết bị sẽ thay đổi so với thời điểm ban đầu khi di chuyển. Nhằm giảm ảnh hưởng của việc thay đổi này, cĩ hai phương pháp thơng dụng đĩ là: thứ nhất là biến đổi giá trị trên các trục của một điểm dữ liệu thành một đại lượng mới; thứ hai là sử dụng phương pháp biến đổi hệ tọa độ của thiết bị.

Một trong những cách thực hiện lựa chọn biến đổi điểm dữ liệu đĩ là sử dụng một thuộc tính độc lập được tính từ các trục tọa độ của cảm biến gia tốc bởi cơng thức:

2 2 2

,

mag x y z

aaaa với ax, ay, az là các giá trị trên trục X,Y,Z (2.1)

Phương pháp biến đổi hệ tọa độ của thiết bị sang hệ tọa độ trái đất cũng thường được áp dụng trong phân tích dữ liệu cảm biến gia tốc[41][42] khi thiết bị cảm biến khơng cố định theo hướng chuyển động của phương tiện.Phương pháp

biến đổi hệ tọa độ của thiết bị cảm biến về hệ trục tọa độ của trái đất được thể hiện như

(a) (b)

Hình 2-3. (a) Hƣớng của điện thoại đƣợc xác định bởi hệ tọa độ (X, Y, Z). (b) Hƣớng di chuyển của phƣơng tiện theo hệ tọa độ trái đất (X’, Y’, Z’)

Dữ liệu gia tốc của người điều khiển phương tiện được tính bởi cơng thức chuyển trục sau:

X X Y Y Z Z a a a a a a                        R (2.2)

Trong đĩ ma trận chuyển R = Rx* Ry * Rz và Rx, Ry, Rz là các ma trận chuyển các trục tương ứng 1 0 0 0 cos sin 0 sin cos                x R (2.3) cos 0 sin 0 1 0 sin 0 cos                 y R (2.4) cos sin 0 sin cos 0 0 0 1                z R (2.5)

Với β, α, và ϕ là gĩc xoay theo các trục X’, Y’ và Z’.

Đối với phương pháp biến đổi điểm dữ liệu thứ nhất, các thành phần X,Y,Z được tổng hợp thành một thuộc tính đặc trưng nên khả năng phát hiện theo các hướng gặp khĩ khăn hơn chuyển trục theo cơng thức (2.2). Cách chuyển trục thứ hai thường được các nghiên cứu áp dụng như trong các cơng bố[11][14][43].

Biến đổi dữ liệu đặc trưng

2.4.1.4

Các kỹ thuật phân tích, nhận dạng khác nhau cần dữ liệu đầu vào phù hợp với mục tiêu cụ thể của từng hệ thống. Biến đổi dữ liệu là một trong những giải pháp tạo ra dữ liệu đầu vào phù hợp với hệ thống đĩ, nhằm giúp cho hệ thống thực hiện chính xác và hiệu quả hơn. Một số mơ hình nhận dạng gặp khĩ khăn khi thực hiện với dữ liệu cảm biến gia tốc thơ trong những điều kiện dữ liệu cĩ nhiễu nên giải pháp biến đổi dữ liệu này thành dữ liệu đặc trưng là hướng tiếp cận thường được các nghiên cứu lựa chọn để cĩ được một hệ thống phù hợp với yêu cầu đặt ra.

Dựa vào tính chất của dữ liệu cảm biến gia tốc thu được, việc xây dựng tập thuộc tính đặc trưng là yếu tố quyết định đến kết quả đốn nhận. Trong kỹ thuật xử lý tín hiệu cảm biến, các thuộc tính đặc trưng thường được lựa chọn dựa trên tính chất thời gian và tần số [44][45]. Tùy thuộc vào đặc điểm của dữ liệu thu được, cĩ thể đánh giá sự đĩng gĩp của thuộc tính trên miền thời gian và miền tần số trong việc nâng cao hiệu quả nhận dạng. Một trong những phương pháp thường dùng đĩ là kết hợp các thuộc tính trên miền thời gian và miền tần số lại với nhau để làm rõ được tính đặc trưng của từng đối tượng cần phân lớp như trong Hình 2-4 được trình

Một phần của tài liệu (LUẬN án TIẾN sĩ) nhận dạng hành vi của người tham gia giao thông dựa trên cảm biến điện thoại luận án TS máy tính 94801 (Trang 40)

Tải bản đầy đủ (PDF)

(121 trang)