Khai phá mẫu hình di chuyển

c. Tính riêng tư

2.2.4. Khai phá mẫu hình di chuyển

Khai phá mẫu hình di chuyển đã được nghiên cứu và có một số kết quả nhất định. Các nghiên cứu này bao gồm các nhóm sau:

(1)Biến đổi dữ liệu thô: Dữ liệu thô được xấp xỉ và chuyển đổi thành một định dạng phân tích (ví dụ như ma trận di chuyển) tối ưu hóa cho việc phát hiện mô hình.

(2)Chỉ mục: Kalniset và đồng nghiệp [14] sử dụng một chỉ số lưới Gt tại mỗi thời điểm t để lưu trữ dữ liệu tại thời điểm đó. Sau đó áp dụng thuật toán phân cụm dựa trên mật độ DBSCAN [22] trên các chỉ số lưới Gt để xác định các cụm tại thời điểm t.

(3)Tiếp cận kiểu Apriori: Cách tiếp cận kiểu Apriori có thể được áp dụng để khai phá các mẫu hình quỹ đạo một cách hiệu quả. Ý tưởng này được mô tả trong [45], [11] như dưới đây.

Theo định nghĩa 3.3, quỹ đạo của đối tượng được mô tả bởi chuỗi {(l0, l1, …, ln-1)}, trong đó li (0 ≤ i < n) biểu diễn đối tượng tại vị trí li ở thời điểm i. Chúng ta sẽ phát hiện mẫu hình lặp của đối tượng dựa vào lịch sử quỹ đạo chuyển động của nó. Cho T là số lượng điểm thời gian mà một mẫu xuất hiện lặp lại. Quỹ đạo

của đối tượng chuyển động sẽ bị tách thành '9quỹ đạo con (hình 2.7). Tphụ thuộc dữ liệu và không có giá trị xác định. Chẳng hạn như T có thể là “một ngày” trong ứng dụng quản lý và điều hành giao thông trong đó các phương tiện chuyển động lặp đi lặp lại hàng ngày. Với ứng dụng theo dõi sự di cư của động vật hàng năm thì T là “một năm”.

Hình 2.7. Phân tách quỹ đạo của đối tượng

Tất cả các vị trí trong '9 quỹ đạo con có cùng một khoảng dịch thời gian t trong T (0 ≤ t < T) sẽ được tập hợp thành một nhóm Gt. Gt mô tả tất cả các vị trí mà đối tượng sẽ xuất hiện ở khoảng dịch thời gian t. Phương pháp phân cụm sẽ được áp dụng để tìm ra cụm dày đặc Rt trong mỗi Gt. Hình 2.8 đưa ra một ví dụ về khái niệm này.

Hình 2.8. Quỹ đạo con

Rt tượng trưng cho vùng bên trong mà đối tượng có thể xuất hiện tại khoảng dịch thời gian t. Chúng ta gọi Rt là vùng thường xuyên đến tại t. Có thể có nhiều hơn một vùng thường xuyên đến tại khoảng dịch thời gian t. Chẳng hạn như An dời nhà vào lúc 8h lên Cầu Giấy để đến chỗ làm vào lúc 8h30 hàng ngày. Nhưng cuối tuần thì cô ấy lại thường đi chợ vào lúc 8h30 rồi đi uống café ở quán Trung Nguyên lúc10h00. Trong trường hợp này chúng ta có hai vùng thường xuyên đến vào lúc 8h30. Để phân biệt các vùng thường xuyên đến có cùng khoảng dịch thời gian t chúng ra dùng 45 để biểu diễn vùng thường xuyên đến thứ j tại khoảng dịch thời gian t.

Áp dụng vào ví dụ trên, An ở nhà (400) tại khoảng dịch thời gian 0 và ở Cầu Giấy

(410) tại khoảng dịch thời gian 1. Bằng cách theo dõi lịch sử di chuyển của An chúng ta có thể rút ra được khả năng An sẽ đi làm (4%;) tại khoảng dịch thời gian 2, giả sử là 0.5. Chúng ta sẽ sử dụng luật kết hợp để biểu diễn tri thức này như sau: 4;; ∧4; ;.=>? 4%;. Tương tự nếu An đi chợ (4 ) thay vì ở Cầu Giấy thì cô ấy sẽ đi uống cà phê ở quán Trung Nguyên (4%)với khả năng xảy ra giả sử là 0.4 và được biểu diễn như sau:

4;; ∧4 ;.@>?4%.

Một vấn đề trong việc dự đoán vị trí đối tượng dựa theo mẫu hình là làm thế nào để xác định được mẫu hình dựa trên thông tin về vị trí của đối tượng đó trong quá khứ. Một số nghiên cứu cho rằng có thể làm được bằng cách khai phá mẫu hình. Tuy

nhiên để thu được mẫu hình cần một lượng rất lớn dữ liệu lịch sử của đối tượng để tiến hành khai phá. Điều này cũng có nghĩa là số lượng mẫu hình phát hiện được cũng sẽ rất lớn. Vì vậy cần có phương pháp để tổ chức các mẫu hình này để trả lời các truy vấn dự đoán vị trí một các hiệu quả. Nhằm góp phần giải quyết vấn đề này, nghiên cứu sinh đề xuất sử dụng khung quy trình khai phá mẫu hình di chuyển và lưu trữ trong cơ sở dữ liệu không gian như hình dưới đây.

Hình 2.9. Quy trình khai phá mẫu hình di chuyển

Quy trình này được phân thành 3 mức: dữ liệu, trích chọn mẫu hình và mô hình hóa mẫu hình.

Ở mức dữ liệu, trong cơ sở dữ liệu lưu trữ cả dữ liệu địa lý và dữ liệu quỹ đạo chuyển động của đối tượng.

Ở mức trích chọn mẫu hình, dữ liệu được làm sạch và chuyển đổi thành định dạng chuẩn (tiền xử lý) để chuẩn bị cho bước khai phá dữ liệu. Ở mức này, dữ liệu cũng được chuyển đổi thành định dạng đầu vào theo yêu cầu của các thuật toán khai phá.

Ở bước khai phá dữ liệu, người sử dụng có thể xác định các tham số khai phá như độ hỗ trợ tối thiểu… để có thể trích chọn chỉ các đặc trưng thỏa mãn ràng buộc. Sau

khai phá, các mẫu hình di chuyển sẽ được mô hình hóa cho bước dự đoán vị trí về sau.

Phần tiếp theo, nghiên cứu sinh sẽ trình bày việc áp dụng khai phá luật kết hợp

Dự đoán dựa theo hàm phi tuyến

Thuật toán tìm kiếm DOA_Search