Độ đo khoảng cách trong gom cụm chuỗi thời gian

Một phần của tài liệu Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS (Trang 20 - 23)

Chương 2: Cơ Sở Lý Thuyết

2.4 Độ đo khoảng cách trong gom cụm chuỗi thời gian

Một trong những yếu tố quan trọng quyết định đến kết quả, chất lượng của phương pháp gom cụm dữ liệu chính là độ đo mức độ tương tự, độ đo khoảng cách giữa các đối tượng dữ liệu, cũng như dữ liệu chuỗi thời gian [14]. Tùy thuộc vào từng dạng dữ liệu, giải thuật gom cụm, mục đích gom cụm mà các ứng dụng sẽ áp dụng các độ đo khoảng cách, mức độ tương tự của dữ liệu phù hợp.

Dữ liệu ở các dạng khác nhau bao gồm dữ liệu thô, các vector, ma trận chúng có thể có độ dài bằng nhau hoặc khác nhau. Các độ đo về khoảng cách, mức độ tương tự giữa hai chuỗi thời gian được tiếp cận theo nhiều cách thức khác nhau, nhưng chúng thường tiếp cận theo hướng thu giảm số chiều [2]. Sau đây là các độ đo thường được sử dụng.

2.4.1 Khoảng cách Euclid, Minkowski

Hai đối tượng chuỗi thời gian có độ dài n: = , … , và = , … , , độ đo khoảng cách euclid của hai đối tượng

( , ) = ( − )

Độ đo minkowski là độ đo mở rộng và tổng quát cho độ đo euclid, công thức tính độ đo minkowski, với p là một số dương bất kỳ

( , ) = ( − )

Độ đo euclid hay minkowski dễ hiểu và dễ tính, nhưng chúng chỉ áp dụng được trong trường hợp các chuỗi thời gian (vector) có cùng độ dài, nhạy cảm với những trường hợp dữ liệu nhiễu.

10

2.4.2 Hệ số tương quan pearson

Hai chuỗi thời gian U và V có độ dài n, công thức tính độ tương tự của hai chuỗi thời gian được tính như sau

( , ) = 1 −

2 Với là hệ số tương quan, được xác định bởi công thức

= ∑ ( − ). ( − ̅ )

∑ ( − ) . ∑ ( − ̅) Trong đó, và ̅ là hai giá trị trung bình của các giá trị thành phần của hai chuỗi thời gian tương ứng U, V.

= 1

, ̅ = 1

Độ đo về khoảng cách được dẫn xuất từ hệ số tương quan để đo mức độ tương quan giữa hai đối tượng chuỗi thời gian. Phương pháp này áp dụng hai chuỗi thời gian có cùng độ dài.

2.4.3 Độ đo chuỗi thời gian ngắn (STS)

Xem xét trên khía cạnh tuyến tính từng phần của chuỗi thời gian, độ đo STS (short time series) kết hợp các giá trị thành phần của chuỗi và thời gian, độ đo chuỗi thời gian ngắn được tính theo công thức

( , ) = −

− − −

Độ đo này được tính dựa trên sự so sánh độ dốc của hai chuỗi thời gian. Phương pháp này phù hợp với hai chuỗi thời gian có cùng độ dài, và các thời điểm của các giá trị hai chuỗi như nhau.

11

2.4.4 Độ đo xoắn thời gian động (DTW)

Với hai chuỗi thời gian có độ dài khác nhau, có sự chênh lệch thời gian trong chuỗi = , … , và = , … , , độ đo DTW (dynamic time warping) được đề nghị bởi nhóm tác giả Bernt và Clifford [4], ánh xạ và tinh chỉnh hai chuỗi thời gian sao cho sự chênh lệch là tối thiểu. Warping path = , … , dùng để lưu lại các khoảng cách giữa các phần tử , của hai chuỗi là nhỏ nhất. trong đó khoảng cách giữa hai phần tử có thể được tính theo một trong những cách

= − hoặc = − Sau đó, độ đo DTW được tính dựa trên warping path, và khoảng cách giữa các phần tử

( , ) = ( )

Độ đo này áp dụng được với các chuỗi dữ liệu có độ dài khác nhau, và chênh lệch về thời gian. Phương pháp DTW cho kết quả chính xác hơn độ đo khoảng cách Euclid, và áp dụng tốt trong gom nhóm các chuỗi thời gian có hình dạng giống nhau.

2.4.5 Độ đo dựa vào chuỗi con chung dài nhất (LCSS)

Độ đo dựa vào chuỗi con chung dài nhất (longest common subsequence) dựa vào việc so trùng các giá trị thành phần của hai chuỗi thời gian để có những chuỗi con chung sao cho đạt được chuỗi con chung có độ dài lớn nhất.

Công thức tính độ tương tự của hai chuỗi U, V:

( , ) = ( , )

max(| |, | |) Với ( , ) được tính dựa trên các phần tử của hai chuỗi như sau:

[ , ] =

0 ế = 0 ℎ ặ = 0 1 + [ − 1, − 1] ế = max( [ , − 1], [ − 1, ]) ườ ℎợ ℎá

12 LCSS có thể áp dụng trong trường hợp các chuỗi dữ liệu có độ dài khác nhau, cho phép loại bỏ các điểm bất thường trong chuỗi dữ liệu. LCSS cho kết quả tốt hơn so với độ đo euclid [13].

Một phần của tài liệu Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS (Trang 20 - 23)

Tải bản đầy đủ (PDF)

(78 trang)