Chương 3: Tiền Xử Lý Dữ Liệu Và Phương Pháp Gom Cụm
3.2 Xây dựng dữ liệu chuỗi thời gian
Dữ liệu hành trình c tuyến xe, các chuyến theo các lư
15
ữ liệu
GPS ghi nhận hành trình của các xe buýt là dạng dữ liệ
giá trị về vận tốc, tọa độ vị trí của xe thay đ gặp phải là trong các bài toán dữ liệu chu
ững chuỗi giá trị mà có khoảng thời gian cách GPS này các giá trị có khoảng thời gian cách nhau kh
, các chuyến không giống nhau trên cùng thi hình 2, thống kê số tín hiệu theo khoảng thờ (time intervals) trong số 26 thiết bị của các xe cùng hoạt độ
n nhất là 1 giây, lâu nhất là 124 giây. Trong s ều nhất 81485/211475.
: Khoảng thời gian không đều giữa các tính hi
i gian không đều nhau, đề tài sẽ xem xét, nghiên c ị dữ liệu có khoảng thời gian không đều nhau
ệu chuỗi thời gian
u hành trình của các phương tiện xe buýt ban đầu sẽ được x
n theo các lượt đi, lượt về và thời gian bắt đầu, th
ệu chuỗi thời gian, xe thay đổi theo từng thời chuỗi thời gian được ách đều nhau, nhưng nhau không đều, thời thiết bị lẫn các thiết ời gian giữa các tín ộng trên tuyến xe, Trong số đó, khoảng thời
a các tính hiệu
n cứu phương pháp nhau.
c xử lý để xác định u, thời gian kết thúc
16 của mỗi chuyến hoạt động của các xe buýt theo từng mã thiết bị. Dựa trên các thông tin vừa xác định, đề tài sẽ xây dựng chuỗi thời gian về hành trình của xe buýt theo từng chuyến, từng đoạn đường.
3.2.1 Rút trích đặc điểm dữ liệu phân tích
Dữ liệu sẽ được rút trích những thuộc tính cần thiết nhằm đảm bảo mô tả quá trình di chuyển như sự thay đổi vận tốc di chuyển của xe trên tuyến đường, đoạn đường theo thời gian. Các thuộc tính có thể rút trích từ dữ liệu bao gồm: vận tốc tức thời (speed), tọa độ của xe (latitude, longitude), và thời gian hiện thời ghi nhận thông tin hành trình của các xe (tracktime). Trong đó yếu tố vận tốc được chú trọng để phân tích sự thay đổi vận tốc di chuyển của xe trong quá trình di chuyển. chẳng hạn, ở những đoạn đường bất kỳ nào đó, xe di chuyển với vận tốc biến thiên khác nhau. Đối với những đoạn xe di chuyển với vận tốc cao có thể rút ra rằng đoạn đường đó xe di chuyển bình thường, thông thoáng. Ngược lại, nếu xe di chuyển trên đoạn đường có vận tốc thấp, có thể trên đoạn đường đó mật độ xe lưu thông cao, có thể ùn ứ, hay một số nguyên nhân bất thường khác.
Tuy nhiên, thuộc tính vận tốc trong dữ liệu chỉ là vận tốc tức thời tại thời điểm ghi nhận hành trình, đề tài cần phân tích quá trình di chuyển của xe trên từng đoạn đường tuyến đường. Xây dựng chuỗi dữ liệu thời gian dựa trên vận tốc tức thời sẽ gây ra vấn đề khó khăn, phức tạp cho việc phân tích về đặc trưng di chuyển của các xe và đặc trưng tình hình giao thông của tuyến đường, đoạn đường.
Vận tốc di chuyển của xe chính là đoạn đường mà xe đi được trong một quãng thời gian. Đề tài xin được đề nghị phương pháp sử dụng mối liên hệ giữa quãng đường và thời gian mà xe di chuyển để phân tích, dựa trên các thuộc tính của dữ liệu về vị trí của xe latitude, longitude và thời điểm ghi nhận dữ liệu tracktime. Đoạn đường phân tích sẽ gồm từ vị trí bắt đầu phân tích và vị trí kết thúc trên hành trình hoạt động của các xe buýt, lấy vị trí bắt đầu làm mốc, từ dữ liệu vị trí và thời điểm của xe để tính quãng đường xe di chuyển theo thời gian.
(a)
Hình 3 ví dụ về sự đường theo thời gian. Hình 3(a), quãng đường thẳng, biểu diễn xe di chuy
phức tạp trong di chuyển c nằm ngang thể hiện trong kho nguyên nhân nào đó; đoạ (0, a); đoạn gấp khúc (c, d), đ chứng tỏ xe di chuyển vớ
Sự thay đổi của quãng chuyển của xe trên đoạn đư gian để xây dựng chuỗi th
3.2.2 Xây dựng chuỗi th
Đề tài xem xét về đường phân tích, dữ liệu đư trong suốt quá trình di chuy
Trên đoạn đường phân tích xe di chuy chuỗi các giá trị được sắp x
=
17
(b) Hình 3: Đồ thị sự di chuyển của xe
ự di chuyển của phương tiện biễu diễn phụ i gian. Hình 3(a), quãng đường và thời gian tuyến tính v
n xe di chuyển qua đoạn đường với vận tốc đều. Hình 3 (b), có s n của xe trên đoạn đường, đoạn gấp khúc (a, b) là đư
n trong khoảng thời gian xe từ ta đến tb xe không di chuy ạn gấp khúc (b, c) xe di chuyển lại bình thườ p khúc (c, d), độ dốc (hệ số gốc) nhỏ hơn so với đo
ới tốc độ chậm hơn.
a quãng đường theo thời gian cũng diễn tả n đường phân tích. Vì vậy, đề tài chọn các thu i thời gian cho công việc phân tích tiếp theo.
i thời gian
sự di chuyển của xe theo các chuyến hành trình, các u được xây dựng dựa trên tập hợp các dữ li
t quá trình di chuyển trên chuyến, đoạn đường.
ng phân tích xe di chuyển qua có tập gồm n tín hi p xếp theo thứ tự theo thời gian:
= 〈( , ), ( , ), … , ( , ) … ( , )〉
ụ thuộc giữa quãng n tính với nhau theo u. Hình 3 (b), có sự p khúc (a, b) là đường thẳng xe không di chuyển do một số
ờng lại so với đoạn i đoạn (b, c) và (0, a)
được quá trình di n các thuộc tính vị trí, thời
n hành trình, các đoạn liệu tín hiệu của xe
m n tín hiệu, ta có được
〉
18 Trong đó: là vị trí của xe gồm vĩ độ, kinh độ tại thời điểm . Giả sử ( , ) là giá trị tại vị trí làm mốc của đoạn đường phân tích ứng với thời điểm tại vị trí đó, khi đó quãng đường đi được tại một thời điểm dữ liệu, và thời gian tiêu tốn tương ứng trong chuỗi được tính
= ( , ) + ớ > 0
= − Với ( , ) là khoảng cách vị trí của xe tại hai thời điểm liên tục tính theo công thức tính khoảng cách vị trí địa lý. Khi chọn chuyến để phân tích, ta chọn ( , ) dựa vào tín hiệu cuối cùng tại bến xuất phát, khi chọn đoạn đường phân tích thì giá trị ( , ) được tính toán theo phương pháp xấp xỉ được trình bày trong phần 3.3.
Sau khi biến đổi từ vị trí theo thời gian ta có chuỗi dữ liệu thời gian về quãng đường theo thời gian như sau:
= 〈( , ), ( , ), … , ( , ), … ( , ) 〉 Kết quả ta có được tập các chuỗi thời gian, mỗi chuỗi thời gian là một vector, độ dài mỗi vector phụ thuộc vào số tín hiệu được ghi nhận trong phân tích theo từng chuyến hoặc từng đoạn đường phân tích của các xe. Mỗi giá trị trong vector bao gồm nội dung thời điểm, quãng đường đi được ứng tại thời điểm ghi nhận đó so với vị trí ban đầu (nếu phân tích theo chuyến, vị trí ban đầu làm mốc là tại bến xuất phát; nếu phân tích theo đoạn đường thì mốc là vị trí bắt đầu phân tích đoạn đường).
Hình 4: Xây dựng chuỗi thời gian
Dựa vào các giá trị của vector để tính toán khoảng cách giữa hai đối tượng, đo mức độ tương tự của chúng được sử dụng cho giải thuật gom cụm.
19