Chương 3: Tiền Xử Lý Dữ Liệu Và Phương Pháp Gom Cụm
3.6 Đề xuất phương pháp gom cụm dữ liệu hành trình của xe buýt
Đề tài sẽ đề xuất các phương pháp tiến hành gom cụm dữ liệu hành trình xe buýt để phân tích sự di chuyển của các xe qua các đoạn đường, và phương pháp xác định số cụm phân tích.
3.6.1 Phương pháp gom cụm dữ liệu hành trình của xe buýt
Từ dữ liệu hành trình của các xe, sau khi xác định lộ trình và thời gian hoạt động của các xe buýt trên các tuyến, đoạn đường và chọn một số tuyến xe để phân tích. Đề tài lựa chọn các thuộc tính gồm vị trí và thời điểm hiện thời của xe để xây dựng chuỗi dữ liệu, mỗi điểm của chuỗi là quãng đường xe đi được tương ứng thời gian tiêu tốn.
Đề tài áp dụng phương pháp xấp xỉ thời đểm tại một vị trí để ước lượng thời điểm xe
31 bắt đầu hành trình trên đoạn đường nhằm xác định các giá trị thời gian trong chuỗi thời gian được xây dựng.
Đề tài sử dụng giải thuật PAM để gom cụm dữ liệu, gom nhóm sự di chuyển của các xe trên các đoạn đường, tuyến xe. Độ đo được dùng trong giải thuật gom cụm để xem xét độ tương tự hay không tương tự giữa các chuỗi thời gian là độ đo dựa trên diện tích giữa hai hai đường theo sự thay đổi của quãng đường và thời gian xe đi được.
Trong độ đo khoảng cách giữa hai chuỗi dữ liệu, do giữa chúng có sự chênh lệch về thời gian và độ dài của hai chuỗi không bằng nhau, đề tài đã tinh chỉnh hai chuỗi dựa trên độ đo DTW nhằm ánh xạ các giá trị thời gian của hai chuỗi. Sau đó, thu giảm chiều của hai chuỗi dựa trên các ánh xạ 1 - nhiều giữa hai chuỗi theo warping path được tạo từ phương pháp DTW, thu giảm các ánh xạ mà độ lệch thời gian giữa các điểm trong chuỗi là nhỏ nhất. Tiến hành xử lý sự chênh lệch thời gian giữa các chuỗi bằng cách đưa chúng về cùng thời gian, xấp xỉ quãng đường đi được theo thời gian đã được chỉnh sửa. Cuối cùng, hai chuỗi ban đầu đã được xử lý thành hai chuỗi có cùng độ dài, không còn chênh lệch về thời gian và thực hiện độ đo tương tự trong giải thuật gom cụm.
3.6.2 Phương pháp xác định số cụm
Xác định đúng số cụm là một công việc quan trọng, khi xác định đúng giúp kết quả gom cụm tốt hơn, giúp truy đạt được các thông tin chính xác hơn. Đặc biệt, trong phương pháp phân hoạch cần phải chọn số cụm trước khi gom cụm. Một trong những phương pháp đơn giản dùng để đánh giá nội phương pháp gom cụm có thể áp dụng để ước lượng số cụm cần gom là phương pháp tổng bình phương sai số (SSE – sum of squared error) [11]. Cách tính tổng bình phương sai số theo số cụm, là tập danh sách các phần tử của cụm thứ k bất kỳ, phần tử đại diện của cụm
= ‖ − ‖
∀ ∈
32 Gom cụm với nhiều giá trị khác nhau, sau đó xây dựng thành đồ thị đường SSE để ước lượng số cụm cần phân tích. Dựa vào đường cong SSE, xác định điểm mà từ điểm đó các giá trị SSE về sau không có sự chênh lệch quá lớn, từ đó điểm đó được ước lượng là số cụm có thể được chọn.
Hình 14: Xác định số cụm dựa vào SSE
Như ví dụ hình 14, từ số cụm là 8 trở đi giá trị SSE có sự chênh lệch không quá lớn và xấp xỉ nhau hơn so với số cụm trước đó, từ đó ước lượng được số cụm có thể phân tích là 8.
Dữ liệu hành trình xe buýt được xử lý xác định lộ trình tuyến xe cho từng phương tiện. Rút trích các thuộc tính gồm vị trí của xe và các thời điểm theo hành trình của xe để xây dựng chuỗi thời gian gồm thời gian và quãng đường đi được tương ứng. Tuy nhiên, do các đặc điểm dữ liệu làm chuỗi thời gian không đều và có sự chênh lệch giữ các chuỗi, nên cần xử lý xấp xỉ dữ liệu. Phương pháp gom cụm theo phương pháp phân hoạch được chọn, với giải thuật PAM có thể áp dụng được nhiều độ đo và có thể giảm thiểu được các trường hợp nhiễu. Độ đo khoảng cách giữa hai chuỗi dữ liệu là dựa vào diện tích giữa hai đường thẳng. Chọn số cụm trong phân tích là một công việc quan trọng, một trong những phương pháp đơn giản để ước lượng số cụm cần gom đề tài áp dụng là đường cong SSE. Dựa vào những công việc này, đề tài sẽ áp dụng để phân tích theo hành trình của một số tuyến xe, tìm hiểu đặc trưng các tuyến đường.
33