1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS

78 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp.HCM dựa trên dữ liệu GPS
Tác giả Lê Viết Hoàng Nguyên
Người hướng dẫn TS. Lê Thanh Vân
Trường học Trường Đại học Bách Khoa - ĐHQG-HCM
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2014
Thành phố Hồ Chí Minh
Định dạng
Số trang 78
Dung lượng 2,41 MB

Cấu trúc

  • Chương 1: Giới Thiệu (12)
    • 1.1 Lý do chọn đề tài (12)
    • 1.2 Đối tượng và phạm vi nghiên cứu (12)
    • 1.3 Phương pháp nghiên cứu (13)
    • 1.4 Bố cục luận văn (13)
  • Chương 2: Cơ Sở Lý Thuyết (15)
    • 2.1 Đặc trưng tình tình giao thông và hành vi của phương tiện (15)
    • 2.2 GPS và thiết bị GPS (17)
    • 2.3 Gom cụm dữ liệu chuỗi thời gian (18)
      • 2.3.1 Sơ lược về dữ liệu chuỗi thời gian (18)
      • 2.3.2 Tổng Quan về Gom Cụm Dữ Liệu Chuỗi Thời Gian (19)
    • 2.4 Độ đo khoảng cách trong gom cụm chuỗi thời gian (20)
      • 2.4.1 Khoảng cách Euclid, Minkowski (20)
      • 2.4.2 Hệ số tương quan pearson (21)
      • 2.4.3 Độ đo chuỗi thời gian ngắn (STS) (21)
      • 2.4.4 Độ đo xoắn thời gian động (DTW) (22)
      • 2.4.5 Độ đo dựa vào chuỗi con chung dài nhất (LCSS) (22)
    • 2.5 Một số tên gọi trong hoạt động xe buýt (23)
  • Chương 3: Tiền Xử Lý Dữ Liệu Và Phương Pháp Gom Cụm (25)
    • 3.1 Mô tả dữ liệu hành trình xe buýt (25)
      • 3.1.1 Cấu trúc dữ liệu hành trình xe buýt (25)
      • 3.1.2 Đặc điểm của dữ liệu (26)
    • 3.2 Xây dựng dữ liệu chuỗi thời gian (26)
      • 3.2.1 Rút trích đặc điểm dữ liệu phân tích (27)
      • 3.2.2 Xây dựng chuỗi thời gian (28)
    • 3.3 Xấp xỉ dữ liệu (30)
    • 3.4 Các độ đo khoảng cách (32)
      • 3.4.1 Phương pháp canh chỉnh chuỗi thời gian dựa vào diện tích (ABPA) (33)
      • 3.4.2 Thu giảm và xấp xỉ dữ liệu dựa vào phương pháp DTW (34)
      • 3.4.3 Khoảng cách dựa vào diện tích giữa hai đường (35)
      • 3.4.4 So sánh các phương pháp (36)
    • 3.5 Giải thuật gom cụm PAM (40)
    • 3.6 Đề xuất phương pháp gom cụm dữ liệu hành trình của xe buýt (41)
      • 3.6.1 Phương pháp gom cụm dữ liệu hành trình của xe buýt (41)
      • 3.6.2 Phương pháp xác định số cụm (42)
  • Chương 4: Hiện Thực Và Kết Quả (44)
    • 4.1 Dữ liệu thực nghiệm và hiện thực (44)
    • 4.2 Kết quả (46)
      • 4.2.1 Tuyến xe số 32 và các đoạn đường (46)
      • 4.2.2 Tuyến xe số 88 và các đoạn đường (58)
    • 4.3 Đánh giá (69)
      • 4.3.1 So sánh kết quả với kết quả trên dữ liệu kiểm chứng (69)
      • 4.3.2 Khảo sát thực tế (71)
  • Chương 5: Kết Luận (75)
  • TÀI LIỆU THAM KHẢO (76)

Nội dung

Dựa vào dữ liệu để phân tích các đặc trưng về tình hình di chuyển của các phương tiện xe buýt trên các đoạn đường, tuyến đường theo thời gian.. Về phần thực nghiệm, đề tài sẽ phân tích d

Giới Thiệu

Lý do chọn đề tài

Vấn đề ùn tắc về giao thông là một trong những vấn đề khó để giải quyết cho các thành phố, đô thị lớn trên thế giới, trong đó có Việt Nam Một trong những giải pháp khả thi và có thể đem lại hiệu quả là phát triển hệ thống giao thông công cộng Hệ thống giao thông công cộng sẽ góp phần giải quyết vấn đề đi lại cho người dân, hạn chế các phương tiện cá nhân từ đó có thể giảm được vấn đề kẹt xe Vì thế, Tp.HCM đã đặc biệt ưu tiên đầu tư và phát triển hệ thống giao thông công cộng bằng việc mở rộng, xây dựng cơ sở hạ tầng, phương tiện giao thông công cộng như xe buýt, các tuyến metro… Phương tiện giao thông công cộng phổ biến được đem vào để phục vụ người dân ở Việt Nam nói chung, Tp.HCM nói riêng chủ yếu là phương tiện xe buýt

Thực tế, xe buýt đã đem lại nhiều hiệu quả trong giải quyết vấn đề về giao thông

Tuy nhiên, bên cạnh đó còn tồn tại nhiều bất cập như tính hợp lý lộ trình xe buýt cũng như hành vi tham gia giao thông của xe buýt ảnh hưởng đến chất lượng phục vụ, thói quen sử dụng xe buýt đến người dân Để quản lý, giám sát các hoạt động các xe buýt, ban quản lý xe buýt đã gắn mỗi thiết bị GPS trên mỗi xe, ghi nhận lại các thông tin hành trình của xe Để khai thác hiệu quả từ dữ liệu GPS, luận văn sẽ tìm hiểu và khai thác thông tin từ dữ liệu hành trình của các xe buýt Dựa vào dữ liệu để phân tích các đặc trưng về tình hình di chuyển của các phương tiện xe buýt trên các đoạn đường, tuyến đường theo thời gian Từ đó, rút ra đặc trưng về tình hình giao thông trên các tuyến đường, đoạn đường mà lộ trình xe buýt đi qua.

Đối tượng và phạm vi nghiên cứu

Đề tài này sẽ phân tích dữ liệu hoạt động của xe buýt từ dữ liệu ghi nhận lại hành trình của các xe, thông tin các tuyến đường, các bến xe, bãi xe, trạm xe buýt của hệ

2 thống xe buýt trên địa bàn Tp.HCM Qua đó, đề tài sẽ chọn một số tuyến xe buýt, đoạn đường để phân tích tình hình di chuyển của các xe trên tuyến, đoạn đường đó Dựa vào kết quả phân tích sự di chuyển các các xe buýt trên các tuyến đường, rút ra đặc trưng về tình hình giao thông trên các đoạn đường, tuyến đường được phân tích.

Phương pháp nghiên cứu

Về mặt lý thuyết, tìm hiểu các nghiên cứu về phân tích dữ liệu giao thông, dữ liệu chuỗi thời gian, nghiên cứu các phương pháp gom cụm trong dữ liệu chuỗi thời gian

Về phần thực nghiệm, đề tài sẽ phân tích dữ liệu hành trình từ để xem xét, nghiên cứu về tình hình di chuyển của xe buýt trên các đoạn đường, tuyến xe theo thời gian hoạt động của xe buýt Từ đó rút ra các đặc trưng về tình hình di chuyển của các xe khi lưu thông qua các đoạn đường, tuyến đường theo các thời điểm trong ngày Từ dữ liệu hành trình của xe buýt, sẽ được rút trích và tiền xử lý để thu thập các dữ liệu cần thiết

Xây dựng dữ liệu thành dữ liệu chuỗi thời gian rồi tiến hành khai phá dữ liệu, gom cụm, phân tích hành vi di chuyển của xe buýt, phát hiện các khu vực ùn tắc giao thông, và các bất thường xảy ra Bên cạnh đó, các yếu tố về đặc điểm của các tuyến đường và ảnh hưởng của nó đối với sự di chuyển của các xe cũng sẽ được quan tâm, tìm hiểu trong đề tài này

Về phần đánh giá, kết quả sẽ được so sánh với kết quả phân tích trên tập dữ liệu kiểm chứng Đồng thời, kết hợp khảo sát thực tế trên các tuyến xe buýt đi qua các đoạn đường được chọn để phân tích.

Bố cục luận văn

Nội dung trình bày của luận văn gồm 5 chương, bao gồm các nội dung các chương như sau:

3 Nội dung của chương này trình bày lý do chọn đề tài, đối tượng và phạm vi nghiên cứu, phương pháp nghiên cứu

- Chương 2: Cơ sở lý thuyết

Nội dung chương 2 trình bày các khái niệm sơ lược cơ sở lý thuyết, kiến thức nền tảng liên quan đến đặc trưng tình hình giao thông với hành vi di chuyển, tổng quan về dữ liệu chuỗi thơi gian, gom cụm dữ liệu chuỗi thời gian

- Chương 3: Tiền xử lý dữ liệu và phương pháp gom cụm

Chương 3 trình bày về xây dựng tập dữ liệu chuỗi thơi gian từ bộ dữ liệu hành trình của xe buýt, thử nghiệm các độ đo khoảng cách, và độ tương tự các đối tượng dữ liệu, giải thuật gom cụm áp dụng và phương pháp chọn số cụm

- Chương 4: Hiện thực và kết quả

Hiện thực các phương pháp được nêu ở chương 3 trên tập dữ liệu chuỗi thời gian về hành trình của các xe buýt đã được xây dựng, kết quả thực nghiệm

Chương này trình bày những công việc đã làm được, hướng phát triển tiếp theo của đề tài

Cơ Sở Lý Thuyết

Đặc trưng tình tình giao thông và hành vi của phương tiện

Hành vi tham gia giao thông là cách thức, hoạt động của con người di chuyển đến những nơi công cộng bằng nhiều phương tiện khác nhau, với các mục đích khác nhau [15] Hành vi tham gia giao thông cũng chính là hành vi, thái độ của con người điều khiển phương tiện tham gia trên mạng lưới giao thông Những yếu tố liên quan đến hành vi tham gia giao thông được thể hiện qua phương tiện, mục đích, lịch trình về thời gian cho những địa điểm đến khác nhau, lựa chọn những tuyến đường Hành vi này có sự tác động phụ thuộc bởi các nhân tố bao gồm môi trường, chi phí đi lại, cơ sở hạ tầng, thời gian [10], và các yếu tố khác như chính sách và pháp luật giao thông, tình hình giao thông

5 Tình hình giao thông thể hiện qua sự thông thoáng (free) hay sự ùn tắc (congested) [5] Sự ùn tắc giao thông, kẹt xe diễn ra trong một không gian, thời gian phức tạp, xảy ra do nhiều nguyên nhân khác nhau, có thể là kết quả của hiện tượng thắt nút cổ chai từ đoạn đường lớn qua các đoạn đường hẹp, hay do giảm số làn đường, do điều kiện thời tiết xấu, do có tai nạn diễn ra [6], có công trường thi công trên cung đường, đoạn đường Sự ùn tắc này cũng tác động đến hành vi tham gia giao thông về sự thay đổi lộ trình, lịch trình, các quyết định tham gia giao thông khác; và ngược lại, chính hành vi tham gia giao thông cũng là một trong những nguyên nhân quyết định đến tình hình giao thông Ví dụ như hành vi quyết định tham gia giao thông làm tăng lưu lượng trên tuyến đường sẽ có thể dẫn đến sự ùn tắc, hay một số hành vi gây cản trở giao thông (lấn tuyến, gây tai nạn, vi phạm luật giao thông…)

Với sự tác động ảnh hưởng qua lại giữa hành vi di chuyển của các phương tiện với tình hình giao thông, đề tài nghiên cứu trên khía cạnh, sự di chuyển của xe phản ánh phần nào đó đến tình hình giao thông trên các tuyến đường mà xe đi qua phụ thuộc như thế nào theo các thời điểm trong ngày Chẳng hạn, vào một khung giờ bất kỳ nào đó trong các ngày, xe di chuyển trên đoạn đường phân tích di chuyển với vận tốc bất thường (thấp hơn hay cao hơn) so với các khung giờ khác Trên cùng tuyến đường, ở các đoạn đường khác nhau, xe di chuyển với vận tốc khác nhau như thế nào

Trong phạm vi của đề tài này, dựa trên dữ liệu ghi nhận hành trình của các xe buýt, luận văn tập trung phân tích về sự di chuyển của xe trên các đoạn đường, tuyến đường theo thời gian Sự di chuyển ổn định, nhanh hay chậm trên các đoạn đường, tuyến đường theo các khung thời gian trong ngày Đề tài cũng xem xét, tìm hiểu các đặc điểm của những đoạn đường, tuyến đường và các ảnh hưởng của nó đặc điểm đó đối với tình hình di chuyển các xe

GPS và thiết bị GPS

 Hệ thống định vị toàn cầu (GPS)

Hệ thống định vị toàn cầu là hệ thống định vị của các vệ tinh nhân tạo trong không gian xác định thông tin vị trí và thời gian ở mọi điều kiện thời tiết, bất cứ nơi đâu trên trái đất hoặc gần trái đất [16] Để xác định vị trí của một đối tượng bất kỳ, đối tượng đó cần đảm bảo ít nhất 4 vệ tinh có thể nhìn thấy đối tượng đó Ban đầu hệ thống định vị được bộ quốc phòng Mỹ phóng lên với 24 vệ tinh chủ yếu phục vụ cho quân sự, sau đó chính phủ Mỹ cho phép sử dụng hoàn toàn miễn phí cho các lĩnh vực dân sự

Về sau, các nước khác cũng xây dựng hệ thống định vị riêng của mình như Nga, liên minh Châu Âu, Trung Quốc, Ấn Độ

Hệ thống định vị toàn cầu được ứng dụng trên nhiều lĩnh vực trên thế giới gồm quân sự, xây dựng, thương mại Đặc biệt, trong lĩnh vực giao thông, hệ thống GPS được sử dụng rất rộng rãi trong giao thông hàng hải, hàng không, đường bộ Để biết được thông tin định vị các ứng dụng cần có thiết bị GPS

Thiết bị GPS là thiết bị thu tín hiệu GPS Các thiết bị GPS sẽ nhận thông tin từ tín hiệu từ các vệ tinh (tín hiệu vô tuyến) Độ sai lệnh về thời gian gửi nhận tín hiệu cho biết khoảng cách từ thiết bị GPS đến các vệ tinh, từ nhiều vệ tinh khác nhau thì thiết bị GPS bằng phép tính lượng giác để xác định vị trí của thiết bị

Thông thường, chỉ cần nhận tín hiệu từ ba vệ tinh thì thiết bị GPS có thể xác định được vị trí trên trái đất bao gồm kinh độ, vĩ độ Nếu nhận được ít nhất 4 vệ tinh thì thiết bị có thể xác định thêm độ cao so với mặt đất Khi đã xác định được vị trí, thiết bị còn có thể tính toán các thông tin khác như vận tốc di chuyển, hướng di chuyển và các thông tin khác Độ chính xác của các thiết bị GPS chịu ảnh hưởng bới địa hình, trạng thái của khí quyển, độ chính xác trung bình của các thiết bị GPS là trong vòng bán kính 15m Ngày nay, độ chính xác của các thiết bị GPS ngày càng tăng

Gom cụm dữ liệu chuỗi thời gian

Chuỗi thời gian biểu diễn những giá trị thay đổi của dữ liệu theo đơn vị thời gian thay đổi tương ứng như tỉ giá ngoại tệ, chứng khoán thay đổi hàng ngày, số báo xuất bản theo từng tháng, doanh thu của doanh nghiệp theo từng quý, từng năm… Dựa vào những biểu diễn đó, những cá nhân, nhóm người ra quyết định đưa ra những phân tích, dự đoán để đem lại những hiệu quả nhất định

Chuỗi thời gian là tập hợp những giá trị quan sát được, thể hiện theo tuần tự của thời gian [7] Chuỗi thời gian được sử dụng trong nhiều lĩnh vực: kinh tế tài chính, chứng khoán, nhận diện mẫu (pattern recognition), dự báo thời tiết, tín hiệu điện, y khoa

Chuỗi thời gian được quan tâm chủ yếu theo hai hướng: phân tích chuỗi thời gian (time series analysis) và dự báo chuỗi thời gian (time series forecasting)

 Phân tích chuỗi thời gian: bao gồm những phương pháp phân tích giá trị dữ liệu thay đổi theo thời gian, quan tâm mức ý nghĩa cũa dữ liệu theo hướng thống kê, và phân tích các đặc điểm của dữ liệu

 Dự báo chuỗi thời gian: Sử dụng các phương pháp, mô hình để phân tích dữ liệu theo thời gian, mang tính dự báo giá trị của dữ liệu trong tương lai dựa vào các giá trị đã quan sát trước đó

Những hành vi, mẫu của dữ liệu chuỗi thời gian được đặc trưng thành các thành phần của nó Chuỗi thời gian được chia làm 4 thành phần: xu hướng (trend), chu kỳ (cyclical), mùa (seasonal), bất thường (irregular) [3] Trong phân tích và dự báo, chuỗi thời gian được xây dựng thành các mô hình, các mô hình được chia chủ yếu thành ba loại gồm mô hình mô hình hồi quy (regression model), mô hình tất định (deterministic model) và mô hình ngẫu nhiên (stochastic model)

2.3.2 Tổng Quan về Gom Cụm Dữ Liệu Chuỗi Thời Gian

Dữ liệu chuỗi thời gian có thể được coi là loại dữ liệu động, giá trị của dữ liệu tương ứng với từng thời điểm Tuy nhiên, gom cụm chuỗi thời gian cũng thuộc dạng gom cụm từ tập dữ liệu chưa được gán nhãn ban đầu, ứng với dữ liệu kiểu chuỗi thời gian Có nhiều giải thuật được phát triển để gom cụm dữ liệu chuỗi thời gian Những giải thuật này hầu như phát triển từ các giải thuật gom cụm trước cho dữ liệu truyền thống, bằng cách xử lý dữ liệu chuỗi thời gian hoặc chuyển nó sang dạng tương tự dữ liệu đơn giản dạng truyền thống

Gom cụm chuỗi thời gian được phân loại theo hai phương pháp chính[1]:

 Gom cụm toàn bộ chuỗi thời gian: nhóm các đối tượng dữ liệu chuỗi thời gian có tính tương tự nhau thành cụm dựa trên so sánh toàn bộ chuỗi thời gian của các đối tượng dữ liệu

 Gom cụm chuỗi thời gian con (subsequence): Dựa vào kỹ thuật cửa sổ trượt (sliding window) rút trích một phần của các đối tượng dữ liệu chuỗi thời gian, liên tục để tiến hành gom cụm

Các giải thuật gom cụm cho dữ liệu tĩnh có thể được áp dụng cho dữ liệu chuỗi thời gian dựa trên các phương pháp phân hoạch (partitioning methods), phương pháp phân cấp (hierarchical methods), phương pháp dựa trên mô hình (model-based methods) Tùy vào mục đích của ứng dụng, phân tích dữ liệu để áp dụng tùy theo phương pháp thích hợp

Dữ liệu GPS ghi nhận hành trình của các xe buýt là dạng dữ liệu chuỗi thời gian, trong đó bao gồm các giá trị về vận tốc, tọa độ vị trí của xe thay đổi theo từng thời điểm ghi nhận Đề tài sẽ biến đổi, rút trích và xây dựng dữ liệu GPS ban đầu sang dạng dữ liệu chuỗi thời gian mới phù hợp, sau đó tiến hành các kỹ thuật gom cụm dữ liệu

Độ đo khoảng cách trong gom cụm chuỗi thời gian

Một trong những yếu tố quan trọng quyết định đến kết quả, chất lượng của phương pháp gom cụm dữ liệu chính là độ đo mức độ tương tự, độ đo khoảng cách giữa các đối tượng dữ liệu, cũng như dữ liệu chuỗi thời gian [14] Tùy thuộc vào từng dạng dữ liệu, giải thuật gom cụm, mục đích gom cụm mà các ứng dụng sẽ áp dụng các độ đo khoảng cách, mức độ tương tự của dữ liệu phù hợp

Dữ liệu ở các dạng khác nhau bao gồm dữ liệu thô, các vector, ma trận chúng có thể có độ dài bằng nhau hoặc khác nhau Các độ đo về khoảng cách, mức độ tương tự giữa hai chuỗi thời gian được tiếp cận theo nhiều cách thức khác nhau, nhưng chúng thường tiếp cận theo hướng thu giảm số chiều [2] Sau đây là các độ đo thường được sử dụng

Hai đối tượng chuỗi thời gian có độ dài n: = , … , và = , … , , độ đo khoảng cách euclid của hai đối tượng

( , ) = ( − ) Độ đo minkowski là độ đo mở rộng và tổng quát cho độ đo euclid, công thức tính độ đo minkowski, với p là một số dương bất kỳ

( , ) = ( − ) Độ đo euclid hay minkowski dễ hiểu và dễ tính, nhưng chúng chỉ áp dụng được trong trường hợp các chuỗi thời gian (vector) có cùng độ dài, nhạy cảm với những trường hợp dữ liệu nhiễu

2.4.2 Hệ số tương quan pearson

Hai chuỗi thời gian U và V có độ dài n, công thức tính độ tương tự của hai chuỗi thời gian được tính như sau

2 Với là hệ số tương quan, được xác định bởi công thức

∑ ( − ) ∑ ( − ̅) Trong đó, và ̅ là hai giá trị trung bình của các giá trị thành phần của hai chuỗi thời gian tương ứng U, V

, ̅ = 1 Độ đo về khoảng cách được dẫn xuất từ hệ số tương quan để đo mức độ tương quan giữa hai đối tượng chuỗi thời gian Phương pháp này áp dụng hai chuỗi thời gian có cùng độ dài

2.4.3 Độ đo chuỗi thời gian ngắn (STS)

Xem xét trên khía cạnh tuyến tính từng phần của chuỗi thời gian, độ đo STS (short time series) kết hợp các giá trị thành phần của chuỗi và thời gian, độ đo chuỗi thời gian ngắn được tính theo công thức

− Độ đo này được tính dựa trên sự so sánh độ dốc của hai chuỗi thời gian Phương pháp này phù hợp với hai chuỗi thời gian có cùng độ dài, và các thời điểm của các giá trị hai chuỗi như nhau

2.4.4 Độ đo xoắn thời gian động (DTW)

Với hai chuỗi thời gian có độ dài khác nhau, có sự chênh lệch thời gian trong chuỗi = , … , và = , … , , độ đo DTW (dynamic time warping) được đề nghị bởi nhóm tác giả Bernt và Clifford [4], ánh xạ và tinh chỉnh hai chuỗi thời gian sao cho sự chênh lệch là tối thiểu Warping path = , … , dùng để lưu lại các khoảng cách giữa các phần tử , của hai chuỗi là nhỏ nhất trong đó khoảng cách giữa hai phần tử có thể được tính theo một trong những cách

= − hoặc = − Sau đó, độ đo DTW được tính dựa trên warping path, và khoảng cách giữa các phần tử

( , ) = ( ) Độ đo này áp dụng được với các chuỗi dữ liệu có độ dài khác nhau, và chênh lệch về thời gian Phương pháp DTW cho kết quả chính xác hơn độ đo khoảng cách Euclid, và áp dụng tốt trong gom nhóm các chuỗi thời gian có hình dạng giống nhau

2.4.5 Độ đo dựa vào chuỗi con chung dài nhất (LCSS) Độ đo dựa vào chuỗi con chung dài nhất (longest common subsequence) dựa vào việc so trùng các giá trị thành phần của hai chuỗi thời gian để có những chuỗi con chung sao cho đạt được chuỗi con chung có độ dài lớn nhất

Công thức tính độ tương tự của hai chuỗi U, V:

( , ) = ( , ) max(| |, | |) Với ( , ) được tính dựa trên các phần tử của hai chuỗi như sau:

12 LCSS có thể áp dụng trong trường hợp các chuỗi dữ liệu có độ dài khác nhau, cho phép loại bỏ các điểm bất thường trong chuỗi dữ liệu LCSS cho kết quả tốt hơn so với độ đo euclid [13].

Một số tên gọi trong hoạt động xe buýt

Sau đây là một số từ ngữ, tên gọi được sử dụng trong luận văn liên quan đến hoạt động của xe buýt

Hình 1: Lộ trình tuyến xe buýt

 Trạm xe buýt/ trạm (bus stop): nơi mà xe buýt dừng lại để đón và trả khách

 Bến xe/ bãi xe (bus station): trạm đầu cuối mà xe buýt bắt đầu hoặc kết thúc hoạt động phục vụ vận chuyển khách

 Tuyến xe buýt/ tuyến (route) : lộ trình xe buýt phải đi qua tập hợp danh sách các trạm theo quy định để đón khách, trả khách

 Lượt đi, lượt về: chỉ hướng đi của xe buýt trong một tuyến, trong một ngày mỗi xe trong cùng một tuyến có thể thực hiện nhiều lượt đi và lượt về

 Chuyến xe/ chuyến (trip): là hành trình, hoạt động của xe buýt thực hiện trên một lượt đi hoặc lượt về, từ bến, bãi xuất phát đến bến bãi cuối

 Phân đoạn/ đoạn (segment): đoạn đường di chuyển của xe buýt, được phân thành các đoạn từ lộ trình tuyến xe buýt

13 Đề tài phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn thành phố Hồ Chí Minh dựa trên dữ liệu GPS và áp dụng phân tích dữ liệu chuỗi thời gian để phân tích dữ liệu GPS, trong đó nghiên cứu phương pháp xử lý thích hợp đối với chuỗi các giá trị của dữ liệu hành trình của các xe buýt mà khoảng thời gian giữa các giá trị không đều để áp dụng trong bước gom cụm chuỗi thời gian tiếp theo Phân tích di chuyển của các xe theo các lộ trình, tuyến đường, dựa vào vị trí của phương tiện tại thời điểm tương ứng, phân tích tốc độ, phát hiện những biến cố trên cung đường, lộ trình của xe buýt

Tiền Xử Lý Dữ Liệu Và Phương Pháp Gom Cụm

Mô tả dữ liệu hành trình xe buýt

Dữ liệu hành trình được thu thập từ các thiết bị GPS được gắn trên mỗi xe buýt, hoạt động trên địa bàn thành phố Hồ Chí Minh Dữ liệu được ghi nhận những thông tin cần thiết giúp bộ phận quản lý xe buýt quan sát, theo dõi hành trình, hoạt động của các phương tiện

3.1.1 Cấu trúc dữ liệu hành trình xe buýt

Dữ liệu lưu những thông tin vị trí của xe ứng với từng thời điểm trong ngày Các thuộc tính dữ liệu gồm

 Deviceid: mỗi xe được gắn một thiết bị GPS, mỗi thiết bị đó có mã nhất định

 Latitude: vị trí theo tọa độ vĩ độ hiện thời của xe buýt

 Longitude: vị trí theo tọa độ kinh độ hiện thời của xe buýt

 Speed: vận tốc tức thời của xe

 Satellite: thông tin vệ tinh

 Lock: trạng thái hoạt động của xe buýt, nếu giá trị là 1 thì xe đang hoạt động rước trả khách bình thường; ngược lại giá trị là 0

 Tracktime: thời điểm ghi nhận thông tin vị trí hiện thời của xe

Dữ liệu GPS ghi nh trong đó bao gồm các gi điểm ghi nhận Vấn đề nghiên cứu thường là nhữ dữ liệu phân tích GPS n điểm ghi nhận các ngày, các chuy bị khác nhau Ví dụ như hiệu (time intervals) trong khoảng thời gian thấp gần nh gian 30 giây phân bố nhiề

Vì khoảng thời gian xử lý đối với chuỗi giá tr

Xây dựng dữ liệu chuỗi thời gian

Dữ liệu hành trình c tuyến xe, các chuyến theo các lư

GPS ghi nhận hành trình của các xe buýt là dạng dữ liệ giá trị về vận tốc, tọa độ vị trí của xe thay đ gặp phải là trong các bài toán dữ liệu chu ững chuỗi giá trị mà có khoảng thời gian cách GPS này các giá trị có khoảng thời gian cách nhau kh

, các chuyến không giống nhau trên cùng thi hình 2, thống kê số tín hiệu theo khoảng thờ (time intervals) trong số 26 thiết bị của các xe cùng hoạt độ n nhất là 1 giây, lâu nhất là 124 giây Trong s ều nhất 81485/211475

: Khoảng thời gian không đều giữa các tính hi i gian không đều nhau, đề tài sẽ xem xét, nghiên c ị dữ liệu có khoảng thời gian không đều nhau ệu chuỗi thời gian u hành trình của các phương tiện xe buýt ban đầu sẽ được x n theo các lượt đi, lượt về và thời gian bắt đầu, th ệu chuỗi thời gian, xe thay đổi theo từng thời chuỗi thời gian được ách đều nhau, nhưng nhau không đều, thời thiết bị lẫn các thiết ời gian giữa các tín ộng trên tuyến xe, Trong số đó, khoảng thời a các tính hiệu n cứu phương pháp nhau c xử lý để xác định u, thời gian kết thúc

16 của mỗi chuyến hoạt động của các xe buýt theo từng mã thiết bị Dựa trên các thông tin vừa xác định, đề tài sẽ xây dựng chuỗi thời gian về hành trình của xe buýt theo từng chuyến, từng đoạn đường

3.2.1 Rút trích đặc điểm dữ liệu phân tích

Dữ liệu sẽ được rút trích những thuộc tính cần thiết nhằm đảm bảo mô tả quá trình di chuyển như sự thay đổi vận tốc di chuyển của xe trên tuyến đường, đoạn đường theo thời gian Các thuộc tính có thể rút trích từ dữ liệu bao gồm: vận tốc tức thời (speed), tọa độ của xe (latitude, longitude), và thời gian hiện thời ghi nhận thông tin hành trình của các xe (tracktime) Trong đó yếu tố vận tốc được chú trọng để phân tích sự thay đổi vận tốc di chuyển của xe trong quá trình di chuyển chẳng hạn, ở những đoạn đường bất kỳ nào đó, xe di chuyển với vận tốc biến thiên khác nhau Đối với những đoạn xe di chuyển với vận tốc cao có thể rút ra rằng đoạn đường đó xe di chuyển bình thường, thông thoáng Ngược lại, nếu xe di chuyển trên đoạn đường có vận tốc thấp, có thể trên đoạn đường đó mật độ xe lưu thông cao, có thể ùn ứ, hay một số nguyên nhân bất thường khác

Tuy nhiên, thuộc tính vận tốc trong dữ liệu chỉ là vận tốc tức thời tại thời điểm ghi nhận hành trình, đề tài cần phân tích quá trình di chuyển của xe trên từng đoạn đường tuyến đường Xây dựng chuỗi dữ liệu thời gian dựa trên vận tốc tức thời sẽ gây ra vấn đề khó khăn, phức tạp cho việc phân tích về đặc trưng di chuyển của các xe và đặc trưng tình hình giao thông của tuyến đường, đoạn đường

Vận tốc di chuyển của xe chính là đoạn đường mà xe đi được trong một quãng thời gian Đề tài xin được đề nghị phương pháp sử dụng mối liên hệ giữa quãng đường và thời gian mà xe di chuyển để phân tích, dựa trên các thuộc tính của dữ liệu về vị trí của xe latitude, longitude và thời điểm ghi nhận dữ liệu tracktime Đoạn đường phân tích sẽ gồm từ vị trí bắt đầu phân tích và vị trí kết thúc trên hành trình hoạt động của các xe buýt, lấy vị trí bắt đầu làm mốc, từ dữ liệu vị trí và thời điểm của xe để tính quãng đường xe di chuyển theo thời gian

Hình 3 ví dụ về sự đường theo thời gian Hình 3(a), quãng đường thẳng, biểu diễn xe di chuy phức tạp trong di chuyển c nằm ngang thể hiện trong kho nguyên nhân nào đó; đoạ (0, a); đoạn gấp khúc (c, d), đ chứng tỏ xe di chuyển vớ

Sự thay đổi của quãng chuyển của xe trên đoạn đư gian để xây dựng chuỗi th

3.2.2 Xây dựng chuỗi th Đề tài xem xét về đường phân tích, dữ liệu đư trong suốt quá trình di chuy

Trên đoạn đường phân tích xe di chuy chuỗi các giá trị được sắp x

(b) Hình 3: Đồ thị sự di chuyển của xe ự di chuyển của phương tiện biễu diễn phụ i gian Hình 3(a), quãng đường và thời gian tuyến tính v n xe di chuyển qua đoạn đường với vận tốc đều Hình 3 (b), có s n của xe trên đoạn đường, đoạn gấp khúc (a, b) là đư n trong khoảng thời gian xe từ t a đến t b xe không di chuy ạn gấp khúc (b, c) xe di chuyển lại bình thườ p khúc (c, d), độ dốc (hệ số gốc) nhỏ hơn so với đo ới tốc độ chậm hơn a quãng đường theo thời gian cũng diễn tả n đường phân tích Vì vậy, đề tài chọn các thu i thời gian cho công việc phân tích tiếp theo i thời gian sự di chuyển của xe theo các chuyến hành trình, các u được xây dựng dựa trên tập hợp các dữ li t quá trình di chuyển trên chuyến, đoạn đường ng phân tích xe di chuyển qua có tập gồm n tín hi p xếp theo thứ tự theo thời gian:

= 〈( , ), ( , ), … , ( , ) … ( , )〉 ụ thuộc giữa quãng n tính với nhau theo u Hình 3 (b), có sự p khúc (a, b) là đường thẳng xe không di chuyển do một số ờng lại so với đoạn i đoạn (b, c) và (0, a) được quá trình di n các thuộc tính vị trí, thời n hành trình, các đoạn liệu tín hiệu của xe m n tín hiệu, ta có được

18 Trong đó: là vị trí của xe gồm vĩ độ, kinh độ tại thời điểm Giả sử ( , ) là giá trị tại vị trí làm mốc của đoạn đường phân tích ứng với thời điểm tại vị trí đó, khi đó quãng đường đi được tại một thời điểm dữ liệu, và thời gian tiêu tốn tương ứng trong chuỗi được tính

= − Với ( , ) là khoảng cách vị trí của xe tại hai thời điểm liên tục tính theo công thức tính khoảng cách vị trí địa lý Khi chọn chuyến để phân tích, ta chọn ( , ) dựa vào tín hiệu cuối cùng tại bến xuất phát, khi chọn đoạn đường phân tích thì giá trị ( , ) được tính toán theo phương pháp xấp xỉ được trình bày trong phần 3.3

Sau khi biến đổi từ vị trí theo thời gian ta có chuỗi dữ liệu thời gian về quãng đường theo thời gian như sau:

= 〈( , ), ( , ), … , ( , ), … ( , ) 〉 Kết quả ta có được tập các chuỗi thời gian, mỗi chuỗi thời gian là một vector, độ dài mỗi vector phụ thuộc vào số tín hiệu được ghi nhận trong phân tích theo từng chuyến hoặc từng đoạn đường phân tích của các xe Mỗi giá trị trong vector bao gồm nội dung thời điểm, quãng đường đi được ứng tại thời điểm ghi nhận đó so với vị trí ban đầu (nếu phân tích theo chuyến, vị trí ban đầu làm mốc là tại bến xuất phát; nếu phân tích theo đoạn đường thì mốc là vị trí bắt đầu phân tích đoạn đường)

Hình 4: Xây dựng chuỗi thời gian

Dựa vào các giá trị của vector để tính toán khoảng cách giữa hai đối tượng, đo mức độ tương tự của chúng được sử dụng cho giải thuật gom cụm

Xấp xỉ dữ liệu

Đặc điểm của dữ liệu GPS ghi lại hành trình di chuyển của các xe buýt là khoảng thời gian không đều, dẫn đến sự chênh lệch thời gian giữa các chuỗi dữ liệu thời gian sau khi biến đổi, độ dài các chuỗi thời gian cũng không giống nhau Xấp xỉ dữ liệu nhằm giải quyết sự chênh lệch các chuỗi dữ liệu, và đồng thời phương pháp xấp xỉ được sử dụng để xác định thời điểm của xe tại vị trí điểm bắt đầu khi xây dựng chuỗi dữ liệu hành trình theo đoạn đường

Phương pháp xấp xỉ dựa vào các thông tin vị trí, thời gian của tín hiệu dữ liệu, xác định vận tốc trung bình để ước lượng quãng đường di chuyển trong khoảng thời gian, và thời điểm xe ở tại vị trí cần xử lý

 Ước lượng thời điểm tại một vị trí

Khoảng thời gian tín hiệu GPS ghi nhận thông tin vị trí của xe không đều, vì thế không phải lúc nào tín hiệu cũng ghi nhận bao phủ hết tất cả những vị trí mà xe đi qua

Khi xây dựng chuỗi dữ liệu hành trình của xe cần xác định vị trí bắt đầu, vị trí kết thúc và thời điểm tại vị trí bắt đầu Ước lượng thời điểm tại một vị trí nhằm để xác định thời điểm xe qua vị trí bắt đầu trên đoạn đường được phân tích Ý tưởng của công việc này dựa trên việc tính toán vận tốc trung bình của hai tín hiệu trước và sau khi xe qua vị trí điểm bắt đầu Giả sử ta chọn là vị trí bắt đầu, ( , ) là vị trí và thời điểm tín hiệu ghi nhận đầu tiên khi qua đoạn đường phân tích ( , ) là vị trí và thời điểm tín hiệu ghi nhận trước khi qua đoạn đường, cần xác định thời điểm tại một vị trí

Hình 5: Ước lượng thời điểm tại một vị trí

Vận tốc trung bình xe từ đến là ̅ được tính ̅ = ( , )

20 Khoảng thời gian xe từ đến là ∆ , khi đó ta được như sau

= + ∆ Đề tài khảo sát phương pháp dựa trên dữ liệu GPS với vị trí cần xác định là theo tín hiệu được ghi nhận, đã biết thời điểm từ 193 tín hiệu liên tục của một thiết bị

Hình 6: Sai số ước lượng khảo sát thời điểm tại một vị trí

Kết quả khảo sát, sai số trung bình khoảng 4.3 giây, sai số nhỏ nhất là 0 và lớn nhất là 28 giây Phân bố sai số nhỏ hơn 10 giây chiếm gần 95% Do khảo sát dựa trên tín hiệu giữa hai tín hiệu trước và sau nó nên sai số có thể sẽ lớn hơn so với sai số trong xấp xỉ thời điểm tại một vị trí mốc trên hai tín hiệu liên tục

 Ước lượng quãng đường theo thời gian

Các chuỗi thời gian được xây dựng sẽ có sự chênh lệch về thời gian, điều này sẽ ảnh hưởng đến so sánh, áp dụng các độ đo về sự tương tự giữa các chuỗi thời gian Xấp xỉ dữ liệu theo ước lượng quãng đường theo thời gian nhằm giải quyết vấn đề chênh lệch thời gian giữa các chuỗi

Phương pháp ước lượng này cũng dựa trên việc tính toán vận tốc trung bình giữa hai giá trị chuỗi thời gian liền kề ( , ) và ( , ) để xác định quãng đường đi được sau thời gian

Hình 7: Ước lượng quãng đường theo thời gian

− Quãng đường xe đi được sau thời gian được xác định:

= + ̅ ( − ) Khảo sát dựa trên các giá trị của chuỗi dựa trên vận tốc trung bình giữa hai phần tử trước và sau giá trị cần ước lượng của chuỗi có độ dài 120

Hình 8: Sai số ước lượng tính quãng đường theo thời gian

Kết quả khảo sát, sai số trung bình chênh lệch 20.98 m, độ sai lêch lớn nhất là 148 m, với độ sai lệch nhỏ hơn 60 m chiếm 95%, do khảo sát dựa tính vận tốc trung bình dựa trên hai phần tử xa nhau nên độ sai số có thể cao hơn so với sai số khi thực hiện ước lượng quãng đường dựa trên hai phần tử liền kề Đề tài xin được phép chấp nhận sai số này để phân tích tiếp theo.

Các độ đo khoảng cách

Với đặc điểm của dữ liệu là độ dài các chuỗi thời gian không bằng nhau và có sự chênh lệch thời gian giữa các chuỗi sẽ làm ảnh hưởng đến độ đo khoảng cách giữa hai chuỗi khi phân tích, gom cụm Vì thế, cần áp dụng phương pháp độ đo phù hợp để giả quyết các vấn đề tồn tại này Trong phần này, đề tài xin được đưa ra các phương pháp để tính khoảng cách hai chuỗi dữ liệu như sau

3.4.1 Phương pháp canh chỉnh chuỗi thời gian dựa vào diện tích (ABPA)

Phương pháp canh chỉnh chuỗi thời gian dựa vào diện tích (Area-Based Profile Alignment) được đề xuất bởi nhóm tác giả L Rueda [9] Nhóm tác giả đã đưa ra độ đo khoảng cách giữa các chuỗi thời gian mà khoảng thời gian giữa các phần tử trong chuỗi không đều nhau để áp dụng vào bài toán gom cụm trên tập dữ liệu về gen, xem xét sự thay đổi của nó Nghiên cứu xem xét độ đo khoảng cách bằng phương pháp dựa trên diện tích kết hợp với độ đo sự tương quan giữa hai chuỗi dữ liệu

Giả sử có hai chuỗi dữ liệu chuỗi thời gian tương ứng hai vector 〈 , , … , 〉 và 〈 , , … , 〉 Đầu tiên, canh chỉnh hai chuỗi dữ liệu này sao cho diện tích giữa chúng là nhỏ nhất bằng cách tìm một đại lượng

Biến đổi vector thứ nhất thành : 〈 , , … , 〉 ← − Biểu diễn hình học giữa hai điển liên tục nhau ( , ) và ( , )trong một chuỗi là một đoạn thẳng và được biểu diễn thành + , và đối với vector

− + , mục tiêu là tìm một số để đảm bảo tổng diện tích giữa các đoạn thành phần của hai chuỗi này là nhỏ nhất

Sau đó biến đổi vector thành : 〈 , , … , 〉 ← − Với = và = − ta tính khoảng cách giữa và chính là khoảng cách giữa hai chuỗi ban đầu

23 Phương pháp này thích hợp cho việc gom cụm có sự thay đổi tương tự của các chuỗi thời gian, áp dụng được cho việc tính toán khoảng cách giữa các chuỗi mà khoảng thời gian các giá trị của chuỗi không đều nhau

3.4.2 Thu giảm và xấp xỉ dữ liệu dựa vào phương pháp DTW

Phương pháp canh chỉnh chuỗi thời gian dựa vào diện tích áp dụng cho chuỗi thời gian có các khoảng thời gian không đều giữa các giá trị trong chuỗi, nhưng so với các chuỗi thì chúng không có sự chênh lệch nhau, tức = và khoảng thời gian bằng nhau − = − Nhưng các chuỗi dữ liệu hành trình không những khoảng thời gian không đều giữa các giá trị trong chuỗi mà có sự chênh lệch về thời gian so với chuỗi khác Cho nên, trước khi tính khoảng cách giữa hai chuỗi dữ liệu, cần xử lý hai vấn đề này Trước tiên, thu giảm (nén) dữ liệu của hai chuỗi cần so sánh dựa vào phương pháp DTW nhằm hạn chế tối thiểu sự sai lệch giữa hai chuỗi và giảm chiều của 2 chuỗi dữ liệu Sau đó, dùng phương pháp xấp xỉ quãng đường theo thời gian để biến đổi hai chuỗi khỏi sự chênh lệch nhau

Các chuỗi dữ liệu phân tích có độ dài khác nhau , và

= 〈 , , … , , … , 〉 = 〈( , ), ( , ), … , , , … , ( , ) 〉 Áp dụng phương pháp DTW cho hai chuỗi trên giá trị thời gian của các chuỗi với khoảng cách tính độ chênh lệch thời gian = | − | là nhỏ nhất với các giá trị là thuộc tính thời gian của , là thuộc tính thời gian của , đạt được warping path

= , … , , với max(m, n) ≤ k ≤ m + n – 1 Đặc điểm của DTW là nó sẽ tạo các ánh xạ 1 – nhiều, khi đó tồn tại giá trị sẽ được lưu trữ trong trong nhiều , tức là nó ánh xạ với nhiều giá trị Dựa trên ý tưởng của phương pháp LCSS, loại bỏ những so trùng không giống nhau, mỗi sẽ chỉ được ánh xạ với nào mà độ chênh lệch của chúng là nhỏ nhất Từ đó ta thu giảm được số chiều các chuỗi thời gian

24 Tuy nhiên, giữa các chuỗi vẫn còn tồn tại sự chênh lệch Sau khi các chuỗi được thu giảm, áp dụng xấp xỉ quãng đường theo thời gian để xử lý sự chênh lệch này

Giả sử < , khi đó ta biến đổi giá trị sang : = , sau đó xấp xỉ quãng đường ta được dựa vào 2 giá trị liên tục ( , ) và ( , ) như trình bày ở phần 3.3

Hai chuỗi dữ liệu cần so sánh về sự tương tự đã được biến đổi đảm bảo không còn chênh lệch về thời gian Khi đó, có thể áp dụng phương pháp canh chỉnh chuỗi thời gian dựa vào diện tích để tính khoảng cách cho hai chuỗi

3.4.3 Khoảng cách dựa vào diện tích giữa hai đường

Trong phương pháp canh chỉnh chuỗi thời gian dựa vào diện tích (ABPA), trước khi tính toán khoảng cách của hai chuỗi phải xử lý canh chỉnh, biến đổi lại hai chuỗi thời gian sao cho diện tích giữa hai đường của hai chuỗi là nhỏ nhất, độ đo khoảng cách của phương pháp này kết hợp độ đo theo hệ số tương quan Xuất phát ý tưởng này, đề tài đề xuất phương pháp sử dụng phương pháp tính diện tích giữa hai chuỗi làm độ đo nhưng không qua bước canh chỉnh, độ đo chỉ dựa vào cách tính diện tích hai đường theo phương pháp hình học Để bắt đầu phương pháp này, hai chuỗi trước tiên thu giảm và xấp xỉ quãng đường theo thời gian dựa trên phương pháp DTW như trình bày phần trên Sau khi tinh chỉnh hai chuỗi ta được hai vector cùng chiều

= 〈( , ), ( , ), … , ( , ), … , ( , ) 〉 Giữa hai cặp giá trị ( , ) và ( , ) là một đoạn thẳng, độ đo dựa vào diện tích giữa hai chuỗi là tổng diện tích giữa các đoạn thẳng thành phần tạo nên các chuỗi Các trường hợp về vị trí tương đối giữa hai đường thẳng gồm cắt nhau, song song, hoặc trùng nhau Có hai trường hợp tổng quát để tính diện tích giữa hai đường thẳng gồm công thức tính diện tích tam giác và công thức tính diện tích hình thang

 Dựa trên diện tích tam giác g đường cắt nhau tại vị trí e sao cho này là tổng diện tích hai tam giác

 Dựa trên diện tích hình thang nh đoạn thẳng cắt nhau ngoài

Diện tích được tính là diệ

3.4.4 So sánh các phương pháp Để đánh giá các phương pháp đ trình của một tuyến xe buýt t cùng một giải thuật gom c trình, bao gồm các độ đo euclid, đ quảng đường xe đi đượ vector, phương pháp ABPA, phương pháp d Các tiêu chí so sánh các phương pháp đ

 Trung bình bình trung tâm củ

: Các trường tổng quát về diện tích giữa hai đư n tích tam giác gồm những trường hợp như h trí e sao cho ≤ ≤ , khi đó diện tích gi n tích hai tam giác aec và bed n tích hình thang như trường hợp hình 9(b): gồm các trư t nhau ngoài đoạn [ , ], hai đoạn thẳng song song ho ện tích hình thang abdc

So sánh các phương pháp đánh giá các phương pháp độ đo, đề tài sử dụng dữ liệu th n xe buýt từ ngày 09/11/2012 – 16/11/2012 Các đ t gom cụm, và số cụm là 10 trên tập dữ liệu của 536 chuy đo euclid, độ đo cosin dựa trên vector của chu ợc đã được tinh chỉnh, không xét thuộc tính th , phương pháp ABPA, phương pháp dựa vào diện tích hai đường.

Giải thuật gom cụm PAM

Đề tài tiếp cận giải thuật gom cụm theo phương pháp phân hoạch (partitioning methods), đây là phương pháp đơn giản và cơ bản nhất trong các phương pháp phân tích cụm [8] Trong phương pháp gom cụm phân cấp, Các cụm sẽ không được xem xét lại khi nó đã được xây dựng từ đầu, trong khi phương pháp phân hoạch các cụm có thể thay đổi để đạt được các cụm có chất lượng tốt hơn, với dữ liệu thích hợp thì kết quả của phương pháp gom cụm bằng phương pháp phân hoạch cho các cụm có chất lượng cao [12] Từ tập dữ liệu D gồm n đối tượng, với k (k ≤ n) là số cụm cần chia từ tập dữ liệu D, phương pháp phân hoạch sẽ phân chia tập dữ liệu thành k phân vùng, mỗi phân vùng là một cụm Các giải thuật gom cụm bằng phương pháp phân hoạch điển hình: k- means, k-medoids (PAM), CLARA (clustering large applications)

Giải thuật gom cụm dữ liệu áp dụng theo phương pháp phân hoạch mà đề tài sử dụng là giải thuật PAM (partitioning around medoids), mỗi cụm được đại diện bởi phần tử chính giữa cụm (mediod hoặc centroid) Giải thuật này tương tự với giải thuật k-means, nhưng giải thuật PAM có thể thích ứng trong các trường hợp nhiễu hơn so với k-means, trong khi CLARA là giải thuật mở rộng từ k-medoids và áp dụng tốt cho tập dữ liệu lớn Tập dữ liệu trong đề tài phân tích không quá lớn nên PAM là giải thuật được chọn để giải quyết bài toán

 Tập dữ liệu gồm n đối tượng: D Output: tập k cụm

Begin 1 Chọn k đối tượng làm đại diện cho cụm (medoid) bất kỳ trong tập dữ liệu 2 Repeat

3 Gán mỗi đối tượng còn lại vào cụm mà gần với đối tượng đại diện nhất 4 Chọn ngẫu nhiên đối tượng O random , không phải là các đối tượng đại diện 5 Tính tổng chi phí S cho việc hoán đổi (swap)giữa đối tượng đại diện O j với

6 If (S < 0) then hoán đổi O j với O random để tạo tập các đối tượng đại diện mới 7 Until không có sự thay đổi nào

Đề xuất phương pháp gom cụm dữ liệu hành trình của xe buýt

Đề tài sẽ đề xuất các phương pháp tiến hành gom cụm dữ liệu hành trình xe buýt để phân tích sự di chuyển của các xe qua các đoạn đường, và phương pháp xác định số cụm phân tích

3.6.1 Phương pháp gom cụm dữ liệu hành trình của xe buýt

Từ dữ liệu hành trình của các xe, sau khi xác định lộ trình và thời gian hoạt động của các xe buýt trên các tuyến, đoạn đường và chọn một số tuyến xe để phân tích Đề tài lựa chọn các thuộc tính gồm vị trí và thời điểm hiện thời của xe để xây dựng chuỗi dữ liệu, mỗi điểm của chuỗi là quãng đường xe đi được tương ứng thời gian tiêu tốn Đề tài áp dụng phương pháp xấp xỉ thời đểm tại một vị trí để ước lượng thời điểm xe

31 bắt đầu hành trình trên đoạn đường nhằm xác định các giá trị thời gian trong chuỗi thời gian được xây dựng Đề tài sử dụng giải thuật PAM để gom cụm dữ liệu, gom nhóm sự di chuyển của các xe trên các đoạn đường, tuyến xe Độ đo được dùng trong giải thuật gom cụm để xem xét độ tương tự hay không tương tự giữa các chuỗi thời gian là độ đo dựa trên diện tích giữa hai hai đường theo sự thay đổi của quãng đường và thời gian xe đi được

Trong độ đo khoảng cách giữa hai chuỗi dữ liệu, do giữa chúng có sự chênh lệch về thời gian và độ dài của hai chuỗi không bằng nhau, đề tài đã tinh chỉnh hai chuỗi dựa trên độ đo DTW nhằm ánh xạ các giá trị thời gian của hai chuỗi Sau đó, thu giảm chiều của hai chuỗi dựa trên các ánh xạ 1 - nhiều giữa hai chuỗi theo warping path được tạo từ phương pháp DTW, thu giảm các ánh xạ mà độ lệch thời gian giữa các điểm trong chuỗi là nhỏ nhất Tiến hành xử lý sự chênh lệch thời gian giữa các chuỗi bằng cách đưa chúng về cùng thời gian, xấp xỉ quãng đường đi được theo thời gian đã được chỉnh sửa Cuối cùng, hai chuỗi ban đầu đã được xử lý thành hai chuỗi có cùng độ dài, không còn chênh lệch về thời gian và thực hiện độ đo tương tự trong giải thuật gom cụm

3.6.2 Phương pháp xác định số cụm

Xác định đúng số cụm là một công việc quan trọng, khi xác định đúng giúp kết quả gom cụm tốt hơn, giúp truy đạt được các thông tin chính xác hơn Đặc biệt, trong phương pháp phân hoạch cần phải chọn số cụm trước khi gom cụm Một trong những phương pháp đơn giản dùng để đánh giá nội phương pháp gom cụm có thể áp dụng để ước lượng số cụm cần gom là phương pháp tổng bình phương sai số (SSE – sum of squared error) [11] Cách tính tổng bình phương sai số theo số cụm, là tập danh sách các phần tử của cụm thứ k bất kỳ, phần tử đại diện của cụm

32 Gom cụm với nhiều giá trị khác nhau, sau đó xây dựng thành đồ thị đường SSE để ước lượng số cụm cần phân tích Dựa vào đường cong SSE, xác định điểm mà từ điểm đó các giá trị SSE về sau không có sự chênh lệch quá lớn, từ đó điểm đó được ước lượng là số cụm có thể được chọn

Hình 14: Xác định số cụm dựa vào SSE

Như ví dụ hình 14, từ số cụm là 8 trở đi giá trị SSE có sự chênh lệch không quá lớn và xấp xỉ nhau hơn so với số cụm trước đó, từ đó ước lượng được số cụm có thể phân tích là 8

Dữ liệu hành trình xe buýt được xử lý xác định lộ trình tuyến xe cho từng phương tiện Rút trích các thuộc tính gồm vị trí của xe và các thời điểm theo hành trình của xe để xây dựng chuỗi thời gian gồm thời gian và quãng đường đi được tương ứng Tuy nhiên, do các đặc điểm dữ liệu làm chuỗi thời gian không đều và có sự chênh lệch giữ các chuỗi, nên cần xử lý xấp xỉ dữ liệu Phương pháp gom cụm theo phương pháp phân hoạch được chọn, với giải thuật PAM có thể áp dụng được nhiều độ đo và có thể giảm thiểu được các trường hợp nhiễu Độ đo khoảng cách giữa hai chuỗi dữ liệu là dựa vào diện tích giữa hai đường thẳng Chọn số cụm trong phân tích là một công việc quan trọng, một trong những phương pháp đơn giản để ước lượng số cụm cần gom đề tài áp dụng là đường cong SSE Dựa vào những công việc này, đề tài sẽ áp dụng để phân tích theo hành trình của một số tuyến xe, tìm hiểu đặc trưng các tuyến đường

Hiện Thực Và Kết Quả

Dữ liệu thực nghiệm và hiện thực

Dữ liệu thực nghiệm là dữ liệu hành trình của xe buýt từ ngày 10/03/2014 – 16/03/2014 Sau khi xử lý dữ liệu, xác định tuyến xe, các chuyến mà xa buýt hoạt động, đề tài chọn dữ liệu của hai tuyến xe buýt số 32 và 88 để phân tích

Nguyên nhân chọn tuyến xe để phân tích:

 Lộ trình của các tuyến xe hoạt động có đi qua các tuyến đường nội thành

 Dữ liệu số chuyến xe để phân tích Thông tin lộ trình hoạt động của 2 tuyến xe buýt từ website xe buýt TP.HCM (*):

 Tên tuyến: Bến xe Miền Tây - Bến xe Ngã 4 Ga

 Lượt đi : Bến xe Miền Tây - Kinh Dương Vương - vòng xoay Phú Lâm - Hồng Bàng - quay đầu (vòng xoay Cây Gõ) - Hồng Bàng - Tân Hóa - Tân Hóa - Lũy Bán Bích - Hòa Bình - Tô Hiệu - Nguyễn Lý - Lê Khôi - Nguyễn Sơn - Văn Cao - Tân Hương - Tân Quý - Tân Kỳ Tân Quý - Lê Trọng Tấn - Dương Đức Hiền - Chế Lan Viên - Đường D9 - Tây Thạnh - Trường Chinh - Phan Huy Ích - Phạm Văn Chiêu - Thống Nhất - Lê Đức Thọ - Nguyễn Oanh - Hà Huy Giáp - Cầu vượt Ngã 4 Ga - Đường vòng chân cầu vượt - Quốc lộ 1A - Bến xe Ngã 4 Ga

 Lượt về : Bến xe Ngã 4 Ga - Quốc lộ 1A - quay đầu - Quốc lộ 1A - Đường nội bộ KDC Nam Long - Hà Huy Giáp - Nguyễn Oanh - Lê Đức Thọ - Thống Nhất - Phạm văn Chiêu - Phan Huy Ích - Trường Chinh - Tây Thạnh – Đường D9 - Chế Lan Viên - Dương Đức Hiền - Lê Trọng Tấn - Tân Kỳ Tân Quý - Tân Quý- Tân Hương - Văn Cao -

(*) http://buyttphcm.com.vn/TTLT.aspx

34 Nguyễn Sơn - Lê Khôi - Nguyễn Lý - Tô Hiệu - Hòa Bình -Lũy Bán Bích - Tân Hóa - Kinh Dương Vương - Bến xe Miền Tây (trả khách) - Kinh Dương Vương - Bến xe Miền Tây

 Loại xe: 40 chỗ Tuyến xe số 88

 Tên tuyến : Bến Thành - Chợ Long Phước

 Lượt đi : Bãi đậu xe buýt Công viên 23/9 - Lê Lai - vòng xoay Bến Thành - Phó Đức Chính - Lê Thị Hồng Gấm - Calmette - Phạm Ngũ Lão - trạm Bến Thành - Hàm Nghi - Hồ Tùng Mậu - đường nhánh S2 - Tôn Đức Thắng - Nguyễn Hữu Cảnh - (cầu Thủ Thiêm) - Lương Định Của - Nguyễn Thị Định - Nguyễn Duy Trinh - Long Thuận - Long Phước - Chợ Long Phước

 Lượt về : Chợ Long Phước - Long Phước - Long Thuận - Nguyễn Duy Trinh - Nguyễn Thị Định - (ngã 3 An Phú) - Nguyễn Thị Định - Lương Định Của - (cầu Thủ Thiêm) - Nguyễn Hữu Cảnh - Tôn Đức Thắng - Hàm Nghi - Trạm Bến Thành (mặt sau) - Trần Hưng Đạo - Phạm Ngũ Lão - Bãi đậu xe buýt Công viên 23/9

 Thời gian hoạt động: Bến Thành 05h00 - 19h00; Chợ Long Phước 04h45 - 19h00

Tiếp theo, đề tài đã xây dựng những tập dữ liệu chuỗi thời gian theo thời gian bắt đầu và thời gian kết thúc của từng tuyến xe theo lượt đi và lượt về, bao gồm dữ liệu theo chuyến và dữ liệu theo từng đoạn đường Trong lộ trình tuyến 32 số đoạn đường được chia là 9, tuyến 88 có 7 đoạn đường phân tích Các đoạn đường được chia có lộ trình dài khoảng 2 - 4 km Bởi, nếu lộ trình quá ngắn, các tín hiệu xe ghi nhận sẽ rất ít gây khó khăn trong việc phân tích trong di chuyển của các xe qua t Áp dụng độ đo kho khoảng cách của các chu thực thi giải thuật gom c được gom cụm theo nhiề phân tích kết quả.

Kết quả

Kết quả phân tích s trên các chuyến, từng đo xe buýt

4.2.1 Tuyến xe số 32 và các đo

Hai tập dữ liệu phân tích theo chuy Số cụm để phân tích lượt đi là 7, lư

Hình ảnh các cụm là đ chỉ thời gian hành trình c

35 c phân tích, lộ trình quá dài sẽ khó nhận biế a các xe qua từng khu vực trên đoạn đường đo khoảng cách dựa trên diện tích hai đường để a các chuỗi dữ liệu phân tích Sử dụng công cụ R (phiên b t gom cụm PAM trên ma trận khoảng cách đó M ều số cụm k, sử dụng phương pháp SSE nhằ phân tích sẽ được trình bày theo từng tuyến xe bao g ng đoạn đường theo cả hai chiều đi và về trong hành trình c

32 và các đoạn đường u phân tích theo chuyến có 870 chuyến lượt đi, 846 chuy t đi là 7, lượt về là 10 m là đồ thị có trục x chỉ quãng đường đi được (đơn v i gian hành trình của xe (đơn vị s)

(a) Lượt đi, k = 7 ết được sự thay đổi xây dựng ma trận R (phiên bản 3.0.2) để Mỗi tập dữ liệu sẽ ằm chọn số cụm để n xe bao gồm phân tích dựa trong hành trình của các

846 chuyến lượt về c (đơn vị m), trục y

Số phần tử cụm, vậ cụm gồm phần tử, và

(b) Lượt về, k = 10 Hình 15: Các cụm theo chuyến tuyến 32 ận tốc trung bình và trung bình sai số bình ph và lần lượt là phần tử và phần tử đại diện c

= ∑ ‖ − ‖ ( đơn vị km 2 s 2 ) ần tử Vận tốc trung bình (km/h) mean min max MSE 139 17.3271 15.5605 18.2284 4696840.194 338 18.3144 16.9869 20.1065 2351435.992 177 18.8376 17.3489 20.0323 2496896.284 122 19.6517 18.2628 21.667 3235732.838 39 23.6465 21.4918 25.3927 6347934.595 26 27.8758 23.6401 40.2859 17769597.07 29 16.3874 15.2336 17.5458 10256721.74

(a) Lượt đi bình phương MSE của n của cụm được tính

37 Cụm Số phần tử Vận tốc trung bình (km/h) mean min max MSE 1 126 18.1835 17.4889 19.1836 1351645.817 2 130 18.986 16.2722 20.4228 2126700.507 3 231 18.4135 17.0013 19.3833 1255335.368 4 144 17.8423 17.0769 18.454 1205586.585 5 34 26.2987 22.7016 28.5193 5803353.39 6 44 28.8582 25.2164 33.3016 3146793.012 7 71 17.5145 16.4488 18.7818 1967807.455 8 35 16.8715 15.7482 17.6365 4904053.191 9 26 20.7555 19.4366 24.18 8322816.191 10 5 14.8689 11.9625 16.2394 263003035.8

Bảng 2: Vận tốc trung bình, sai số trung bình theo chuyến tuyến 32

Vận tốc di chuyển trung bình theo lượt đi, lượt về toàn chuyến chủ yếu dao động từ 18 -20 km/h, đôi lúc có những chuyến vận tốc hơn 25 đến 35 km/h, trong đó vận tốc di chuyển trung bình các chuyến theo lượt đi là 18.8517 km/h, lượt về là 19.1419 km/h Đối với các chuyến lượt đi, đa số xe di chuyển với vận tốc trung bình nhỏ hơn 18 km/h, những nơi mà xe di chuyển có vận tốc thấp chủ yếu ở những đoạn trong vòng 3km đầu, cách bến xe Miền Tây từ 14 - 15km thể hiện trên hình ảnh các cụm Đối với lượt về, những điểm trên hình ảnh các cụm thể hiện vận tốc thay đổi (giảm) rõ ở cách bến xe Ngã Tư Ga 2 -3 km, 11 - 12km

Phân tích toàn bộ hành trình các chuyến, chưa thấy rõ tình hình di chuyển trên các đoạn đường như thế nào Vì vậy, đề tài phân tích chia tuyến thành các đoạn đường, đoạn tuyến

 Đoạn đường 1: Ch Đoạn đường phân tích d Bàng Xe di chuyển qua khu v trường học, công viên, đ nhiều tuyến đường: 2 vòng xoay Phú Lâm, vò tích lượt đi, lượt về trên đo

38 ng 1: Chợ An Lạc – Hồng Bàng (Tân Hóa) ng phân tích dài khoảng 3.5 km gồm đường Kinh Dương Vương, H n qua khu vực dân cư có chợ (Chợ An Lạc, chợ Phú Lâm), siêu th c, công viên, đặc biệt đoạn đường này có các vòng xoay n ng: 2 vòng xoay Phú Lâm, vòng xoay Cây Gõ Hai t trên đoạn đường này lần lượt là 755; 803 đối tượng.

Hình 16: Các cụm đoạn đường 1- tuyến 32

(b) ng Kinh Dương Vương, Hồng

Phú Lâm), siêu thị, ng này có các vòng xoay nơi tập trung của ng xoay Cây Gõ Hai tập dữ liệu phân ng

39 Cụm Số phần tử Vận tốc trung bình (km/h) mean min max MSE 1 85 15.1657 11.9278 17.4726 4209.485281 2 179 17.5468 14.3736 19.9424 1227.356206 3 117 15.9711 13.3414 17.7932 2585.152615 4 135 18.4962 13.9006 21.6316 1478.37596 5 146 16.4222 13.5572 18.2392 1500.945011 6 32 21.2921 17.6372 31.4683 7662.487657 7 54 17.6241 15.6792 19.0255 1432.914381 8 7 13.3847 11.6094 14.5768 11307.24263

Cụm Số phần tử Vận tốc trung bình (km/h) mean min max MSE 1 85 23.8944 21.0777 26.6371 50.84799713 2 121 23.5672 17.0955 26.9813 75.41512978 3 72 27.5408 23.6542 30.8134 67.16111993 4 85 25.8246 21.7594 29.1771 56.39037055 5 126 26.0909 20.1219 31.5396 75.07558524 6 124 21.7286 17.9016 26.481 107.8557024 7 34 22.3835 19.7728 24.1627 160.7365715 8 95 24.8368 21.5703 28.8362 59.3680501 9 8 18.8407 16.8433 19.9506 862.2487175 10 53 30.542 24.5819 37.4153 152.7884664

Bảng 3: Vận tốc trung bình, sai số trung bình đoạn đường 1 – tuyến 32

Xe di chuyển trên đoạn đường này có sự khác biệt rõ rệt giữa lượt đi, lượt về Vận tốc di chuyển theo hướng chợ An Lạc đến Hồng Bàng xe buýt di chuyển vận tốc từ 15

(b) Lượt về km/h đến 18 km/h, trong khi hư lượt đi, xe di chuyển ph phân bố chủ yếu vào khung gi trong đoạn đường này là Hướng ngược lại, xe di chuy

Lộ trình phân tích trên Trường Chinh (KCN Tân Bình), Phan Huy Ích T Chinh gồm 841 đối tượng đư

40 n 18 km/h, trong khi hướng ngược lại khoảng từ 20-28 km/h Đ n phức tạp hơn so với hướng lượt về, xe di chuy u vào khung giờ 16h30 – 17h30, tại những nơi xe thư ng này là khoảng 500 - 600 m đầu, từ 2.7 – 3.5 km so v xe di chuyển khá ổn định vận tốc khoảng từ 22 km/h ng 6: Trường Chinh – Phan Huy Ích trình phân tích trên đoạn đường này dài khoảng 3km, đi qua các đư ng Chinh (KCN Tân Bình), Phan Huy Ích Tập dữ liệu phân tích hư ng được chia làm 4 cụm, tập dữ liệu hướng ngư

(b) Lượt về, k = 5 Hình 17: Các cụm đoạn đường 6 - tuyến 32

28 km/h Đối với hướng , xe di chuyển dưới 15km/h ng nơi xe thường đi chậm hơn 3.5 km so với vị trí bắt đầu

22 km/h – 26 km/h ng 3km, đi qua các đường u phân tích hướng từ Trường ng ngược lại được chia

41 Cụm Số phần tử Vận tốc trung bình (km/h) mean min max MSE 1 272 16.4516 13.3595 19.2131 1702.557328 2 398 18.1244 12.3209 22.0621 1006.871996 3 82 21.0354 17.5821 29.0528 2681.703754 4 89 14.8913 12.1185 16.6747 4912.455711

Cụm Số phần tử Vận tốc trung bình (km/h)

Bảng 4: Vận tốc trung bình, sai số trung bình đoạn đường 6 – tuyến 32

Xe buýt di chuyển trên đoạn đường này, theo hướng lượt đi vận tốc dao động chủ yếu từ 16-18km/h, lượt về là 18-20 km/h Hướng từ Trường Chinh, xe di chuyển trên đoạn đường này với vận tốc thấp hơn 15 km/h tập trung vào các khoảng thời gian 16h30 – 18h30 (cụm 1, 4), xe di chuyển với vận tốc cao hơn 20 km/h từ 19h trở đi (cụm 3) Theo hướng về, ở khung giờ 6h30 – 7h15 xe di chuyển với vận tốc thường dưới 15km/h, buổi chiều xe di chuyển dưới 18 km/h 16h30 – 17h30 (các cụm 2, 4, 5)

Khu vực bất thường hay xảy ra là trong khu vực cách giao lộ giữa Tây Thạnh và Trường Chinh khoảng 300m

 Đoạn đường 7: Phạm Văn Chiêu Đoạn đường phân tích trên đường Phạm Văn Chiêu dài 2.9 km từ giao lộ với đường Quang Trung đến ngã ba Nhà Đèn, trên đoạn đường này có những đoạn đi qua

(b) Lượt về trường học, chợ Dữ liệu phân tích trên đo và 825 lượt về, các cụm đư

42 u phân tích trên đoạn đường này gồm 838 chu m được chọn lần lượt là 8; 12

(b) Lượt về, k = 12 Hình 18: Các cụm đoạn đường 7 – tuyến 32 m 838 chuỗi dữ liệu lượt đi

43 Cụm Số phần tử Vận tốc trung bình (km/h) mean min max MSE 1 147 19.3033 16.3837 21.6237 551.6872527 2 96 18.156 16.352 19.8194 544.1319221 3 191 20.3587 16.534 23.8511 362.3164806 4 33 15.881 12.7294 19.7424 2707.83422 5 161 20.6274 14.2574 25.6514 381.2951072 6 79 17.1857 14.3217 19.3889 1294.553997 7 7 12.3444 10.4921 14.2969 11327.27782 8 124 21.8414 10.5328 32.2511 707.7637628

Cụm Số phần tử Vận tốc trung bình (km/h) mean min max MSE 1 83 19.2399 13.9969 22.225 541.3786418 2 92 16.914 11.523 18.51 715.5779477 3 118 18.4813 14.419 20.7355 489.4669457 4 50 16.0318 13.1398 18.2554 1615.500878 5 161 18.8265 12.8419 22.8098 478.2075268 6 59 16.5327 13.8016 19.9023 1154.799271 7 98 21.0432 16.0733 23.5995 501.4241022 8 16 14.18 12.7705 15.3851 3812.013519 9 32 15.2567 13.7393 16.8942 1577.268696 10 56 18.0445 16.5086 19.9215 599.1093192 11 52 20.4877 18.6899 22.4344 423.6109819 12 8 25.02 20.9227 28.8292 1008.117053

Bảng 5: Vận tốc trung bình, sai số trung bình đoạn đường 7 – tuyến 32

Di chuyển qua đoạn đư hai hướng Hướng di chuy đường này với vận tốc th 18h30 (các cụm 4, 6), hư cách ngã tư Quang Trung Nhà Đèn, tại các thời đi (cụm 2, 4, 6, 8, 9), các vị thường xuyên tại các vị trí cách ngã ba Nhà

 Đoạn đường 8: Th Đoạn đường Thống Nh 2.1 km từ ngã ba Nhà Đèn đ này có các khu vực có b của đoạn đường tương đố liệu chia làm 6 cụm, hướ 825 chuỗi dữ liệu

Đánh giá

Để đánh giá với kết quả trên, phần này so sánh với kết quả trên tập dữ liệu mới theo phương pháp của đề tài, và tham khảo khảo sát thực tế theo hành trình trên xe buýt với các tuyến phân tích 32, 88

4.3.1 So sánh kết quả với kết quả trên dữ liệu kiểm chứng

Tập dữ liệu kiểm chứng được lấy từ ngày 18/05/2014 – 24/05/2014 của các tuyến xe buýt Xây dựng các tập dữ liệu và tiến hành gom cụm dữ liệu như trình bày các phương pháp thực hiện trên

Kết quả phân tích các đoạn đường này trên tập dữ liệu kiểm chứng so với tập dữ liệu thực nghiệm không có sự sai biệt nhiều Yếu tố thời gian mà xe đi qua đoạn đường với vận tốc chậm dường cho kết quả tương tự so với tập dữ liệu thực nghiệm Tuy nhiên, với tập dữ liệu này vận tốc trung bình xe đi qua các đoạn đường có thay đổi nhỏ

Vận tốc trung bình (km/h)

1 Đoạn đường 1 15.8387 (13 - 19) 25.0260 (22 - 28) 2 Đoạn đường 2 17.3024 (15 - 19) 19.9300 (17 - 22) 3 Đoạn đường 3 17.5917 (16 - 20) 17.6815 (15 - 20) 4 Đoạn đường 4 20.1753 (18 - 22) 17.3931 (13 - 20) 5 Đoạn đường 5 16.8725 (14 - 19) 20.3940 (16 - 23) 6 Đoạn đường 6 16.6539 (14 - 19) 19.1185 (16 - 22) 7 Đoạn đường 7 19.2952 (17 - 22) 17.7810 (15 - 21) 8 Đoạn đường 8 19.2313 (17 - 21) 11.8405 (9 - 14) 9 Đoạn đường 9 28.6460 (25 - 33) 18.1617 (14 - 20)

Bảng 12: Vận tốc trung bình các đoạn đường trên tuyến 32 – dữ liệu kiểm chứng

59 Đoạn đường 1, trên tập dữ liệu kiểm chứng xây dựng được 552 đối tượng dữ liệu lượt đi, 352 dữ liệu lượt về, có sự khác so với kết quả trên tập dữ liệu thực nghiệm về khung giờ, ở tập dữ liệu kiểm chứng vận tốc trung bình di chuyển dưới 15 km/h phân bố nhiều thời gian trong ngày hơn Đối với hướng lượt đi, vận tốc di chuyển trung bình chủ yếu từ 13 – 18 km/h trong khi dữ liệu thực nghiệm 15 – 18 km/h Hướng lượt về xe di chuyển nhanh hơn từ 20 – 25km/h, dữ liệu thực nghiệm từ 22 – 26 km/h Đoạn đường 6 có 594 dữ liệu lượt về, 488 dữ liệu lượt đi, số cụm được chia theo cả hai hướng là 6, vận tốc trung bình di chuyển theo hướng này chủ yếu từ 15 – 20 km/h, vận tốc di chuyển nhỏ hơn 18 km/h (có lúc nhỏ hơn 15km/h) thường ở khung giờ 6h – 7h15, 16h30 – 17h30 Theo hướng lượt đi, vận tốc trung bình từ 15 km/h đến 20 km/h, theo hướng này xe di chuyển vận tốc nhỏ hơn 18 km/h ở hai khung giờ 6h30 – 7h, 16h30 – 18h30 Khung giờ xe di chuyển với vận tốc so với kết quả phân tích dữ liệu thực nghiệm tương tự nhau Đoạn đường 7, hướng lượt về tập dữ liệu có 491 chuỗi dữ liệu chia làm 5 cụm, vận tốc trung bình 15 – 20 km/h, ở các khung giờ xe đi với vận tốc nhỏ hơn 15km/h từ 5h – 6h30 sáng, 17h – 18h Hướng lượt đi, phân hoạch thành 6 cụm từ tập dữ liệu 551 đối tượng, vận tốc di chuyển trung bình 15 – 20km/h Khung giờ xe đi với vận tốc nhỏ hơn 15 km/h là từ 6h – 6h30, 17h30 – 18h30 Vận tốc trung bình và khung thời gian xe di chuyển qua đây chậm hơn so với các khung giờ khác không khác so với kết quả của dữ liệu thực nghiệm Đoạn đường 8, hướng lượt đi có 428 chuỗi dữ liệu với k = 6, xe chủ yếu di chuyển với vận tốc nhỏ hơn 20km/h, lớn hơn 20 km/h nếu xe hoạt động khoảng từ 12h – 16h Hướng lượt về, xe di chuyển vận tốc thấp (10 – 15km/h) hầu như mọi khung giờ So với dữ liệu thực nghiệm, kết quả này phù hợp

Các đoạn đường còn lại, xe có vận tốc ổn định hơn

Cũng như kết quả của các đoạn đường tuyến 32, trên tập dữ liệu kiểm chứng kết quả phân tích cho kết quả tượng tự với tập dữ liệu phân tích thực nghiệm

60 Trên đoạn đường 1, không xuất hiện khung giờ cụ thể về đặc điểm di chuyển của xe Theo hướng lượt đi, tập dữ liệu có 627 đối tượng, chia làm 5 cụm, vận tốc trung bình của các xe buýt qua đây thấp (khoảng 9 -12 km/h) Hướng lượt về, dữ liệu có 532 đối tượng, số cụm chia là 6, vận tốc trung bình cao hơn so với hướng đi không nhiều (14 – 19 km/h)

Trên đoạn đường 2, vận tốc di chuyển trung bình của các xe qua đây có thay đổi theo khung giờ trong hướng lượt về, vận tốc trung bình khi di chuyển hướng này từ 17 – 24 km/h (dữ liệu kiểm chứng 19 – 25 km/h), vận tốc thấp hơn (nhỏ hơn 15) từ 8h – 8h30 và lân cận khung giờ đó Hướng lượt về, vận tốc dưới 15 km/h cũng phân bố nhiều từ 17h – 18h Lượt đi, khung giờ vận tốc thấp khoảng từ 17h – 18h Có sự giống nhau với dữ liệu thực nghiệm về khung giờ xe di chuyển chậm

Vận tốc trung bình xe di chuyển trên các đoạn đường

Vận tốc trung bình (km/h)

1 Đoạn đường 1 10.6175 (9 -12) 16.4000 (14 - 19) 2 Đoạn đường 2 18.0842 (15 - 21) 20.8049 (17 - 24) 3 Đoạn đường 3 24.8115 (21 - 28) 24.9941 (21 - 28) 4 Đoạn đường 4 18.7039 (17 - 20) 19.5097 (17 - 21) 5 Đoạn đường 5 23.7802 (21 - 26) 23.6400 (21 - 26) 6 Đoạn đường 6 26.7161 (23 - 29) 24.9875 (22 - 27) 7 Đoạn đường 7 35.7937 (32 - 39) 31.6908 (27 - 34)

Bảng 13: vận tốc trung bình các đoạn đường tuyến 88 – dữ liệu kiểm chứng

4.3.2 Khảo sát thực tế Để đánh giá kết quả phân tích về di chuyển của các xe buýt và tình hình giao thông các đoạn đường trên hai tuyến 32 và 88, đề tài đã tiến hành khảo sát thực tế bằng

61 cách hành trình theo xe buýt trên hai tuyến xe phân tích này Nhìn chung, kết quả phân tích giống với kết quả khảo sát theo sự di chuyển của các xe trên các đoạn đường Phần lớn, xe buýt di chuyển với vận tốc khá đều, nhưng đối với những đoạn đường có đặc điểm khác nhau vào những khung giờ trong ngày khác nhau, vận tốc của xe khác nhau

Vận tốc khi xe di chuyển ở khu vực ngoại thành thường cao hơn so với khu vực nội thành, khu vực đông dân cư Tại các khung giờ cao điểm lúc công nhân viên chức đi làm (7h – 9h), tan sở (16h30 – 18h30), mật độ xe di chuyển đông hơn, xe di chuyển chậm hơn so với các khung giờ khác

Thời gian di chuyển toàn chuyến ổn định, chêch lệch không nhiều, vài phút so với quy định của ban quản lý xe buýt, thời gian hành trình mỗi chuyến của tuyến xe buýt 32 và 88 lần lượt là 85 phút, 65 phút Trong suốt quá trình hoạt động theo chuyến, thường những đoạn đường đầu, xe di chuyển với vận tốc thấp ở mọi khung giờ, mặc dù có lúc mật độ xe không đông

Kết quả phân tích trên dữ liệu thực nghiệm và dữ liệu kiểm chứng khá hợp lý so với khảo sát thực tế về sự di chuyển nhanh chậm, các khung giờ và khu vực xe thường di chuyển với vận tốc thấp

 Các đoạn đường tuyến xe 32

Khảo sát trên tuyến 32 được tiến hành vào hai ngày 19/05/2014 (4 chuyến lượt đi, 3 chuyến lượt về từ 6h35 đến 18h30) và ngày 16/06/2014 (4 chuyến lượt đi, 4 chuyến lượt về từ 6h34 – 18h39)

 Đoạn đường 1, Kinh Dương Vương – Hồng Bàng, theo hướng lượt đi xe thường đi với vận tốc thấp trong mọi khung giờ ngay cả những lúc đường khá thông thoáng, đoạn đường này mật độ xe di chuyển thường đông, đặc biệt đoạn từ vòng xoay Phú Lâm đến vòng xoay Cây Gõ về Tân Hóa (Hồng Bàng) Mật độ xe cao nhất trong ngày khoảng từ 6h30 – 8h30 và chiều 16h30- 18h00 Hướng ngược lại, xe di chuyển ổn định Kết quả thực nghiệm phù hợp so với thực tế

 Đoạn đường 6, Trường Chinh – Phan Huy Ích, đoạn đường Trường Chinh ngắn (khoảng 300 m), nhưng tập trung các trạm xe buýt và 2 khu vực đèn giao thông Đường Phan Huy Ích có lộ giới tương đối nhỏ, xe thường đông và đông nhất theo cả hai hường vào các khung giờ nhân viên đi làm và giờ tan sở, xe di chuyển chậm hơn trong khung giờ đó So với thực tế, kết quả phân tích khá hợp lý

 Đoạn đường 7, Pham Văn Chiêu, đoạn đường này cũng có lộ giới nhỏ, xe di chuyển khá đông Mật độ xe đông, khó di chuyển trên đoạn đường này ở khu vực từ chợ Thạch Đà đến ngã tư giao với đường Lê Văn Thọ vào khung giờ khoảng 17h – 18h30 Kết quả phân tích phù hợp với khảo sát thực tế

Ngày đăng: 09/09/2024, 16:40

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Andrej Gisbrecht, “Time series clustering”, ICOLE 2007 (2007), Lessach, Austria, pp.48-50 Sách, tạp chí
Tiêu đề: Time series clustering”, "ICOLE 2007
Tác giả: Andrej Gisbrecht, “Time series clustering”, ICOLE 2007
Năm: 2007
[2] Duong Tuan Anh, “Tổng quan về tìm kiếm tương tự trên dữ liệu chuỗi thời gian”, Tạp chí phát triển KH&amp;CN, tập 14, số K2-2011 (2011), pp. 71-80 Sách, tạp chí
Tiêu đề: Tổng quan về tìm kiếm tương tự trên dữ liệu chuỗi thời gian
Tác giả: Duong Tuan Anh, “Tổng quan về tìm kiếm tương tự trên dữ liệu chuỗi thời gian”, Tạp chí phát triển KH&amp;CN, tập 14, số K2-2011
Năm: 2011
[3] Duong Tuan Anh, “Time Series Forecasting”, slides of lecture of Decision Support Systems (2011), HCMUT Sách, tạp chí
Tiêu đề: Time Series Forecasting
Tác giả: Duong Tuan Anh, “Time Series Forecasting”, slides of lecture of Decision Support Systems
Năm: 2011
[4] Berndt, D. and Clifford J., “Using dynamic time warping to find patterns in time series”, In Proceedings of AAAI Workshop on Knowledge Discovery in Databases, KDD-94 (1994), Seattle, Washington, USA, pp. 359-370 Sách, tạp chí
Tiêu đề: Using dynamic time warping to find patterns in time series"”, In Proceedings of AAAI Workshop on Knowledge Discovery in Databases, KDD-94
Tác giả: Berndt, D. and Clifford J., “Using dynamic time warping to find patterns in time series”, In Proceedings of AAAI Workshop on Knowledge Discovery in Databases, KDD-94
Năm: 1994
[5] Boris S. Kerner, Hubert Rehborn, Mario Aleksic, Andreas Haug, “Methods for Automatic Tracing and Forecasting of Spatial-Temporal Congested Patterns: A Review”, Human Behaviour and Traffic Networks (2004), Springer Berlin Heidelberg, pp. 251-284 Sách, tạp chí
Tiêu đề: Methods for Automatic Tracing and Forecasting of Spatial-Temporal Congested Patterns: A Review
Tác giả: Boris S. Kerner, Hubert Rehborn, Mario Aleksic, Andreas Haug, “Methods for Automatic Tracing and Forecasting of Spatial-Temporal Congested Patterns: A Review”, Human Behaviour and Traffic Networks
Năm: 2004
[6] Boris S. Kerner, “Introduction to modern traffic flow theory and control: the long road to three-phase traffic theory”, Springer, 2009, Germany Sách, tạp chí
Tiêu đề: Introduction to modern traffic flow theory and control: the long road to three-phase traffic theory
[7] JJ Rajan, 1994, “Time Series Classification”, Doctor of philosophy thesis, University of Cambridge, 181 pages Sách, tạp chí
Tiêu đề: Time Series Classification
[8] Jiawei Han, Micheline Kamber, Jian Pei, “Data Mining: Concepts and Techniques”, Third Edition, Morgan Kaufmann Publishers, 2012 Sách, tạp chí
Tiêu đề: Data Mining: Concepts and Techniques
[9] L. Rueda, A. Bari, A. Ngom, “Clustering Time-series Gene Expression Data with Unequal Time Intervals”, Transactions on Computational Systems Biology X (2008), Springer Berlin Heidelberg, Volume 5410, pp. 100 – 123 Sách, tạp chí
Tiêu đề: Clustering Time-series Gene Expression Data with Unequal Time Intervals
Tác giả: L. Rueda, A. Bari, A. Ngom, “Clustering Time-series Gene Expression Data with Unequal Time Intervals”, Transactions on Computational Systems Biology X
Năm: 2008
[10] Mohd. Shariff, Norhazlin and Shah, Muhammad Zaly, “Factors influencing travel behavior and their potential solution : a review of current literatures”, Jurnal Alam Bina (2008), Jilid 11, No.2, pp. 19-28 Sách, tạp chí
Tiêu đề: Factors influencing travel behavior and their potential solution : a review of current literatures
Tác giả: Mohd. Shariff, Norhazlin and Shah, Muhammad Zaly, “Factors influencing travel behavior and their potential solution : a review of current literatures”, Jurnal Alam Bina
Năm: 2008
[11] Oded Maimon, Lior Rokach, “Data mining and knowledge discovery handbook”, Springer Publishers, 2005, USA Sách, tạp chí
Tiêu đề: Data mining and knowledge discovery handbook
[12] P. Berkhin, “Survey of Clustering Data Mining Techniques”, Grouping Multidimensional Data Recent Advances in Clustering, Springer Berlin Heidelberg, 2006 Sách, tạp chí
Tiêu đề: Survey of Clustering Data Mining Techniques”, "Grouping Multidimensional Data Recent Advances in Clustering
[13] P. Grabusts, A. Borisov, “Clustering methodology for time series mining”, Scientific Journal of Riga Technical University, Computer Sciences (2009), Vol. 40, Issue -1, pp. 81–86 Sách, tạp chí
Tiêu đề: Clustering methodology for time series mining
Tác giả: P. Grabusts, A. Borisov, “Clustering methodology for time series mining”, Scientific Journal of Riga Technical University, Computer Sciences
Năm: 2009
[14] T. W. Liao, “Clustering of time series data—a survey”, Pattern Recognition, Volume 38 (2005), Issue 11, pp. 1857–1874 Sách, tạp chí
Tiêu đề: Clustering of time series data—a survey
Tác giả: T. W. Liao, “Clustering of time series data—a survey”, Pattern Recognition, Volume 38
Năm: 2005
[15] What is travel behavior http://www.travelbehavior.us (12/2013) [16] Global positioning system Link

HÌNH ẢNH LIÊN QUAN

Hình 1: Lộ trình tuyến xe buýt - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
Hình 1 Lộ trình tuyến xe buýt (Trang 23)
Hình 2: Kho - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
Hình 2 Kho (Trang 26)
Hình  3  ví  dụ  về  sự đường  theo  thời  gian.  Hình  3(a),  quãng  đường thẳng, biểu diễn xe di chuy - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
nh 3 ví dụ về sự đường theo thời gian. Hình 3(a), quãng đường thẳng, biểu diễn xe di chuy (Trang 28)
Hình 9: Các trư - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
Hình 9 Các trư (Trang 36)
Hình 10: Phương pháp độ đo Euclid - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
Hình 10 Phương pháp độ đo Euclid (Trang 37)
Hình 11: Phương pháp độ đo cosin - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
Hình 11 Phương pháp độ đo cosin (Trang 37)
Hình 13: Phương pháp - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
Hình 13 Phương pháp (Trang 38)
Hình 12: Phương pháp ABPA - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
Hình 12 Phương pháp ABPA (Trang 38)
Bảng 1: So sánh MSE các phương pháp độ đo - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
Bảng 1 So sánh MSE các phương pháp độ đo (Trang 39)
Hình ảnh các cụm là đ chỉ thời gian hành trình c - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
nh ảnh các cụm là đ chỉ thời gian hành trình c (Trang 46)
Bảng 2: Vận tốc trung bình, sai số trung bình theo chuyến tuyến 32 - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
Bảng 2 Vận tốc trung bình, sai số trung bình theo chuyến tuyến 32 (Trang 48)
Bảng 4: Vận tốc trung bình, sai số trung bình đoạn đường 6 – tuyến 32 - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
Bảng 4 Vận tốc trung bình, sai số trung bình đoạn đường 6 – tuyến 32 (Trang 52)
Bảng 5: Vận tốc trung bình, sai số trung bình đoạn đường 7 – tuyến 32 - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
Bảng 5 Vận tốc trung bình, sai số trung bình đoạn đường 7 – tuyến 32 (Trang 54)
Bảng 6: vận tốc trung bình, sai số trung bình đoạn đường 8 – tuyến 32 - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
Bảng 6 vận tốc trung bình, sai số trung bình đoạn đường 8 – tuyến 32 (Trang 57)
Bảng 7: Vận tốc trung bình qua các đoạn đường tuyến 32 - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
Bảng 7 Vận tốc trung bình qua các đoạn đường tuyến 32 (Trang 58)
Bảng 8: Vận tốc trung bình, sai số trung bình theo chuyến tuyến 88 - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
Bảng 8 Vận tốc trung bình, sai số trung bình theo chuyến tuyến 88 (Trang 60)
Bảng 9: Vận tốc trung bình, sai số trung bình đoạn đường 1 – tuyến 88 - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
Bảng 9 Vận tốc trung bình, sai số trung bình đoạn đường 1 – tuyến 88 (Trang 62)
Bảng 10: Vận tốc trung bình, sai số trung bình đoạn đường 2 – tuyến 88 - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
Bảng 10 Vận tốc trung bình, sai số trung bình đoạn đường 2 – tuyến 88 (Trang 66)
Bảng 11: Vận tốc trung bình qua các đoạn đường tuyến 88 - Luận văn thạc sĩ Khoa học máy tính: Phân tích đặc trưng tình hình giao thông các tuyến đường trên địa bàn Tp. HCM dựa trên dữ liệu GPS
Bảng 11 Vận tốc trung bình qua các đoạn đường tuyến 88 (Trang 67)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN