1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Khai thác thông tin tình trạng ùn tắc giao thông từ dữ liệu GPS - Trường hợp thành phố Hồ Chí Minh

5 87 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

Bài báo này đề xuất giải pháp trích xuất thông tin hữu ích về tình trạng giao thông từ dữ liệu GPS thu thập được từ các thiết bị giám sát hành trình của phương tiện giao thông. Giải thuật gom cụm dựa trên mật độ được tích hợp vào trong quy trình khai thác dữ liệu để lọc ra các vị trí thường xuyên ùn tắc trong mạng lưới giao thông đô thị. Chúng tôi tiến hành thực nghiệm trên bộ dữ liệu thật phạm vi Thành phố Hồ Chí Minh và thu được kết quả khá hứa hẹn về mặt ứng dụng.

36 Journal of Transportation Science and Technology, Vol 20, Aug 2016 KHAI THÁC THƠNG TIN TÌNH TRẠNG ÙN TẮC GIAO THÔNG TỪ DỮ LIỆU GPS - TRƯỜNG HỢP THÀNH PHỐ HỒ CHÍ MINH MINING INFORMATION ABOUT TRAFFIC CONGESTIONS FROM GPS DATA – CASE STUDY OF HO CHI MINH CITY Lê Văn Quốc Anh Khoa CNTT, ĐH GTVT TP.HCM, anh@ut.edu.vn Tóm tắt: Bài báo đề xuất giải pháp trích xuất thơng tin hữu ích tình trạng giao thơng từ liệu GPS thu thập từ thiết bị giám sát hành trình phương tiện giao thơng Giải thuật gom cụm dựa mật độ tích hợp vào quy trình khai thác liệu để lọc vị trí thường xuyên ùn tắc mạng lưới giao thông đô thị Chúng tiến hành thực nghiệm liệu thật phạm vi Thành phố Hồ Chí Minh thu kết hứa hẹn mặt ứng dụng Từ khóa: Dữ liệu hành trình GPS; khai thác liệu; phát ùn tắc Abstract: This paper presents an approach to the discovery of useful information about traffic condition from GPS data obtained from vehicle tracking devices A density - based clustering approach is intergrated into the data mining process to figure out the most likely areas of congestions in urban traffic networks We performed experiments on real - life datasets of Ho Chi Minh City and obtained very promissing results for developing applications Keywords: Gps trajectory data; data mining; congestion detection Giới thiệu Khai thác liệu trình tìm kiếm rút trích thơng tin tiềm ẩn có giá trị, hữu ích từ khối lượng liệu lớn ban đầu Những thơng tin rút trích gọi tri thức, yếu tố định giúp phát triển ứng dụng thông minh Trong lĩnh vực giao thông vận tải, việc sử dụng kết từ việc phân tích liệu từ thiết bị giám sát hành trình, liệu xe di dộng (FCD) liệu điện thoại trực tuyến (FPD) đem lại hiệu rõ rệt vấn đề giám sát quản lý giao thông [1] Bài báo đề cập đến tốn phân tích hay khai thác liệu hành trình thu thập từ thiết bị thu GPS, gọi tắt liệu GPS, để trích xuất thơng tin có giá trị hữu ích tình trạng ùn tắc giao thơng mạng lưới giao thông đô thị Nguồn liệu GPS đa dạng phổ biến, thông dụng từ thiết bị thu GPS gắn phương tiện giao thông hay thu thập qua phần mềm viết cho điện thoại thông minh Việc khai thác liệu GPS mang lại nhiều ứng dụng hữu ích, như: dự báo tắc nghẽn giao thông [2], khai thác địa điểm quan trọng lộ trình thơng dụng từ liệu GPS [3], quy hoạch sử dụng lộ trình tối ưu [4] Mặc dù tính ứng dụng toán đa dạng việc xử lý liệu GPS rút trích thơng tin có giá trị gặp nhiều thách thức Thứ nhất, với ổn định tính xác tương đối, thân liệu dạng xuất nhiều điểm liệu nhiễu mát thông tin [5] Thứ hai, liệu thu thập theo thời gian nên khối lượng liệu để phân tích lớn, xem dạng “Big Data” Điểm cuối vấn đề biểu diễn tri thức khai thác từ liệu GPS Rất khó để mơ tả hay diễn dịch khơng sử dụng cơng cụ trực quan hố [6] Bài báo trình bày giải pháp hiệu cho tốn trích xuất thơng tin tình trạng ùn tắc giao thơng từ liệu GPS với đóng góp sau:  Mơ hình hố điểm ùn tắc giao thơng dựa khái niệm Cluster  Giải vấn đề nhiễu cách tách điểm liệu gom cụm dựa mật độ  Trực quan hoá điểm ùn tắc đồ Các khái niệm công trình liên quan 2.1 Mơ hình hố liệu GPS TẠP CHÍ KHOA HỌC CƠNG NGHỆ GIAO THƠNG VẬN TẢI, SỐ 20 - 08/2016 37 Dữ liệu thô thu thập từ thiết bị thu GPS gọi GPS Log tồn nhiều định dạng, thơng dụng định dạng file (CSV, GPX, KML,…) dạng bảng hệ quản trị sở liệu quan hệ (Oracle, MS SQL Server,…), tham khảo hình Hình Minh hoạ GPS Log thu thập từ thiết bị giám sát hành trình phương tiện giao thơng Để có chuẩn hố liệu đầu vào cho giải thuật khai thác liệu sau này, chúng tơi mơ hình hố liệu GPS qua khái niệm sau đây:  Toạ độ GPS: Được biểu diễn bốn , đó: id mã định danh đối tượng chuyển động (phương tiện giao thơng điện thoại có hỗ trợ GPS); lat vĩ độ, lon kinh độ; time thời gian ghi nhận vị trí đối tượng  GPS Log: Là tập hợp toạ độ GPS, có dạng {p1, p2, …pn}, với pi toạ độ GPS  Quỹ đạo GPS: Là chuỗi gồm toạ độ GPS thu thập không ngắt quãng đối tượng chuyển động, có dạng p1  p2  …  pn, đó: pi.id = pj.id , 1  i, j  n; < pi+1.time - pi.time < T,  < i < n, với T ngưỡng thời gian ngắt quãng cho phép hai lần thu thập toạ độ liên tiếp Với khái niệm mô tả điểm liệu liệu thô biểu diễn điểm GPS liệu đầu vào cho giải thuật khai thác liệu quỹ đạo GPS trích xuất từ GPS Log Khái niệm quỹ đạo GPS hình dung từ hình Chi tiết trình trích xuất trình bày mục 4.1 Hình Minh hoạ quỹ đạo GPS trích xuất từ GPS Log, khu vực TP.HCM, xuất phát từ Quận 10, qua Quận 2, dừng Quận 2.2 Gom cụm liệu dựa mật độ - Giải thuật DBSCAN Giải thuật DBSCAN [7] giải thuật gom cụm liệu dựa mật độ đánh giá hiệu việc gom cụm điểm liệu có yếu tố nhiễu Ngồi ra, đặc tính khác giải thuật phù hợp để lựa chọn toán phát điểm ùn tắc giao thông, như: Không yêu cầu cung cấp trước số lượng cụm (trong trường hợp số điểm ùn tắc); phát điểm ùn tắc với dạng hình học kết hợp với cấu trúc liệu (như R* Tree [8]) để tăng tốc trình xử lý với liệu lớn Do giải thuật thông dụng nên báo khơng trình bày chi tiết giải thuật Độc giả quan tâm tham khảo [7] Với tính chất nêu trên, giải thuật gom cụm dựa mật độ DBSCAN lựa chọn cho hướng tiếp cận đề xuất báo 2.3 Tình hình nghiên cứu gần Một số cơng trình liên quan đến toán khai thác liệu GPS công bố gần đây, với mục tiêu khác nhau: Ước lượng tốc độ di chuyển trung bình dòng giao thơng từ liệu hành trình GPS [9], phát dạng tắc nghẽn từ liệu xe lưu động (FCD) [10] hay khám phá đường tốn thời gian [11] Các giải pháp chủ yếu dựa thống kê để ước lượng vận tốc trung bình dòng giao thơng áp dụng liệu 38 Journal of Transportation Science and Technology, Vol 20, Aug 2016 thực nghiệm giới thiệu phần sau kết khơng tốt Ngồi kỹ thuật thống kê, báo đề xuất sử dụng giải thuật gom cụm dựa mật độ để loại bỏ nhiễu tăng chất lượng kết quả, phần thực nghiệm trình bày Nguồn liệu thực nghiệm Để thực việc kiểm nghiệm quy trình khai thác thơng tin vị trí ùn tắc đề xuất trên, sử dụng liệu GPS Log thu thập từ phương tiện vận tải cung cấp công ty OTS cung cấp dịch vụ giám sát hành trình xe ô tô Số lượng xe giám sát hành trình nguồn liệu 411, khu vực thành phố Hồ Chí Minh (TP.HCM) Thời gian thu thập liệu vòng tuần, từ 01/06/2015 đến 07/06/2015 Hình minh hoạ liệu GPS Log hiển thị đồ TP.HCM Có nhiều điểm nhiễu liệu cần làm Hình Dữ liệu thô chưa qua tiền xử lý làm liệu Xuất số đoạn nối điểm khơng thực tế Hình Dữ liệu thực nghiệm sau tiền xử lý loại bỏ điểm nhiễu tách đoạn quỹ đạo Khai thác thông tin địa điểm ùn tắc từ liệu GPS 4.1 Tiền xử lý làm liệu Dữ liệu thô ban đầu dạng GPS Log tách thành tập toạ độ GPS theo định danh thiết bị Các toạ độ GPS tập xếp theo thứ tự thời gian để tạo thành chuỗi toạ độ GPS cho đối tượng chuyển động Với giá trị ngưỡng thời gian ngắt quãng T cho trước, chuỗi toạ độ quét để tìm điểm cắt (điểm cắt điểm có khoảng cách thời gian đến điểm vượt qua ngưỡng T) Các phân đoạn thu điểm cắt quỹ đạo GPS Trong trường hợp liệu GPS Log thu thập từ phương tiện giao thơng ngưỡng thời gian T chọn từ 30 phút đến giờ, thời gian xe vận tải dừng đỗ trạm, bến, bãi Tuy nhiên, rõ ràng giá trị ngưỡng thời gian chọn tuỳ thuộc vào đặc thù loại liệu thu thập Các phân đoạn thu từ bước xử lý nêu chuỗi toạ độ GPS đảm bảo tính liên tục thời gian hai điểm liên tiếp Trong thực tế, số trường hợp thiết bị thu GPS ghi nhận toạ độ GPS khơng xác, dẫn đến tính liên tục khơng gian chuỗi toạ độ GPS Hình minh hoạ toạ độ GPS nhiễu ghi nhận Hình Minh hoạ toạ độ GPS nhiễu nằm cách xa quỹ đạo di chuyển Do khoảng cách thời gian lần thu thập toạ độ thường bé (vài giây) nên việc loại bỏ toạ độ nhiễu không ảnh hưởng đến tính liên tục thời gian chuỗi quỹ đạo Để thuận lợi bước xử lý sau, giai đoạn tiền xử lý liệu loại bỏ toạ độ GPS nhiễu cách sử dụng ngưỡng khoảng cách d Tuỳ thuộc vào tốc độ tối đa phương tiện khoảng cách thời gian hai lần thu thập toạ độ GPS liên tiếp mà chọn giá trị ngưỡng khoảng cách d phù hợp Với khoảng cách thời gian 10s d chọn 280m, giả định phương tiện chạy với tốc độ 100km/h Hình trình bày liệu thơ sau bước phân đoạn làm Bước tiền xử lý liệu chuyển đổi liệu thô GPS Log sang quỹ đạo GPS với đảm bảo tính liên tục thời gian khơng gian Đây đầu vào cho quy trình trích TẠP CHÍ KHOA HỌC CÔNG NGHỆ GIAO THÔNG VẬN TẢI, SỐ 20 - 08/2016 xuất thông tin vận tốc tức thời khai thác địa điểm ùn tắc trình bày 4.2 Trích xuất thơng tin vận tốc tức thời từ quỹ đạo GPS Đa số trường hợp thiết bị giám sát hành trình ghi nhận vận tốc tức thời phương tiện thời điểm thu thập thông tin vị trí lưu trữ vào GPS Log Tuy nhiên số trường hợp liệu GPS Log khơng có thơng tin vận tốc tức thời (phần lớn liệu dạng file GPX hay KML) Trong trường hợp này, vận tốc tức thời tính thơng qua khoảng cách thời gian không gian hai điểm liên tiếp quỹ đạo Khoảng cách không gian hai toạ độ GPS tính hàm sau (cơng thức Haversine): 39 ứng cử viên cho việc nhận diện vị trí ùn tắc Thách thức lọc điểm ùn tắc thực từ danh sách ứng cử viên Hình Các vị trí ghi nhận tốc độ tức thời đối tượng chuyển động thấp ngưỡng vận tốc 5km/h function getDistanceFromLatLon (p1, p2) { R = 6371; // Bán kính Trái đất (km) dLat = (p2.lat-p1.lat)* PI/180; dLon = (p2.lon-p1.lon)* PI/180; a = sin(dLat/2)^2 + cos(p1.lat*PI/180)*cos(p2.lat*PI/180)* sin(dLon/2)^2; c = * arcsin(sqrt(a)); return R * c; } Các vị trí điểm có tốc độ thấp ngưỡng vận tốc cho trước (ví dụ 5km/h) lọc để tìm vị trí thường xuyên ùn tắc Hình minh hoạ vị trí có tốc độ di chuyển phương tiện liệu nghiên cứu khu vực nội thành Thành phố Hồ Chí Minh có vận tốc di chuyển bé 5km/h Nhận xét phát số địa điểm có khả ùn tắc cao giao lộ, trục đường chính, có nhiều địa điểm đánh dấu rời rạc, không tập trung Sử dụng ngưỡng vận tốc để xác định vị trí mạng lưới giao thông mà phương tiện di chuyển chậm Cần lưu ý khơng phải vị trí phương tiện chậm phải vị trí ùn tắc Có vị trí mà phương tiện di chuyển chậm bình thường, ví dụ xe vào bến, xe dừng đèn đỏ, hay xe vào đường nội khu dân cư Tuy nhiên, việc phát vị trí mà phương tiện chậm lại hữu ích toán phát điểm ùn tắc Rõ ràng vị trí 4.3 DBSCAN tìm khu vực ùn tắc Từ tập hợp vị trí ghi nhận có phương tiện chậm, đề xuất sử dụng phương pháp gom cụm liệu theo mật độ, với giải thuật DBSCAN để loại bỏ điểm ngoại biên Điểm ngoại biên hiểu vị trí mà có tượng phương tiện chậm ngẫu nhiên (xe dừng hay chậm có chủ đích…) Hình Kết sau dùng DBSCAN loại bỏ điểm ngoại biên Hai tham số quan trọng giải thuật DBSCAN khoảng cách Epsilon số điểm nhỏ để xác định vùng có mật độ dày (MinPts) Các tham số chọn phương pháp thử sai; giá trị để kết gom cụm tốt cho liệu thí nghiệm Epsilon = 0.01 MinPts = Hình minh hoạ vị trí ùn tắc ghi nhận sau chạy giải thuật DBSCAN Nhận 40 Journal of Transportation Science and Technology, Vol 20, Aug 2016 xét vị trí ùn tắc phát phần lớn vòng xoay, ngã giao trục đường đường nhánh Kết đánh giá Kết chạy giải thuật DBSCAN liệu nghiên cứu trả thông tin 412 cụm, vị trí thường xuyên ùn tắc phát Để đánh giá tính hợp lý kết quả, sử dụng phần mềm Quantum GIS (http://www.qgis.org) để trực quan hoá điểm ùn tắc đồ để kiểm tra Hình cho thấy phân bố vị trí ùn tắc phát Các vị trí ùn tắc phóng lớn để kiểm tra Ví dụ hình 8, vị trí ùn tắc phát gần vòng xoay Lăng Cha Cả nằm giao lộ thực tế thường xuyên xảy ùn tắc Hình Các điểm thường xuyên ùn tắc phát khu vực vòng xoay Lăng Cha Cả Kết luận hướng phát triển Bài báo đề xuất quy trình khai thác liệu GPS để trích xuất thơng tin tình trạng ùn tắc giao thông Dữ liệu thực nghiệm thu thập từ xe thực tế chạy tuyến đường Thành phố Hồ Chí Minh Kết đạt hứa hẹn trở thành tảng cho ứng dụng tìm đường thơng minh có tính đến tình trạng giao thông sau Đây hướng phát triển tương lai hướng tiếp cận vừa trình bày Lời cảm ơn Nghiên cứu hỗ trợ từ nguồn kinh phí nghiên cứu khoa học Trường Đại học Giao thông vận tải TP HCM (MS KH1504)  Tài liệu tham khảo [1] M R Evans, D Oliver, X Zhou, and S Shekhar, “Spatial Big Data: Volume, Velocity and Veracity,” Big Data Tech Technol Geoinformatics, pp 149–176, 2010 [2] F Maier, R Braun, F Busch, and P Mathias, “Pattern-based short-term prediction of urban congestion propagation and automatic response,” Traffic Eng Control, vol 49, no 6, pp 227–232, 2008 [3] Y Zheng, L Zhang, X Xie, and W.-Y Ma, “Mining interesting locations and travel sequences from GPS trajectories,” Proc 18th Int Conf World wide web - WWW ’09, 2009 [4] F Bastani, Y Huang, X Xie, and J W Powell, “A Greener Transportation Mode: Flexible Routes Discovery from GPS Trajectory Data,” Proc 19th ACM SIGSPATIAL Int Conf Adv Geogr Inf Syst., pp 405–408, 2011 [5] H Jeung, H Lu, S Sathe, and M L Yiu, “Managing evolving uncertainty in trajectory databases,” IEEE Trans Knowl Data Eng., vol 26, no 7, pp 1692–1705, 2014 [6] D Zhang, K Lee, and I Lee, “Periodic Pattern Mining for Spatio-Temporal Trajectories: A Survey,” 2015 10th Int Conf Intell Syst Knowl Eng., pp 306–313, 2015 [7] M Ester, H Kriegel, J S, and X Xu, “A densitybased algorithm for discovering clusters in large spatial databases with noise,” in KDD-96, 1996, pp 226–231 [8] M Ester, H Kriegel, J Sander, M Wimmer, and X Xu, “Incremental Clustering for Mining in a Data Warehousing Environment,” in VLDB Conference, 1998, pp 323–333 [9] I Barbosa, M A Casanova, C Renso, and J A F de Macedo, “Average Speed Estimation For Road Networks Based On GPS Raw Trajectories,” Iceis 2013, p 511, 2013 [10] L Xu, Y Yue, and Q Li, “Identifying Urban Traffic Congestion Pattern from Historical Floating Car Data,” Procedia - Soc Behav Sci., vol 96, no Cictp, pp 2084–2095, 2013 [11] E.H.C Lu, W.C.Lee, and V.S.Tseng, “Mining fastest path from trajectories with multiple destinations in road networks,” Knowl Inf Syst., vol 29, no 1, pp 25–53, 2011 Ngày nhận bài: 18/07/2016 Ngày chuyển phản biện: 22/07/2016 Ngày hoàn thành sửa bài: 08/08/2016 Ngày chấp nhận đăng: 16/08/2016 ... giao thông Dữ liệu thực nghiệm thu thập từ xe thực tế chạy tuyến đường Thành phố Hồ Chí Minh Kết đạt hứa hẹn trở thành tảng cho ứng dụng tìm đường thơng minh có tính đến tình trạng giao thông. .. xảy ùn tắc Hình Các điểm thường xuyên ùn tắc phát khu vực vòng xoay Lăng Cha Cả Kết luận hướng phát triển Bài báo đề xuất quy trình khai thác liệu GPS để trích xuất thơng tin tình trạng ùn tắc giao. .. phù hợp để lựa chọn toán phát điểm ùn tắc giao thông, như: Không yêu cầu cung cấp trước số lượng cụm (trong trường hợp số điểm ùn tắc) ; phát điểm ùn tắc với dạng hình học kết hợp với cấu trúc liệu

Ngày đăng: 12/01/2020, 03:19

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w