Bài viết này giới thiệu phương pháp xây dựng CSDL giao thông sử dụng phân tích tương quan theo thời gian giữa các đặc trưng của dòng xe sử dụng dữ liệu lưu lượng xe trên một đoạn đường cao tốc của Singapore. Đề tài Hoàn thiện công tác quản trị nhân sự tại Công ty TNHH Mộc Khải Tuyên được nghiên cứu nhằm giúp công ty TNHH Mộc Khải Tuyên làm rõ được thực trạng công tác quản trị nhân sự trong công ty như thế nào từ đó đề ra các giải pháp giúp công ty hoàn thiện công tác quản trị nhân sự tốt hơn trong thời gian tới.
Trang 1Tuyển tập Hội nghị Khoa học thường niên năm 2023 ISBN: 978-604-82-7522-8
161
XÂY DỰNG CƠ SỞ DỮ LIỆU GIAO THÔNG
SỬ DỤNG PHƯƠNG PHÁP PHÂN TÍCH TƯƠNG QUAN
Trịnh Đình Toán
Trường Đại học Thủy lợi, email: trinhdinhtoan@tlu.edu.vn
1 TỔNG QUAN
Để thiết lập các biện pháp quản lý và tổ chức giao thông cần phải xây dựng một cơ sở
dữ liệu (CSDL) đầy đủ về các đặc tính dòng
xe như tốc độ, mật độ, lưu lượng và thời gian
xe chạy trên các cung đường của mạng lưới giao thông Các CSDL thường tồn tại dưới hai dạng: CSDL lịch sử (HDB) và CSDL thời gian thực (RTDB) [1] HDB lưu trữ dữ liệu
về các đặc tính dòng xe, thông tin sự cố và các thuộc tính mạng lưới, phục vụ cho các mục tiêu dài hạn và trung hạn như quy hoạch
và quản lý giao thông, RTDB lưu trữ dữ liệu
về dòng xe theo thời gian thực, chủ yếu phục
vụ cho các mục tiêu ngắn hạn là tổ chức giao thông [2] Các HDB và RTDB thường có tùy chọn sử ngôn ngữ có cấu trúc (SQL) tiêu chuẩn để truy vấn và duy trì cơ sở dữ liệu
Để đảm bảo các chức năng trên cần xây dựng một cơ sở giàu dữ liệu theo thời gian và không gian, khả dụng cho mọi tình huống
Tuy nhiên trên thực tế không phải lúc nào cũng có đủ hệ thống quan trắc và thu thập dữ liệu, do vậy cần áp dụng các giải pháp khác nhau để làm giàu các CSDL Các nghiên cứu xưa nay chỉ ra rằng dữ liệu dòng xe có xu hướng lặp lại theo thời gian, đặc biệt là theo ngày trong tuần, và giữa chúng có mối liên
hệ khá chặt chẽ, và phân tích tương quan là một công cụ hữu hiệu để xác định các mối liên hệ giữa các đặc tính giao thông, cho phép giảm thiểu số lượng quan trắc [1,2] Bài viết này giới thiệu phương pháp xây dựng CSDL giao thông sử dụng phân tích tương quan theo thời gian giữa các đặc trưng của dòng xe
sử dụng dữ liệu lưu lượng xe trên một đoạn
đường cao tốc của Singapore Tác giả là người trực tiếp thực hiện việc thu thập và phân tích dữ liệu, sử dụng công thức tính hệ
số tương quan, môt chỉ số thống kê đo lường mức độ mạnh yếu của mối quan hệ giữa hai đại lượng
2 PHƯƠNG PHÁP PHÂN TÍCH TƯƠNG QUAN
Hệ số tương quan ξ giữa hai mẫu ngẫu nhiên X và Y được thống kê như sau:
cov( , ) corr( , )
var( )var( )
trong đó: cov(X,Y) = E(XY) E(X)E(Y), là hiệp phương sai của hai mẫu ngẫu nhiên X và Y;
var(X) và var(Y) lần lượt biểu thị phương sai của các mẫu X và Y
Hệ số tương quan ξ biến thiên trong khoảng
từ 1 đến 1 Các giá trị gần bằng 1 cho thấy các mẫu có mối tương quan thuận chặt chẽ, các giá trị gần 0 biểu thị mức độ tương quan (thuận, nghịch) thấp, các giá trị gần 1 biểu thị mối tương quan nghịch chặt chẽ
Một trong những ứng dụng của phương pháp này là xác lập mức độ tương quan giữa các đại lương theo chuỗi thời gian Trên thực
tế, các số liệu giao thông thường được cung cấp bởi các hệ thống quan trắc dữ liệu với độ phân giải khoảng 5-10 phút cập nhật một lần theo phương thức 24/7, vì vậy số liệu giao thông trong một ngày hình thành một biểu đồ
có tính chất lặp lại theo chu kỳ từ ngày này qua ngày khác, vì vậy giữa chúng có mối tương quan Điều đó cho phép hợp nhất và hiển thị một lượng dữ liệu khổng lồ qua các biểu đồ dòng xe
Trang 2Tuyển tập Hội nghị Khoa học thường niên năm 2023 ISBN: 978-604-82-7522-8
162
3 ÁP DỤNG PHÂN TÍCH TƯƠNG QUAN CHO LƯU LƯỢNG XE
Phần này trình bày việc áp dụng phân tích tương quan giữa các biểu đồ lưu lượng xe chạy trên đoạn #80007762 (Hình 1) thuộc đường cao tốc Pan Island Expressway (PIE) ở Singapore do Tổng cục Đường bộ (LTA) Singapore cung cấp qua mạng dưới dạng Ngôn ngữ XML (Extensible Markup Language) Dữ liệu thời gian thực, được cập nhật 5 phút một lần, bao gồm dữ liệu về lưu lượng và vận tốc xe, tin tức giao thông, thông tin sự cố và tệp hình ảnh từ các vị trí camera khác nhau Thông qua các cảm biến giao thông và camera giám sát, người vận hành có được dữ liệu và hình ảnh thời gian thực cần thiết để giám sát hệ thống Các dữ liệu có thể được thu thập để xây dựng các CSDL HDB và RTDB Các dữ liệu thuộc HDB có thể được
sử dụng để thiết lập các biểu đồ lưu lượng xe chạy cho các đoạn đường khác nhau theo các ngày làm việc và ngày nghỉ trong tuần
Hình 1 Đoạn nghiên cứu (#80007762, PIE)
Một phân tích tương quan sử dụng dữ liệu
về lưu lượng xe chạy cho đoạn #80007762 trong toàn bộ thời gian 12 tháng của năm
2020 đã được tiến hành để đánh giá mức độ tương quan giữa các biểu đồ lưu lượng Lưu lượng xe trong một ngày được cập nhật 5 phút một lần từ hệ thống, tạo thành một mẫu chuỗi thời gian bao gồm 288 khoảng thời
gian liên tiếp Hệ số tương quan ξ giữa hai
mẫu ngẫu nhiên X và Y được xác lập sử dụng biểu thức (1), trong đó các mẫu X và Y tương
ứng với các dãy dữ liệu trong hai ngày nhất định của CSDL
Bảng 1 tổng hợp các hệ số tương quan trung bình của lưu lượng truy cập trên phân đoạn #80007762 cho hai trường hợp: "trong cùng ngày" và "giữa các ngày” trong tuần
Trường hợp thứ nhất phản ánh mối tương quan giữa một ngày làm việc bất kỳ (từ Thứ Hai đến thứ Sáu) với các ngày khác có cùng thứ trong tuần, ví dụ giữa một ngày thứ Hai với các ngày thứ Hai khác trong dữ liệu được phân tích Trường hợp thứ hai biểu thị mối tương quan giữa một ngày nhất định với các ngày khác trong tuần, ví dụ giữa ngày thứ Hai với ngày thứ Ba hoặc thứ Tư, … Kết quả cho thấy hệ số tương quan là khá cao trong trường hợp "trong cùng ngày", từ 0,93 đến 0,95 Trong trường hợp "giữa các ngày”
trong tuần, các giá trị nằm trong khoảng từ 0,90 đến 0,94 cho mối tương quan giữa các ngày làm việc và từ 0,76 đến 0,77 cho mối tương quan ngày làm việc - ngày nghỉ (thứ Bảy, Chủ Nhật) Đặc biệt, hệ số tương quan giữa các ngày làm việc với ngày Thứ Bảy thay đổi trong khoảng 0,8147 - 0,8678, và giữa các ngày làm việc và ngày Chủ Nhật thay đổi trong khoảng 0,7579 - 0,7957, có lẽ
do thực tế vẫn có một bộ phận công chức đi làm vào ngày Thứ Bảy, trong khi Chủ Nhật
là ngày nghỉ hoàn toàn Lưu ý rằng dữ liệu trong phân tích tương quan (vectơ X và Y, biểu thức (1)) là độc lập, do đó các hệ số trong đường chéo không chính xác bằng 1
Bảng 1 Phân tích tương quan của lưu lượng giao thông theo chuỗi thời gian
(n là số tuần trong giai đoạn phân tích)
Hai 0,9348
Ba 0,9316 0,9475
Tư 0,9356 0,9356 0,9427 Năm 0,9367 0,9389 0,9345 0,9443 Sáu 0,9378 0,9385 0,8988 0,9406 0,9368 Bảy 0,8207 0,8389 0,8147 0,8537 0,8678 0,9301 Chủ
nhật 0,7694 0,7746 0,7665 0,7579 0,7957 0,7865 0,9305
Trang 3Tuyển tập Hội nghị Khoa học thường niên năm 2023 ISBN: 978-604-82-7522-8
163
Hình 2 biểu thị các biểu đồ lưu lượng xe trên đoạn 80007762 Có thể nhận thấy tính chất lặp lại rất rõ ràng của các biểu đồ lưu lượng, đặc biệt là những ngày làm việc Ngày chủ nhật có biểu đồ khác hẳn các ngày làm việc trong tuần và không thể hiện rõ các giờ cao điểm sáng và chiều
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
Time of day (5 min.)
Monday Wednesday Thursday Friday Saturday Sunday
Thời gian trong ngày (5 phút)
Hình 2 Các biểu đồ lưu lượng
trên phân đoạn #80007762
4 KẾT LUẬN
Bài viết này giới thiệu phương pháp làm giàu các CSDL sử dụng phân tích tương quan, tận dụng tính chất lặp lại theo chu kỳ theo ngày của dòng giao thông Tính chất tương quan được áp dụng cho phân tích các biểu đồ lưu lượng xe chạy trên một đoạn thuộc đường cao tốc Pan Island Expressway
ở Singapore Kết quả cho thấy mức tương quan chặt chẽ giữa các ngày làm việc và, đặc
biệt là trường hợp “trong cùng ngày” và tương quan cao trong trương hơp “giữa các ngày” Điều đó cho thấy phân tích tương quan là một công cụ hữu hiệu trong việc xây dựng và khai thác các CSDL giao thông, đặc biệt là ở Việt Nam khi các CSDL giao thông còn thiếu do các hệ thống quan trắc chưa đẩy
đủ và chưa đồng bộ Tuy nhiên, phân tích ở trên mới chỉ áp dụng cho đường cao tốc, một loại đường có đặc thù giao thông chạy đường dài, liên tục, tính cơ động cao Với các hệ thống giao thông đô thị cần có các nghiên cứu chuyên sâu
Ngoài ra, mức độ tương quan cao của các mẫu lưu lượng xe cho thấy rằng các dữ liệu lịch sử, ở một mức độ nào đó, có thể được sử dụng làm cơ sở để dự báo lưu lượng giao thông ngắn hạn trong trường hợp dữ liệu thời gian thực bị thiếu hoặc bị bội nhiễm
5 TÀI LIỆU THAM KHẢO
[1] Toan, T D 2008 “Development of a fuzzy knowledge-based system for local traffic control for incident management” PhD Thesis School of Civil & Environmental Engineering, Nanyang Technological University
[2] Toan, T D., and V H Truong 2021
“Support vector machine for short-term traffic flow prediction and improvement of its model training using nearest neighbor approach”
Transp Res Rec 2675(4) 362-373