Kiến trúc của việc tiến hành phân tích dữ liệu lớn trong ITS
Kiến trúc phân tích dữ liệu lớn trong Hệ thống Giao thông Thông minh (ITS) bao gồm ba lớp chính: lớp thu thập dữ liệu, lớp phân tích dữ liệu và lớp ứng dụng Lớp thu thập dữ liệu đóng vai trò quan trọng trong việc thu thập thông tin cần thiết cho các phân tích tiếp theo.
Lớp thu thập dữ liệu là lớp đầu tiên và cơ sở trong kiến trúc, đóng vai trò quan trọng trong việc cung cấp dữ liệu cho các lớp phía trên Dữ liệu được thu thập từ nhiều nguồn khác nhau như máy vòng cảm ứng, GPS và hệ thống giám sát video.
Lớp phân tích dữ liệu là thành phần quan trọng nhất trong kiến trúc, nhận dữ liệu từ lớp thu thập và áp dụng các phương pháp phân tích dữ liệu lớn để thực hiện việc phân tích và chia sẻ thông tin.
Tầng ứng dụng là tầng cao nhất trong kiến trúc, chịu trách nhiệm xử lý dữ liệu từ lớp phân tích với nhiều tình huống khác nhau như lưu lượng giao thông, điều tiết giao thông để chống ùn tắc, và điều khiển đội cứu hộ khẩn cấp.
Hình 1: Kiến trúc tiến hành phân tích dữ liệu lớn
ChươngIII Tổng quan về các giải pháp
Mọi người tham gia một cách vô thức vào việc thu thập và ứng dụng Dữ liệu lớn trong Hệ thống Giao thông Thông minh (ITS) Sự phát triển công nghệ trong ITS đã làm gia tăng độ phức tạp, tính đa dạng và khối lượng dữ liệu từ phương tiện và chuyển động của con người Dữ liệu lớn trong ITS có thể được phân loại thành nhiều loại khác nhau, như được minh họa trong bảng.
Hình 2: Dữ liệu lớn trong nó
Các giải pháp thu thập dữ liệu lớn trong ITS
Dữ liệu lớn từ thẻ thông tin
Trong giao thông công cộng đô thị, thẻ thông minh ngày càng được sử dụng để thu tiền vé tự động, cho phép hành khách tiếp cận nhiều phương thức giao thông chỉ bằng một thẻ duy nhất Mặc dù mục tiêu chính của thẻ thông minh là thu doanh thu, chúng cũng tạo ra lượng lớn dữ liệu từ các thiết bị công nghệ, giúp nhà hoạch định hiểu rõ hơn về hành vi của hành khách để lập kế hoạch dịch vụ hiệu quả Tuy nhiên, việc xử lý và phân tích khối lượng lớn dữ liệu với cơ sở hạ tầng truyền thống gặp nhiều khó khăn Do đó, công nghệ dữ liệu lớn có thể được áp dụng để cải thiện việc thu thập, lưu trữ và phân tích dữ liệu, đồng thời giảm chi phí xử lý Sự kết hợp giữa kiến thức lập kế hoạch, dữ liệu lớn và công cụ khai thác dữ liệu sẽ tạo ra các chỉ số quan trọng về hành vi đi lại, chính sách giao thông công cộng và hiệu suất hoạt động.
Dự liệu lớn từ GPS
GPS là một công cụ quan trọng trong việc xác định vị trí, giúp thu thập dữ liệu giao thông một cách hiệu quả và an toàn hơn thông qua tính năng theo dõi vị trí Khi kết hợp với hệ thống thông tin địa lý (GIS), GPS trở thành một giải pháp toàn diện để thu thập và phân tích dữ liệu Dữ liệu này có thể được ứng dụng để giải quyết nhiều vấn đề giao thông, bao gồm phát hiện chế độ di chuyển, đo độ trễ hành trình và giám sát tình hình giao thông.
Dữ liệu lớn từ video
Video là phương tiện điện tử cho phép ghi, sao chép và phát lại hình ảnh chuyển động, được sử dụng hiệu quả trong các hệ thống quản lý giao thông tiên tiến (ATMS) Hệ thống phát hiện hình ảnh video (VIDS) là giải pháp thay thế hiệu quả cho các cảm biến truyền thống, giúp nhận dạng phương tiện và phát hiện luồng giao thông với chi phí thấp Việc sử dụng dữ liệu video lớn đã chứng minh tính chính xác cao trong phát hiện sự cố, đồng thời cung cấp thông tin chính xác hơn cho các kỹ sư và nhà quy hoạch giao thông Điều này giúp cải thiện hệ thống xử lý hình ảnh, đáp ứng tốt hơn nhu cầu giao thông và các mô hình phát thải của phương tiện.
Dữ liệu cảm ứng biến
Các cảm biến lắp đặt trên mặt đường sẽ thu thập thông tin về luồng giao thông, khí hậu và thời tiết Hệ thống máy tính sẽ phân tích và xử lý các thông tin này, cung cấp cho tài xế thông tin về tình hình giao thông như tai nạn, ùn tắc và thời tiết, giúp họ chọn giải pháp giao thông tối ưu Điều này góp phần hạn chế tai nạn và ùn tắc, đảm bảo thời gian di chuyển ngắn nhất và an toàn nhất cho các phương tiện Dữ liệu thu thập từ cảm biến được chia thành ba nguồn: dữ liệu bên đường, dữ liệu ô tô nổi và dữ liệu diện rộng.
Dữ liệu bên đường được thu thập thông qua các cảm biến hiện đại đặt dọc theo đường, bao gồm cảm biến siêu âm, cảm biến âm thanh, thiết bị phát hiện xe từ kế, hệ thống hồng ngoại, công nghệ LIDAR và hệ thống xử lý hình ảnh video Sự phát triển của các công nghệ tiên tiến này đã góp phần nâng cao khả năng thu thập và phân tích dữ liệu giao thông.
Dữ liệu ô tô nổi (FCD) chủ yếu liên quan đến việc theo dõi di chuyển của phương tiện tại các vị trí khác nhau trong Hệ thống Giao thông Thông minh (ITS) Các cảm biến tàu cung cấp thông tin đáng tin cậy và hiệu quả cho việc ước tính lộ trình di chuyển hợp lý Với sự phát triển của công nghệ cảm biến phương tiện, các kỹ thuật FCD phổ biến bao gồm nhận dạng phương tiện tự động (AVI), nhận dạng biển số xe (LPR), và các bộ tiếp sóng như phương tiện thăm dò và thẻ thu phí điện tử.
Dữ liệu diện rộng về lưu thông giao thông được thu thập thông qua các kỹ thuật theo dõi cảm ứng biến, bao gồm xử lý hình ảnh, ghi âm và video, dựa trên không gian.
Dữ liệu lớn từ CAV and VANET
Các phương tiện kết nối và tự động (CAV) đại diện cho những công nghệ tiên tiến trong lĩnh vực Hệ thống Giao thông Thông minh (ITS) Chúng mang đến những thay đổi đáng kể về thiết kế phương tiện và cách thức tương tác của chúng với cơ sở hạ tầng đường bộ.
Xe kết nối và xe tự hành kết hợp nhiều công nghệ tiên tiến, giúp di chuyển người và hàng hóa một cách an toàn và hiệu quả Hệ thống giao thông hỗ trợ CAV đã chứng minh khả năng giảm tắc nghẽn và chậm trễ, đồng thời nâng cao hiệu suất an toàn CAV tạo ra lượng lớn dữ liệu giao thông thời gian thực như tọa độ, tốc độ và dữ liệu an toàn Sử dụng công nghệ mạng hiện đại, dữ liệu được thu thập một cách hiệu quả, từ đó cung cấp thông tin có thể hành động nhằm hỗ trợ các lựa chọn cổng chuyển đổi xanh và điều khiển tín hiệu thích ứng trong thời gian thực.
VANET (Mạng xe cộ bất định) là một hệ thống mạng không cần cơ sở hạ tầng, được hình thành từ các phương tiện giao thông trên đường Các phương tiện này được trang bị thiết bị thu/phát để giao tiếp và chia sẻ thông tin, hoạt động như những nút trong mạng bất định Thông tin được trao đổi trong mạng VANET bao gồm dữ liệu về lưu lượng xe, tình trạng kẹt xe, tai nạn giao thông, các nguy hiểm cần tránh, cũng như các dịch vụ thông thường như đa phương tiện và Internet.
Dữ liệu lớn từ thu thập thụ động
Thu thập dữ liệu thụ động là công cụ quan trọng trong phân tích cạnh tranh và đánh giá trước và sau phẫu thuật Tuy nhiên, một số quốc gia hoặc tiểu bang có quy định riêng cho phép người dùng từ chối cung cấp dữ liệu nhạy cảm của họ.
Trong những tình huống này, thu thập dữ liệu thụ động rất quan trọng Bằng cách sử dụng dữ liệu thụ động, doanh nghiệp có thể thu thập thông tin về khách hàng và người dùng thông qua nhiều phương pháp khác nhau.
• Dữ liệu thiết bị di động
Dữ liệu lớn từ các nguồn khác
Một nguồn dữ liệu quan trọng trong hệ thống giao thông thông minh (ITS) là dữ liệu từ các thử nghiệm chuyên dụng Trong nghiên cứu trước đây, chúng tôi đã thực hiện các thử nghiệm thực địa trong hệ thống điều khiển tàu hỏa dựa trên thông tin liên lạc (CBTC) trong giao thông đường sắt đô thị Qua các thử nghiệm này, chúng tôi thu thập một lượng lớn dữ liệu khuếch đại kênh Dữ liệu này sau đó được xử lý để mô hình hóa đặc tính ngẫu nhiên của trạng thái kênh, từ đó giúp tối ưu hóa hiệu suất của hệ thống CBTC.
Phương pháp phân tích dữ liệu lớn trong ITS
Dữ liệu huấn luyện được dán nhãn là yếu tố quan trọng trong thuật toán học có giám sát, nơi các mô hình học cách ánh xạ giữa dữ liệu đầu vào và đầu ra mục tiêu Bằng cách kết hợp mô hình đã học với dữ liệu đầu vào, chúng có khả năng dự đoán kết quả đầu ra mới Trong số các mô hình học có giám sát, hồi quy tuyến tính, cây quyết định, mạng thần kinh và máy vectơ hỗ trợ là những phương pháp thường được áp dụng trong hệ thống giao thông thông minh (ITS).
Hồi quy là phương pháp giúp giải thích mối quan hệ giữa biến phụ thuộc và các biến độc lập Trong số các phương pháp hồi quy, hồi quy tuyến tính được sử dụng phổ biến nhất nhờ vào tính đơn giản, mạnh mẽ và dễ dàng diễn giải Mặc dù có cấu trúc đơn giản, hồi quy tuyến tính lại rất hiệu quả trong nhiều kịch bản khác nhau, bao gồm dự đoán lưu lượng giao thông, ước tính tốc độ giao thông và đánh giá tuyến đường vận chuyển.
Mạng nơ-ron nhân tạo, hay Neural Network, là một chuỗi thuật toán nhằm tìm kiếm các mối quan hệ cơ bản trong tập dữ liệu, bắt chước cách hoạt động của não bộ con người Hệ thống này bao gồm các tế bào thần kinh nhân tạo, có thể là hữu cơ hoặc nhân tạo Mạng nơ-ron có khả năng thích ứng với mọi thay đổi từ đầu vào, cho phép đưa ra kết quả tối ưu mà không cần thiết kế lại tiêu chí đầu ra Khái niệm này xuất phát từ trí tuệ nhân tạo và đang ngày càng trở nên phổ biến trong sự phát triển của các hệ thống giao dịch điện tử.
Mạng nơ-ron nhân tạo (ANN) có khả năng học hỏi các mối quan hệ phi tuyến tính giữa dữ liệu đầu vào và đầu ra nhờ vào các lớp ẩn và dữ liệu huấn luyện Là công cụ mô hình hóa dữ liệu hiệu quả, ANN đã được ứng dụng trong hệ thống giao thông thông minh (ITS) để dự đoán lưu lượng giao thông, thời gian di chuyển, phát hiện tai nạn và dự báo chỗ đậu xe còn lại.
Máy vectơ hỗ trợ (SVM) là một thuật toán học máy phổ biến, sử dụng dữ liệu gắn nhãn cho hồi quy và phân loại Trong lĩnh vực phân tích dữ liệu lớn trong Hệ thống Giao thông Thông minh (ITS), SVM đã thu hút sự chú ý đáng kể từ các nhà nghiên cứu Thuật toán này đã được áp dụng thành công trong việc dự đoán thời gian di chuyển, thời gian đến của xe buýt và phát hiện tai nạn giao thông.
Học có giám sát trong Hệ thống Giao thông Thông minh (ITS) được thể hiện rõ qua việc sử dụng SVM để dự đoán các sự cố lưu lượng Tập huấn luyện bao gồm các cặp dữ liệu {(x1, y1), (x2, y2), , (xi, yi)}, trong đó xi đại diện cho các tham số lưu lượng như lưu lượng, tốc độ và tỷ lệ lấp đầy, còn yi là nhãn lớp tương ứng Theo lý thuyết phân loại SVM, vectơ hỗ trợ αi có thể được xác định thông qua hàm hạt nhân K(x, x’).
Sau đó chúng ta lấy hàm quyết định g(x) để tĩnh nhãn cho mẫu x
Nếu x là mẫu ngẫu nhiên, g(x) = 1 Ngược lại, ta có g(x) = 1 [6]
Học không giám sát, hay học máy không giám sát, là phương pháp sử dụng các thuật toán máy học để phân tích và phân cụm dữ liệu không gán nhãn Những thuật toán này có khả năng khám phá các mẫu và nhóm dữ liệu ẩn mà không cần sự can thiệp của con người Nhờ vào khả năng nhận diện sự tương đồng và khác biệt trong thông tin, học không giám sát trở thành giải pháp lý tưởng cho phân tích dữ liệu khám phá, chiến lược bán chéo, phân khúc khách hàng và nhận diện hình ảnh.
Các tác giả đã sử dụng một bộ dữ liệu lịch sử để minh họa việc áp dụng học tập không giám sát trong việc dự đoán thời gian di chuyển Quy trình tính toán được thực hiện một cách chi tiết và hiệu quả.
Bước 1: Tần suất của mỗi lần di chuyển được đo bằng cách đếm số lần lặp lại của lần di chuyển đó trong các bản ghi khác nhau
Để xác định quan hệ Dự đoán, cần chú ý đến ba thuộc tính chính: Tần suất, Thời gian đi lại và Vận tốc Mỗi bản ghi trong quan hệ này phải đảm bảo có thời gian di chuyển riêng biệt.
Bước 3: Xác định giá trị lớn nhất từ thuộc tính Tần số (fmax) để chọn bộ P (xp, yp, zp) làm trọng tâm của cụm Trong đó, xp là tần số cực đại, yp là tần số tương ứng với travel_time liên quan đến xp, và zp là vận tốc liên quan đến travel_time yp Nếu có hai hoặc nhiều hơn bộ dữ liệu chứa giá trị lớn nhất, chúng sẽ được biến thành trọng tâm, mỗi bộ tương ứng với một cụm Kết quả là một tập hợp các trọng tâm P, với mỗi trọng tâm có tần số tối đa.
So sánh từng bộ Ti (xi, yi, zi) trong quan hệ Dự đoán với các trọng tâm Pk đã chọn (xp, yp, zp) bằng cách áp dụng công thức phù hợp.
COST (Pk, Ti) = |xp-xi | + |yp-yi | + |zp-zi | (1)
Chỉ số k là trọng tâm, nằm trong khoảng từ 1 đến n, tùy thuộc vào sự trùng lặp của tần số Chọn bộ Qk (xq, yq, zq) làm trọng tâm cho cụm khác, với COST (Pk, Qk) đạt giá trị tối đa Qua đó, chúng ta có thể xác định một tập hợp trọng tâm mới, Q Để chọn các trọng tâm cuối cùng, chúng ta thực hiện thao tác giao nhau, tức là P.
∩ Q Vì vậy, số lượng bộ hay các phần tử trong tập (P ∩ Q) là tổng số cụm
Bước 5: Xây dựng các cụm sao cho tâm của mỗi cụm là phần tử riêng biệt của tập hợp (P ∩ Q)
Bước 6: Xác định tư cách thành viên của các bộ dữ liệu bằng cách gán chúng cho cụm gần nhất với bộ đại diện, theo chi phí được xác định bởi phương trình (1) Bước 7: Tính toán lại trung tâm cụm bằng giá trị trung bình số học.
Bước 8: Bước 6 và Bước 7 được lặp lại cho đến khi không có thay đổi nào trong cụm
Bước 9: Sau khi chuẩn bị xong các cụm, thời gian dự đoán mong muốn được tính riêng cho mỗi cụm bằng cách sử dụng công thức sau:
Thời gian di chuyển (Tr) được tính từ cụm thứ r, trong khi N đại diện cho tổng số bộ trong liên kết cụm Tần số của bộ thứ i được ký hiệu là fi, và thời gian di chuyển của bộ thứ i được ký hiệu là ti.
Bước 10: Nếu số phần tử của tập hợp (P ∩ Q) được ký hiệu là R, tức là |P ∩ Q| = R, thì thời gian di chuyển gần đúng, T, cho đoạn đường của nhóm thời gian và nhóm ngày cụ thể có thể được xác định bằng công thức sau:
Ứng dụng dữ liệu lớn trong ITS
Road Traffic Accidents Analysis
Mỗi năm, khoảng 1,2 triệu người trên thế giới thiệt mạng và 50 triệu người bị thương do tai nạn giao thông Phân tích dữ liệu tai nạn giao thông chính xác là rất cần thiết, vì nó cung cấp thông tin quan trọng cho các cơ quan giao thông, giúp họ xây dựng các chính sách hiệu quả nhằm ngăn ngừa tai nạn.
Các phân tích thống kê đa biến tuyến tính và phi tuyến đã được áp dụng để xác định mối liên hệ giữa các loại tai nạn trên đường cao tốc ở Nam California với luồng giao thông và điều kiện ánh sáng, thời tiết Lưu lượng giao thông được đo qua chuỗi thời gian 30 giây từ các máy dò vòng cảm ứng gần hiện trường vụ tai nạn Kết quả cho thấy loại va chạm có mối liên hệ mạnh mẽ với tốc độ giao thông trung bình và biến thể tốc độ theo thời gian ở các làn bên trái và bên trong Các vụ va chạm liên quan đến nhiều phương tiện thường xảy ra khi có thao tác thay đổi làn đường trên đường ướt, trong khi va chạm phía sau có xu hướng xảy ra trên đường khô vào ban ngày Kiểm soát các điều kiện thời tiết và ánh sáng cho thấy mức độ nghiêm trọng của tai nạn bị ảnh hưởng nhiều hơn so với tốc độ.
Các mô hình thống kê như hồi quy Poisson và nhị thức âm đã được sử dụng để phân tích tần suất tai nạn xe cộ, nhưng chúng có giả định riêng và có thể dẫn đến ước tính sai nếu giả định bị vi phạm Cây phân loại và hồi quy (CART) là một kỹ thuật khai thác dữ liệu phổ biến, không yêu cầu mối quan hệ cơ bản giữa biến mục tiêu và yếu tố dự đoán, và đã chứng minh hiệu quả trong dự đoán và phân loại Nghiên cứu này thu thập dữ liệu tai nạn từ năm 2001–2002 trên Quốc lộ 1 tại Đài Loan, phát triển mô hình CART và hồi quy nhị thức âm để xác định mối quan hệ giữa tai nạn giao thông và các yếu tố như biến số hình học, đặc điểm giao thông và yếu tố môi trường.
Road Traffic Flow Prediction
Hình 4: Một mô hình dự đoán lưu lượng giao thông điển hình
Public Transportation Services Planning
Phân tích dữ liệu lớn trong giao thông công cộng giúp hiểu rõ các mô hình hành trình của hành khách trên mạng lưới giao thông Những mẫu hành trình này có thể hỗ trợ các nhà khai thác vận tải trong việc lập kế hoạch dịch vụ hiệu quả hơn.
Quá trình đô thị hóa nhanh chóng đã dẫn đến sự gia tăng lưu lượng du lịch, tạo ra nhu cầu cấp thiết về các chính sách quy hoạch giao thông hiệu quả Dữ liệu điện thoại di động, mặc dù là nguồn dữ liệu lớn, vẫn chưa được tích hợp vào các mô hình quy hoạch giao thông Hiện tại, các cơ quan quản lý vận tải thiếu cái nhìn tổng thể về lưu lượng hành khách hàng ngày trên các mạng lưới vận tải đa phương thức Chúng tôi đề xuất phương pháp đầu tiên để suy ra các luồng Điểm gốc-Đích động theo các chế độ vận chuyển từ dữ liệu mạng di động, như bản ghi chi tiết cuộc gọi Nghiên cứu này xử lý 360 triệu quỹ đạo từ hơn 2 triệu thiết bị tại Greater Paris, kết hợp định vị mạng di động với dữ liệu không gian địa lý, khảo sát du lịch, điều tra dân số và dữ liệu thẻ du lịch Các chế độ vận chuyển được xác định thông qua thuật toán học bán giám sát, bao gồm phân cụm khu vực mạng di động và suy luận Bayes để tạo ra xác suất vận chuyển cho các quỹ đạo Sau khi gán chế độ có xác suất cao nhất, chúng tôi xây dựng ma trận Điểm gốc-Đích và tăng tỷ lệ các luồng lên tổng dân số bằng các hệ số mở rộng hiện đại Mô hình này tạo ra các luồng hành khách đường bộ và đường sắt biến đổi theo thời gian cho toàn bộ khu vực, cho thấy các mô hình di chuyển khác nhau giữa các phương thức và giữa Paris và các vùng ngoại ô Các luồng giao thông được xác thực dựa trên khảo sát du lịch và dữ liệu thẻ du lịch cho các quy mô không gian.
Sử dụng dữ liệu điện thoại di động từ kho dữ liệu mã nguồn mở để triển khai mô hình nhu cầu du lịch có thể giúp trích xuất mạng đường có thể định tuyến và bảng hành trình từ dữ liệu Bản ghi dữ liệu cuộc gọi (CDR) Công việc này đóng vai trò quan trọng trong việc hướng dẫn các nhà khai thác vận tải thực hiện quy hoạch giao thông công cộng hiệu quả.
Personal Travel Route Planning
Các ứng dụng vận chuyển đã xuất hiện với tầm nhìn cung cấp thông tin thời gian thực cho các phương tiện như xe buýt và tàu điện ngầm tại nhiều thành phố trên thế giới Tuy nhiên, việc duy trì màn hình thông tin tại mọi trạm xe buýt rất tốn kém Nhờ vào sự phát triển của thiết bị di động và dữ liệu lịch trình có thể đọc được, nhiều công cụ đã được tạo ra để cung cấp thông tin này qua các giao diện khác nhau, bao gồm cả trên điện thoại di động Những hệ thống này thường có chi phí triển khai thấp hơn so với màn hình cố định tại các điểm dừng Đặc biệt, trên thiết bị di động, chúng còn hỗ trợ các chức năng cá nhân hóa như cảnh báo tùy chỉnh Một trong những hệ thống theo dõi xe buýt trực tuyến đầu tiên, Busview, được phát triển bởi Daniel Tweetsey và nhóm của ông.
Gần đây, Google Transit đã mở rộng dịch vụ của mình, cung cấp kế hoạch chuyến đi vận chuyển cho hơn 400 thành phố trên toàn thế giới, mặc dù thông tin này không phải là thời gian thực.
Google Transit cung cấp thông tin cho các tay đua trên toàn cầu và thiết lập tiêu chuẩn dữ liệu lịch trình vận chuyển, gọi là GTFS Nhiều cơ quan vận chuyển đã phát hành dữ liệu của họ dưới định dạng GTFS, tạo điều kiện cho các nhà phát triển bên thứ ba phát triển ứng dụng Tại Portland, ứng dụng Trimet liệt kê hơn 20 ứng dụng sử dụng dữ liệu vận chuyển, nhiều ứng dụng tập trung vào việc cung cấp thông tin trên thiết bị di động và khả năng nội địa hóa Các hệ sinh thái tương tự cũng hiện diện ở San Francisco, Chicago và các thành phố lớn khác Nghiên cứu đã chỉ ra rằng ứng dụng di động có thể cải thiện khả năng sử dụng giao thông công cộng, đặc biệt cho những người có nhu cầu đặc biệt OneBusaway là một bộ công cụ tập trung vào khả năng sử dụng, cung cấp giao diện dễ tiếp cận và thúc đẩy quyền truy cập mở vào dữ liệu vận chuyển thông qua mã nguồn mở.
Rail Transportation Management and Control
Trong những thập kỷ qua, nghiên cứu vận hành đường sắt đã tập trung vào việc phát triển các mô hình kính hiển vi để hỗ trợ quản lý khu vực điều phối Tuy nhiên, những mô hình này thường dẫn đến thời gian tính toán dài cho các mạng lớn và được sử dụng nhiều Vấn đề kiểm soát lưu lượng truy cập trên toàn quốc vẫn còn chưa được giải quyết do sự phối hợp khó khăn giữa các khu vực địa phương và sự phụ thuộc lẫn nhau giữa các chuyến tàu Do đó, công việc hiện tại đang tập trung vào phát triển các mô hình vĩ mô mới nhằm tích hợp các quyết định quản lý giao thông hiệu quả hơn.
Phân tích dữ liệu lớn trong giao thông công cộng giúp hiểu rõ hơn về hành vi di chuyển của hành khách, từ đó cải thiện chất lượng dịch vụ Dữ liệu từ điện thoại di động của hàng triệu người dùng ẩn danh cho phép dự đoán xu hướng di chuyển của người đi ô tô Việc kết hợp dữ liệu vị trí của Metro và IBUS với thông tin từ thẻ thông minh giúp tính toán thời gian lên và xuống tàu, tạo điều kiện cho việc quản lý giao thông hiệu quả hơn Dữ liệu thẻ thông minh cũng hỗ trợ xây dựng ma trận dòng chảy và tuyến xe buýt cho cả chuyến đi BRT và không BRT Chính sách BRT có thể được cải thiện dựa trên các phân tích bằng chứng từ bộ phận quản lý dịch vụ Nền tảng quản lý cập nhật giúp các nhà hoạch định và vận hành đường sắt nhận phản hồi gần thời gian thực về dịch vụ Ngoài ra, khai thác dữ liệu mở và hồ sơ cuộc gọi (CDR) cho phép xây dựng mạng đường, ma trận OD và bảng chuyến đi, hỗ trợ công việc của các nhà hoạch định giao thông công cộng toàn cầu.
Hou et al đã đề xuất ba thuật toán điều khiển dừng tàu, trong đó sử dụng dữ liệu vị trí phanh ban đầu, lực phanh và sự kết hợp của chúng làm đầu vào điều khiển Phương pháp điều khiển học lặp đầu cuối (TILC) được áp dụng lần đầu tiên trong lĩnh vực điều khiển điểm dừng tại nhà ga, với ba thuật toán dựa trên TILC được phát triển trong nghiên cứu này Phương pháp này cập nhật cấu hình điều khiển hiện tại dựa trên lỗi vị trí dừng đầu cuối trong quá trình phanh trước đó Đầu vào điều khiển được chọn từ vị trí phanh ban đầu, lực phanh hoặc sự kết hợp của chúng, và luật học tương ứng được phát triển Qua phân tích nghiêm ngặt, lỗi vị trí dừng đầu cuối của mỗi thuật toán được đảm bảo hội tụ về một vùng nhỏ liên quan đến độ lệch ban đầu của vị trí phanh.
Asset Maintenance
Hình 5: Một khuôn khổ điển hình của việc sử dụng phân tích dữ liệu lớn để bảo trì tài sản
Trong hệ thống ITS, việc bảo trì tài sản là rất quan trọng để bảo vệ vốn và giảm chi phí Phân tích Dữ liệu lớn giúp xác định vấn đề nhanh chóng và chính xác, từ đó tối ưu hóa chi phí bảo trì Khuôn khổ sử dụng phân tích Dữ liệu lớn trong quyết định bảo trì tài sản bao gồm việc thu thập dữ liệu từ cảm biến, như thông tin về hư hỏng vật lý (xuống cấp mặt đường, lão hóa dằn, hình dạng đường ray) và xử lý dữ liệu văn bản từ báo cáo bảo trì để trích xuất thông tin quan trọng.
Dữ liệu trạng thái cơ sở hạ tầng và phương tiện như nhiệt độ, độ ẩm có thể được xử lý thông qua phương pháp điều khiển dữ liệu để thu được các chỉ báo tình trạng Ba phương pháp quy trình được tích hợp mang lại chẩn đoán chính xác về tình trạng tài sản và xác định thời gian sử dụng hữu ích còn lại, giúp người dùng cuối đưa ra quyết định hiệu quả về bảo trì và vận hành.
Một phương pháp ra quyết định bảo trì dựa trên mờ cho cơ sở hạ tầng đường sắt được đề xuất nhằm giải quyết vấn đề lỗi mỏi tiếp xúc lăn, cụ thể là hiện tượng ngồi xổm Phương pháp này sử dụng các phép đo Gia tốc hộp trục (ABA) để phát hiện và dự đoán sự phát triển của các ô vuông theo ba kịch bản tăng trưởng khác nhau Khi một đường đua cần bảo trì phòng ngừa, phương pháp phân cụm mờ được áp dụng để nhóm các ô vuông nhẹ, giúp tối ưu hóa quá trình xử lý Bằng cách phân tích các mặt trận Pareto, các nhà quản lý có thể đánh giá sự đánh đổi giữa số lượng ô vuông chưa được xử lý và tỷ lệ phần trăm bao phủ Bốn chỉ số hiệu suất chính được tích hợp qua hệ thống chuyên gia mờ để ước tính tình trạng sức khỏe của từng cụm ô vuông Phương pháp này không chỉ giúp xếp hạng các cụm light squats theo tầm quan trọng mà còn cung cấp các chỉ báo dự đoán để quyết định phần nào của đường ray cần được thay thế khi phát hiện tình trạng nghiêm trọng Đường ray Groningen-Assen trong mạng lưới đường sắt Hà Lan được sử dụng làm ví dụ minh họa cho phương pháp này.
NỀN TẢNG DỮ LIỆU LỚN TRONG NÓ
Phân tích Dữ liệu lớn trong Hệ thống Giao thông Thông minh (ITS) đang phát triển nhờ vào các nền tảng Dữ liệu lớn tiên tiến Những nền tảng này sử dụng hệ thống tệp phân tán và khả năng tính toán song song, giúp xử lý dữ liệu một cách nhanh chóng Chúng không chỉ có khả năng hiểu Dữ liệu lớn mà còn hỗ trợ tối ưu hóa các hệ thống quy mô lớn.
Hình 6: Khung điển hình sử dụng nền tảng Apache Spark trong ITS
Apache Hadoop là khung phần mềm nguồn mở hàng đầu cho việc phân tán và lưu trữ khối lượng lớn dữ liệu Nền tảng này hỗ trợ nhiều loại hoạt động xử lý và phân tích dữ liệu, đặc biệt hiệu quả trong việc xử lý dữ liệu lớn Khả năng xử lý phân tán của Hadoop khiến nó trở thành lựa chọn lý tưởng cho việc phân tích dữ liệu trong hệ thống ITS, bao gồm dữ liệu từ thẻ thông minh, cảm biến, mạng xã hội và dữ liệu GPS.
Apache Spark là nền tảng mã nguồn mở tiên tiến cho xử lý dữ liệu lớn, đặc biệt phù hợp với các tác vụ học máy Với công nghệ lưu trữ phân tán tương tự như Hadoop, Spark cho phép người dùng tải dữ liệu vào bộ nhớ cụm và thực hiện các truy vấn lặp lại một cách hiệu quả Nền tảng này rất lý tưởng cho các phương pháp học máy, và những phương pháp phân tích dữ liệu lớn đã được đề cập trước đó có thể được triển khai trên cả Hadoop và Spark.
Khung điển hình sử dụng nền tảng Apache Spark trong hệ thống ITS cho phép thu thập dữ liệu từ nhiều nguồn khác nhau thông qua API HBase, một cơ sở dữ liệu Hadoop Dữ liệu này được gửi đến trung tâm dữ liệu và được xử lý theo thời gian thực bằng Spark Streaming, cho phép thực hiện các tác vụ như phát hiện tốc độ xe, nhận dạng xe và cảnh báo thời gian thực HBase, với tính năng là một cơ sở dữ liệu nguồn mở phân tán, hỗ trợ trích xuất tính năng cấp cao và tạo chỉ mục cho các tập dữ liệu lớn, từ đó nâng cao hiệu quả truy xuất dữ liệu.
Spark Core là nền tảng chính của hệ thống Spark, cho phép thực hiện các tác vụ ngoại tuyến với khả năng tính toán phân tán Nó hỗ trợ thực hiện các nhiệm vụ quan trọng như quản lý và kiểm soát giao thông, cũng như phân tích tai nạn, dưới động cơ Spark Core.
Dữ liệu lớn đóng vai trò quan trọng trong việc chuẩn bị cho các thành phố thông minh, yêu cầu các quyết định thông minh và xử lý lượng dữ liệu khổng lồ trong thời gian thực Các ứng dụng Hệ thống Giao thông Thông minh (ITS) sử dụng trí tuệ nhân tạo và môi trường mô phỏng để đánh giá các chiến lược giao thông Bài báo này giới thiệu mô hình mạng lưới giao thông Greater Toronto Area (GTA), cho phép các ứng dụng vận chuyển dữ liệu lớn hoạt động hiệu quả trong thời gian thực, mặc dù yêu cầu làm việc chuyên sâu với dữ liệu lớn Chúng tôi trình bày cấu trúc, hiệu chuẩn và kết quả đầu ra của mô hình, cùng với các ứng dụng thực tiễn như phân tích dữ liệu giao thông đô thị nhằm hiểu rõ hơn về các kiểu giao thông Nền tảng này bao gồm các lớp dữ liệu, phân tích và quản lý, có thể được sử dụng bởi các nhà nghiên cứu, kỹ sư lưu lượng và nhà lập kế hoạch Dựa trên cụm và đám mây, nền tảng đảm bảo độ tin cậy, khả năng mở rộng và thích ứng với các điều kiện thay đổi, phục vụ cho cả phân tích trực tuyến và hồi cứu, với các trường hợp sử dụng như tìm tốc độ trung bình và xác định các đoạn tắc nghẽn trên các tuyến đường cao tốc chính ở khu vực GTA.
Trung tâm dữ liệu truyền thống gặp nhiều vấn đề về chi phí, sử dụng tài nguyên và tiêu thụ điện năng Bài viết nghiên cứu xu hướng phát triển của trung tâm dữ liệu ảo, đặc biệt là trên nền tảng VMware vSphere, và đề xuất sơ đồ hệ thống cho giao thông thông minh Đồng thời, nó định hướng quản lý luồng dữ liệu giao thông trong môi trường điện toán đám mây, tập trung vào dữ liệu lớn, đa nguồn và thời gian thực từ các thiết bị cảm biến Bài viết cũng phân tích mối liên hệ giữa hoạt động giao thông thực tế và luồng dữ liệu, nghiên cứu cơ chế phát triển của dữ liệu không chắc chắn, và xây dựng mô hình luồng dữ liệu dựa trên ontology và siêu dữ liệu cốt lõi Cuối cùng, thông qua việc sử dụng ảo hóa và xử lý song song, bài viết đề xuất các thuật toán truy vấn hiệu quả cho việc quản lý dữ liệu giao thông phức tạp và liên tục.
Chức năng xử lý luồng dữ liệu thời gian thực là yếu tố thiết yếu trong nền tảng xử lý Dữ liệu lớn cho Hệ thống Giao thông Thông minh (ITS), phục vụ cho các ứng dụng như giám sát và kiểm soát giao thông cũng như lịch trình giao thông công cộng Các hệ thống truyền dữ liệu thời gian thực đã được phát triển dựa trên nền tảng Dữ liệu lớn truyền thống Guerreiro và cộng sự đã đề xuất một kiến trúc ETL (trích xuất, biến đổi và tải) cho các hệ thống giao thông thông minh, đặc biệt trong kịch bản thu phí động cho đường cao tốc Kiến trúc này có khả năng xử lý dữ liệu lịch sử và thời gian thực thông qua các công nghệ Dữ liệu lớn như Spark trên Hadoop và MongoDB.
Nền tảng xử lý luồng dữ liệu được đề xuất hỗ trợ chia sẻ nguồn dữ liệu giữa nhiều bên, bao gồm phần mềm và kết quả trung gian Ví dụ, nền tảng này có thể được sử dụng để quản lý lưu lượng hiệu quả Kiến trúc linh hoạt dựa trên tính toán phân tán được đề xuất nhằm kiểm soát lưu lượng thời gian thực Một phần của kiến trúc đã được hiện thực hóa trong nền tảng nguyên mẫu sử dụng Kafka, một công cụ Dữ liệu lớn hiện đại, để xây dựng các đường dẫn dữ liệu và xử lý luồng.
Các hệ thống vận chuyển được kết nối (CTS) cần một hạ tầng mạnh mẽ để xử lý tín hiệu thời gian thực và mở rộng quy mô Hệ thống không chỉ thu thập dữ liệu mà còn hỗ trợ phân tích dữ liệu lớn, chẳng hạn như sử dụng dữ liệu không gian địa lý để phát hiện các mối quan tâm an toàn xung quanh xe Chương này sẽ xem xét các hệ thống hạ tầng dữ liệu hiện tại trong lĩnh vực này.
THỬ THÁCH MỚI
Phân tích dữ liệu lớn đã mang lại nhiều thành công đáng kể trong lĩnh vực Hệ thống Giao thông Thông minh (ITS), tuy nhiên vẫn còn nhiều thách thức chưa được nghiên cứu Việc tìm kiếm giải pháp cho những thách thức mới trong phân tích dữ liệu là điều cần thiết trong thời gian tới.
Việc thu thập dữ liệu gặp khó khăn do sự di chuyển thường xuyên của các phương tiện và người đi bộ, dẫn đến dữ liệu không chính xác, không đầy đủ hoặc không đáng tin cậy ở những địa điểm và thời điểm cụ thể Nhiều xe ô tô không được trang bị cảm biến, gây thiếu hụt dữ liệu cần thiết Để khắc phục tình trạng này, cần đầu tư vào trang thiết bị hỗ trợ cho xe và cải thiện khả năng thu thập dữ liệu Bên cạnh đó, áp dụng tự động hóa trong quá trình thu thập dữ liệu là rất quan trọng để giảm thiểu nhập liệu thủ công và nâng cao chất lượng dữ liệu.
Quyền riêng tư dữ liệu là một thách thức lớn trong bối cảnh dữ liệu lớn, đặc biệt khi thông tin cá nhân có thể bị rò rỉ trong quá trình truyền, lưu trữ và sử dụng Dữ liệu thu thập từ hệ thống giao thông, như vị trí phương tiện và lưu lượng giao thông, trước đây được coi là phi cá nhân, nhưng sự gia tăng thu thập dữ liệu cá nhân từ cả khu vực công và tư nhân đã làm nổi bật các vấn đề về quyền riêng tư Việc bảo vệ quyền riêng tư trở nên cấp thiết trong ứng dụng dữ liệu lớn trong hệ thống giao thông thông minh (ITS), nhằm ngăn chặn các tác nhân xấu có thể đánh cắp thông tin Để giải quyết vấn đề này, cần có sự can thiệp từ chính phủ thông qua việc xây dựng luật bảo mật dữ liệu toàn diện, quy định rõ ràng về việc sử dụng dữ liệu của người tiêu dùng Các sở giao thông vận tải cũng cần tăng cường quản lý bảo mật dữ liệu và áp dụng các thuật toán tiên tiến hơn để nâng cao mức độ bảo mật.
Lưu trữ dữ liệu (Data Storage) là quá trình ghi thông tin vào các phương tiện lưu trữ, yêu cầu năng lượng điện để lưu trữ và truy xuất dữ liệu Có nhiều hình thức lưu trữ khác nhau như đĩa than, chữ viết tay, RNA, DNA, đĩa quang và băng từ Dữ liệu lưu trong phương tiện kỹ thuật số được gọi là dữ liệu kỹ thuật số, mang lại lợi ích về tiết kiệm không gian so với tài liệu giấy Hiện nay, khối lượng dữ liệu đã tăng lên đến mức petabyte (PB), trong khi khả năng lưu trữ dữ liệu không theo kịp sự gia tăng này Các công cụ lưu trữ truyền thống không còn đáp ứng được nhu cầu lưu trữ dữ liệu lớn và phức tạp, dẫn đến thách thức trong thiết kế kiến trúc lưu trữ hợp lý Các nhà cung cấp lưu trữ đám mây như Google và Microsoft đang cải thiện dịch vụ với khả năng lưu trữ đa đám mây và lưu trữ lai, cùng với việc tích hợp trí thông minh vào lưu trữ, là những giải pháp tiềm năng cho việc xử lý khối lượng công việc phân tích phức tạp.
Xử lý dữ liệu là quá trình chuyển đổi dữ liệu thành định dạng có thể sử dụng, từ trước đây thực hiện thủ công mất thời gian và dễ sai sót, giờ đây chủ yếu được tự động hóa bằng máy tính, mang lại kết quả nhanh chóng và chính xác Tính kịp thời rất quan trọng trong các ứng dụng dữ liệu lớn, như tiền xử lý lưu lượng, nhận dạng trạng thái giao thông, và kiểm soát giao thông thời gian thực Dữ liệu lưu lượng từ nhiều nguồn khác nhau cần được so sánh với dữ liệu lịch sử và xử lý nhanh chóng Hệ thống xử lý dữ liệu hiện nay phải có khả năng xử lý dữ liệu phức tạp và mở rộng Đảm bảo tính kịp thời khi làm việc với dữ liệu lớn là một thách thức lớn, và nhiều khung dữ liệu lớn như Apache Storm, Apache Flink, và Apache Spark Streaming đã ra đời để xử lý các nguồn dữ liệu thời gian thực Các khung xử lý này cung cấp giải pháp hiệu quả cho việc xử lý dữ liệu trong thời gian thực, bao gồm cả việc kiểm soát giao thông và ước tính tốc độ trên đường cao tốc.
Để người dùng dịch vụ vận chuyển và nhà phát triển ứng dụng có thể sử dụng dữ liệu hiệu quả, việc lưu trữ và truy cập công khai dữ liệu chất lượng cao là rất quan trọng Chất lượng dữ liệu bao gồm tính chính xác, đầy đủ, độ tin cậy và tính nhất quán, vì dữ liệu kém chất lượng có thể dẫn đến quyết định sai lầm và hậu quả nghiêm trọng Mặc dù việc mở dữ liệu chất lượng tốt có thể tốn thời gian và chi phí, nhưng sự đánh đổi giữa việc mở dữ liệu nhanh chóng và cung cấp dữ liệu chất lượng cao là một thách thức lớn Các giải pháp như thu thập dữ liệu tự động và sử dụng trí tuệ nhân tạo để xác minh dữ liệu có thể giúp cải thiện chất lượng Hơn nữa, các bộ phận vận chuyển cần thiết lập quy trình quản lý dữ liệu để đảm bảo tính nguyên sơ và chính xác của dữ liệu.