Luận văn thạc sĩ Khoa học máy tính: Bổ khuyết dữ liệu Giao thông

NHIỆM VỤ VÀ NỘI DUNG: Khảo sát hệ thống BK Smart Traffic, áp dụng các mô hình xử lý dữ liệu chuỗi thời gian để bổ khuyết dữ liệu giao thông, mà cụ thể là bổ sung dữ liệu tại một đoạn đư

GIỚI THIỆU ĐỀ TÀI

Giới thiệu đề tài

Ngày nay, không chỉ riêng ở Việt Nam mà ở các nước trên thế giới, vấn nạn kẹt xe ở tại các thành phố lớn luôn là mối quan tâm hàng đầu của chính quyền địa phương Kẹt xe không chỉ lấy đi thời gian, sức khỏe của mọi người mà còn tạo tâm lý bực bội, ức chế

Vì vậy, nếu có một hệ thống giao thông thông minh, có thể giúp người tham gia giao thông biết rõ nơi nào kẹt xe, nơi nào thông thoáng, thậm chí có thể tự gợi ý người dùng lộ trình cần thiết để tránh các địa điểm kẹt xe, thì sẽ hổ trợ đắc lực cho người tham gia giao thông trong các thành phố lớn

- Theo PGS-TS Phạm Xuân Mai nhận định hằng năm, nạn tắc nghẽn giao thông ở TPHCM kéo theo thiệt hại về kinh tế - xã hội ước tính lên đến gần 14.000 tỉ đồng (2007)

- Tại Mỹ, ước tính 1,9 tỉ gallons nhiên liệu tiêu phí hàng năm, $713/lái xe/năm, 34 giờ/thành phố

Hiện tại nhóm nghiên cứu về Giao thông thông minh của Khoa Khoa học và Kỹ thuật Máy tính đã cho ra đời hệ thống BK Smart Traffic bước đầu xây dựng thành công hệ thống nghi nhận dữ liệu GPS và lưu trữ thông tin trên vào cơ sở dữ liệu Từ đó người dùng có thể truy cập vào website của nhóm hoặc thông qua phần mềm được cài trên thiết bị di động để xem thông tin giao thông của các tuyến đường Tuy nhiên do dữ liệu chủ yếu là dữ liệu GPS của xe buýt nên mật độ dữ liệu và tần số dữ liệu còn thấp, sai số lớn, tỉ lệ dữ liệu có thể sử dụng được trên tổng số dữ liệu nhận được thấp Nên mục tiêu của đề tài này là nhằm bổ sung dữ liệu và nâng cao hiệu quả sử dụng dữ liệu GPS từ xe buýt cũng như từ các thiết bị có tích hợp GPS

Ngoài ra, chúng ta có thể dễ dàng tìm thấy rất nhiều thông tin về các giải pháp, ứng dụng khoa học sử dụng hệ thống thông tin địa lý (GIS) như mô phỏng các thảm họa thiên nhiên nhằm dự báo, hạn chế thiệt hại do thảm họa gây ra [1]; các mô phỏng về sự tác động của môi trường tới sức khỏe của con người [2]; hay một số nghiên cứu về sự chuyển động dữ liệu theo thời gian (time series) Nhưng hình như chúng ta có rất ít tài liệu nói về sự chuyển động của dữ liệu giao thông theo thời gian

Từ ý nghĩa khoa học đó, đề tài này sẽ nêu lên một số giải pháp về hiệu chỉnh cũng như bổ sung dữ liệu giao thông dựa vào chuỗi thời gian Nó đề cập tới một lĩnh vực mà giới khoa học hiện nay còn đang bỏ ngỏ

Kết quả của đề tài này và một số đề tài liên quan sẽ là nền tảng khoa học cũng như ứng dụng thực tiễn để giải quyết bài toán giao thông một cách triệt để cho hiện tại cũng như định hướng tương lai.

Động cơ

Các nghiên cứu về vấn đề giao thông như: tìm đường đi ngắn nhất giữa hai điểm trên bản đồ có tính đến yếu tố tình hình giao thông hiện tại, theo dõi tình hình kẹt xe ở các trung tâm; thành phố lớn để đưa ra giải pháp giải quyết vấn nạn kẹt xe đều đòi hỏi dữ liệu về giao thông phải tương đối chính xác và đầy đủ Dữ liệu GPS của các phương tiện lưu thông trên đường cung cấp cho chúng ta vị trí cũng như tốc độ hiện tại, hay nói cách khác nó cho chúng ta biết khả năng lưu thông hiện tại của hệ thống giao thông Nhưng qua thực tế quan sát thực tế và khảo sát hệ thống BK Smart Traffic [3], ta thấy dữ liệu hệ thống nhận được rất nhiều, nhưng số lượng dữ liệu sử dụng được và có độ chính xác tương đối thấp (~10%), dữ liệu không đồng đều ở các thời điểm trong ngày và tại các tuyến đường

Từ thực tế này, đòi hỏi cần có một giải pháp nâng cao hiệu quả sử dụng dữ liệu là cấp thiết Nếu chúng ta có được giải pháp bổ sung dữ liệu còn thiếu trên các tuyến đường ở mọi thời điểm trong ngày thì việc giải quyết các bài toán khác như tìm đường đi giữa hai điểm trên trên thực tế, mô hình hoá luồng di chuyển … trong lĩnh vực giao thông trở nên dễ dàng hơn

Mục Tiêu

Để bổ khuyết được dữ liệu giao thông, chúng ta cần tìm hiểu các giải pháp dự báo dữ liệu đã được nghiên cứu ở các lĩnh vực khác như quản lý dữ liệu về dự báo thảm hoạ [1], y tế [2], thời tiết [4] Đồng thời nghiên cứu các kỹ thuật trong xử lý dữ liệu chuỗi thời gian (time series)

Mục tiêu của đề tài này là sử dụng dữ liệu có sẳn trên hệ thống BK Smart Traffic để nghiên cứu và bổ sung các dữ liệu về tình hình giao thông tại một điểm cho trước Từ đó áp dụng cho toàn bộ bản đồ Với nội dung cụ thể như sau:

- Tìm hiểu hệ thống BK Smart Traffic

- Tìm hiểu các mô hình dự báo cho dữ liệu chuỗi thời gian

- Chọn lọc một hoặc một số phương pháp khả thi cho dự báo dữ liệu chuỗi thời gian trong giao thông

- Chọn phương pháp tốt nhất để áp dụng trên bản đồ.

Phương pháp nghiên cứu

Do đề tài này được nghiên cứu và phát triển dựa trên một yêu cầu thực tế đang có nên phương pháp nghiên cứu đề tại chủ yếu là dựa trên thực nghiệm Để đạt được mục tiêu đã nêu ra ở trên, cần thực hiện một số bước như sau:

- Phương pháp lấy mẫu: khảo sát dựa trên dữ liệu quá khứ và hiện tại trên hệ thống

BK Smart Traffic, lấy một số mẫu (danh sách các đoạn đường – segment – trên một số tuyến đường có mật độ dữ liệu cao) để phân tích, đánh giá, phân loại dữ liệu Từ đó đề ra các giải pháp nhằm nâng cao chất lượng dữ liệu và bổ khuyết dữ liệu khi cần thiết

- Phương pháp đánh giá: sau khi tiến hành thực hiện các bước được đề xuất trong phần nội dung của đề tài này, chúng ta tiến hành đánh giá theo phương pháp lấy mẫu ngẫu nhiên và lập bảng thống kê so sánh kết quả giữa hệ thống đang chạy theo phương pháp cũ và hệ thống chạy theo phương pháp đề xuất

- Phương pháp kiểm chứng: việc kiểm chứng dựa vào phương pháp so sánh kết quả trên bản đồ với thực tế

Một số kết quả thu được

Qua tìm hiểu, nghiên cứu, áp dụng phương pháp làm trơn (smoothing) dữ liệu cho dữ liệu giao thông, trong phạm vi của luận văn đã tạo được bước khởi đầu trong việc bổ sung dữ liệu trong lĩnh vực giao thông Chúng tôi cũng đề xuất dùng phương pháp làm trơn spline để tạo tập hợp các điểm dữ liệu được làm trơn từ dữ liệu quá khứ, kết hợp với dữ liệu thực tế trong ngày và tham số xu hướng từ đó tính toán giá trị dự báo tại thời điểm hiện tại

Tuy nhiên để kiểm tra được độ chính xác của giải thuật, chúng ta cần tiến hành đối chiếu nhiều phương pháp khác nhau và kiểm tra trên thực tế.

Cấu trúc luận văn

Như đã trình bày thì chương đầu tiên là phần giới thiệu về luận văn Phần còn lại của luận văn bao gồm các chương sau:

- Chương 2: Các công trình liên quan: ở chương này chúng tôi sẽ giới thiệu về hệ thống BK Smart Traffic cũng như ưu nhược điểm của hệ thống, những đóng góp của luận văn cho hệ thống Bên cạnh đó cũng trình bày một công trình làm trơn dữ liệu chuỗi thời gian

- Chương 3: Cơ sở lý thuyết, trong chương này chúng tôi sẽ đề cập về góc nhìn lý thuyết để bảo vệ phương pháp bổ sung dữ liệu chuỗi thời gian trong lĩnh vực giao thông

- Chương 4: Bổ khuyết dữ liệu giao thông, chúng tôi sẽ trình bày chi tiết về dữ liệu giao thông ở hệ thống BK Smart Traffic, cách thức bổ khuyết dữ liệu cho hệ thống

- Chương 5: Trình bày cách thức thực hiện và thực nghiệm

CÁC CÔNG TRÌNH LIÊN QUAN

Hệ thống BK Smart Traffic

Do việc xử lý và bổ khuyết dữ liệu giao thông là một vấn đề khác mới trong giới khoa học nên cũng chưa có một bộ dữ liệu chuẩn nào cho lĩnh vực này cho chúng ta nghiên cứu, so sánh đối chiếu Tại trường đại học Bách Khoa Thành phố Hồ Chí Minh, khoa khoa học và kỹ thuật máy tính đã xây dữ hệ thống BK Smart Traffic (http://traffic.hcmut.edu.vn) nhầm tạo nguồn dữ liệu cho quá trình nghiên cứu và cung cấp giải pháp cho hệ thống giao thông thông minh

Hệ thống BK Smart Traffic là một hệ thống cung cấp nhiều giải pháp giao thông thông minh, trong đó nó sử dụng dữ liệu GPS từ các phương tiện lưu thông trên đường như xe buýt, taxi, xe ô tô cá nhân và các thiết bị di động có khả năng cung cấp dữ liệu GPS khác Từ hai điểm GPS kế tiếp nhau của cùng một thiết bị và một số giải thuật heristic, hệ thống tính toán được dữ liệu về vận tốc của thiết bị, đây chính là cơ sở cho nhiều bài toán về giao thông thông minh Hình sau là tổng quan về hệ thống xử lý và lưu trữ của hệ thống BK Smart Traffic

Hình 1 Tổng quan hệ thống BK Smart Traffic

Vì vậy trong luận văn này có sử dụng dữ liệu trong hệ thống BK Smart Traffic xem như là dữ liệu gốc để nghiên cứu

- Dữ liệu dùng cho việc nghiên cứu: tháng 7 năm 2015 - Dữ liệu dùng cho việc kiểm tra đối chiếu: 01 – 07 tháng 8 năm 2015

Dữ liệu chuỗi thời gian (Time series)

Vấn đề làm trơn dữ liệu đã được đề cập rất nhiều trong các báo cáo khoa học, sau đây là một vài tài liệu mà chúng tôi đã tham khảo trong quá trình thực hiện luận văn này

Bên cạnh đó, tài liệu về dữ liệu chuỗi thời gian cũng gián tiếp giúp chung tôi có cái nhìn tổng quát hơn về dữ liệu, nhầm nâng cao độ chính xác của đề tài Trong giới hạn của luận văn này, chúng tôi chưa thể áp dụng ngay các mô hình dự báo khác như mạng nơ-ron (Neural Network), gom cụm (Clustering) hay mạng Bayes (Bayesian Network) cho dữ liệu chuỗi thời gian trong lĩnh vực giao thông như một kênh để so sánh kết quả

2.1 Làm trơn bằng hàm spline

“Smoothing by Spline Functions” [5] của CHRISTIAN H REINSCH được công bố năm 1967 Trong báo cáo này, Christan đã gợi ý hướng giải quyết cho vấn đề làm trơn dữ liệu bằng hàm spline Ông cũng cung cấp giải thuật cho việc thực thi hàm spline bằng chương trình ALGOL

Trong những năm gần đây hàm spline đã được ứng dụng rộng rãi, đặc biệt trong lĩnh vực nội suy Tuy nhiên có nhu cầu thay thế nội suy bằng các phương pháp làm trơn

Thông thường, một tình huống như vậy xảy ra khi các giá trị toạ độ được đưa ra chỉ là một xấp xỉ Ví dụ như chúng được cung cấp từ dữ liệu thực nghiệm Trong trường hợp này các dang hàm số căn bản được biết đến sẽ được ưu tiên, và mộ đề nghị cho việc xếp xỉ là dung hàm số làm khớp các điểm dữ liệu bằng cách áp dụng bình phương tối thiểu Hoặc là một hàm spline có thể được sử dụng Các giải thuật trong bài viết này cung cấp một chứng năng giống như hàm spline, tối ưu hoá trong một ngữ cảnh cụ thể Ứng dụng của nó chủ yếu là vẽ các đường cong

Võ Thanh Biết Trang 15 2.2 Những mô hình thống kê trong S

Statistical Models in S [6] là quyển sách toàn diện nói về các mô hình thống kê dữ liệu và đã được R tham khảo và tạo ra rất nhiều hàm làm trơn dữ liệu Quyển sách gồm các chương:

- Chương 1: Khởi đầu (An appetizer) - Chương 2: Các mô hình thống kê (Statistical models) - Chương 3: Dữ liệu cho các mô hình (Data for models) - Chương 4: Các mô hình tuyến tính (Linear models) - Chương 5: Phân tích sai số; các thử nghiệm được thiết kế (Analysis of variance; designed experiments) - Chương 6: Các mô hình tuyến tính tổng quát (Generalized linear models) - Chương 7: Các mô hình tổng quát mở rộng (Generalized additive models) - Chương 8: Các mô hình hồi quy cục bộ (Local regression models)

- Chương 9: Các mô hình dựa trên cây (Tree-based models) - Chương 10: Các mô hình phi tuyến (Nonlinear models)

2.3 Phân đoạn chuỗi thời gian cho dự báo thời tiết

Segmenting Time Series for Weather Forecasting [4]: bài viết nói về dự án SUNTIME, dự án nhằm nghiên cứu và phát triển mô hình tổng quát cho việc tóm lượt dữ liệu chuỗi thời gian trong lĩnh vực thời tiết Bài viết cũng trình bày ba cách khác nhau để mô hình hoá dữ liệu

2.4 Mạng nơ ron trong dự báo dữ liệu chuỗi thời gian

Neural Networks for Time-Series Forecasting [7]: bài viết cung cấp cái hình tổng quan về sự phát triển của các mô hình dự báo chuỗi thời gian với mạng nơ-ron, lợi thế của nó so với các mô hình dự báo truyền thống Một vài vấn đề quan trọng trong dữ liệu và mô hình cũng nêu lên trong tài liệu này

Mạng nơ ron đã trở thành một phương pháp quan trọng cho việc dự báo dữ liệu chuỗi thời gian Sự quan tâm đang tăng lên trong việc sử dụng mạng nơ ron để mô hình hoá và dự báo dữ liệu chuỗi thời gian Phần này chúng tôi cung cấp một vài tiến triển hiện nay trong việc dự báo dữ liệu chuỗi thời gian với mạng nơ ron, một mô tả ngắn về mạng nơ ron, lợi thế của nó qua các mô hình dự báo truyền thống, một vài ứng dụng hiện tại Một vài vấn đề về mô hình và dữ liệu trong dự báo chuỗi dữ liệu thời gian sẽ được đề cập Thêm vào đó một vài tiến bộ gần đây trong phương pháp luận như là tính mùa trong mô hình chuỗi dữ liệu thời gian, dự báo đa chu kỳ, và toàn bộ phương pháp sẽ được xem qua

Một vài ứng dụng về dự báo dữ liệu chuỗi thời gian gần đây:

Air pollutant concentration Gautama et al (2008) Carbon monoxide concentration Chelani and Devotta (2007)

Electrical consumption Azadeh et al (2007) Electricity load Hippert et al (2005), Xiao et al (2009) Electricity price Pino et al (2008)

Exchange rate Zhang and Wan (2007)

Food grain price Zou et al (2007)

Food product sales Doganis et al (2006) Gold price changes Parisi et al (2008)

Hình 2 Mô hình mạng nơ ron

Võ Thanh Biết Trang 17 Macroeconomic time series Tera¨svirta et al (2005)

Stock index option price Wang (2009) Stock returns volatility Bodyanskiy and Popov (2006) Tourism demand Palmer et al (2006), Chu (2008)

Traffic flow Jiang and Adeli (2005)

Ozone level Coman et al (2008)

River flow Jain and Kumar (2007)

Wind speed Cadenas and Rivera (2009)

Vấn đề trong mô hình hoá mạng nơ ron: phát triển mô hình cho ứng dụng dự báo dữ liệu chuỗi thời gian không phải là việc làm bình thường Mặc dù nhiều phần mềm tồn tại để giảm công việc trong việc xây dựng một mô hình màng nơ ron, nó thì quan trọng cho các bộ dự báo (forecasters) để hiểu nhiều vấn để quan trọng xung quanh tiến trình xây dựng mô hình mạng nơ ron Nó cũng quan trọng để chỉ ra rằng việc xây dựng một mạng nơ ron thành công là sự kết hợp của nghệ thuật và khoa học, chỉ phần mềm thôi thì không đủ để giải quyết tất cả các vấn để của tiến trình Sẽ là mù quáng nếu chúng ta chỉ đưa dữ liệu vào một phần mềm và hy vọng nó sẽ tự động cho ra một dự báo thoả mãn yêu cầu

Vấn đề mô hình hoá mạng nơ ron bao gồm việc chọn lựa loại mạng và kiến trúc, thuật toán, cũng như kiểm tra, ước lượng và chọn lựa mô hình Một vài trong số này có thể được giải quyết thông qua tiến trình xây dựng mô hình trong khi một số khác thì phải được quan tâm và lên kế hoạch cẩn thận trước khi thật sự bắt đầu mô hình hoá

Vấn đề dữ liệu: những quyết định quan trọng cho một bộ dự báo mạng nơ ron phải bao gồm chuẩn bị dữ liệu, làm sạch dữ liệu, tách dữ liệu và chọn lựa biến đầu vào Mạng nơ ron là các kỹ thuật chèo lái dữ liệu Do đó chuẩn bị dữ liệu rất quan trọng trong việc xây dựng một mô hình mạng nơ ron thành công Nếu thiết tập dữ liệu tốt, đầy đủ, đại diện thì sẽ khó phá triển một mô hình dự báo hiệu quả Độ tin cậy của các mô hình mạng nơ ron thường phụ thuộc vào độ lớn và chất lượng dữ liệu

Thiết kế mạng: chọn lựa kiến trúc và thiết kế mạng nơ ron là những công việc quan trọng và khó khăn Không chỉ có nhiều cách để xây dựng mô hình và rất nhiều lựa chọn để trong quá trình xây dựng và chọn lựa mô hình, mà còn vô số thông số và vấn để phải ước lượng và thử nghiệm trước khi một mô hình thoả mãn yêu cầu xuất hiện Thêm vào những khó khăn đó là thiếu các tiêu chuẩn trong tiến trình Một số lượng lớn các quy luật có sẳn nhưng không phải tất cả chúng có thể áp dụng một cách mù quáng cho một tình huống mới

Trong việc xây dựng một mô hình thích hợp cho công việc dự báo thì các thử nghiệm là thường xuyên cần thiết Do đó một thiết kế thử nghiệm tốt là cần thiết Các thảo luận về nhiều khía cạnh trong vấn đề mô hình hoá, chúng ta có thể tham khảo Kaastra and Boyd (1996), Zhang et al (1998), Coakley and Brown (1999), and Remus and O’Connor (2001)

Kết luận

Sau khi tìm hiểu qua các công trình liên quan chúng tôi quyết định dùng nền tảng dữ liệu chuỗi thời gian để tiến hành bổ khuyết dữ liệu trong lĩnh vực giao thông mà cụ thể là sử dụng phương pháp làm trơn spline là hướng nghiên cứu chính của đề tài này Với góc quan sát là tại một đoạn đường qua thời gian, từ đó đưa ra giải pháp bổ sung dữ liệu vào dữ liệu chuỗi thời gian này

CƠ SỞ LÝ THUYẾT

Mô hình hồi quy tuyến tính (linear regression model)

J M Chambers đã trình bày cách tiếp cận mô hình hồi quy tuyến tính (linear model [6]) vào năm 1992 Mô hình này đơn giản là thể hiện sự phụ thuộc của một biến Y vào một biến X theo một hàm số quen thuộc là:

Hoặc thể hiện sự phụ thuộc của biến Y vào nhiều biến X, ta có công thức như sau:

Trong đó các 𝛽i với i = 0 1 được gọi là các hệ số thành phần Nhưng để tổng quá hoá chúng ta thường dùng thêm một tham số “𝜀” để chỉ mức độ dữ liệu lỗi cho phép trong quá trình phân tích dữ liệu:

Hình 3 Mô hình hồi quy tuyến tính

Nhưng làm thế nào để tìm ra được các giá trị cho các tham số 𝛽 cho hàm dự báo có nhiều biến thành phần? Ta sẽ đi giải quyết vấn đề đó ngay sau đây Chúng ta viết lại công thức tổng quát cho hàm dự báo tuyến tính như sau:

Với (𝜀) = 0 và 𝜀 độc lập với X hàm dự báo ở đây sẽ là 𝑟(X1) = (Y|X1), (𝑥) = (Y|X1

= 𝑥) Ở đây chúng ta viết X1 vì chúng ta cho rằng chỉ có 1 bộ dự báo (predictor) hay nói cách khác chúng ta chỉ có một biến x phụ thuộc vào một biến y)

Trong dự báo tuyến tính, chúng ta dự đoán Y từ hàm tuyến tính của X1 trong dạng hàm Y = 𝛽0 + 𝛽1X1, Nếu chúng ta xác định được 𝛽0, 𝛽1 bằng cách làm nhỏ giá trị MSE (Mean Squared Error)

Và chúng ta đã biết

Chuyện gì sẽ xảy ra nếu có p bộ dự báo hay p biến thành phần X1…Xp? Chúng ta sẽ tổng hợp các biến X lại thành một vector dự báo X = (X1,…, Xp) Và bây giờ chúng ta có hàm dự báo cho Y như là một hàm tuyến tính như sau:

Với 𝛽 = (𝛽 1 , … , 𝛽 𝑝 ) ∈ ℝ p là một vector hệ số và tiêu chuẩn MSE của chúng ta như sau:

Hệ số tối ưu là:

Kiểm tra chiều của các tham số ta có tập hợp các tham số dự báo: Var(X) là p 𝗑 p, Cov(X, Y) là p 𝗑 1, 𝛽 là p 𝗑 1, 𝔼(𝑋) là p 𝗑 1

Mô hình nhiều biến sẽ là:

𝑌 = 𝑟(𝑋) + 𝜀 Để tiếp tục chúng ta cần thừa nhận một số vấn đề cơ bản:

- Có sự phụ thuộc tuyến tính giữa hai biến Y và X, như vậy 𝔼(Y|X) = 𝑟(X) thực sự là một hàm tuyến tính của X

- Tham số lỗi 𝜀 thì thông thường được phân bố và giá trị trung bình là 0 (zero)

- Tham số lỗi 𝜀 thì không phụ thuộc vào X

Tóm tắt cho các thừa nhận:

𝑌|𝑋 ~ 𝑁(𝛽 0 + 𝛽 𝑇 𝑋, 𝜎 2 ) Ước lượng hồi quy tuyến tính từ các mẫu Trong thực tế, chúng ta không truy cập phân bố của X,Y vì vậy chúng ta không thể tính toán các bộ hệ số như đã nêu ở (1) Thay vào đó chúng ta có n mẫu độc lập (𝑥𝑖,𝑦𝑖), 𝑖 1, n từ cùng một phân bố Chú ý 𝑦 𝑖 ∈ ℝ và mỗi 𝑥 𝑖 ∈ ℝ 𝑝

Chúng ta tổng hợp các đâu ra 𝑦 = (𝑦1, 𝑦n) vào một véc tơ và các biến dự báo

] ∈ ℝ 𝑛 × 𝑝 thành một dòng của ma trận

Viết lại mô hình tuyến tính:

Chúng ta chỉ lấy cột đầu tiên của x để trở thành vector toàn 1 phần tử, bằng cách này chúng ta không phải viết các tham số riêng biệt Và mô hình trở thành:

Bên dưới là bình phương lỗi (squared error):

Võ Thanh Biết Trang 24 Tham số dự báo mẫu:

𝛽̂ = (𝑥 𝑇 𝑥) −1 𝑥 𝑇 𝑦 Áp dụng phương pháp này vào trong dự báo dữ liệu giao thông ta có như hình bên dưới (Hình 4) để dự báo cho dữ liệu giao thông ngày 01/07/2015 tại segment 114073

Hình 4: Đường dự báo dựa vào đường thẳng

Mô hình hồi quy phi tuyến (polynomial regression model)

Nếu mô hình dự báo tuyến tính được thể hiện ở hàm số bậc 1, thì mô hình hồi quy phi tuyến được thể hiện ở hàm số bậc n

Với n =2, hàm số được biểu diễn như sau:

Và ở dạng tổng quát hàm số biểu diễn:

Hình sau (Hình 5) là một minh hoạ cho mô hình hồi quy phi tuyến Biểu diễn cho hàm số bậc 2 là một hình dạng parabol (màu xanh) và đường bậc 3 (màu vàng)

Hình 5 Mô hình hồi quy phi tuyến Áp dụng vào hệ thống BK Smart Traffic cho dữ liệu tại phân đoạn 114073, ngày 01/07/2015 với hàm số bậc 2.

Hình 6 Mô hình hồi quy tuyến tính (BK Smart Traffic)

Nội suy (Interpretation regression model)

Cách tiếp cận của hồi quy tuyến tính và hồi quy phi tuyến là tìm ra một hàm số toàn cục (Global Function), theo đó nó thể hiện mối quan hệ giữa một biến độc lập (x) và một biến phụ thuộc (y) Trên thực tế có rất nhiều trường hợp chúng ta không thể tìm được một hàm số toàn cục thể hiện sự phụ thuộc giữa 2 biến, nhưng chúng ta có thể tìm được sự phụ thuộc cục bộ (local) giữa chúng trong 1 miền giá trị nhất định Hàm số spline được ứng dụng rộng rãi cho mục đích nội suy [5]

Võ Thanh Biết Trang 27 3.1 Splines

Trước khi giới thiệu làm trơn spline (smoothing spline) chúng ta cần hiểu spline là gì? Trong toán học, spline là một đường được biễu diễn bởi một hàm số đa thức, nó có một mức độ làm trơn cao (high degree of smoothness) tại các điểm nối của đa thức (được biết đến như là knots) Định nghĩa: một hàm số f : ℝ→ ℝ là một thứ tự spline với các điểm knot, nếu:

- f là đa thức bậc k trên mỗi đoạn (-∞; t1]; [t1; t2]; ; [tm;∞), và - f (j) là đạo hàm thứ j của f, thì liên tục tại t1, , tm , với j = 0,1 k -1

Trường hợp phổ biến nhất xem k =3, được gọi là cubic splines Những hàm số phân đoạn bậc 3 này liên tục và có đạo hàm Lưu ý rằng với tính liên tục trong đạo hàm bậc thấp làm cho spline rất mịn Theo một thống kê chỉ ra rằng cubic splines là rất mịn, và chúng ta không thể nhận biết knots bằng mắt

Làm sao để ta tham số hoá splines với các knots tại tập các điểm cho trước t1, , tm? Cách tự nhiên nhất là sử dụng phân đoạn giá trị nền tảng (truncated power basis), 𝑔1, , 𝑔m+k+1 Được định nghĩa như sau:

𝑔 1 (𝑥) = 1, 𝑔 2 (𝑥) = 𝑥, … 𝑔 𝑘+1 (𝑥) = 𝑥 𝑘 𝑔 𝑘+1+𝑗 (𝑥) = (𝑥 − 𝑡 𝑗 ) + 𝑘 , 𝑗 = 1, … 𝑚 Ở đây 𝑥+ biểu diễn cho thành phần dương của 𝑥, 𝑥 = max {𝑥, 0}

3.2 Splines hồi quy (Regression splines)

Vậy chúng ta có thể làm gì với splines, trong thực tế chúng ta có thể thực hiện dự báo trên chúng Trong một trường hợp khác, một mẫu cho trước (𝑥i, 𝑦i), i = 1, , n Chúng ta có thể ước lượng hàm dự báo 𝑟(𝑥) = 𝔼(Y|X = 𝑥) bằng cách làm khớp (fitting) một thứ tự spline bậc k với các knots tại các vị trí cho trước t1, ,tm

Võ Thanh Biết Trang 28 Điều này có nghĩa là các hàm số có dạng ∑ 𝑚+𝑘+1 𝑗=1 𝛽 𝑗 𝑔 𝑗 với 𝛽1, ,𝛽m+k+1 là các hệ số và 𝑔1, , 𝑔m+k+1 là các hàm số phân đoạn giá trị nền tảng cho thứ tự splines bậc k trên các knots t1, , tm

Các hệ số 𝛽1, ,𝛽m+k+1 được ước lượng bởi bình phương nhỏ nhất Đó là việc đầu tiên chúng ta tìm ra 𝛽̂1, , 𝛽̂m+k+1 để làm nhỏ tiêu chuẩn

Và định nghĩa spline hồi quy (regression splines)

Biểu thức (1) trông có vẻ quen thuộc sau khi thay đổi ký hiệu 𝑦 = (𝑦1 𝑦n) ∈ ℝ n và định nghia ma trận nền tảng G ∈ ℝn x (m+k+1)

(Cột thứ j của G tạo ra đánh giá của 𝑔𝑗 trên các điểm 𝑥1, 𝑥n) như vậy ta có thể viết lại tiêu chuẩn (1) như sau:

Và từ những gì chúng ta biết về hồi quy tuyến tính, hệ số tối ưu là:

Splines hồi quy là những đường làm trơn tuyến tính, để thấy được điều này biểu diễn 𝑔(𝑥) = (𝑔 1 (𝑥), 𝑔 𝑚+𝑘+1 (𝑥) ) và hồi quy spline ước lượng tại 𝑥 là:

Một bộ trọng số của 𝑦i, i = 1, n (trọng số được cho bởi thành phần của

Hồi quy spline là một công cụ cổ điển, đã cung cấp cho chúng ta sự chọn lựa các điểm knots tốt t1, tn; nhưng thông thường việc chọn lựa knots là một công việc phức tạp trong ứng dụng thực tế Có một giải pháp mà chúng ta không phải chọn knots là smoothing splines

3.3 Splines tự nhiên (Natural Splines)

Một vấn đề của spline là ước lượng có xu hướng của các hành vi di chuyển, chúng có sai số lớn tại các điểm biên trong miền 𝑥1, , 𝑥n với thứ tự k lớn

Một cách để điều chỉnh vấn đề này là ưu tiên hàm phân đoạn đa thức (the piecewise polynomial function) để có bậc thấp hơn ở vị trí trái cùng và phải cùng của knots – đó chính xác là điều mà Natural spline thực hiện Một spline có thứ tự k là một phân đoạn đa thức như sau, với knots tại t1 < < tm

- 𝑓 là một hàm đa thức bậc k trên mỗi đoạn [t1, t2], , [tm-1, tm] - 𝑓 là một hàm đa thức bậc (k-1)/2 trên đoạn (-∞, t1] và [tm, ∞) - 𝑓 liên tục và có đạo hàm liên tục thứ tự 1 k – 1 tại các knots của nó t1, ,tm

Spline tự nhiên tuyệt đối được định nghĩa cho thứ tự k lẻ, trường hợp chung nhất có k = 3, spline tự nhiên bậc 3, nó có đường biên tuyến tính

3.4 Làm trơn splines (Smoothing Splines)

Làm trơn splines là một điểm thú vị: những trình ước lượng (estimators) thực hiện một phép nội suy có quy tắc trên nền tảng spline tự nhiên, đặt các knots tại các vị trí 𝑥1, , 𝑥n Làm trơn spline giải quyết được vấn đề chọn lựa knots (chúng sử dụng những giá trị

Võ Thanh Biết Trang 30 đầu vào như là knots), đồng thời, chúng điều khiển việc quá khớp (overfitting) bằng cách giảm hệ số hàm ước lượng

Chúng ta sẽ tập trung vào làm trơn spline bậc 3 (mặc dù chúng có thể được định nghĩa với thứ tự k lẻ) Chúng ta quan tâm những hàm số thuộc dạng ∑ 𝑛 𝑗=1 𝛽 𝑗 𝑔 𝑗 với 𝑔1,

,𝑔n là các hàm phân đoạn giá trị nền tảng cho các splines tự nhiên bậc 3 với knots là 𝑥1, , 𝑥n Các hệ số được chọn ở mức tối thiểu:

Khi G ∈ ℝ n x n thì ma trận nền tảng được định nghĩa:

Và 𝛺 ∈ ℝ n x n thì ma trận mục tiêu được định nghĩa:

Cho trước hệ số tối ưu 𝛽̂ tối thiểu hoá (3), hàm làm trơn spline tại 𝑥 được định nghĩa:

Dạng chính xác của ma trận mục tiêu 𝛺 trong thực tế không quá quan trọng Việc chúng ta nên đánh đổi để có được phần mở rộng 𝜆𝛽 𝑇 𝛺𝛽 trong (3) so sánh với tiêu chuẩn thường dùng (2) cho hồi quy spline Đây được gọi là phần có quy tắc (regularization), và nó có ảnh hưởng việc giảm thành phần 𝛽̂ về 0 Tham số 𝜆 ≥ 0 là tham số điều chỉnh, thường được gọi là tham số làm trơn (smoothing parameter) 𝜆 càng lớn thì càng co lại (shrinkage)

Lập lại việc đó cho mỗi lần tính 𝛽̂ 𝑗 tương ứng cho một hàm nền tảng 𝑔 𝑗 riêng lẻ

Thành phần số hạng 𝛽 𝑇 𝛺𝛽 trong (3) ảnh hưởng nhiều hơn hệ số 𝛽̂ 𝑗 tương ứng hàm số 𝑔 𝑗

Võ Thanh Biết Trang 31 gợn sóng hơn (wigglier) Vì thế nếu như chúng ta tăng 𝜆, nghĩa là chúng ta làm hàm nền tảng gợn sóng hơn

Giống như hồi quy bình phương tối thiểu, hệ số tối thiểu hoá 𝛽̂ là

Do đó, làm trơn spline được nhìn nhận như là bộ làm trơn tuyến tính khi 𝑔(𝑥) (𝑔(𝑥 1 ), … , 𝑔(𝑥 𝑛 )), chúng ta có:

𝑟̂(𝑥) = 𝑔(𝑥) 𝑇 𝛽̂ = 𝑔(𝑥) 𝑇 (𝐺 𝑇 𝐺 + 𝜆𝛺) −1 𝐺 𝑇 𝑦 là tập hợp tuyến tính các điểm 𝑦𝑖, 𝑖 = 1, ,n

Một điều làm cho làm trơn spline càng thêm thú vị là chúng có thể được biến đổi trực tiếp từ dạng của một hàm số tối thiểu kỳ vọng Xem như tối thiểu hoá trên tất cả các hàm số 𝑓,

Tiêu chuẩn này đánh đổi bình phương phương sai của 𝑓 trên (𝑥𝑖,𝑦𝑖), 𝑖 = 1, , n, với một dạng chuẩn phát triển lớn khi đạo hàm bậc hai của 𝑓 là gợn sóng (wiggly)

Nhật xét rằng, nó thường xảy ra khi có một hàm duy nhất tối thiểu hoá tiêu chuẩn này và rằng hàm này chính là bộ ước lượng spline bậc 3 𝑟̂ đã định nghĩa ở trên

Hình bên dưới ( Hình 7 ) là chúng ta áp dụng làm trơn spline cho phân đoạn 114073 trong ngày 01/07/2015

Hình 7 Nội suy dữ liệu BK Smart Traffic

BỔ KHUYẾT DỮ LIỆU GIAO THÔNG

Đặt vấn đề

Hình 8 dữ liệu giao thông tại phân đoạn 114073 trong ngày 01/08/2015

Trục đứng của biểu đồ thể hiện vận tốc của xe đi qua phân đoạn 114073, trục ngang thể hiện thời gian Từ biểu đồ trên chúng ta có một vài nhận xét:

- (1) Mật độ dữ liệu không đều trong các khoản thời gian như nhau Ví dụ chúng ta có thể thấy mật độ dữ liệu từ 8:00 đến 10:00 ít hơn là từ 10:00 đến 12:00 - (2) Trong 1 khoản thời gian ngắn vận tốc tại các điểm khác nhau có sự chênh lệch đáng kể Ví dụ, trong khoản thời gian 10:00 chúng ta có 4 điểm dữ liệu có vận tốc từ dưới 10km/h đến khoản 40 km/h

- (3) Hệ thống chỉ nghi nhận dữ liệu từ khoản 5:00 đến 21:00 hằng ngày Ngoài khoản thời gian này hệ thống không nghi nhận được dữ liệu

Từ dữ liệu đầu vào này chúng ta sẽ phải tìm cách giải quyết một số vấn đề sau:

- (1) Làm cho các điểm dữ liệu đều hơn, để đảm bảo mỗi khung thời gian chúng ta đều có dữ liệu

- (2) Trong mỗi khung thời gian giá trị của các điểm dữ liệu là như nhau, để phục vụ cho quá trình bổ khuyết dữ liệu sau này

- (3) Bổ sung dữ liệu cho những khung thời gian không có dữ liệu trong thực tế.

Hướng giải quyết

2.1 Giải thích dữ liệu Trong quá trình khảo sát dữ liệu và đối chiếu thực tế, ta thấy mỗi điểm dữ liệu ở biểu đồ trên là đại diện cho 1 lần hệ thống nghi nhận 1 dữ liệu của 1 thiết bị phát tín hiệu

GPS Khi có nhiều thiết bị cùng di chuyển với vận tốc khác nhau qua cùng 1 đoạn đường (segment) trên đường chúng ta sẽ ghi nhận được nhiều tín hiệu GPS khác nhau với vận tốc khác nhau Việc này cũng giải thích cho nhận xét (1) rằng ở tại mỗi khung thời gian khác nhau sẽ có mật độ tín hiệu khác nhau, chúng ta có thể dễ dàng nhận thấy điều này khi so sánh số lượng xe di chuyển qua một đoạn đường trong giờ thấp điểm và cao điểm Ở tại các đoạn đường có nhiều làn đường, các xe di chuyển ở các làn đường khác nhau có thể có vận tốc khác nhau, đặc biệt nếu một xe chạy ở làn trong cùng (gần với lề đường) và đang di chuyển chậm để rẻ phải hoặc dừng lại sẽ có vận tốc thấp hơn nhiều so với xe đang di chuyển ở làn ngoài cùng (gần dãy phân cách hay tim đường) đang chạy ở tốc độ cao Việc này cũng giải thích cho nhận xét (2) rằng trên cùng 1 đoạn đường ở trong cùng một khoản thời gian, có nhiều tín hiệu GPS với vận tốc chênh lệch nhau lớn

Nhận xét (3), thông thường các xe chỉ bật thiết bị phát tín hiệu GPS khi xe đang di chuyển trên đường và các xe thường không di chuyển vào ban đêm Mặc khác hệ thống chỉ nghi nhận và lưu vào cơ sở dữ liệu với các tín hiệu GPS có vận tốc lớn hơn 0

Từ việc phân tích dữ liệu, chúng ta có thể thấy dữ liệu mà hệ thống nghi nhận hoàn toàn đúng đắn và chúng ta chấp nhận thực tế là để giải quyết vấn đề đã nêu ở mục đặt vấn đề không phải là điều dễ dàng

Do thời gian đầu dữ liệu ghi nhận còn ít, để đảm bảo dữ liệu tại mỗi khung thời gian đều có dữ liệu và dữ liệu không quá nhiễu hay mức độ chênh lệch về giá trị dữ liệu (vận tốc) của một điểm GPS là không quá lớn Trong luận văn này chúng tôi đề xuất 15 phút là

Võ Thanh Biết Trang 35 độ dài cho một khung thời gian Thời gian sau khi dữ liệu tương đối đầy đủ, chúng ta có thể giảm độ dài của khung thời gian cho phù hợp Từ đây chúng ta để đơn giản hoá chúng ta sẽ gọi khung dữ liệu là “frame”, nhưng vậy 1 ngày chúng ta có 96 frame

Giá trị của một khung thời gian là dữ liệu đại diện khả năng lưu thông (throughput) của xe đi qua một đoạn đường Nếu tại 1 khung thời gian chỉ có 1 xe đi qua đoạn đường này hệ thống sẽ dùng giá trị này đại diện cho khả năng lưu thông của xe đi qua đoạn đường đó tại khung thời gian đã định Nhưng nếu có nhiều xe đi qua cùng đoạn đường vào 1 khung thời gian, việc này không được đại diện bởi vận tốc của một xe đi qua đoạn đường với vận tốc cao nhất hay vận tốc của một xe đi qua đoạn đường đó với vận tốc thấp nhất, mà chúng ta sẽ lấy gia trị trung bình vận tốc của tất cả các xe đi qua đoạn đường đó trong khung thời gian cho trước Như vậy chúng ta có thể đảm bảo được rằng nếu có nhiều xe đi qua đoạn đường với tốc độ cao thì khả năng lưu thông của đoạn đường đó là cao và ngược lại nếu có nhiều xe đi qua đoạn đường đó với tốc độ thấp thì khả năng lưu thông của đoạn đường đó là thấp Đến đây chúng ta có thể giải quyết được mục tiêu (2)

Trong mục trên chúng ta đã giải quyết được mục tiêu (2), đây là phần cơ bản và là tiền đề để chúng ta có thể giải quyết được mục tiêu (1)

Sau khi giải quyết xong mục tiêu (2), chúng ta thấy dữ liệu ( Hình 9 ) đã tương đối trải đều trên các frame khác nhau trong ngày, chỉ có khoản đầu ngày và cuối ngày thì chưa có dữ liệu như đã đề cập ở mục phân tích dữ liệu Ngoài ra chúng ta có thể nhận thấy frame 60 không có dữ liệu Do đó chúng ta cần phải giải quyết mục tiêu (1) để đảm bảo rằng dữ liệu tồn tại ở tất cả các frame bằng cách thực hiện các biển pháp dự báo trong cho dữ liệu chuỗi thời gian

Hình 9: Khả năng lưu thông của phân đoạn 114037 ngày 01/08/2015

Hầu hết các mô hình dữ báo cho dữ liệu chuỗi thời gian đều thông qua quá trình học dữ liệu (Neural Network, Markov Model, ) và chúng ta cần đảm bảo dữ liệu cho qua trình học là đầy đủ, sau đó mới có thể tiến hành dự báo cho dữ liệu chuỗi thời gian Trong bộ dữ liệu chúng ta đang có, nó thiếu ngay từ dữ liệu học Riêng phương pháp làm trơn dữ liệu (đã đề cập ở mục cơ sở lý thuyết) chúng ta có thể thực hiện ngay khi dữ liệu học còn thiếu

- Hồi quy tuyến tính ( Hình 4 ): Trong khi dữ liệu thực tế có độ biến thiên lớn, đường dự báo lại cho ra một đường thẳng Điều này có nghĩa chúng ta dự báo vận tốc có thể đạt được khi đi qua một đoạn đường là không đổi hoặc thay đổi ít theo thời gian, nó không thể hiện được sự thay đổi về mật độ, lưu lượng xe trong giờ cao điểm (vận tốc xe di chuyển qua đoạn đường thấp) hay thấp điểm (vận tốc xe di chuyển qua đoạn đường cao) Do đó phương pháp hồi quy tuyến tính cho kết quả không cao và không sát với thực tế

- Hồi quy phi tuyến ( Hình 6 ): trong phương pháp hồi quy phi tuyến chúng ta cần xác định bậc của hàm số trước khi tìm các tham số phù hợp Chúng ta có thể dễ dàng nhận thấy có 2 khung giờ cao điểm trong ngày, vậy bậc của mô hình có thể là bậc 4 với dạng của độ thì theo dạng “𝑤” Tuy nhiên, nếu chúng ta chọn hàm số bậc 4 để áp dụng trong thực tế thì nó mang tính chất áp đặt, trong khi không phải ở tất các các đoạn đường đều có 2 khung giờ cao điểm như đã nêu, có những

Võ Thanh Biết Trang 37 đoạn đường luôn thông thoáng suốt cả ngày, có những đoạn đường chỉ có một khoản thời gian trong ngày là bị ùn tắc Do đó với mô hình này cũng khó áp dụng trên thực tế

- Nội suy ( Hình 7 ): với mô hình này, đường dự báo tiệm cận với dữ liệu thực tế do đó chúng ta có thể áp dụng mô hình này vào thực tế để triển khai bổ khuyết dữ liệu

Trong đề tài này chúng tôi áp dụng phương pháp được nêu trong [5,6] để làm trơn dữ liệu cho một lĩnh vực đương đối mới mẻ trong các nghiên cứu trước đây về xử lý dữ liệu chuỗi thời gian

Kết quả sau khi làm trơn sẽ được sử dụng để tiến hành bổ khuyết dữ liệu theo giải thuật sau, Với

- S’i: vận tốc dự báo tại frame i sẽ được bổ khuyết - Ri: vận tốc trong kết quả làm trơn dữ liệu

HIỆN THỰC VÀ THỬ NGHIỆM

Đưa dữ liệu đầu vào vào hệ thống

Do đề tài này chỉ sử dụng dữ liệu lưu trữ trên hệ thống BK Smart Traffic nên cần thực hiện bước này để đưa dữ liệu vào hệ thống Dữ liệu đầu vào là tập tin csv lưu thông tin dữ liệu của 1 tín hiệu GPS

Hình 10: Dữ liệu được lưu trữ ở hệ thống BK Smart Traffic

Trong đó có một số thông tin quan trọng như:

- Device_id: biển số xe đang lưu thông hoặc mã của thiết bị di động - (lat, lon): vị trí mà thiết bị GPS phát ra, theo vĩ độ và kinh độ - Date_time: thời gian mà thiết bị GPS phát ra

$ java -jar BKTrafficTool.jar ImportGPS [file name] [start from]

- [file name]: tên tập tin (hoặc đường dẫn đầy đủ) của tập tin chứa dữ liệu lưu trữ

- [start from]: thứ tự dòng dữ liệu trong tập tin lưu trữ mà chương trình sẽ bắt đầu xử lý, các dòng trước đó sẽ được bỏ qua, mặc định là 0

Kết quả sau khi chúng ta tiến hành đưa dữ liệu vào hệ thống có dạng như sau:

Hình 11: Dữ liệu GPS được đưa vào hệ thống

Biến đổi dữ liệu đầu vào thành dữ liệu theo khung thời gian (frame)

Sau khi đưa dữ liệu được vào trong hệ thống chúng ta tiến hành biến đổi dữ liệu từ dữ liệu GPS sang dữ liệu theo khung thời gian Mỗi khung thời gian là 15 phút, tương ứng chung ta có 96 khung thời gian trong 1 ngày Do nhu cầu thực tế, chúng ta không cần lưu trữ thông tin GPS cho luận văn này nhiều nên chúng ta chỉ có thể trích xuất thông tin GPS từ tập tin lưu trữ để tiết kiệm không gian lưu trữ dữ liệu

$ java –jar BKTrafficTool.jar GPS2SegmentSpeed [file name] [start from]

- [file name]: tên tập tin (hoặc đường dẫn đầy đủ) của tập tin chứa dữ liệu lưu trữ

- [start from]: thứ tự dòng dữ liệu trong tập tin lưu trữ mà chương trình sẽ bắt đầu xử lý, các dòng trước đó sẽ được bỏ qua, mặc định là 0

Và kết quả chúng ta có được như sau:

Hình 12: Dữ liệu theo khung thời gian (frame)

Làm trơn dữ liệu

Do đây là đề tài đầu tiên tiến hành bổ khuyết dữ liệu giao thông, nên chúng ta chưa có cơ sở để đối chiếu kết quả sau khi tiến hành làm trơn dữ liệu, nên hệ thống cung cấp nhiều lựa chọn để tiến hành làm trơn dữ liệu Theo đó người dùng có thể tuỳ chỉnh lựa chọn để tiến hành làm trơn

$ java –jar BKTrafficTool.jar Regression [SegmentStart] [SegmentEnd] [Method]

- [SegmentStart], [SegmentEnd]: hệ thống sẽ tiến hành nội suy dữ liệu cho các phân đoạn trong đoạn [SegmentStart] và [SegmentEnd] Giá trị cho các tham số này là segment_id

- [Method]: hệ thống hổ trợ hai phương pháp nội suy (làm trơn) là ‘linear’ và ‘spline’

Kết quả làm trơn sẽ được lưu vào cơ sở dữ liệu để tiến hành bổ khuyết ở bước 4

Võ Thanh Biết Trang 43 3.1 Làm trơn tuyến tính

Hình 13 Làm trơn dữ liệu bằng phương pháp tuyến tính

Hình 14: Làm trơn dữ liệu bằng hàm số spline

Hình 15: Lưu trữ kết quả làm trơn

Tiến hành bổ khuyết dữ liệu

Đa số các mô hình chuổi dữ liệu thời gian đều dùng các công thức tính độ sai số dựa trên bình quân hiệu số giữa giá trị dự báo và giá trị thực tế

Trong đó, ri là giá trị dự báo tại thời điểm i Và r’i là

- Giá trị thực tế tại thời điểm i (si), nếu có

- Ngược lại, là giá trị được trích xuất từ công thức dự báo dựa theo tham số xu hướng đã nêu (si’)

Hình 16, Hình 17 cho ta thấy dữ liệu tại các frame đều được điều đầy đủ thông tin, hình trên cho ta thầy kết quả bổ khuyết dữ liệu cho phân đoạn 114073 vào ngày 01/08/2015

 Độ sai số là 4.91, với tham số xu hướng là ẳ

 Độ sai số là 4.68, với tham số xu hướng là ẵ

 Độ sai số là 4.88, với tham số xu hướng là ắ

Hình 16 Dữ liệu sau khi bổ khuyết bằng phương pháp tuyến tính

Chỳng ta cú thể thấy dự với phương phỏp nào thỡ tham số xu hướng ẵ đều cho độ sai số nhỏ hơn ẳ và ắ, và với spar = 0.4 cho độ sai số là nhỏ nhất Do đú chỳng tụi đề xuất dựng bộ tham số spar = 0.4 và dTrend = ẵ như là bộ tham số tối ưu cho mụ hỡnh hồi quy cho dữ liệu giao thông

Hình 17: Dữ liệu sau khi bổ khuyết bằng phương pháp spline Áp dụng thông số đã đạt được trong quá trình thử nghiệm chúng ta tiến hành bổ khuyết cho các ngày còn lại trong bộ dữ liệu đối chiếu

Ngày 2 Ngày 3 Ngày 4 Ngày 5 Ngày 6 Ngày 7 dTrend = ẵ 4.754 4.390 5.317 4.113 5.781 5.578

Tiến hành bổ khuyết các đoạn đường khác nhau trên các cung đường Ba Tháng Hai, Phạm Văn Đồng, Cộng Hoà, Lý Thường Kiệt (111 đoạn):

MAE Tháng 08 năm 2015 Ngày 1 Ngày 2 Ngày 3 Ngày 4 Ngày 5 Ngày 6 Ngày 7

Sau đây là một số thông kê sau khi tiến hành bổ khuyết dữ liệu cho một đoạn đường (street_id) 220860894 (trên đường Lý Thường Kiệt, đoạn từ Bắc Hải đến đường 3 tháng 2) trong ngày 01/08/2015

Segment_id Số khung thời gian có dữ liệu trước bổ khuyết

Số khung thời gian có dữ liệu sau khi bổ khuyết

Số khung thời gian bổ khuyết được

Kết luận

Qua những kết quả đã được trong quá trình thực nghiệm, chúng ta có thể thấy thông tin của một đoạn đường được điền đầy đủ trong tất cả các khoản thời gian trong ngày Với tỉ lệ bổ sung dữ liệu đạt khoản 65.20% so với trước khi áp dụng bổ khuyết Từ đó có thể triển khai bổ khuyết trên toàn bộ bản đồ

Tiêu đề	Bổ khuyết dữ liệu giao thông
Tác giả	Võ Thanh Biết
Người hướng dẫn	TS. Phạm Trần Vũ
Trường học	Đại học Quốc gia TP. HCM
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2015
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	51
Dung lượng	1,39 MB