Khóa luận tốt nghiệp Công nghệ thông tin: Xây dựng mô hinh dự đoán thời gian đến các phương tiện giao thông

HÒ CHÍ MINHTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN ĐOÀN VIỆT BÁCH - 20520041 PHAN THÀNH NHÂN - 20520258 KHÓA LUẬN TÓT NGHIỆP XÂY DỰNG MÔ HÌNH DU DOAN THỜI

CNN —

Mạng nơ-ron tích chập (CNN) là một loại mạng nơ-ron nhân tạo được phát triển đặc biệt để xử lý dữ liệu có cấu trúc dạng lưới, chẳng hạn như hình ảnh.

CNNs đã trở thành công cụ chính trong nhiều bài toán như nhận diện hình ảnh, phạm

FULLY CONVOLUTION + RELU POOLING CONVOLUTION + RELU POOLING FLATTEN CONNECTED SOFTMAX

Hình 3.9: Bộ lung CNN (Nguồn: viblo.asia)

CNN bao gồm một loạt các lớp khác nhau, mỗi lớp có vai trò cụ thể trong quá trình xử lý dir liệu:

Lớp tích chập (Convolutional Layer) sử dụng các bộ lọc (filters) để thực hiện phép tích chập (convolution) trên dữ liệu đầu vào, nhằm trích xuất các đặc trưng cục bộ Các filters này thường là các ma trận nhỏ, di chuyển qua ảnh và tính toán sản phẩm chập giữa bộ lọc và từng phần của ảnh.

Lớp kích hoạt (Activation Layer) là bước quan trọng sau quá trình tích chập, nơi các giá trị đầu ra được xử lý thông qua một hàm kích hoạt như ReLU (Rectified Linear Unit) Điều này giúp giới hạn các giá trị âm và tăng cường tính phi tuyến cho mô hình.

Lớp gộp (Pooling Layer): Lớp này giảm kích thước không gian của dữ liệu

Chiều cao và chiều rộng của ảnh nên sử dụng các giá trị tối đa hoặc trung bình trong một khoảng lân cận Cách này giúp giảm số lượng tham số và tính toán, đồng thời hạn chế hiện tượng quá khớp.

Lớp kết nối đầy đủ (Fully Connected Layer) là lớp mà tất cả các nơ-ron từ lớp trước được kết nối đến từng nơ-ron trong lớp hiện tại, tương tự như cấu trúc của mạng nơ-ron truyền thống Lớp này thường được sử dụng ở cuối mạng để thực hiện các nhiệm vụ phân loại hoặc dự đoán.

33 e Lớp chuẩn hóa (Normalization Layer): Một số CNNs bao gồm các lớp chuân hóa như Batch Normalization đê cải thiện tôc độ huân luyện và ôn định mô hình.

CNN hoạt động dựa trên cơ chế học có giám sát, trong đó dữ liệu huấn luyện bao gồm các cặp dữ liệu đầu vào và nhãn đầu ra Quá trình học tập của CNN giúp mô hình nhận diện và phân loại thông tin một cách hiệu quả.

CNN bao gồm: e_ Chuyên tiếp (Forward Pass): Dữ liệu đầu vào di qua các lớp của mạng, tạo ra đầu ra dự đoán.

Tính toán hàm mat mát (Loss Function): So sánh đầu ra dự đoán với nhãn thực dé tính toán độ lỗi của mô hình.

Lan truyền ngược (Backpropagation) là phương pháp sử dụng đạo hàm của hàm mất mát để điều chỉnh gradient của các tham số, từ đó cập nhật các tham số này thông qua thuật toán tối ưu như Gradient Descent Một trong những ưu điểm nổi bật của mạng nơ-ron tích chập (CNN) là khả năng tự động phát hiện và học các đặc trưng từ dữ liệu hình ảnh, giúp cải thiện hiệu suất trong các tác vụ nhận diện và phân loại.

Khả năng trích xuất đặc trưng: CNN có khả năng tự động học các đặc trưng từ dir liệu đầu vào mà không cần thiết kế thủ công.

Tính chuyển đổi cục bộ trong CNN cho phép sử dụng các bộ lọc với trọng số chia sẻ trên toàn bộ dữ liệu đầu vào, từ đó giảm thiểu số lượng tham số và hỗ trợ mô hình trong việc học các đặc trưng cục bộ hiệu quả hơn.

Hiệu quả trên dữ liệu hình ảnh: CNN đặc biệt hiệu quả trong các bài toán xử lý ảnh và nhận dạng hình ảnh.

BiLSTM là một cải tiến của mạng LSTM, cho phép nắm bắt thông tin từ cả hai chiều của chuỗi dữ liệu, tức là từ trước và sau Nhờ vào khả năng này, BiLSTM trở nên rất quan trọng trong việc xử lý và phân tích dữ liệu tuần tự.

34 giải quyết bài toán liên quan đến ngữ tự nhiên qua đó cải thiện độ chính xác của dự đoán.

BiLSTM là một mô hình kết hợp hai LSTM, trong đó một LSTM hoạt động từ đầu đến cuối chuỗi (LSTM xuôi) và một LSTM hoạt động từ cuối đến đầu chuỗi (LSTM ngược) Kết quả đầu ra từ cả hai LSTM này được kết hợp để tạo ra đầu ra cuối cùng.

BiLSTM sử dụng hai LSTM, bao gồm Forward LSTM để xử lý chuỗi từ trái sang phải và Backward LSTM để xử lý chuỗi từ phải sang trái Ưu điểm nổi bật của BiLSTM là khả năng nắm bắt thông tin ngữ cảnh toàn diện từ cả hai chiều, giúp mô hình hiểu rõ hơn so với LSTM thông thường Điều này làm cho BiLSTM trở thành một công cụ hiệu quả trong xử lý ngôn ngữ tự nhiên, được ứng dụng rộng rãi trong các lĩnh vực như dịch máy, nhận dạng giọng nói và phân loại văn bản Trong dịch máy, BiLSTM giúp mô hình hiểu rõ ngữ cảnh của cả câu nguồn và câu đích, nâng cao chất lượng dịch thuật.

Nhận dạng giọng nói (Speech Recognition): BiLSTM cải thiện độ chính xác bằng cách hiểu ngữ cảnh của toàn bộ câu nói.

BILSTM là một phương pháp hiệu quả trong phân loại văn bản, giúp cải thiện độ chính xác bằng cách nắm bắt thông tin từ cả hai phía trước và phía sau của chuỗi văn bản.

Phân tích cảm xúc (Sentiment Analysis): BILSTM cải thiện việc phân tích cảm xúc băng cách hiêu ngữ cảnh toàn diện của câu.

GRU (Gated Recurrent Unit) là một mô hình neural hồi quy được thiết kế để khắc phục các vấn đề của RNN truyền thống, như hiện tượng biến mất gradient GRU là một biến thể của LSTM (Long Short-Term Memory) nhưng có cấu trúc đơn giản hơn và yêu cầu ít tham số hơn.

GRU bao gồm hai cổng chính: cổng cập nhật (update gate) và công xoá bỏ

Cổng cập nhật (Update gate) quyết định lượng thông tin từ trạng thái trước đó được chuyển tiếp đến trạng thái hiện tại, giúp mô hình lưu trữ thông tin quan trọng qua các bước thời gian dài hơn.

Công xoá bỏ (Reset gate) quyết định phần nào của trạng thái trước đó sẽ được quên hoặc làm mới trong quá trình tính toán trạng thái hiện tại Công cụ này giúp mô hình loại bỏ thông tin không cần thiết, từ đó cải thiện hiệu suất và độ chính xác trong các tác vụ xử lý dữ liệu.

Streaming dữ liỆU G S 11v 9v ng kg gen 40 3.4.2 Event stream processing .G- Ăn ng ngư 41 3.4.3 Apache Kafka LH TH HH HH Hư 41 3.4.4 Apache SparK LH TH HH HH ng ng 43 3.5 Cac phương pháp đánh giá -. - cà 1S SH rey 44 3.5.1 MSE đ⁄⁄4£É£ À À

Dữ liệu streaming là thuật ngữ chỉ các luồng dữ liệu liên tục, không có điểm bắt đầu hoặc kết thúc rõ ràng, cung cấp nguồn thông tin mà không cần tải xuống trước Dữ liệu này thường được tạo ra từ nhiều nguồn khác nhau và được gửi đi đồng thời dưới dạng các bản ghi nhỏ Các nguồn dữ liệu streaming có thể bao gồm logfile từ người dùng ứng dụng di động hoặc web, giao dịch trực tuyến, hoạt động trong game, thông tin từ mạng xã hội, thị trường chứng khoán, và dữ liệu từ Internet of Things.

Xử lý dữ liệu thường áp dụng các phương pháp tuần tự và theo khoảng thời gian Phân tích dữ liệu streaming mang lại thông tin quý giá cho các công ty và người dùng, giúp họ hiểu rõ hơn về các khía cạnh khác nhau của kinh doanh.

Dịch vụ dự đoán và phát hiện sớm các vấn đề tiềm ẩn trong lĩnh vực tài chính đang ngày càng trở nên quan trọng Việc nắm bắt nhu cầu sử dụng dịch vụ, thói quen của khách hàng và xu hướng trên mạng xã hội giúp các doanh nghiệp tối ưu hóa chiến lược kinh doanh Thông tin từ cảm biến cũng đóng vai trò quan trọng trong việc phân tích và dự đoán xu hướng thị trường, từ đó nâng cao khả năng cạnh tranh và phục vụ khách hàng hiệu quả hơn.

Event stream processing (ESP) là công nghệ quan trọng trong xử lý dữ liệu liên tục, thường được ứng dụng để dự đoán thời gian đến của phương tiện giao thông ESP sử dụng dữ liệu như vị trí hiện tại, tốc độ di chuyển, thông tin giao thông, cùng với các yếu tố khác như thời tiết và điều kiện đường để đưa ra dự đoán chính xác.

Các hệ thống này tích hợp dữ liệu từ nhiều nguồn như GPS, cảm biến giao thông và dữ liệu từ phương tiện di động để cập nhật và dự đoán thời gian đến một cách chính xác và nhanh chóng Hệ thống ESP xử lý dữ liệu đầu vào liên tục, cung cấp thông tin cập nhật nhằm tối ưu hóa quản lý giao thông và cải thiện trải nghiệm người dùng.

Apache Kafka là nền tảng phân phối chuyên biệt cho xử lý dòng dữ liệu và phân phối các luồng dữ liệu Được thiết kế để xử lý khối lượng lớn dữ liệu, Kafka nổi bật với khả năng mở rộng vượt trội.

Apache Kafka có những đặc điểm nổi bật như khả năng phân phối và mở rộng linh hoạt, cho phép xử lý dữ liệu trên nhiều máy chủ Bên cạnh đó, Kafka lưu trữ dữ liệu theo thứ tự thời gian, đảm bảo tính toàn vẹn và sắp xếp của dữ liệu.

Kafka có khả năng chịu lỗi cao nhờ vào việc sao lưu dữ liệu trên nhiều máy chủ và hỗ trợ các phép nhân bản, giúp đảm bảo tính sẵn sàng và độ tin cậy của hệ thống.

Kafka hỗ trợ xử lý dòng dữ liệu hiệu quả với các công cụ và thư viện giúp kết nối dễ dàng với nhiều hệ thống khác nhau Ngoài ra, Kafka có cấu trúc linh hoạt cho phép các ứng dụng đọc và ghi dữ liệu từ nhiều điểm truy cập khác nhau.

Apache Kafka là giải pháp lý tưởng cho việc xử lý dòng dữ liệu trong các hệ thống IoT, hệ thống phân phối và các ứng dụng cần xử lý dữ liệu thời gian thực.

Hình 3.15: Quy trình hoạt động cua Kafka

Các thành phần chính của Kafka bao gồm Producer và Kafka Topic Producer là thành phần chịu trách nhiệm đưa dữ liệu vào Kafka bằng cách gửi các tin nhắn đến các topic Các tin nhắn này có thể là log từ hệ thống, sự kiện từ ứng dụng, hoặc bất kỳ dữ liệu nào cần được lưu trữ và xử lý Kafka Topic là nơi lưu trữ các tin nhắn, với mỗi topic được chia thành nhiều mảnh (Partition) để cung cấp khả năng lưu trữ và xử lý phân tán.

Mỗi tin nhắn trong Kafka được gửi đến một topic cụ thể và được lưu trữ trong một hoặc nhiều partition Partition là đơn vị lưu trữ cơ bản trong Kafka, với mỗi topic có thể có nhiều partition, mỗi partition chứa một phần dữ liệu của topic đó Việc sử dụng partition giúp tăng cường khả năng quản lý và truy xuất dữ liệu.

Kafka là một hệ thống lưu trữ dữ liệu lớn, cho phép xử lý song song trên các partition khác nhau Thành phần e_Consumer đóng vai trò quan trọng trong việc đọc tin nhắn từ Kafka Topic Các Consumer có thể là ứng dụng, dịch vụ hoặc quy trình đặc biệt, thực hiện việc xử lý và tiêu thụ dữ liệu từ Kafka Chúng đọc tin nhắn từ các partition của topic và thực hiện các tác vụ như lưu trữ, phân tích hoặc chuyển tiếp dữ liệu.

Kafka là một công nghệ quan trọng trong hệ sinh thái Big Data và dữ liệu phân phối, nhờ vào các tính năng nổi bật như đảm bảo độ tin cậy, khả năng mở rộng dễ dàng và khả năng xử lý dữ liệu theo thời gian thực.

Apache Spark là một framework mã nguồn mở, được phát triển để xử lý và phân tích Big Data một cách hiệu quả và nhanh chóng Công cụ này hỗ trợ tính toán phân tán, cho phép xử lý dữ liệu trên các cụm máy tính (cluster) với khả năng mở rộng cao.

RMSE.Z.£ đ

RMSE (Root Mean Squared Error) là căn bậc hai của Mean Squared Error (MSE), dùng để đo lường sai số giữa giá trị thực và giá trị dự báo RMSE có cùng đơn vị với giá trị thực, giúp dễ dàng so sánh và hiểu rõ hơn Nó được áp dụng trong các bài toán hồi quy và dự báo, đặc biệt trong lĩnh vực học máy, thống kê và kinh tế RMSE hỗ trợ các nhà nghiên cứu và chuyên gia trong việc đánh giá, so sánh hiệu suất của các mô hình dự báo khác nhau.

RMSE (Root Mean Square Error) được tính bằng cách lấy căn bậc hai của trung bình cộng các sai số bình phương giữa giá trị thực tế và giá trị dự đoán tại mỗi điểm dữ liệu RMSE có cùng đơn vị với biến mục tiêu, điều này giúp người dùng dễ dàng hiểu và so sánh hơn so với MSE (Mean Square Error) Tuy nhiên, RMSE cũng rất nhạy cảm với các sai số lớn (outliers) do sai số được bình phương trước khi tính căn bậc hai, dẫn đến ảnh hưởng lớn từ những giá trị bất thường trong dữ liệu.

RMSE có nhiều ưu điểm đáng chú ý Đầu tiên, RMSE dễ hiểu và so sánh vì có cùng đơn vị với biến mục tiêu, giúp người dùng dễ dàng hình dung và đánh giá kết quả Thứ hai, RMSE nhạy cảm với các giá trị ngoại lai, điều này có thể hỗ trợ trong việc phát hiện những vấn đề nghiêm trọng trong dự báo.

MAE (Mean Absolute Error) đo lường giá trị trung bình tuyệt đối của sai số và ít nhạy cảm với các giá trị ngoại lai (outliers) so với RMSE (Root Mean Square Error) MAE thường được áp dụng trong trường hợp các giá trị ngoại lai không phổ biến hoặc không quan trọng Ngược lại, MSE (Mean Squared Error) đo lường giá trị trung bình của bình phương sai số, có đơn vị là bình phương của biến mục tiêu RMSE, là căn bậc hai của MSE, giúp dễ dàng hiểu và diễn giải hơn.

MAE AT ma sveưn

Bảng so sánh giữa Label Encoding và Word2vec

Bang 4.2: Kết quả đánh giá của Label Encoding và Word2vec (Bus Dataset)

R- R- Model MSE | RMSE | MAE MSE | RMSE | MAE squared squared

After applying and testing various models, the results indicate that for Label Encoding, the Random Forest Regressor achieved the best performance with the lowest Mean Squared Error (MSE) of 12.9952, the lowest Root Mean Squared Error (RMSE) of 3.6049, and the highest R-squared value of 0.8579 Similarly, for Word2Vec, the Random Forest Regressor also demonstrated the best performance, achieving the lowest MSE of 9.9784, the lowest RMSE of 3.1589, and the highest R-squared value of 0.8772.

Trong phần phương pháp mã hóa, các mô hình thường đạt hiệu suất tốt hơn khi áp dụng phương pháp Word2Vec thay vì Label Encoding Chẳng hạn, giá trị MSE của mô hình Random thể hiện sự cải thiện rõ rệt khi sử dụng Word2Vec.

Forest Regressor giảm từ 12.9952 (Label) xuống 9.9784 (Word2Vec), và R-squared tăng từ 0.8579 lên 0.8772.

After applying both methods, it is evident that the Random Forest Regressor is the most effective model for both Label Encoding and Word2Vec, demonstrating superior performance metrics Furthermore, utilizing Word2Vec enhances the performance of all models compared to Label Encoding.

While the Random Forest Regressor generally performs well, Gradient-Boosted Trees Regression also shows strong results, particularly when combined with Word2Vec, achieving the lowest Mean Absolute Error (MAE).

Ridge Regression liên tục cho thấy hiệu suất kém hơn so với các phương pháp dựa trên cây, với MSE và RMSE cao hơn, cùng với R-squared thấp hơn cho tập dữ liệu và nhiệm vụ này.

4.2.2 Ảnh hướng của batch size với mô hình deep learning

Kích thước lô (batch size) là số lượng mẫu dữ liệu được sử dụng để cập nhật gradient trong quá trình huấn luyện mô hình Thay vì cập nhật trọng số sau mỗi mẫu (stochastic gradient descent - SGD) hoặc sau toàn bộ tập dữ liệu (batch gradient descent), kích thước lô cho phép thực hiện cập nhật sau một nhóm mẫu dữ liệu, được gọi là mini-batch gradient descent.

Batch size là yếu tố quan trọng trong huấn luyện mô hình deep learning, ảnh hưởng trực tiếp đến hiệu suất và hiệu quả của mô hình Kích thước của batch size có tác động lớn đến quá trình tối ưu hóa và khả năng học của mô hình.

Khi sử dụng batch size nhỏ, tốc độ huấn luyện của mô hình sẽ được cải thiện nhờ việc cập nhật trọng số thường xuyên hơn, mặc dù thời gian huấn luyện tổng thể có thể kéo dài do tính toán nhiều lần Batch size nhỏ giúp mô hình tìm kiếm gradient tốt hơn nhờ tính ngẫu nhiên cao, dẫn đến khả năng tránh các cực tiểu cục bộ Ngoài ra, việc huấn luyện yêu cầu ít bộ nhớ hơn, phù hợp với hệ thống hạn chế về tài nguyên phần cứng Ngược lại, với batch size lớn, tốc độ cập nhật của mô hình sẽ ít thường xuyên hơn, nhưng tốc độ huấn luyện nhanh hơn nhờ khả năng xử lý song song của GPU Tuy nhiên, điều này có thể dẫn đến các cập nhật gradient ít chính xác hơn và khả năng tối ưu hóa kém hơn do gradient ổn định hơn Batch size lớn yêu cầu nhiều bộ nhớ hơn, đặc biệt là bộ nhớ GPU, có thể tăng tốc độ huấn luyện nhưng cần phần cứng mạnh mẽ hơn.

Việc lựa chọn kích thước batch size phù hợp là rất quan trọng và phụ thuộc vào nhiều yếu tố, bao gồm kích thước và tính chất của tập dữ liệu, kiến trúc của mô hình, cũng như tài nguyên phần cứng sẵn có.

Bang 4.3: Ảnh hưởng của batch size (Bus Dataset)

Batch size MSE RMSE MAE R-squared

Bang 4.4: Anh hưởng của batch size (Subway Dataset)

Batch size MSE RMSE MAE R-squared

Kết quả từ bảng 4.3 và 4.4 cho thấy rằng kích thước batch 32 mang lại hiệu suất tốt nhất Trong khi đó, kích thước batch 16 và 64 cũng cho hiệu quả tương đối tốt, nhưng chưa đạt được mức tối ưu như batch 32.

32 Khi batch size tăng vượt quá 32, hiệu suất của mô hình có xu hướng giảm, cho thấy rang batch size quá lớn có thé không có lợi cho tập dữ liệu và cau hình mô hình.

4.2.3 Anh hưởng của epoch với mô hình deep learning

Epoch là một yếu tố quan trọng trong huấn luyện mô hình deep learning, đại diện cho một lần lặp hoàn chỉnh qua toàn bộ tập dữ liệu huấn luyện.

Một epoch là một lần lặp qua toàn bộ tập dữ liệu huấn luyện, giúp mô hình cập nhật trọng số để giảm thiểu hàm mất mát và cải thiện độ chính xác Nếu số lượng epoch thấp, mô hình có thể chưa học đầy đủ các mẫu, dẫn đến hiện tượng underfitting và không đạt hiệu suất tốt nhất Ngược lại, khi số lượng epoch tăng, mô hình sẽ cải thiện hiệu suất trên dữ liệu huấn luyện, nhưng sau một thời gian, sự cải thiện này có thể giảm dần và mô hình có thể bị overfitting, hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra Hàm mất mát sẽ giảm dần và có thể đạt đến mức tối thiểu, nhưng nếu tiếp tục huấn luyện quá nhiều, nó có thể dao động hoặc tăng trở lại do hiện tượng overfitting.

Việc lựa chọn số lượng epoch phù hợp là một quá trình cân bang giữa việc tránh underfitting và overfitting.

Hình 4.1: Biểu đô của loss và val_loss của mô hình CNN (Bus Dataset)

Kết quả từ hình 4.1 cho thấy trong giai đoạn 0-50 epoch, cả loss và val_loss giảm nhanh, cho thấy mô hình đang cải thiện hiệu suất Trong giai đoạn 50-100 epoch, hai đường loss và val_loss bắt đầu hội tụ và ổn định, cho thấy mô hình tiến gần đến hiệu suất tối ưu Sau khoảng 300 epoch, cả loss và val_loss đạt mức ổn định, chứng tỏ mô hình đã hoàn thành quá trình học tập Việc giữ nguyên loss sau 300 epoch cho thấy việc tiếp tục đào tạo không mang lại cải thiện đáng kể, vì vậy việc ngừng đào tạo sớm có thể tiết kiệm tài nguyên tính toán.

Bang 4.5: Kết quả các mô hình (Bus Dataset)

Model MSE RMSE MAE R-squared

Kết quả thực nghiệm từ Bus Dataset cho thấy sự so sánh hiệu suất giữa nhiều mô hình dự đoán, bao gồm các mô hình hồi quy truyền thống và mạng nơ-ron sâu (Deep Learning) Các chỉ số đánh giá hiệu suất được sử dụng là MSE (Mean Squared Error), giúp xác định độ chính xác của từng mô hình trong việc dự đoán.

Squared Error), RMSE (Root Mean Squared Error), MAE (Mean Absolute Error), và R-squared (R?).

Kết quả thực nghiệm ¿- 2: 2¿©+22++2E+tEEEtEEEtEEEerkeerxrrrkrrrree 63 4.3 Xây dựng hệ thống -:- 52 E+Sk+SEEEE2EEEEEEE12112112112112111 1.1.1, 67 4.3.1 Tổng quan hệ thong o ccccccccsecsssessssssssssesssscssecssecssecssecsuecssssscssecssecsses 67 4.3.2 Kết quả thực nghiệm . - 2-2 <2 E+EE+EE2EE2EEEEEEEEEErErrrrrrrei 68 4.3.2.1 Môi trường trién khai - 2-52 £+E++E+E2EE+E+Errrrerreee 68 43.22 Kich ban 8F Z” ưưuất

TONG KET VÀ HƯỚNG PHAT TRIÊN . ¿2 52522 71 5.1 Tổng kết đề may ~ve=

Trong chương cuối cùng, nhóm sẽ tổng kết lại những vấn đề đã được giải quyết, đồng thời nêu rõ ưu điểm và hạn chế của khóa luận Qua việc làm rõ những điểm này, nhóm sẽ xác định mục tiêu và hướng phát triển tiếp theo để đề tài ngày càng hoàn thiện hơn.

Khóa luận này nghiên cứu việc phát triển một hệ thống dự đoán thời gian đến cho phương tiện giao thông Hệ thống được cấu thành từ các phần tiền xử lý dữ liệu, mô hình dự đoán và các framework xử lý dữ liệu theo thời gian thực.

Nhóm đã nghiên cứu kỹ lưỡng các bước tiền xử lý dữ liệu cho bộ dữ liệu về phương tiện giao thông, từ đó phát triển các phương pháp tiền xử lý phù hợp để dự đoán thời gian đến của phương tiện Họ đã thành công trong việc thiết lập, triển khai và tối ưu hóa các mô hình, đạt được các mục tiêu đề ra Qua phương pháp thực nghiệm, nhóm đã thu được những mô hình tối ưu, điển hình là Random Forest Regressor.

Gradient-boosted Trees Regression và BiGRULSTMCNN là hai mô hình được nhóm nghiên cứu so sánh và đánh giá Qua quá trình phân tích, nhóm đã có cái nhìn sâu sắc hơn về các mô hình và các yếu tố ảnh hưởng đến kết quả của chúng Mặc dù kết quả từ các mô hình không hoàn toàn chính xác, chúng vẫn có thể được áp dụng hiệu quả vào các bài toán thực tế Ngoài ra, nhóm cũng đã xây dựng hệ thống streaming để xử lý và phân tích kết quả, nhằm hỗ trợ cho việc dự đoán thời gian đến một cách chính xác hơn.

Trong quá trình phát triển đề tài, nhóm đã gặp nhiều khó khăn và hạn chế, bao gồm: Phạm vi ứng dụng của các mô hình dự đoán thời gian đến phương tiện chưa được kiểm chứng rộng rãi, dẫn đến hiệu quả không đồng nhất trong các tình huống khác nhau Khả năng mở rộng của hệ thống hiện tại chưa được thử nghiệm trên quy mô lớn, gây khó khăn trong việc triển khai trong các hệ thống giao thông thực tế với lượng dữ liệu lớn Các phương pháp tiền xử lý dữ liệu có thể chưa tối ưu cho mọi tình huống, ảnh hưởng đến kết quả dự đoán Mặc dù một số mô hình cho kết quả tốt, nhưng độ chính xác tổng thể vẫn còn hạn chế và các mô hình phức tạp đòi hỏi tài nguyên tính toán lớn, không phù hợp với hệ thống có hạn chế về tài nguyên Hệ thống dự đoán cần hoạt động trong môi trường thời gian thực, nhưng khả năng phản ứng hiện tại chưa được đánh giá đầy đủ Cuối cùng, việc phân tích kết quả và hiểu rõ nguyên nhân sai số vẫn còn hạn chế, cần thêm nghiên cứu để cải thiện và tối ưu hóa các mô hình.

Hạn chế về công nghệ trong nghiên cứu có thể ảnh hưởng đến khả năng xử lý và phân tích dữ liệu Việc sử dụng công nghệ và phần mềm không tiên tiến có thể làm giảm hiệu suất hệ thống Đầu tư vào các công nghệ hiện đại hơn sẽ giúp cải thiện đáng kể hiệu quả của quá trình nghiên cứu.

Trong quá trình nghiên cứu, dự án của chúng tôi còn nhiều tiềm năng phát triển với một số ý tưởng như: khám phá và thử nghiệm các phương pháp tiếp cận mới, cải thiện độ chính xác của kết quả dự đoán thông qua xử lý dữ liệu, thực hiện các phương pháp cân bằng dữ liệu để giải quyết vấn đề mất cân bằng, thử nghiệm các cách tiền xử lý khác nhau trên nhiều mô hình và bộ dữ liệu, và xây dựng API để lấy dữ liệu riêng cho từng loại phương tiện nhằm tích hợp vào hệ thống thời gian thực.

Christopher O Austin, Fred M Kusumoto, “The application of Big Data in medicine: current implications and future directions,” 2016.

Hakima Khelifi, Amani Belouahri, “The Impact of Big Data Analytics on Traffic Prediction,” IEEE, 2022.

Nazirkar Reshma Ramchandra, C Rajabhushanam, “Machine learning algorithms performance evaluation in traffic flow prediction,” 2022.

A K Md Ehsanes Saleh, Mohammad Arashi, B M Golam Kibria, Theory of Ridge Regression Estimation with Applications, 2019.

Fu, Rui and Zhang, Zuo and Li, Li, “Using LSTM and GRU neural network methods for traffic flow prediction,” 2016.

Tin Van Huynh, Vu Duc Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen, Anh Gia-Tuan Nguyen, “Hate Speech Detection on Vietnamese Social Media Text using the,” 2019.

Andrew Psaltis, Streaming Data: Understanding the real-time pipeline.

Garg, Nishant, Learning Apache Kafka, 2015.

[10] Timothy O Hodson, “Root-mean-square error (RMSE) or mean absolute error

(MAE): when to use them or not,” 2022.

[11] K W CHURCH, “Word2Vec,” trong Natural Language Engineering, 2017, p.

[12] Alejandro Mottini, Rodrigo Acuna-Agost, “Relative Label Encoding for the

Prediction of Airline Passenger Nationality,” IEEE, 2016.

[13] Devansh, “How does Batch Size impact your model learning,” Medium, 17 1

2022 [Truc tuyén] Available: https://medium.com/geekculture/how-does-

Tiêu đề	Xây dựng mô hình dự đoán thời gian đến các phương tiện giao thông
Tác giả	Đoàn Việt Bách, Phan Thành Nhân
Người hướng dẫn	TS. Đỗ Trọng Hợp, TS. Trần Văn Thành
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Công nghệ thông tin
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	73
Dung lượng	67,18 MB