Nghiên cứu hệ thống khối máy học MLBlocks và ứng dụng vào dự đoán lộ trình tối ưu trong giao thông

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM ĐẶNG THÁI DUY NGHIÊN CỨU HỆ THỐNG KHỐI MÁY HỌC MLBLOCKS VÀ ỨNG DỤNG VÀO DỰ ĐỐN LỘ TRÌNH TỐI ƯU TRONG GIAO THƠNG Chun ngành: Hệ thống thơng tin Mã số : 60.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THƠNG TIN Đà Nẵng - Năm 2017 Cơng trình hoàn thành Trường Đại học Sư phạm - ĐHĐN Người hướng dẫn khoa học: PGS.TSKH TRẦN QUỐC CHIẾN Phản biện 1: TS Nguyễn Hoàng Hải Phản biện 2: GS.TS Nguyễn Thanh Thủy Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp Thạc sĩ Hệ thống thông tin họp Trường Đại học Sư phạm – ĐHĐN vào ngày 30 tháng 07 năm 2017 Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng; - Thư viện trường Đại học Sư phạm, Đại học Đà Nẵng MỞ ĐẦU Hiện nay, sống giới tràn ngập liệu Mỗi ngày lượng liệu lớn tạo nhiều thiết bị liệu tảng để rút trích thơng tin Với lượng liệu lớn, vấn đề đặt là: “Làm sử dụng liệu cách có ý nghĩa để cải thiện tác động vào sống chúng ta?”, “Làm trích xuất thơng tin có ý nghĩa để phân tích xây dựng thuật toán để giải vấn đề xã hội chống gian lận, hỗ trợ chăm sóc sức khỏe qua y học, hỗ trợ giải vấn đề giao thông cải thiện giáo dục” Máy học lĩnh vực quan trọng tin học Mục tiêu máy học tạo phương pháp làm cho máy tính học người Lĩnh vực máy học có quan hệ mật thiết với lĩnh vực phát tri thức, từ rút trích đưa thông tin hay dự báo cần thiết, có ý nghĩa Để sử dụng liệu cách có ý nghĩa thiết thực, tơi ứng dụng sức mạnh công nghệ thông tin lĩnh vực máy học để làm việc với tập liệu Đề tài “Nghiên cứu hệ thống khối máy học MLBlocks ứng dụng vào dự đốn lộ trình tối ưu giao thông” sâu nghiên cứu khối máy học ứng dụng vào thực tiễn việc áp dụng khối máy học MLBlocks để dự đốn lộ trình tối ưu giao thơng thành phố Đà Nẵng Báo cáo luận văn dự kiến tổ chức thành chương sau: Chương 1: Tổng quan máy học Chương 2: Thiết kế thực thi khối máy học mlblocks Chương 3: Ứng dụng mlblocks việc dự đốn lộ trình tối ưu giao thông thành phố đà nẵng Luận văn hồn thành khoảng thời gian khơng dài với tài liệu tham khảo nên khơng thể tránh khỏi thiếu xót Tơi mong nhận đánh giá, nhận xét, góp ý thầy, hội đồng để luận văn hồn thiện Em xin trân trọng cảm ơn thầy giáo – PGS, TSKH Trần Quốc Chiến tận tình hướng dẫn em hoàn thành luận văn CHƯƠNG TỔNG QUAN 1.1 KHÁI NIỆM MÁY HỌC Học máy (Machine Learning) ngành khoa học nghiên cứu thuật toán cho phép máy tính học khái niệm (concept) Phân loại: Có hai loại phương pháp học máy chính:  Phương pháp quy nạp: Máy học/phân biệt khái niệm dựa liệu thu thập trước Phương pháp cho phép tận dụng nguồn liệu nhiều sẵn có  Phương pháp suy diễn: Máy học/phân biệt khái niệm dựa vào luật Phương pháp cho phép tận dụng kiến thức chuyên ngành để hỗ trợ máy tính Hiện nay, thuật tốn cố gắng tận dụng ưu điểm hai phương pháp Các nhóm giải thuật học máy:  Học có giám sát: Máy tính xem số mẫu gồm đầu vào (input) đầu (output) tương ứng trước Sau học xong mẫu này, máy tính quan sát đầu vào cho kết  Học khơng giám sát: Máy tính xem mẫu khơng có đầu ra, sau máy tính phải tự tìm cách phân loại mẫu mẫu  Học nửa giám sát: Một dạng lai hai nhóm giải thuật  Học tăng cường: Máy tính đưa định hành động (action) nhận kết phản hồi (response/reward) từ môi trường (environment) Sau máy tính tìm cách chỉnh sửa cách định hành động 1.2 CÁC ỨNG DỤNG MÁY HỌC Ứng dụng: Học máy có ứng dụng rộng khắp ngành khoa học/sản xuất, đặc biệt ngành cần phân tích khối lượng liệu khổng lồ Một số ứng dụng thường thấy  Xử lý ngôn ngữ tự nhiên (Natural Language Processing): xử lý văn bản, giao tiếp người – máy…  Nhận dạng (Pattern Recognition): nhận dạng tiếng nói, chữ viết tay, vân tay, thị giác máy (Computer Vision) …  Tìm kiếm (Search Engine)  Chẩn đốn y tế: phân tích ảnh X-quang, hệ chuyên gia chẩn đoán tự động  Sinh học: phân loại chuỗi gene, trình hình thành gene/protein  Vật lý: phân tích ảnh thiên văn, tác động hạt …  Phát gian lận tài (financial fraud): gian lận thẻ tỉn dụng  Phân tích thị trường chứng khốn (stock market analysis)  Chơi trò chơi: tự động chơi cờ, hành động nhân vật ảo Các Quy trình học máy: Các phần Quy trình Machine learning bao gồm: Mơ hình (Model) – hệ thống mơ mẫu hình từ thực tế giúp đưa dự báo nhận dạng Các thơng số (Parameter) – tín hiệu yếu tố cho có khả gây ảnh hưởng đến kết mơ hình, sử dụng để đưa định Cơ chế học hỏi (Learner) – trình đánh giá, đối chiếu khác biệt dự báo kết thực tế, tiến hành điều chỉnh thơng số hợp lý mơ hình đạt mức độ xác đặt Giả sử thực tế phát sinh nhu cầu sau: Một giảng viên muốn xác định lượng thời gian tối đa sinh viên cần dành cho việc học để đạt điểm số cao Nhu cầu cụ thể hóa thành tốn: Tạo chế giúp dự báo điểm số kiểm tra biết thời gian dành cho việc học, qua giúp xác định thời gian học tối ưu để đạt kết tốt Dĩ nhiên giảng viên thực điều tra nhóm sinh viên, sau xác định mẫu hình chung cho nhóm thực ước lượng cách thủ công Tuy nhiên thống kê, mẫu cần phải đủ lớn độ xác định Bên cạnh đó, Quy trình mơ thực tế đòi hỏi q trình điều chỉnh lặp lặp lại không ngừng với lượng lớn liệu Điều gây lãng phí thời gian, cơng sức nhiều vượt khả người Chính lúc trình Machine learning phát huy hiệu tốt Bước – Thiết lập mơ hình (Model) Để bắt đầu trình, giảng viên phải người đưa giả định vào mơ hình, bao gồm: Các biến (x) tác động lên kết mơ hình (y): Ở có yếu tố gây ảnh hưởng (x) ‘thời gian học tập’, đầu (y) ‘kết kiểm tra’ Mối quan hệ x y: Ở giả định x tác động lên y theo mối quan hệ tuyến tính Có nghĩa phương trình biểu diễn mối quan hệ hàm bậc nhất: y = Wx + b Hiểu nôm na là: ‘thời gian học tập’ tăng lên đơn vị ‘kết kiểm tra’ tăng lên (W +b) đơn vị; thông số W, b không đổi nên biểu diễn đồ thị y đường thẳng Ngoài ra, dựa đốn chủ quan, giảng viên đưa giả định ban đầu như: W = 1, b = (y = x + 5) Theo thời gian học điểm số đạt diễn giải sau: = điểm = điểm = điểm = điểm = điểm = 10 điểm Dựa vào giả thiết ban đầu trên, máy tính khái quát vấn đề thành phương trình tốn học mơ tả đồ thị bên Bước – Cung cấp liệu đầu vào thực tế (Parameter) Sau mơ hình thiết lập, thông tin thực tế đưa vào Giáo viên cung cấp liệu thực tế ‘kết kiểm tra – x’ ‘thời gian học tập – y’ thu thập từ sinh viên nằm mẫu nghiên cứu Biểu diễn tập (x, y) sinh viên lên đồ thị quan sát sơ Kết thực tế không khớp với dự báo: điểm chấm (thể cho sinh viên với số điểm thời gian học cụ thể) không nằm đồ thị mà phân bổ rải rác bên bên Điều chứng tỏ giả định ban đầu giảng viên bước khơng xác cần điều chỉnh Đây lúc q trình ‘tự học’ máy tính kích hoạt Bước – Quá trình điều chỉnh tự động (Learner) Cơ chế Learner hệ thống nhìn vào liệu thông số, đánh giá độ chênh lệch thực tế mơ hình, sau sử dụng nhiều cơng thức tốn để điều chỉnh giả định ban đầu, chẳng hạn W=1, b=4 (y = x + 4) Khi đó: = điểm = điểm = điểm = điểm = điểm = điểm = 10 điểm Với giả định này, máy tính điều chỉnh theo hướng cần có nhiều thời gian học (6 giờ) để đạt điểm số tốt Bây chạy lại mô hình với giả định Số liệu thực tế tiếp tục so sánh với mơ hình chỉnh sửa Nếu mơ hình thành 10 gán nhãn thường đắt Trong đó, liệu chưa gán nhãn lại nhiều phong phú Phương pháp học bán giám sát (hay học nửa giám sát) đặt để tận dụng hai nguồn liệu Khái niệm học bán giám sát: Học bán giám sát học với tập liệu huấn luyện gồm liệu gán nhãn liệu chưa gán nhãn Tuỳ vào mục đích cụ thể, học bán giám sát áp dụng cho toán phân lớp phân cụm 1.3.3 Phương pháp học có giám sát (Supervised Learning) Học có giám sát học với tập liệu huấn luyện ban đầu hồn tồn gán nhãn từ trước Học có giám sát phương pháp học sử dụng cho lớp toán phân lớp, phân loại (Classification) 1.3.4 Học tăng cường (reinforcement learning) Trong ngành khoa học máy tính, học tăng cường (tiếng Anh: reinforcement learning) lĩnh vực học máy, nghiên cứu cách thức tác nhân điều kiện cụ thể nên chọn thực hành động để đạt thành công tốt mục tiêu lâu dài Các thuật tốn học tăng cường cố gắng tìm chiến lược ánh xạ hành động giới tới hành động mà tác nhân nên chọn hành động Các thuật tốn học tăng cường cho ngữ cảnh có liên quan nhiều đến kỹ thuật quy hoạch động Khác với học có giám sát, học tăng cường khơng có cặp liệu đầu vào/đầu ra, hành động tối ưu hóa khơng đánh giá đúng/sai cách tường minh Học tăng cường đặc biệt thích hợp cho tốn có ‘mục tiêu’ ngắn hạn dài hạn Học tăng cường áp dụng thành cơng cho nhiều tốn, có điều khiển robot, điều hành thang máy, viễn thơng, trò chơi backgammon cờ vua 11 CHƯƠNG THIẾT KẾ VÀ THỰC THI KHỐI MÁY HỌC MLBLOCKS 2.1 KHÁI NIỆM MLBLOCK MLBlocks hệ thống máy học cho phép nhà khoa học liệu khám phá không gian liệu dựa kỹ thuật mơ hình hóa cách dễ dàng hiệu Khối MLBlocks cung cấp khả tái sử dụng thuật toán khai phá liệu việc xây dựng đào tạo mạng nơ ron nhân tạo Khái niệm MLBlocks đời từ năm 2015 nhà khoa học liệu nghiên cứu, phát triển theo hướng xây dựng khung phát triển (framework) cho hệ thống máy học sau Một số phương pháp thông dụng kỹ thuật mơ hình hóa:  Mơ hình phân biệt: Các mơ hình thuộc thể loại kể đến như: SVMs, Logistic Regression, Perceptron, Passive Aggressive Mơ hình áp dụng nhiều toán xác suất, kỹ thuật mơ hình cố gắng để mơ hình hóa xác suất P có điều kiện (x | y), Y "nhãn" (giá trị muốn dự đốn) X “mẫu” truy vấn  Mơ hình sản sinh: Kỹ thuật mơ hình cố gắng phân phối điểm chung 𝑃 (𝑋, 𝑌), gọi "sản sinh" mơ tạo mẫu có giá trị dự đốn tốt  Mơ hình phân nhóm: Một kỹ thuật học khơng giám sát, hệ thống tự học tập cách sử dụng trực tiếp giá trị có để dự đốn giá trị Nó nhóm liệu dựa theo điểm "tương tự như" nhóm liệu xem tham số trình phân nhóm  Mơ hình hóa phân cụm: Một kết hợp ba kỹ thuật trước Đầu tiên, hệ thống áp dụng mơ hình phân nhóm tập 12 liệu, sau sử dụng mơ hình phân biệt mơ hình sản sinh cho cụm liệu khác Mô hình có hiệu xử lý tốt loại liệu khác áp dụng phương pháp mơ hình hóa khác 2.2 CÁC ỨNG DỤNG MLBLOCK Hiện nay, hệ thống máy học áp dụng rộng rãi người cố gắng giảm bớt khó khăn quản lý, tìm kiếm liệu hỗ trợ nhiều lĩnh vực sống như: hỗ trợ định phát đồ điều trị y khoa, dự đoán kết kinh doanh, dự đoán vấn đề tắc nghẽn giao thông MLBlocks đời để giải vấn đề khó khăn khai phá liệu, với mục đích giúp nhà khoa học liệu tìm kiếm giải pháp tốt thời gian nhanh việc khai thác liệu đồ sộ 2.2.1 Một số cơng cụ khai phá liệu Có nhiều sản phẩm công cụ cho nhà khoa học liệu sử dụng, số công cụ đặc biệt như: Theano & Pylearn2, Caffe, Torch & OverFeat, Cuda, Deeplearning4j 2.2.2 Công cụ hệ 2.0 Google Prediction API: Dự án API7 Google ví dụ khả cung cấp hệ thống máy học dịch vụ (MLaaS) Google Machine Learning sử dụng kỹ thuật phân loại liệu hồi quy đơn giản dùng nhiều lĩnh vực phân tích liệu, thăm dò dự đốn xu hướng bất động sản Nhược điểm Google Machine Learning bị giới hạn kiểu liệu người sử dụng khơng thể biết kỹ thuật mơ hình áp dụng tập liệu họ 13 Amazon Machine Learning: Amazon Machine Learning cho phép thiết lập web service để đưa dự đoán thời gian thực, việc cấu hình tương đối phức tạp Bên cạnh đó, hiệu suất hệ thống dự báo tảng Mlaas Amazon dựa nhiều vào kỹ cấu hình thực người sử dụng, điều làm tính linh hoạt hệ thống Nhược điểm giải pháp người dùng sử dụng kỹ thuật đơn giản với tùy biến phân loại hồi quy Azure Machine Learning: Azure Machine Learning dịch vụ phân tích liệu đưa dự đoán dựa tảng điện toán đám mây Microsoft Azure Machine Learning xây dựng dựa hệ thống phần mềm phức tạp, hệ thống máy tính cao cấp nhà khoa học đầy kinh nghiệm Do vậy, chi phí đắt đỏ công ty vừa nhỏ doanh nghiệp lớn Hình 2.1 Vai trò của Azure quy trình Machine Learning 14 2.3 MƠ HÌNH MLBLOCK Mơ hình khối máy học MLBlocks Hình 2.3 Mơ hình chung của khối máy học Mơ hình diễn giải sau: Bước thứ nhất, hệ thống thu thập, trích xuất tổng hợp dựa liệu thô ban đầu Sau thu thập liệu hoàn thành bước tiền xử lý, trình sử dụng phương pháp kỹ thuật gọi là: "Trích xuất, tổng hợp" "mơ phỏng", kết bước ma trận đối tượng Các hàng ma trận biểu diễn đối tượng, cột tương ứng xem "thuộc tính" liệu Hình 2.4 Mơ hình khối máy học biểu diễn dạng đồ thị có hướng 15 Mơ hình MLBlocks xây dựng đồ thị có hướng, đường xuất phát từ nút triết xuất ban đầu Từ nút này, liệu diễn giải tổng hợp Sau đó, liệu rút trích phân loại, chúng đưa vào huấn luyện từ rút dự đoán cần thiết 2.4 THIẾT KẾ VÀ THỰC THI MLBLOCK CHO DỰ ĐỐN LỘ TRÌNH GIAO THƠNG Với tốn dự đốn lộ trình Giao thơng Mỗi đối tượng liệu tập huấn luyện trường hợp giao thông với điều kiện định Dữ liệu huấn luyện thông tin nhiều thời điểm khác Một lớp tập hợp liệu đánh giá theo giá trị bao gồm từ đến tương ứng với mật độ giao thông từ thưa thớt đông đúc Mỗi liệu phân lớp có giá trị khác nhau, dựa vào giá trị này, áp dụng thuật tốn phân lớp phân tích liệu đầu vào phân giá trị vào lớp tương ứng Mơ hình đề xuất Mục tiêu: xây dựng mơ hình mơ tả tập lớp liệu hay khái niệm định trước Ta có mơ hình áp dụng với tốn mật độ Giao thơng Tạo liệu Dự đốn lộ trình giao thông Diễn giải Triết xuất liệu Tổng hợp Huấn luyện MODEL Thực Phân lớp DATA 70% (trainning) Chia liệu training 30% (test) Hình 2.5 Mơ hình Dự đốn lộ trình Giao thơng 16 Sử dụng mơ hình Một số kỹ thuật phân lớp sử dụng phát triển với đề tài dự đốn lộ trình Giao thông:  Máy vector hỗ trợ (Support Vector Machine – SVM);  K láng giềng gần (K Nearest Neighbours – KNN);  Tiếp cận xác suất thống kê (Naïve Bayes – NB);  Cây định (Decision Tree – DT);  Sử dụng mạng nơron (Neural Network – Nnet);  Dựa vector trọng tâm (Centroid–base vector);  Tuyến tính bình phương nhỏ (Linear Least Square Fit – LLSF) Mỗi kỹ thuật phân lớp có ưu điểm đặc điểm riêng Độ xác kỹ thuật khác 17 CHƯƠNG 3: ỨNG DỤNG MLBLOCKS TRONG VIỆC DỰ ĐỐN LỘ TRÌNH TỐI ƯU TRONG GIAO THÔNG TẠI THÀNH PHỐ ĐÀ NẴNG 3.1 THỰC TRẠNG VÀ GIẢI PHÁP 3.1.1 Thực trạng giao thông thành phố Đà nẵng Là thành phố xem trung tâm kinh tế miền trung với mật độ dân số ngày tăng, phương tiện tham gia giao thông ngày nhiều nên vào cao điểm, số tuyến đường thành phố thường xuyên xảy ùn tắc giao thông cục 3.1.2 Giải pháp + Phương pháp dùng học máy (Machine learning): Giải thuật ứng dụng cho toán dự đoán lưu lượng giao thông giải thuật phân lớp Khi ta xác định số mức lưu lượng như: Mức (tắc nghẽn), mức (rất đông, vận tốc di chuyển chậm < 12km/h), mức (đường đông, vận tốc di chuyển vừa phải từ 12km/h – 25km/h), mức (đường thoáng, tốc độ di chuyển từ 25km/h đến 35km/h), mức (đường thoáng tốc độ di chuyển > 35km/h), ta xây dựng phân lớp để xác định trạng thái giao thông tuyến đường thuộc vào mức ta coi mức tương ứng với lớp Ưu điểm phương pháp động, thay đổi theo tình trạng thực tế tham số đầu vào, luận văn này, tác giả lựa chọn theo hướng Việc Dự đốn lộ trình Giao thơng cần phải dựa vào nhiều nguồn thông tin khác Mỗi nguồn thông tin điều kiện để từ xác định mật độ giao thơng thời điểm để xác định lơ trình giao thơng tối ưu Để có dự đốn xác nhất, cần phải thơng tin 18 có (ngày, giờ, cung đường ,…) để từ đưa dự đốn xác Khi có tập hợp thông tin có tập liệu, để từ tập liệu phân tích đưa kết dự đốn ta sử dụng kết hợp nhiều mơ hình học máy khác tạo thành khối máy học (MLBlocks) Mơ hình tốn thực nghiệm: Giả sử ta cần tìm lộ trình giao thông tối ưu để từ điềm A đến điểm B hình vẽ u cầu tốn xây dựng khối máy học để dự đốn lộ trình tối ưu Với tốn hình vẽ ta phải làm bước sau: Liệt kê danh sách lộ trình đến điểm B Cảnh báo lộ trình sảy tắc đường thời điểm thời Tìm lộ trình tối ưu lộ trình liệt kê Hình 3.2 Minh họa giải pháp tìm lộ trình giao thơng Với bước phải kết hợp nhiều phương pháp máy học để giải toán Ở luận văn đề xuất sử dụng kết hợp phương 19 pháp phân lớp liệu phương pháp tìm đường ngắn để chọn lộ trình tối ưu Các bước thực sau 3.2 CÁC BƯỚC XÂY DỰNG MƠ HÌNH DỰ ĐỐN LỘ TRÌNH GIAO THƠNG Bước 1: Dữ liệu thực nghiệm a) Trích xuất liệu Dữ liệu để đưa vào thực nghiệm lấy từ nhiều nguồn ứng dụng khác nhau, khơng dùng cho hệ thống máy học Do việc dư thừa liệu nhiều Vì cơng việc phải trích xuất liệu từ nguồn liệu thơ vào kho liệu lưu trữ để tạo thành liệu thực nghiệm Bước làm giảm phức tạp khối liệu mà ta thu b) Diễn giải liệu Sau liệu trích xuất cho ứng dụng dự đốn lộ trình giao thơng Cơng việc diễn giải liệu Chúng ta phải phân tích trường liệu có nghĩa diễn giải chúng cho chúng có ý nghĩa cho q trình huấn luyện sau c) Tổng hợp trường liệu Số liệu cụ thể liên quan đến đoạn đường, thời điểm tắc đường thường không công bố nên số liệu thật để kiểm thử chương trình Tuy nhiên, liệu liên quan đến địa điểm tắc đường thường có tính quy luật, nên dựa vào quy luật ta sinh liệu sát với số liệu thật Cụ thể thông tin dựa vào để sinh số liệu bao gồm:  Các trường hợp tắc đường thường xuất cung đường định, nên Tên đường thơng tin để xác định tình hình mật độ giao thông  Các trường hợp tắc đường thường xuất 20 ngày định nằm (ngày lễ, ngày nghỉ, …) nên thời gian Ngày/Tháng thông tin để xác định mật độ giao thông  Trong ngày, mật độ giao thông khoảng thời gian khác nhau, tình trạng tắc đường thường xuất khung định, nên Giờ thông tin để xác định mật độ giao thông  Trong tuần, mật độ giao thông ngày tuần khác nhau, thứ đầu tuần đông ngày tuần có mật độ giao thơng cao ngày thứ chủ nhật Vậy nên Ngày tuần thông tin để xác định mật độ giao thông  Mật độ giao thông cung đường thường giống khoảng thời gian, ví dụ khoảng 5h sáng cung đường A mật độ giao thông thường mức thấp Tuy nhiên số trường hợp đột biến phát sinh (do thời tiết, sửa chữa, tai nạn giao thơng,…) mà mật độ có đột biến khác với ngày lại Tỉ lệ phát sinh đột biến lựa chọn 20% Như việc sinh mật độ giao thông thời điểm cung đường có tỉ lệ 20% đột biến so với ngày lại Như vậy, Đặc tính (Attribute) lựa chọn để xây dựng kiểm thử bao gồm: Tên cung đường (RoadId); Ngày (Date); Tháng (Month); Giờ (Hour); Ngày tuần (Day) Trong Trạng thái giao thơng (state) mục tiêu phân lớp mà tốn Dự đốn lộ trình Giao thơng hướng đến d) Kho liệu i Thực sinh liệu Dựa vào đặc tính lựa chọn để sinh liệu, bước để sinh liệu bao gồm: Sinh thông tin theo giờ, theo ngày, theo tháng, theo đường, theo thông tin ngày nghỉ lễ 21 Bước 2: Chia liệu training test Phương tức test 70-30 phương thức test mà Bộ liệu huấn luyện chia làm phần:  70% liệu sử dụng để tranning  30% liệu sử dụng để test Bước 3: Huấn luyện Sau có liệu thực nghiệm ta tiến hành huấn luyện liệu công cụ Weka Bước 4: Thực phân lớp Bước 5: Tìm đường ngắn Dùng giải thuật tìm đường ngắn không qua điểm tắc đường dự báo Cụ thể ta dùng giải thuật Dijkstra Biểu đồ so sánh Dữ liệu thông thường Dữ liệu có ngày nghỉ lễ 100 80 60 40 20 Navie Bayes SVM Dữ liệu thông thường Neural Network Decision Tree Dữ liệu có ngày nghỉ lễ Biểu đồ 3.1 So sánh Dữ liệu thơng thường Dữ liệu có ngày nghỉ lễ 22 3.3 KẾT QUẢ THỰC NGHIỆM 3.3.1 Thực nghiệm với mức độ tắc đường khác a Thực nghiệp với số lớp (mức độ tắc đường) Decision SVM Tree Navie Neural Bayes Network Precision 80.5% 58.9% 57.5% 75.0% Recall 80.5% 71.9% 69.7% 76.1% F-Measure 80.5% 64.8% 63.0% 75.5% b Thực nghiệp với số lớp (mức độ tắc đường) Decision SVM Tree Navie Neural Bayes Network Precision 80.1% 31.0% 48.7% 71.6% Recall 80.2% 51.4% 56.2% 71.6% F-Measure 80.1% 38.7% 52.2% 71.6% c Thực nghiệp với số lớp (mức độ tắc đường) Decision SVM Tree Navie Neural Bayes Network Precision 82.3% 38.9% 49.9% 76.5% Recall 81.7% 53.5% 58.6% 76.1% F-Measure 82.0% 45.0% 53.9% 76.3% d Thực nghiệp với số lớp (mức độ tắc đường) Decision SVM Tree Navie Neural Bayes Network Precision 78.6% 40.1% 54.8% 76.4% Recall 80.0% 47.2% 51,3% 77.2% F-Measure 79.3% 43.4% 53.0% 76.8% 23 3.3.2 Biểu đồ so sánh kết thực nghiệm với mật độ giao thông khác Kết thực nghiệm với mật độ giao thông khác 100 50 Class = Navie Bayes Class = Decision Tree Class = Class = SVM Neural NetWork Biểu đồ 3.2 Kết thực nghiệm với mật độ giao thơng khác Dựa vào biểu đồ ta thấy - Với phân lớp Decision Tree J48, kết tương đối xác (giữ mức 80%) không bị phụ thuộc vào số lượng class - Với phân lớp Neural Network, độ xác thấp hơn, giữ ổn định 76% không bị ảnh hưởng nhiều vào số lượng class - Với phân lớp SVM Navie Bayes, độ xác thấp SVM thể rõ yếu chạy với số lượng class lớn 3.3.3 Thực nghiệm tìm đường ngắn Hình 3.15 Thực nghiệm tìm đường ngắn 24 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TƯƠNG LAI Dự đốn lộ trình Giao thơng xây dựng để phục vụ mục đích hỗ trợ người tham gia giao thơng lựa chọn hành trình phù hợp Phương thức dự đốn lộ trình Giao thơng phát triển tích hợp thêm phương thức khác để dự đốn xác Luận văn “Nghiên cứu hệ thống khối máy học MLBlocks ứng dụng vào dự đốn lộ trình tối ưu giao thông thành phố Đà Nẵng” tiến hành khảo sát mơ hình máy học với Các phân lớp khác áp dụng mơ hình vào liệu thực nghiệm để đạt kết mong muốn Hướng phát triển tương lai Trong thời gian tới, luận văn tiếp tục nghiên cứu phương pháp máy học để tạo khối máy học hồn chỉnh vào dự đốn lộ trình Giao thông ... khối máy học MLBlocks ứng dụng vào dự đoán lộ trình tối ưu giao thơng” sâu nghiên cứu khối máy học ứng dụng vào thực tiễn việc áp dụng khối máy học MLBlocks để dự đốn lộ trình tối ưu giao thơng... để dự đốn xác Luận văn Nghiên cứu hệ thống khối máy học MLBlocks ứng dụng vào dự đốn lộ trình tối ưu giao thông thành phố Đà Nẵng” tiến hành khảo sát mơ hình máy học với Các phân lớp khác áp dụng. .. thành khối máy học (MLBlocks) Mơ hình tốn thực nghiệm: Giả sử ta cần tìm lộ trình giao thơng tối ưu để từ điềm A đến điểm B hình vẽ u cầu tốn xây dựng khối máy học để dự đoán lộ trình tối ưu Với

Định dạng
Số trang	26
Dung lượng	1,18 MB