Tác giả đã thực hiện việc nghiên cứu các thuật toán phân lớp một cách triệt để và tiến hành thực nghiệm hệ thống trên các dữ liệu đã thu thập được. Hệ thống dựa vào các thông tin và số liệu phân tích được sử dụng các mô hình phân lớp như SVM, Decision Tree, Bayer và Neural Network, sau đó trả về cho người dùng kết quả mật độ giao thông tại một vị trí xác định trong một khoảng thời gian xác định. Mời các bạn cùng tìm hiểu về tính năng ứng dụng mô hình phân lớp để dự đoán mật độ giao thông.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ SỬ DỤNG MƠ HÌNH PHÂN LỚP ĐỂ DỰ ĐỐN MẬT ĐỘ GIAO THÔNG Tác giả: Nguyễn Đức Thắng LUẬN VĂN THẠC SĨ Chuyên ngành: HỆ THỐNG THÔNG TIN Hà Nội, 10/2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ SỬ DỤNG MƠ HÌNH PHÂN LỚP ĐỂ DỰ ĐỐN MẬT ĐỘ GIAO THƠNG Tác giả: Nguyễn Đức Thă gs Khoa Công Nghệ Thông Tin Trường Đại học Công Nghệ Đại học Quốc Gia Hà Nội Giảng viên hướng dẫn: PGS.TS Nguyễn Trí Thành Hà Nội, 10/2016 LỜI CAM ĐOAN “ Tôi xin cam đoan cơng trình nghiên cứu thân Các số liệu, kết trình bày luận văn trung thực chưa công bố cơng trình luận văn trước đây.” Chữ ký:……………………………………………… SUPERVISOR’S APPROVAL “I hereby approve that the thesis in its current form is ready for committee examination as a requirement for the Master of Information Systems degree at the University of Engineering and Technology.” Chữ ký:……………………………………………… MỤC LỤC Danh mục ký hiệu chữ viết tắt Danh mục bảng Danh mục hình vẽ MỞ ĐẦU Error! Bookmark not defined NỘI DUNG TRÌNH BÀY CHƯƠNG Giới thiệu chung dự đoán mật độ giao thông 1.1 Bài toán phân lớp liệu 1.2 Các bước phân lớp liệu Error! Bookmark not defined CHƯƠNG 2: Tìm hiểu mơ hình Decision Tree 11 CHƯƠNG 3: Xây dựng chương trình dựa định 16 3.1 Mơ hình định chương trình 16 CHƯƠNG 4: Ứng dụng đưa kết dự đoán với liệu mẫu 19 4.1 Dữ liệu tranning 19 4.2 Dữ liệu test 20 4.3 Kết thực nghiệm 20 KẾT LUẬN 22 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN VĂN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 23 PHỤ LỤC 24 Danh mục ký hiệu chữ viết tắt STT Từ viết tắt SVM Nghĩa đầy đủ Support Vector Machine Ghi Danh mục bảng Table 1: So sánh kết phân lớp sử dụng SVM, Navies Bayes, J48 Neural Network Error! Bookmark not defined Danh mục hình vẽ Hình 1:Mơ hình phân lớp liệu Error! Bookmark not defined Hình 2: Khơng gian tuyến tính Error! Bookmark not defined Hình 3: Training Data SVM Error! Bookmark not defined Hình 4: Testing Data SVM Error! Bookmark not defined Hình 5: Kết phân lớp sử dụng SVM Error! Bookmark not defined Hình 6: Training Data Navies Bayes Error! Bookmark not defined Hình 7: Testing Data Navies Bayes Error! Bookmark not defined Hình 8: Kết phân lớp sử dụng Navies Bayes Error! Bookmark not defined Hình 9: Training Data J48 Error! Bookmark not defined Hình 10: Testing Data J48 Error! Bookmark not defined Hình 11: Kết phân lớp sử dụng J48 Error! Bookmark not defined Hình 12: Training Data Neural Network Error! Bookmark not defined Hình 13: Testing Data Neural Network Error! Bookmark not defined Hình 14: Kết phân lớp sử dụng Neural Network Error! Bookmark not defined NỘI DUNG TRÌNH BÀY CHƯƠNG GIỚI THIỆU CHUNG 1.1 Bài toán dự đoán mật độ giao thơng Với tình hình phát triển kinh tế tại, số lương phương tiện giao thông đặc biệt ô tô, xe máy ngày phát triển với tốc độ lớn số lượng Tuy nhiên với tốc độ phát triển phương tiên giao thơng hạ tầng giao th\ơng lại chưa phát triển cách tương xứng Tình trạng tắc đường ùn ứ thường xuyên xảy Tuy nhiên việc ùn ứ, tắc đường thường có tính quy luật, ví dụ thời điểm bắt đầu làm buổi sáng tan tầm thời điểm thường xuyên xảy tắc đường Và nút giao thơng quan trọng, tình trạng tắc đường thường xun xảy Hệ thống dựa vào đặc điểm, khoảng thời gian tắc đường, địa điểm hay xảy tắc đường để đưa dự báo cách tương đối xác cho người tham gia giao thông Những người tham gia giao thông băn khoăn lựa chọn đường vào thời điểm hay xảy tắc đường Nếu xây dựng hệ thống dự báo tắc đường cách hiệu quả, người tham gia giao thơng dựa vào để tìm đường thích hợp mà ko bị thời gian Việc dự đoán mật độ giao thơng hướng tiếp cận thơng qua quy luật, mơ hình hóa học máy Trong phương pháp tiếp cận học máy có nhiều ưu điểm không thời gian đưa luật, học từ liệu huấn luyện, dễ dàng mở rộng tái cấu trúc Các phân loại thường sử dụng phương pháp học máy Support Vector Machine(SVM), Naive Bayes, J48, Neural Network,Maximum Entropy, Decision Tree, Nearest-Neighbors, Sparse Network of Winnows(SNoW) Trong luận văn nghiên cứu này, sử dụng cải tiến mơ hình Decision Tree để học liệu mẫu đưa dự đốn mật độ giao thơng từ liệu mẫu 1.2 Bài toán phân lớp liệu Là trình phân lớp đối tượng liệu vào hay nhiều lớp cho trước nhờ mơ hình phân lớp mà mơ hình xây dựng dựa tập hợp đối tượng liệu gán nhãn từ trước gọi tập liệu học (tập huấn luyện) Q trình phân lớp gọi trình gán nhãn cho đối tượng liệu.Như vậy, phân lớp tiên đoán lại lớp nhãn Có nhiều tốn phân lớp liệu, phân lớp nhị phân, phân lớp đa lớp, phân lớp đa trị,… Phân lớp nhị phân trình tiến hành việc phân lớp liệu vào hai lớp khác dựa vào việc liệu có hay khơng số đặc tính theo quy định phân lớp Phân lớp đa lớp trình phân lớp với số lượng lớp lớn hai Như vậy, tập hợp liệu miền xem xét phân chia thành nhiều lớp không đơn hai lớp toán phân lớp nhị phân Về chất, toán phân lớp nhị phân trường hợp riêng toán phân lớp đa lớp Trong phân lớp đa trị, đối tượng liệu tập huấn luyện đối tượng sau phân lớp thuộc vào từ hai lớp trở lên Với ví dụ tốn Dự đốn mật độ Giao thơng Mỗi đối tượng liệu tập huấn luyện trường hợp giao thông với số điều kiện định Các liệu huấn luyện không đơn giản thông tin thời điểm mà huấn luyện nhiều thời điểm khác Một lớp tập hợp liệu đánh giá theo giá trị bao gồm từ đến tương ứng với mật độ giao thơng từ thưa thớt đơng đúc Ngồi huấn luyện bản, có thêm huấn luyện đặc biệt góp phần tăng độ xác huyến luyện ví dụ Tập hợp ngày lễ tết, Tập hợp địa điểm xây dựng, … Mỗi liệu phân lớp có giá trị khác nhau, dựa vào giá trị , áp dụng thuật toán phân lớp phân tích liệu đầu vào phân giá trị vào lớp tương ứng 10 CHƯƠNG 2: CÁC KHÁI NIỆM TỔNG QUAN 2.1 Mơ hình định Cây định (decision tree) hình thức mơ tả liệu trực quan nhất, dễ hiểu người dùng Cấu trúc định bao gồm nút nhánh Nút gọi nút lá, mô hình phân lớp liệu giá trị nhãn lớp (gọi tắt nhãn) Các nút khác nút gọi nút con, thuộc tính tập liệu, hiển nhiên thuộc tính phải khác thuộc tính phân lớp Mỗi nhánh xuất phát từ nút p ứng với phép so sánh dựa miền giá trị nút Nút gọi nút gốc Xem xét ví dụ định sau[1]: 11 Từ bảng liệu trên, ta xây dựng định sau: Cây định ví dụ giải thích sau: nút chứa giá trị thuộc tính phân lớp (thuộc tính “Play”) Các nút tương ứng với thuộc tính khác thuộc tính phân lớp; nút gốc xem nút đặc biệt, thuộc tính “Outlook” Các nhánh từ nút tương đương phép so sánh so sánh bằng, so sánh khác, lớn nhỏ hơn… kết phép so sánh bắt buộc phải thể giá trị logic (Đúng Sai) dựa giá trị thuộc tính nút Lưu ý định khơng có tham gia thuộc tính “thu nhập” thành phần cây, thuộc tính gọi chung thuộc tính dư thừa thuộc tính khơng ảnh hưởng đến q trình xây dựng mơ hình Các thuộc tính tham gia vào q trình phân lớp thơng thường có giá trị liên tục hay gọi kiểu số (ordered or numeric values) kiểu rời rạc hay gọi kiểu liệu phân loại (unordered or category values) Ví dụ kiểu liệu lương biểu diễn số thực kiểu liệu liên tục, kiểu liệu giới tính kiểu liệu rời rạc (có thể rời rạc hóa thuộc tính giới tính cách dễ dàng) 12 2.2 Chiến lược để xây dựng định Bắt đầu từ nút đơn biểu diễn tất mẫu Nếu mẫu thuộc lớp, nút trở thành nút gán nhãn lớp Ngược lại, dùng độ đo thuộc tính để chọn thuộc tính phân tách tốt mẫu vào lớp Một nhánh tạo cho giá trị thuộc tính chọn mẫu đƣợc phân hoạch theo Dùng đệ quy trình để tạo định Tiến trình kết thúc điều kiện sau - Tất mẫu cho nút cho trước thuộc lớp - Khơng thuộc tính mà mẫu dựa vào để phân hoạch xa - Khơng mẫu cho nhánh test_attribute = Tuy nhiên, không chọn thuộc tính phân lớp hợp lý nút, ta tạo ca phức tạp, ví dụ đây: Như vậy, vấn đề đặt phải chọn thuộc tính phân lớp tốt Phần giới thiệu tiêu chuẩn, dựa vào tiêu chuẩn này, ta chọn thuộc tính phân lớp tốt nút 13 2.3 Thuận lợi hạn chế mơ hình định Một số thuận lợi sau định xem công cụ phân loại mà tài liệu này: Cây định tự giải thích gắn kết lại, chúng dễ dàng tự sinh Nói cách khác, định mà có số lượng nút vừa phải người khơng chun dễ dàng hiểu Hơn nữa, định chuyển sang tập luật Vì vậy, định xem dễ hiểu Cây định xử lý thuộc tính tên số đầu vào Thể định đủ đa dạng để biểu diễn cho giá trị rời rạc Cây định có khả xử lý liệu mà gây lỗi Cây định có khả xử lý liệu mà có giá trị rỗng Cây định xem phương pháp phi tham số Điều có nghĩa định khơng có giả định phân chia nhớ cấu trúc phân lớp Bên cạnh đó, định có bất lợi sau đây: Hầu hết thuật toán (như ID3 C4.5) bắt buộc thuộc tính mục tiêu phải giá trị rời rạc Khi định sử dụng phương pháp “chia để trị”, chúng thực tốt tồn số thuộc tính liên quan chặt chẽ với nhau, khó khan số tương tác phức tạp xuất Một nguyên nhân gây điều phân lớp mà có mơ tả mạch lạc việc phân lớp gặp khó khăn việc biểu diễn định Một minh họa đơn giản tượng vấn đề tái tạo định (Pagallo Huassler, 1990) Khi mà hầu hết định phân chia không gian thể thành khu vực loại trừ lẫn để biểu diễn khái niệm, số trường hợp, nên chứa vài giống thứ tự thể việc phân lớp Ví dụ, khái niệm sau mà thể theo hàm nhị phân: y = (A1 ∩ A2) ∪ (A3 ∩ A4) định đơn biến tối tiểu mà biểu diễn hàm biểu diễn phần 9.3 Lưu ý có chứa Các đặc tính liên quan định dẫn đến khó khăn khác độ nhạy với tập huấn luyện, thuộc tính khơng phù hợp, nhiễu (Quinlan, 1993) 14 2.7 Cây định mở rộng: 2.7.1 Oblivious Decision Trees Cây định oblivious định mà tất nút cấp tính Mặc dù có hạn chế, song định oblivious hiệu việc lựa chọn tính [Almuallim Deitterich (1994)] [Schlimmer (1993)] đề xuất thủ tục lựa chọn tính trước cách xây dựng định oblivious, [Langley Sage (1994)] đề nghị lựa chọn ngược sử dụng định oblivious [Kohavi Sommerfield (1998)] định oblivious chuyển thành bảng định Gần [Maimon Last (2000)] đề nghị thuật toán IFN (Information Fuzzy Network) để xây dựng định oblivious Vì phải xây dựng thuật tốn IFN? • Ưu điểm: - Xây dựng IFN tương tự xây dựng định - IFN đồ thị có hướng - IFN sử dụng thơng tin chung có điều kiện q trình xây dựng cây, định sử dụng số liệu Entropy Gini - Chiều cao IFN vượt số lượng đầu vào - Các mơ hình IFN thường ổn định hơn, điều có nghĩa thay đổi nhỏ tập huấn luyện ảnh hưởng đến mơ hình khác • Nhược điểm: - Tuy nhiên độ xác IFN thấp định Ví dụ: Khảo sát số bệnh nhân có mức đường huyết nhỏ 107 tuổi lớn 50 kết nhận thấy rằng: 10 người chuẩn đoán xem có bị tiểu đường hay khơng người khơng cần chuẩn đốn bệnh Trường hợp khác, khảo sát số bệnh nhân có đường huyết lớn 107, tuổi nhỏ 30, có bị bệnh huyết áp mang thai phải làm xét nghiệm tiểu đường Tương tự cho đường lại Sự khác biệt cấu trúc định oblivious định thông thường thứ tự số thuộc tính đầu vào nút cuối định oblivious Thuộc tính thứ hai cần thiết cho việc giảm thiểu tồn tập thuộc tính đầu vào (kết giảm kích thước) Các dây cung mà kết nối nút cuối với nút lớp mục tiêu gán nhãn với số lượng mẫu tin phù hợp với đường 15 Một định oblivious xây dựng thường xuyên thuật toán tham lam, mà cố gắng tối đa hóa biện pháp thơng tin lẫn lớp Tìm kiếm đệ qui thuộc tính minh họa, dừng khơng có thuộc tính mà giải thích mục tiêu với ý nghĩa thống kê CHƯƠNG 3: XÂY DỰNG MƠ HÌNH DỰ ĐỐN MẬT ĐỘ GIAO THƠNG 3.1 Mơ hình định chương trình Ta có liệu thơ có dạng sau: 16 Dữ liệu trainning xây dựng có dạng sau: Một liệu tranning bao gồm phần Phần 1: Các thông tin mô tả hệ thống (khơng thiết phải có) 17 Phần 2: Các Attribute liệu Phần 3: Dữ liệu tranning Ta có mơ hình ứng với tốn dự đốn mật độ giao thông sau: 18 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Dữ liệu tranning Ta có tranning Tổng cộng: 8640 liệu traning Dữ liệu tranning bao gồm: 19 RoadId: mã đường Date: ngày Month: tháng Hour: Giờ Result: độ tắc đường 4.2 Dữ liệu test Ta có liệu test sau Dữ liệu test có: 1200 test 4.3 Kết thực nghiệm Output: 20 Đánh giá thực nghiệm: - Dữ liệu test: 1200 Trả kết quả: 1200 Kết xác so với tranning: 1200 Kết sai: 21 KẾT LUẬN 22 TÀI LIỆU THAM KHẢO Tiếng Việt Tiếng Anh Naive Bayes Classifiers and Document Classification- Brandon Malone January 24, 2014 Decision Tree Analysis on J48 Algorithm for Data Mining- Dr Neeraj Bhargava, Girja Sharma, Dr Ritu Bhargava, Manish Mathuria - Volume 3, Issue 6, June Support Vector Machine (and Statistical Learning Theory) Tutorial Jason Weston NEC Labs America Independence Way, Princeton, USA jasonw@nec-labs.com Artifical Neural Networks- Ani1 K Jain Michigan State University Jianchang M a o K.M Mohiuddin ZBMAZmadenResearch Center 23 PHỤ LỤC Phụ lục 4: THÔNG TIN LUẬN VĂN THẠC SĨ ÐẠI HỌC QUỐC GIA HÀ NỘI TRUỜNG ÐẠI HỌC CƠNG NGHỆ CỘNG HỊA XÃ HỘI CHỦ NGHIA VIỆT NAM Ðộc lập - Tự - Hạnh phúc THÔNG TIN VỀ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Đức Thắng Giới tính: Nam Ngày sinh:26/03/1991 Nơi sinh: Quỳnh Hải, Quỳnh Phụ, Thái Bình Quyết định cơng nhận học viên số: , ngày… tháng.… nam Các thay đổi trình tạo: Không Tên đề tài luận van: Chuyên ngành: Hệ thống thông tin Mã số: 10 Cán huớng dẫn khoa học: PGS TS Nguyễn Trí Thành 11 Tóm tắt kết luận van: nêu tóm tắt kết luận van, nhấn mạnh kết có) 12 Khả ứng dụng thực tiễn: (nếu có) 13 Những huớng nghiên cứu tiếp theo: (nếu có) 14 Các cơng trình dã cơng bố có liên quan đến luận van: liệt kê cơng trình theo thứ tự thời gian có) Ngày tháng năm 20 Xác nhận cán huớng dẫn (Kí ghi rõ họ tên) Ngày tháng năm 20 Học viên (Kí ghi rõ họ tên) 24 ... vậy, phân lớp tiên đoán lại lớp nhãn Có nhiều tốn phân lớp liệu, phân lớp nhị phân, phân lớp đa lớp, phân lớp đa trị,… Phân lớp nhị phân trình tiến hành việc phân lớp liệu vào hai lớp khác dựa... Winnows(SNoW) Trong luận văn nghiên cứu này, sử dụng cải tiến mơ hình Decision Tree để học liệu mẫu đưa dự đoán mật độ giao thông từ liệu mẫu 1.2 Bài tốn phân lớp liệu Là q trình phân lớp đối tượng... định phân lớp Phân lớp đa lớp trình phân lớp với số lượng lớp lớn hai Như vậy, tập hợp liệu miền xem xét phân chia thành nhiều lớp không đơn hai lớp toán phân lớp nhị phân Về chất, toán phân lớp