Đề tài xây dựng mô hình phân lớp kết hợp dạng voting dựa trên mô hình phân lớp cơ sở naivebayes, cây quyết định (j48) và k – lân cận để dự đoán trên tập dữ liệu

36 4 0
Đề tài xây dựng mô hình phân lớp kết hợp dạng voting dựa trên mô hình phân lớp cơ sở naivebayes, cây quyết định (j48) và k – lân cận để dự đoán trên tập dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KINH TẾ KHOA HỆ THỐNG THÔNG TIN KINH TẾ ĐỒ ÁN KẾT THÚC HỌC PHẦN MÔN KHAI PHÁ DỮ LIỆU Đề tài Xây dựng mô hình phân lớp kết hợp dạng Voting dựa trên mô hình phân lớp cơ sở Nai[.]

ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KINH TẾ KHOA HỆ THỐNG THÔNG TIN KINH TẾ ĐỒ ÁN KẾT THÚC HỌC PHẦN MÔN KHAI PHÁ DỮ LIỆU Đề tài: Xây dựng mơ hình phân lớp kết hợp dạng Voting dựa mơ hình phân lớp sở Naivebayes, Cây định (J48) K – Lân Cận để dự đoán tập liệu Giảng viên hướng dẫn: TS NGUYỄN ĐÌNH HOA CƯƠNG Sinh viên thực hiện: LÊ CHÁNH NHẪN K51 TIN HỌC Lớp: KINH TẾ 17K4081030 Mã sinh viên: Huế, 06/2022 LỜI CẢM ƠN Em xin chân thành cảm ơn thầy giáo Nguyễn Đình Hoa Cương – giảng viên phụ trách học phần Khai phá liệu hướng dẫn định hướng cho em bạn lớp K53 Tin học kinh tế cách thực để có báo cáo kết thúc học phần Với cá nhân em, từ hướng dẫn thầy, em có định hướng đề án kết thúc môn học thực tốt bước quy trình làm báo cáo Qua đây, em muốn gửi lời cảm ơn đến thầy giáo Nguyễn Đình Hoa Cương q thầy Khoa Hệ Thống Thơng Tin Quản Lí giúp đỡ, hướng dẫn cho em suốt trình học tập thực hoàn thành báo cáo Do kinh nghiệm làm đồ án, tiểu luận chưa nhiều nên q trình làm khơng tránh khỏi lỗi sai thiếu sót, em mong nhận nhiều hướng dẫn, bảo từ giảng viên học phần Khai phá liệu - thầy giáo Nguyễn Đình Hoa Cương q thầy khoa Qua báo cáo này, lần em xin chân thành gửi lời cảm ơn sâu sắc, lời chúc sức khỏe đến quý thầy cô Khoa Hệ Thống Thông Tin Quản Lý, chúc thầy cô đạt nhiều thành tựu thành công nghiệp giảng dạy Em xin chân thành cảm ơn ! Lê Chánh Nhẫn I MỤC LỤC LỜI CẢM ƠN I MỤC LỤC II DANH MỤC HÌNH VẼ IV DANH MỤC BẢNG BIỂU V DANH MỤC THUẬT NGỮ VI CHƯƠNG I: CƠ SỞ LÝ THUYẾT 1.1 Tổng quan khai phá liệu 1.1.1 Khái niệm khai phá liệu 1.1.2 Quá trình phát tri thức sở liệu 1.1.3 Lợi ích khai phá liệu 1.1.4 Thách thức khai phá liệu 1.2 Các phương pháp khai phá liệu 1.2.1 Khai phá luật kết hợp 1.2.2 Phân lớp liệu 1.2.3 Phân cụm 1.3 Các mơ hình phân lớp sử dụng tiểu luận .6 1.3.1 Mơ hình Naive Bayes 1.3.2 Mơ hình định (J48) 1.3.3 Mơ hình K – lân cận 1.3.4 Mơ hình kết hợp: Phương pháp Voting CHƯƠNG II: PHƯƠNG PHÁP NGHIÊN CỨU 10 II 2.1 Mô tả liệu 10 2.2 Phương pháp phân chia liệu 10 2.2.1 Phương pháp Hold - out 10 2.2.2 Phương pháp Cross validation (10 – fold cross validation) 11 2.2.3 Phân chia liệu 11 2.3 Xây dựng mơ hình 12 2.4 21 Đánh giá mơ hình 2.4.1 Phép đo Precetion - Recall 22 2.4.2 Phép đo F1 23 2.5 Kết thực hành CHƯƠNG III: TỔNG KẾT THỰC HÀNH 3.1 23 -25- Kết luận -25- 3.2 Hạn chế -25- DANH MỤC TÀI LIỆU THAM KHẢO 26 KẾT QUẢ KIỂM TRA ĐẠO VĂN 28 III DANH MỤC HÌNH VẼ Hình 1: Minh họa quy trình phát tri thức sở liệu (nguồn: tailieuso.udn.vn) Hình 2: Minh họa phân cụm (nguồn: giảng phân cụm – TS Nguyễn Đình Hoa Cương) Hình 3: Minh họa mơ hình Nạve Bayes (nguồn: https://sebastianraschka.com/) .7 Hình 4: Minh họa định (J48) (nguồn: viblo.asia) Hình 5: Minh họa mơ hình kNN (nguồn: viblo.asia) Hình 6: Quy trình phân chia liệu 12 Hình 7:Minh họa cho sơ đồ vẽ đường ROC 21 Hình 8: Minh họa phép đo Precetion – Recall 22 Hình 9: Đường ROC mơ hình với liệu Diabetes.arff (Nhãn lớp: tested_negative) 24 IV DANH MỤC BẢNG BIỂU Bảng 1: Các thuộc tính liệu 10 Bảng 2: Kết mô hình với liệu Diabetes.arff .23 V DANH MỤC THUẬT NGỮ Số thứ tự Từ viết tắt KDD ROC Arff Khai thác tri thức ( Knowledge discovery in databases) Receiver Operating Characteristic Attribute - Relation File Format Tên tiếng Anh/ Nghĩa tiếng Việt Số thứ tự Từ tiếng Anh Nghĩa tiếng Việt Decision Tree k – Nearest Neighbors Clustering Lazy learning Weka Association Rule Mining Data Mining Cây định k – lân cận Phân cụm Lười biếng Waikato Environment for Knowledge Analysis Khai phá luật kết hợp Khai phá liệu VI CHƯƠNG I: CƠ SỞ LÝ THUYẾT 1.1 Tổng quan khai phá liệu 1.1.1 Khái niệm khai phá liệu Khai phá liệu [1] hay Data Mining khái niệm đời vào năm cuối thập kỷ 80 Nó bao hàm loạt kỹ thuật nhằm phát thơng tin có giá trị tiềm ẩn tập liệu lớn (các kho liệu) Khai phá liệu tập hợp, hệ thống phương pháp tính tốn, thuật tốn áp dụng cho sở liệu lớn phức tạp mục đích loại bỏ chi tiết ngẫu nhiên, chi tiết ngoại lệ, khám phá mẫu, mô hình, quy luật tiềm ẩn, thơng tin có giá trị liệu Khai phá liệu thành công nghệ tiên tiến ngày nay, trình khám phá kiến thức vơ giá cách phân tích khối lượng lớn liệu đồng thời lưu trữ chúng nhiều sở liệu khác 1.1.2 Quá trình phát tri thức sở liệu Quá trình phát tri thức (KDD) [2] q trình tìm thơng tin tiềm ẩn có giá trị mà trước chưa phát hiện, tìm xu hướng phát triển yếu tố tác động lên chúng Quá trình xử lý khai phá liệu bắt đầu cách xác định xác vấn đề cần giải Sau xác định liệu liên quan dùng để xây dựng giải pháp Bước thu thập liệu có liên quan xử lý chúng thành dạng cho giải thuật khai phá liệu hiểu Bước chọn thuật toán khai phá liệu thích hợp thực việc khai phá liệu để tìm mẫu (pattern) có ý nghĩa dạng biểu diễn tương ứng với ý nghĩa (thường biểu diễn dạng luật xếp loại, định, luật sản xuất, biểu thức hồi quy,…) Quá trình phát tri thức bao gồm bước: - Làm liệu (data cleaning): bước nhiễu liệu không quán loại bỏ - Tích hợp liệu (data intergation): liệu từ nhiều nguồn khác tổ hợp lại - Lựa chọn liệu (data selection): liệu thích hợp với nhiệm vụ phân tích trích rút từ sở liệu - Chuyển đổi liệu (data tranform): liệu sau chọn lọc chuyển đổi hay hợp dạng thích hợp cho việc khai phá - Khai phá liệu (data mining): q trình cốt lõi, tất yếu phương pháp thơng minh áp dụng nhằm trích rút mẫu liệu - Đánh giá mẫu (pattern evaluation): nhà phân tích liệu dựa số độ đo để xác định lợi ích thực sự, độ quan trọng mẫu biểu diễn tri thức - Biểu diễn tri thức (Knowledge presentation): giai đoạn kĩ thuật biểu diễn hiển thị tri thức sử dụng để đưa tri thức lấy đến người dùng Hình 1: Minh họa quy trình phát tri thức sở liệu (nguồn: tailieuso.udn.vn) 1.1.3 Lợi ích khai phá liệu Xét lợi ích trình phân chia liệu: - Chọn lọc, loại bỏ tất liệu không liên quan liệu trùng lớp tập liệu - Xác định mẫu liệu, liệu có liên quan dùng thuật tốn phân tích, tận dụng liệu để dự báo kết đầu ví dụ xu hướng, hành vi tiêu dùng - Với khai phá liệu, phân tích khối lượng lớn liệu thời gian ngắn sau chuyển đổi liệu thành thơng tin, kiến thức có ý nghĩa

Ngày đăng: 31/03/2023, 06:18

Tài liệu cùng người dùng

Tài liệu liên quan