Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 34 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
34
Dung lượng
1,14 MB
Nội dung
Mục lục Chương 1: Giới thiệu chung .1 1.1 Tổng quan 2.1 Phân lớp .2 2.1.1 Khái niệm 2.1.2 Mục đích 2.1.3 Phát biểu toán 2.1.4 Ví dụ phân lớp .3 2.2 Quy trình phân lớp .3 2.3 Các kỹ thuật phân lớp Chương 3: Phân lớp định 3.1 Định nghĩa 3.2 Xây dựng định .4 3.3 Thuật toán xây dựng định 3.3.1 Một số thuật toán 3.3.2 Ý tưởng 3.3.3 Vấn đề 3.4 Cách phân chia mẫu .9 3.4.1 Tiêu chuẩn phân chia 3.4.2 Độ đo đánh giá chất lượng phân chia 3.5 Ưu điểm .15 Chương 4: Ứng dụng định .15 4.1 Bài toán liệu huấn luyện 15 4.2 Chức phân lớp Classify Weka 25 4.2.1 Giới thiệu chức Classify 25 4.2.2 Mô tả chức Classify 26 4.2.3 Ví dụ thực hành 26 4.3 Tổng kết 33 THÀNH VIÊN NHÓM Họ tên Nguyễn Thị Hồng Hạnh Mã sinh viên 11161631 (Nhóm trưởng) Trần Thị Thu Hà 11161392 Tạ Thị Mận 11163341 Nguyễn Thị Linh 11162961 Nguyễn Thị Hiền 11161725 Nguyễn Thùy Linh 11163016 Dương Thị Lụa 11163016 Định Thị Kiều Anh 11160090 Phạm Thị Lan Nhi 11163891 10 Vũ Thị Quyền 11164358 11 Nguyễn Thị Dịu 11160897 12 Trịnh Thị Thu 11164965 13 Nguyễn Thành Đạt 11160839 14 Hồ Hữu Minh 11163373 15 Vũ Quốc Thái 11164581 16 Nguyễn Trí Hiếu 11161826 17 Tạ Đức Thiện 11164887 CÁC PHƯƠNG PHÁP CÂY QUYẾT ĐỊNH (DECISION TREE BASED METHODS) Chương 1: Giới thiệu chung 1.1 Tổng quan Hiện xu hướng tiếp cận Data mining phục vụ cho việc khai thác giá trị từ liệu cơng ty tồn cầu ngày mạnh mẽ Vậy Data Mining ? Data mining ( khai phá liệu ) Là q trình tính tốn để tìm mẫu liệu lớn liên quan đến phương pháp giao điểm máy học, thống kê hệ thống sở liệu Mục tiêu tổng thể trình khai thác liệu trích xuất thơng tin từ liệu chuyển thành cấu trúc dễ hiểu để sử dụng tiếp Khai phá liệu bước trình khai thác tri thức (Knowledge Discovery Process) Có nhiều phương pháp khai khác liệu bật phương pháp phân loại Phân loại (Classification): Là phương pháp dự báo, cho phép phân loại đối tượng vào lớp cho trước Cụ thể sử dụng định để phân loại sữ liệu Cây định gì? Cây định (decision tree) phương pháp mạnh phổ biến cho hai nhiệm vụ khai phá liệu phân loại dự báo Mặt khác, định chuyển sang dạng biểu diễn tương đương dạng tri thức luật IfThen Cây định cấu trúc biểu diễn dạng Trong đó, nút ( internal node) biểu diễn thuộc tính, nhánh (branch) biểu diễn giá trị có thuộc tính,mỗi (leaf node) biểu diễn lớp định đỉnh gọi gốc (root) Cây định dùng để phân lớp bafwg cách xuất phát từ gốc di chuyển theo nhanh gặp nút Trên sở phân lớp chuyển đổi quy luật định Cây định sử dụng để xây dựng kế hoạch nhằm đạt mục tiêu mong muốn Các định dùng để hỗ trợ trình định Cây định dạng đặc biệt cấu trúc Tạo định q trình phân tích sở liệu, phân lớp đưa dự đoán Cây định tạo thành cách chia (đệ quy) tập liệu thành tập liệu con, tập liệu tạo thành chủ yếu từ phần tử lớp Lựa chọn thuộc tính để tạo nhánh thơng qua Entropy Gain Học định phương pháp thông dụng khai phá liệu Khi đó, định mơ tả cấu trúc đại diện cho phân loại cành đại diện cho kết hợp thuộc tính dẫn tới phân loại Một định có cách chia tập hợp nguồn thành tập hợp dựa theo kiểm tra giá trị thuộc tính Q trình lặp lại cách đệ quy hồn thành khơng thể tiếp tục thực việc chia tách nữa, hay phân loại đơn áp dụng cho phần tử tập hợp dẫn xuất Cây định mô tả kết hợp kỹ thuật tốn học tính tốn nhằm hỗ trợ việc mơ tả, phân loại tổng qt hóa tập hợp liệu cho trước Dữ liệu cho dạng ghi có dạng: (x,y) = (x1, x2, x3, ,xk,y) Biến phụ thuộc y biến mà chúng giúp ta thực cơng việc 1.2 - Cấu trúc Chương 1: Giới thiệu chung - Chương 2: Cơ sở lý thuyết phân lớp định - Chương 3: Phân lớp định - Chương 4: Chương 2: Cơ sở lý thuyết phân lớp định 2.1 Phân lớp 2.1.1 Khái niệm - Phân lớp liệu kỹ thuật dựa tập huấn luyện giá trị - nhãn lớp thuộc tính phân lớp Phân lớp tiên đoán loại lớp nhãn Bên cạnh kỹ thuật phân lớp có hình thức tương tự kỹ thuật tiên đoán , kỹ thuật tiên đoán khác với phân lớp chỗ phân lớp liên quan đến tiên đốn loại lớp nhãn cịn kỹ thuật tiên đốn mơ hình hàm đánh giá liên tục Cho tập mẫu phân lớp trước, xây dựng mơ hình cho lớp 2.1.2 Mục đích - Mục đích phân lớp liệu phân tích liệu nhằm rút trích mơ hình - mơ tả lớp liệu dự đốn xu hướng liệu Tức gán mẫu vào lớp với độ xác cao Dự đoán nhãn phân lớp cho liệu, mẫu 2.1.3 Phát biểu toán - Cho CSDL D = t1, t2, …,tn tập lớp C = C1, C2, …,Cn, phân lớp toán xác định ánh xạ f : DC sap cho ti gán vào lớp 2.1.4 Ví dụ phân lớp - Phân lớp khách hàng (trong ngân hàng) vay hay khơng? - Dự đốn tế bào khối u lành tính hay ác tính? - Phân loại giao dịch thẻ tín dụng hợp pháp hay gian lận? - Phân loại tin tức thuộc lĩnh vực tài chính, thời tiết, giải trí, thể thao,… - Dự đốn sơng có lũ? - Chuẩn đốn y khoa 2.2 Quy trình phân lớp - Bước 1: Xây dựng mơ hình - Mơ tả tập lớp xác định trước Tập huấn luyện: mẫu / dành cho xây dựng mơ hình Mỗi mẫu / thuộc lớp định nghĩa trước Tìm luật phân lớp, định cơng thức tốn mơ tả lớp Bước 2: Sử dụng mơ hình Phân lớp đối tượng chưa biết Xác định độ xác mơ hình, sử dụng tập liệu kiểm tra độc lập Độ xác chấp nhận được áp dụng mơ hình để phân lớp mẫu/bộ chưa xác định nhãn lớp 2.3 Các kỹ thuật phân lớp - Phân lớp dựa định - Phương pháp dựa luật - Phương pháp Naïve Bayes - Phương pháp dựa thể - Mạng Noron - SVM(Support vector machine ) - Tập thô - Cây định cấu trúc phân cấp nút nhánh Chương 3: Phân lớp định 3.1 Định nghĩa - Cây định cấu trúc phân cấp nút nhánh - loại nút cây: - Nút gốc Nút nội bộ: mang tên thuộc tính CSDL Nút lá: mang tên lớp Ci Nhánh: mang giá trị thuộc tính 3.2 - Xây dựng định Gồm bước: Bước 1: Thiết lập định: Là toán thiết lập đệ quy, xây dựng từ nút gốc sau kiểm tra giá trị thuộc tính xác định xem thuộc tính cho tiêu chuẩn tốt tiêu chuẩn xác định trước, thuộc tính đạt độ đo tốt dùng để phân chia mẫu đệ quy Quy trình lặp lặp lại đến gặp điều kiện dừng Bước 2: Tỉa bớt cây: Nếu sử dụng gặp số vấn đề phù hợp với liệu hay đơn giản nhằm mục đích loại bỏ nhánh khơng ổn định, cá biệt làm bớt rờm rà, độ tập trung tốt để có độ xác cao áp dụng vào thực tế 3.3 Thuật toán xây dựng định 3.3.1 Một số thuật toán - ID3 Thuật toán phát triển Quinlan (trường đại học Syney, Australia) công bố vào cuối thập niên 70 ID3 xem cải tiến CLS với khả lựa chọn thuộc tính tốt để triển khai bước Thuật toán sử dụng khái niệm Entropy Information Gain để xác định thuộc tính tốt cho q trình triển khai Thuật tốn xây dựng định mô tả sau: Lặp: Chọn A