TRƯỜNG ĐẠI HỌC KHOA HỌC KHOA CÔNG NGHỆ THÔNG TIN HỌ VÀ TÊN SINH VIÊN PHAN MINH PHƯỚC MÃ SINH VIÊN 18T1021245 TÊN HỌC PHẦN THỰC TẬP VIẾT NIÊN LUẬN ĐỀ TÀI Tìm hiểu thuật toán ID3 trong xây dựng cây quyế[.]
TRƯỜNG ĐẠI HỌC KHOA HỌC KHOA CÔNG NGHỆ THÔNG TIN HỌ VÀ TÊN SINH VIÊN: PHAN MINH PHƯỚC MÃ SINH VIÊN: 18T1021245 TÊN HỌC PHẦN : THỰC TẬP VIẾT NIÊN LUẬN ĐỀ TÀI: Tìm hiểu thuật tốn ID3 xây dựng định khai thác phần mềm WEKA để phân lớp liệụ GIẢNG VIÊN HƯỚNG DẪN: LÊ MẠNH THẠNH HUẾ, NĂM 2021 TRƯỜNG ĐẠI HỌC KHOA HỌC KHOA CƠNG NGHỆ THƠNG TIN CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc PHIẾU ĐÁNH GIÁ Học kỳ Năm học 2020-2021 Cán chấm thi Cán chấm thi Nhận xét: Nhận xét: Điểm đánh giá CBChT1: Điểm đánh giá CBChT2: Bằng số: Bằng số: Bằng chữ: Bằng chữ: Điểm kết luận: Bằng số Bằng chữ: (Ký vàCBChT1 ghi rõ họ tên) Thừa Thiên Huế, ngày …… tháng …… năm CBChT2 20… (Ký ghi rõ họ tên) Tìm hiểu thuật tốn ID3 xây dựng định khai thác phần mềm WEKA để phân lớp liệu I Tổng quan khai phá liệu: 1.1 Tại lại cần khai phá liệu ? Khoảng thập kỷ trở lại đây, lượng thông tin lưu trữ thiết bị điện tử (đĩa cứng, CD -ROM, băng từ, v.v.) không ngừng tăng lên Sự tích lũy liệu xảy với tốc độ bùng nổ Người ta ước đốn lượng thơng tin tồn cầu tăng gấp đơi sau khoảng hai năm theo số lượng kích cỡ sở liệu (CSDL) tăng lên cách nhanh chóng Nói cách hình ảnh “ngập” liệu lại “đói” tri thức Câu hỏi đặt liệu khai thác từ “núi” liệu tưởng chừng “bỏ đi” không ? “Necessity is the mother of invention”- Data Mining đời hướng giải hữu hiệu cho câu hỏi vừa đặt [] Khá nhiều định nghĩa Data Mining đề cập phần sau, nhiên tạm hiểu Data Mining công nghệ tri thức giúp khai thác thơng tin hữu ích từ kho liệu tích trữ suốt q trình hoạt động cơng ty, tổ chức 1.2 Khai phá liệu ? Định nghĩa: Khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai thác tìm mối quan hệ lẫn liệu tập hợp liệu khổng lồ phức tạp, đồng thời tìm mẫu tiềm ẩn tập liệu 1.3 Các chức khai phá liệu: Data Mining chia nhỏ thành số hướng sau: • Mơ tả khái niệm (concept description): thiên mô tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn • Luật kết hợp (association rules): dạng luật biểu diễn tri thứ dạng đơn giản Ví dụ: “60 % nam giới vào siêu thị mua bia có tới 80% số họ mua thêm thịt bị khơ” Luật kết hợp ứng dụng nhiều lĩnh vực kính doanh, y học, tin-sinh, tài & thị trường chứng khốn, v.v • Phân lớp dự đoán (classification & prediction): xếp đối tượng vào lớp biết trước Ví dụ: phân lớp vùng địa lý theo liệu thời tiết Hướng tiếp cận thường sử dụng số kỹ thuật machine learning định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Người ta cịn gọi phân lớp học có giám sát (học có thầy) • Phân cụm (clustering): xếp đối tượng theo cụm (số lượng tên cụm chưa biết trước Người ta gọi phân cụm học khơng giám sát (học khơng thầy) • Khai phá chuỗi (sequential/temporal patterns): tương tự khai phá luật kết hợp có thêm tính thứ tự tính thời gian Hướng tiếp cận ứng dụng nhiều lĩnh vực tài thị trường chứng khốn có tính dự báo cao 1.4 • • • • • • • Ứng dụng khai phá liệu : Phân tích thị trường chứng khốn Phát gian lận Quản lý rủi ro phân tích doanh nghiệp Phân tích giá trị trọn đời khách hàng Điều trị y học (medical treatment) Bảo hiểm (insurance) Nhận dạng (pattern recognition) 1.5 Các kỹ thuật khai phá liệu: • Kỹ thuật phân tích phân loại (Classification Analysis) Kỹ thuật khai phá liệu kỹ thuật phân tích phân loại Đây kỹ thuật cho phép phân loại đối tượng vào lớp cho trước Bạn sử dụng kỹ thuật để phân loại khách hàng, mặt hàng, v.v cách mơ tả nhiều thuộc tính để phân loại đối tượng vào lớp cụ thể Chúng ta thường sử dụng kỹ thuật khai thác liệu để lấy thông tin quan trọng từ liệu siêu liệu Vì vậy, phân tích phân loại, cần áp dụng thuật toán khác tùy thuộc vào mục tiêu sử dụng Ví dụ, Email Outlook sử dụng thuật tốn định để mô tả email hợp pháp spam Hay doanh nghiệp áp dụng kỹ thuật để phân loại khách hàng theo đối tượng hay độ tuổi • Kỹ thuật Association Rule Learning : Kỹ thuật Association Rule Learning khai phá liệu sử dụng để xác định mối quan hệ biến khác sở liệu Ngoài ra, cịn sử dụng để “giải nén” mẫu ẩn liệu Association Rule hữu ích để kiểm tra, dự đoán hành vi thường áp dụng ngành bán lẻ Thêm vào đó, doanh nghiệp sử dụng kỹ thuật để xác định hành vi mua sắm, phân tích liệu giỏ hàng khách hàng tiềm Trong lĩnh vực Công nghệ Thơng tin, lập trình viên sử dụng kỹ thuật để xây dựng chương trình Machine Learning • Kỹ thuật phát bất thường (Anomaly or Outlier Detection): Về bản, kỹ thuật khai phá liệu (Data Mining) dùng để nhấn mạnh vào việc quan sát mục liệu liệu để tìm tập liệu khơng khớp với mẫu dự kiến Bất thường đề cập đến độ lệch, khác thường, nhiễu ngoại lệ Sự bất thường xem quan trọng cung cấp số thơng tin cần thiết Nó liệu khác biệt so với mức trung bình chung tập liệu Điều khác thường xảy nhà phân tích liệu cần ý Kỹ thuật sử dụng nhiều lĩnh vực khác Chẳng hạn phát xâm nhập hay theo dõi sức khỏe • Kỹ thuật phân tích theo cụm (Clustering Analysis): “Cụm” có nghĩa nhóm đối tượng liệu Các đối tượng tương tự nằm cụm Kết đối tượng tương tự nhóm Về bản, kỹ thuật khai phá liệu thường ứng dụng để tạo hồ sơ khách hàng Hoặc lĩnh vực Marketing, xem việc chia phân khúc khách hàng • Kỹ thuật phân tích hồi quy (regression analysis): Theo thuật ngữ thống kê, phân tích hồi quy sử dụng để xác định phân tích mối quan hệ biến Nó giúp bạn hiểu giá trị đặc trưng thay đổi biến phụ thuộc • Kỹ thuật dự báo (prediction): Trong khai phá liệu, kỹ thuật dự báo ứng dụng số trường hợp đặc biệt Nó sử dụng để khám phá mối quan hệ biến độc lập phụ thuộc Chẳng hạn, bạn sử dụng kỹ thuật dự báo cho việc bán hàng để dự đoán lợi nhuận cho tương lai Giả sử, bán hàng biến độc lập, lợi nhuận biến phụ thuộc Khi đó, vẽ đường cong hồi quy để dự đốn lợi nhuận II Cây định : Khái niệm Cây định (Decision Tree) Cây định (Decision Tree) phân cấp có cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật Các thuộc tính đối tượngncó thể thuộc kiểu liệu khác Nhị phân (Binary) , Định danh (Nominal), Thứ tự (Ordinal), Số lượng (Quantitative) thuộc tính phân lớp phải có kiểu liệu Binary Ordinal Tóm lại, cho liệu đối tượng gồm thuộc tính với lớp (classes) nó, định sinh luật để dự đoán lớp liệu chưa biết Ta xét ví dụ kinh điển khác định Giả sử dựa theo thời tiết mà bạn nam định đá bóng hay khơng? • • • Những đặc điểm ban đầu là: Thời tiết Độ ẩm Gió Dựa vào thơng tin trên, bạn xây dựng mơ sau: định Mơ hình Dựa theo mơ hình trên, ta thấy: Nếu trời nắng, độ ẩm bình thường khả bạn nam chơi bóng cao Cịn trời nắng, độ ẩm cao khả bạn nam khơng chơi bóng Entropy Cây định (Decision Tree) Entropylà thuật ngữ thuộc Nhiệt động lực học, thước đo biến đổi, hỗn loạn ngẫu nhiên Năm 1948, Shannon mở rộng khái niệm Entropy sang lĩnh vực nghiên cứu, thống kê với công thức sau: Với phân phối xác suất biến rời rạc x nhận n giá trị khác x1,x2,…,xn Giả sử xác suất để x nhận giá trị pi=p(x=xi) Ký hiệu phân phối p=(p1 ,p2 ,…,pn) Entropy phân phối định nghĩa là: H(p)= – ∑nn=1 pi log(pi) Giả sử bạn tung đồng xu, Entropy tính sau: H = -[0.5 ln(0.5) + 0.5 ln(0.5)] Hàm Entropy • • Hình vẽ biểu diễn thay đổi hàm Entropy Ta thấy rằng, Entropyđạt tối đa xác suất xảy hai lớp P tinh khiết: pi = pi = P vẩn đục: pi = 0.5, hàm Entropy đạt đỉnh cao Information Gain Cây định (Decision Tree) Information Gain dựa giảm hàm Entropy tập liệu phân chia thuộc tính Để xây dựng định, ta phải tìm tất thuộc tính trả Infomation gain cao Để xác định nút mơ hình định, ta thực tính Infomation Gain nút theo trình tự sau: •Bước 1: Tính tốn hệ số Entropycủa biến mục tiêu S có N phần tử với Nc phần tử thuộc lớp c cho trước: H(S)= – ∑cc=1 (Nc/N) log(Nc/N) •Bước 2: Tính hàm số Entropy thuộc tính: với thuộc tính x, điểm liệu S chia K child node S1, S2, …, SK với số điểm child node m1, m2 ,…, mK , ta có: H(x, S) = ∑Kk=1 (mk / N) * H(Sk ) Bước 3: Chỉ số Gain Information tính bằng: G(x, S) = H(S) – H(x,S) Với ví dụ trên, ta tính hệ số Entropy sau: EntropyParent = -(0.57*ln(0.57) + 0.43*ln(0.43)) = 0.68 Hệ số Entropytheo phương pháp chia thứ nhất: Entropyleft = -(.75*ln(0.75) + 0.25*ln(0.25)) = 0.56 Entropyright = -(.33*ln(0.33) + 0.67*ln(0.67)) = 0.63 Ta tính hệ số Information Gain sau: Information Gain = 0.68 – (4*0.56 + 3*0.63)/7 = 0.09 Hệ số Entropyvới phương pháp chia thứ hai sau: Entropyleft = -(.67*ln(0.67) + 0.33*ln(0.33)) = 0.63 Entropymiddle = -(.5*ln(0.5) + 0.5*ln(0.5)) = 0.69 Entropyright = -(.5*ln(0.5) + 0.5*ln(0.5)) = 0.69 Hệ số Information Gain: Information Gain = 0.68 – (3*0.63 + 2*0.69 + 2*0.69)/7 = 0.02 So sánh kết quả, ta thấy chia theo phương pháp ta giá trị hệ số Information Gain lớn gấp lần so với phương pháp Như vậy, giá trị thông tin ta thu theo phương pháp nhiều phương pháp Thuật toán C4.5 Thuật toán C4.5 thuật toán cải tiến ID3 Trong thuật toán ID3, Information Gain sử dụng làm độ đo Tuy nhiên, phương pháp lại ưu tiên thuộc tính có số lượng lớn giá trị mà xét tới giá trị nhỏ Do vậy, để khắc phục nhược điểm trên, ta sử dụng độ đo Gain Ratio (trong thuật toán C4.5) sau: Đầu tiên, ta chuẩn hố information gain với trị thơng tin phân tách (split information): Trong đó: Split Info tính sau: Giả sử phân chia biến thành n nút cón Di đại diện cho số lượng ghi thuộc nút Do đó, hệ số Gain Ratio xem xét xu hướng phân phối chia Áp dụng cho ví dụ với cách chia thứ nhất, ta có Split Info = – ((4/7)*log2(4/7)) – ((3/7)*log2(3/7)) = 0.98 Gain Ratio = 0.09/0.98 = 0.092 Tiêu chuẩn dừng Trong thuật toán Decision tree, với phương pháp chia trên, ta chia node chưa tinh khiết Như vậy, ta thu tree mà điểm tập huấn luyện dự đốn (giả sử khơng có hai input giống cho output khác nhau) Khi đó, phức tạp (nhiều node) với nhiều leaf node có vài điểm liệu Như vậy, nhiều khả overfitting xảy • • • • • Để tránh trường họp này, ta dừng theo số phương pháp sau đây: node có entropy 0, tức điểm node thuộc class node có số phần tử nhỏ ngưỡng Trong trường hợp này, ta chấp nhận có số điểm bị phân lớp sai để tránh overfitting Class cho leaf node xác định dựa class chiếm đa số node khoảng cách từ node đến root node đạt tới giá trị Việc hạn chế chiều sâu tree làm giảm độ phức tạp tree phần giúp tránh overfitting tổng số leaf node vượt ngưỡng việc phân chia node khơng làm giảm entropy q nhiều (information gain nhỏ ngưỡng đó) Ngồi ra, ta cịn có phương pháp cắt tỉa Một số thuật tốn khác • • • • Ngồi ID3, C4.5, ta cịn số thuật toán khác như: Thuật toán CHAID: tạo định cách sử dụng thống kê chi-square để xác định phân tách tối ưu Các biến mục tiêu đầu vào số (liên tục) phân loại Thuật toán C&R: sử dụng phân vùng đệ quy để chia Tham biến mục tiêu dạng số phân loại MARS Conditional Inference Trees Ưu/nhược điểm thuật toán định Ưu điểm • • • • • Cây định thuật toán đơn giản phổ biến Thuật toán sử dụng rộng rãi bới lợi ích nó: Mơ hình sinh quy tắc dễ hiểu cho người đọc, tạo luật với nhánh luật Dữ liệu đầu vào là liệu missing, khơng cần chuẩn hóa tạo biến giả Có thể làm việc với liệu số liệu phân loại Có thể xác thực mơ hình cách sử dụng kiểm tra thống kê Có khả việc với liệu lớn Nhược điểm ... CBChT2 20… (Ký ghi rõ họ tên) Tìm hiểu thuật tốn ID3 xây dựng định khai thác phần mềm WEKA để phân lớp liệu I Tổng quan khai phá liệu: 1.1 Tại lại cần khai phá liệu ? Khoảng thập kỷ trở lại đây,... nghĩa: Khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai thác tìm mối quan hệ lẫn liệu tập hợp liệu khổng lồ phức tạp, đồng thời tìm mẫu tiềm ẩn tập liệu 1.3 Các chức khai phá liệu: Data Mining... thuật phân tích phân loại (Classification Analysis) Kỹ thuật khai phá liệu kỹ thuật phân tích phân loại Đây kỹ thuật cho phép phân loại đối tượng vào lớp cho trước Bạn sử dụng kỹ thuật để phân