1. Trang chủ
  2. » Luận Văn - Báo Cáo

Sử dụng cây quyết định trong khai phá dữ liệu

77 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 77
Dung lượng 1,07 MB

Nội dung

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG  PHẠM THỊ PHƢƠNG THẢO SỬ DỤNG CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: GS.TS Vũ Đức Thi Thái nguyên – Năm 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii LỜI CAM ĐOAN Tơi xin cam đoan tồn nội dung luận văn tự sƣu tầm, tra cứu thông tin mạng Internet, số sách tham khảo để xếp, hoàn thiện cho phù hợp với nội dung yêu cầu đề tài Đến nay, nội dung luận văn chƣa đƣợc công bố hay xuất dƣới hình thức Nếu sai tơi xin chịu hồn tồn trách nhiệm Ngày 15 tháng 09 năm 2011 Tác giả Phạm Thị Phương Thảo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii LỜI CẢM ƠN Trong suốt trình học tập thực đề tài, em nhận đƣợc giúp đỡ tận tình bảo ân cần Thày cô viện Công nghệ thông tin – Viện khoa học công nghệ Việt nam, Thày cô trƣờng đại học Công nghệ Thông tin Truyền thông, bạn bè đồng nghiệp Đặc biệt giúp đỡ GS.TS Vũ Đức Thi, ngƣời thầy trực tiếp hƣớng dẫn, đƣa ý trƣởng, định hƣớng, đóng góp ý kiến chun mơn tận tình giúp đỡ em suốt trình nghiên cứu thực luận văn Qua cho phép em đƣợc bày tỏ lời cảm ơn tới tất thầy cô giáo Viện Công nghệ thông tin trƣờng đại học Công nghệ Thông tin Truyền thông, giảng dạy tạo điều kiện thuận lợi giúp đỡ chúng em trình học tập, nghiên cứu Cuối cùng, tơi xin cảm ơn đến gia đình, bạn bè đồng nghiệp chia sẻ động viên giúp đỡ chuyên môn nhƣ mặt sống, nguồn động viên khích lệ giúp tơi có nghị lực để hồn thành khố học Học viên Phạm Thị Phương Thảo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv MỤC LỤC LỜI CAM ĐOAN ii LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC CÁC BẢNG VÀ CÁC HÌNH TRONG LUẬN VĂN vi LỜI MỞ ĐẦU Chƣơng 1: TÌM HIỂU NHỮNG KIẾN THỨC TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Tính cấp bách việc khai phá liệu 1.2 Mục tiêu khai phá liệu 1.3 Quá trình phát tri thức 1.4 Quá trình khai phá liệu 1.5 Các dạng liệu khai phá 1.6 Các hƣớng tiếp cận kỹ thuật áp dụng 10 1.7 Một số lĩnh vực ứng dụng khai phá liệu 10 1.8 Lựa chọn kỹ thuật khai phá 11 1.9 Một số phƣơng pháp khai phá liệu phổ biến 12 1.9.1.Cây định luật 12 1.9.2 Phƣơng pháp suy diễn quy nạp 13 1.9.3 Luật kết hợp 13 1.9.4 Phân nhóm phân đoạn 13 1.9.5 Mạng neural 14 1.9.6 Giải thuật di truyền 14 Chƣơng 2: 15 KỸ THUẬT KHAI PHÁ DỮ LIỆU SỬ DỤNG CÂY QUYẾT ĐỊNH 15 2.1 Giới thiệu kỹ thuật khai phá liệu sử dụng định 15 2.2 Thuật toán sử dụng cho việc xây dựng định 17 2.2.1 Thuật toán CLS 17 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v 2.2.2 Thuật toán ID3 22 2.2.3 Thuật toán C4.5 35 2.3 Rút gọn định 47 2.4 Rút gọn luật từ định 54 2.5 Đánh giá, kết luận thuật toán xây dựng định 55 Chƣơng 3: 57 CÀI ĐẶT THỬ NGHIỆM 57 3.1 Thiết kế tổng thể 57 3.2 Chuẩn bị liệu 58 3.3 Thiết kế chƣơng trình 66 3.4 Kết qủa thực nghiệm đánh giá 67 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 68 TÀI LIỆU THAM KHẢO 69 PHỤ LỤC 70 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi DANH MỤC CÁC BẢNG VÀ CÁC HÌNH TRONG LUẬN VĂN Danh mục bảng Bảng 2.1 Tập liệu huấn luyện định chơi tennis 18 Bảng 2.2 Bảng thống kê mức độ nguy hiểm lái xe độ tuổi lái xe 42 Bảng 2.3 Bảng thơng tin phân bổ lớp thuộc tính Tuổi 42 Bảng 2.4 Bảng thơng tin phân bổ lớp thuộc tính Loại xe 43 Bảng 2.5: Tìm ngƣỡng cho phép tách với thuộc tính Tuổi 45 Bảng 3.1 Bảng liệu giấu hiệu bệnh nhân nhiễm cúm H1N1 58 Bảng 3.2 Bảng tập liệu ứng với Cổ họng = Ho thƣờng 61 Bảng 3.3 Bảng tập liệu ứng với Cổ họng = Ho khan 63 Bảng phụ lục: Logarit số hai số nguyên từ đến 100 70 Danh mục hình Hình 1.1: Quá trình phát tri thức Hình 1.2 Quá trình khai phá liệu Hình 2.1: Khai triển theo thuộc tính quang cảnh 18 Hình 2.2:Khai triển theo thuộc tính Quang cảnh-Nhiệt độ 19 Hình 2.3: Khai triển theo thuộc tính Quang cảnh-Nhiệt độ-độ ẩm 19 Hình 2.4: Khai triển theo thuộc tính Quang cảnh-nhiệt độ-độ ẩm-Gió 20 Hình 2.5:Khai triển theo thuộc tính quang cảnh-độ ẩm 21 Hình 2.6: Khai triển theo thuộc tính quang cảnh-độ ẩm -gió 21 Hình 2.7: Khai triển định theo thuộc tính quang cảnh 29 Hình 2.8: Xây dựng theo thuộc tính độ ẩm 32 Hình 2.9: Khai triển theo thuộc tính quang cảnh –độ ẩm 32 Hình 2.10: Khai triển theo thuộc tính quang cảnh = “âm u” 33 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vii Hình 2.11: Cây định theo thuộc tính quang cảnh-độ ẩm-gió 35 Hình 2.12 Cây định chơi Tennis sử dụng thuật toán ID3 35 Hình 2.13 : Khai triển theo thuộc tính Loại xe 45 Hình 2.14: Khai triển theo thuộc tính Loại xe-Tuổi 47 Hình 2.15 Cây kết sử dụng thuật toán C4.5 47 Hình 2.16: Cây trƣớc cắt tỉa 49 Hình 2.17 Cây trƣớc cắt tỉa 52 Hình 2.18 Cây sau cắt tỉa 53 Hình 3.1: Khai triển định theo thuộc tính “Cổ Họng” 60 Hình 3.2: Khai triển định theo thuộc tính Cổ Họng = “Ho có đờm” 61 Hình 3.3: Khai triển định theo thuộc tính Đầu 63 Hình 3.4: Khai triển định theo thuộc tính Mũi 64 Hình 3.5: Cây định sử dụng thuật toán ID3 65 Hình 3.7 Giao diện chƣơng trình 66 Hình 3.8 Dữ liệu đƣợc nhập vào cho chƣơng trình 66 Hình 3.9 Giao diện xây dựng định 67 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI MỞ ĐẦU Ngày lĩnh vực khoa học kỹ thuật ngày phát triển mạnh mẽ Đặc biệt nghành khoa học máy tính phát triển, đƣợc ứng dụng nhiều lĩnh vực khác sống nhƣ: Giáo dục, Y tế, Kinh tế, Khoa học, Xây dựng… Với bùng nổ phát triển công nghệ thông tin năm gần đây, mang lại nhiều hiệu khoa học nhƣ hoạt động thực tế, phát triển mạnh mẽ công nghệ thông tin làm cho khả thu thập lƣu trữ thông tin hệ thống thơng tin tăng nhanh cách nhanh chóng, lƣợng liệu mà lƣu trữ trở nên nhiều, gây lung túng cho việc lấy đƣợc thông tin hữu ích Do vậy, cần có kỹ thuật công cụ để tự động chuyển đổi lƣợng liệu khổng lồ thành tri thức hữu ích Từ đó, kỹ thuật khai phá liệu trở thành lĩnh vực nhƣng thu hút đƣợc nhiều nhà khoa học quan tâm nghiên cứu nhờ vào ứng dụng cao thực tiễn sống Với hàng loạt cơng trình nghiên cứu, giải pháp đƣợc thử nghiệm ứng dụng thành công vào đời sống chứng minh khai phá liệu lĩnh vực nghiên cứu có tảng lý thuyết vững Một phƣơng pháp khai phá liệu có hiệu quả, đƣợc ứng dụng nhiều vấn đề quan trọng đƣợc nhiều nhà khoa học nghiên cứu nhiều năm qua phƣơng pháp Cây định Với khả ứng dụng thiết thực vào đời sống xã hội phƣơng pháp này, với niềm say mê khám phá lĩnh vực khoa học công nghệ có nhiều triển vọng, tơi chọn hƣớng nghiên cứu đề tài “Sử dụng định khai phá liệu” cho luận văn Luận văn đƣợc xây dựng tổng hợp nội dung dựa số nghiên cứu chủ yếu lĩnh vực khai phá liệu nhà nghiên cứu năm gần số hội nghị quốc tế số báo đƣợc công bố tạp chí chuyên nghành, Internet… Luận văn bao gồm nội dung sau: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chương 1: Tìm hiểu kiến thức tổng quan khai phá liệu Chƣơng trình bày nét khái quát khai phá liệu, khai phá liệu trình phát tri thức, hƣớng tiếp cận, lĩnh vực ứng dụng, trình bày số kỹ thuật áp dụng việc khai phá liệu đƣợc sử dụng thời gian qua Chương 2: Kỹ thuật khai phá liệu sử dụng định Chƣơng trình bày phƣơng pháp khai phá liệu định sử dụng qua thuật toán CLS, thuật toán ID3, thuật toán C4.5 Chương 3: Cài đặt thử nghiệm Chƣơng trình bày giải tốn khai phá liệu định Cài đặt mô thuật toán ID3 Kết luận hướng phát triển Tài liệu tham khảo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chƣơng 1: TÌM HIỂU NHỮNG KIẾN THỨC TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Tính cấp bách việc khai phá liệu Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lƣợng liệu đƣợc thu thập, tích luỹ ngày nhiều lên Ngƣời ta lƣu trữ liệu cho ẩn chứa giá trị Tuy nhiên, có lƣợng nhỏ liệu đƣợc phân tích, sử dụng cách hiệu Số cịn lại khơng biết phải làm nhƣng việc thu thập, lƣu trữ tốn diễn thƣờng xuyên lo ngại dung đến chúng lúc Mặt khác, mơi trƣờng cạnh tranh, ngày cần có thơng tin với tốc độ nhanh để trợ giúp cho việc định Ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lƣợng khổng lồ liệu có Nhƣ vậy, bên cạnh chức khai phá liệu có tính chất tác nghiệp, ứng dụng kinh doanh khơng cịn liệu đơn hệ thống mà sở liệu cần đem lại “tri thức” liệu Với lý nhƣ vậy, phƣơng pháp quản trị, khai thác sở liệu truyền thống, ngôn ngữ hỏi ngày không đáp ứng yêu cầu đặt Để lấy đƣợc thơng tin có tính “tri thức” khối liệu khổng lồ này, ngƣời ta tìm kỹ thuật có khả hợp liệu từ hệ thống liệu khác nhau, chuyển đổi thành tập hợp sở liệu ổn định, có chất lƣợng đƣợc sử dụng riêng cho vài mục đích Các kỹ thuật đƣợc gọi chung kỹ thuật tạo kho liệu (Data Warehousing) môi trƣờng liệu đƣợc gọi kho liệu Tuy nhiên, việc sử dụng cách khai thác liệu theo khai thác truyền thống dừng lại cách khai thác liệu với kỹ thuật cao để đƣa Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 56 Mặc dù có nhiều cải tiến, nhiều thuật tốn xây dựng định đời, nhƣng thuật toán khai phá liệu nói chung khai phá liệu định nói riêng đƣợc tiếp tục nghiên cứu, cải tiến phát triển để vƣợt qua đƣợc khó khăn, thách thức việc khai phá liệu rút tri thức có ích, đáp ứng nhu cầu thực tế Một số lợi ích việc sử dụng thuật toán định - Q trình học nhanh - Có thể sinh đƣợc luật lĩnh vực mà chuyên khó phát tri thức - Luật sinh thể theo ngôn ngữ tự nhiên - Cách thể phân lớp trực quan - Độ xác dự báo so sánh đƣợc với phƣơng pháp khác nhƣ thống kê, mạng neural,… - Mơ hình xây dựng khơng có giới hạn Một số lĩnh vực áp dụng thuật tốn định - Ngân hàng: Đánh giá khách hàng quản lý vốn vay - Công nghiệp: Quản lý chất lƣợng (kiểm sốt lỗi) - Viễn thơng: Đánh giá khách hàng hệ thống chăm sóc khách hang - Y tế: Giúp tìm mối liên hệ triệu chứng, chuẩn đoán bệnh - Sinh học: Đánh giá biến thể lai tạo - Tài thị trƣờng chứng khoán: Khai phá liệu dung để phân tích tình hình tài chính, phân tích đầu tƣ, phân tích cổ phiếu - Khai thác liệu Web - Trong thơng tin thƣơng mại: dung để phân tích liệu ngƣời dung, phân tích liệu marketing, phân tích đầu tƣ, phát gian lận Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 57 Chƣơng 3: CÀI ĐẶT THỬ NGHIỆM Ở Chƣơng 2, luận văn trình bày việc khái phá liệu phƣơng pháp sử dụng định Để minh họa cho lý thuyết trình bày luận văn, phần luận văn trình bày trình xây dựng cài đặt tốn mơ kỹ thuật khai phá liệu định dựa thuật tốn ID3 Mục đích chƣơng trình mô cho phần lý thuyết sở liệu đƣợc sử dụng chƣơng trình tập mẫu nhỏ Chƣơng trình đƣợc xây dựng thử nghiệm ngơn ngữ lập trình Microsoft Visual C#.Net 3.1 Thiết kế tổng thể Hình 3.1 Giao diện giới thiệu chương trình Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 58 3.2 Chuẩn bị liệu Dùng thuật tốn ID3 để tìm luật phân lớp cho mối liên hệ triệu chứng bệnh nhân để chuẩn đoán bệnh - nhiễm cúm H1N1? bảng liệu cho Vào: Tập liệu giấu hiệu, triệu chứng Đầu, Mũi, Cổ họng, Cơ thể bệnh nhân Dữ liệu đƣợc nhập bảng tính điện tử Microsoft Excel, đƣợc lƣu ổ C:/> với tên data.xls Ra: Một định chuẩn đốn bệnh Ngơn ngữ: Microsoft Visual C#.Net Tệp liệu chƣơng trình bảng tổng hợp liệu giấu hiệu bệnh nhân nhiễm cúm H1N1 Trong bảng thuộc tính Đầu, Mũi, Cổ họng, Cơ thể thuộc tính ứng viên đƣợc dùng để xét, cịn thuộc tính Result thuộc tính định đƣợc dùng để phân lớp mẫu liệu ĐẦU MŨI CỔ_HỌNG CƠ_THỂ result Nhức đầu Không nhức đầu Nhức đầu Nhức đầu Không nhức đầu Không nhức đầu Không nhức đầu Nhức đầu Không nhức đầu Không nhức đầu Không nhức đầu Không nhức đầu Nhức đầu Không nhức đầu Hắt Xổ mũi nặng Xổ mũi nặng Xổ mũi nhẹ Xổ mũi nặng Hắt Xổ mũi nhẹ Xổ mũi nặng Xổ mũi nhẹ Xổ mũi nhẹ Xổ mũi nặng Hắt Xổ mũi nặng Xổ mũi nhẹ Ho thƣờng Ho có đờm Ho có đờm Ho có đờm Ho thƣờng Ho khan Ho có đờm Ho khan Ho khan Ho thƣờng Ho thƣờng Ho có đờm Ho thƣờng Ho khan Nhức mỏi toàn thân Chỉ bị đau vùng đầu Nhức mỏi toàn thân Chỉ bị đau vùng đầu Nhức mỏi toàn thân Chỉ bị đau vùng đầu Nhức mỏi toàn thân Chỉ bị đau vùng đầu Nhức mỏi toàn thân Nhức mỏi toàn thân Nhức mỏi toàn thân Chỉ bị đau vùng đầu Chỉ bị đau vùng đầu Chỉ bị đau vùng đầu true true true true false false true true true false false true true false Bảng 3.1 Bảng liệu giấu hiệu bệnh nhân nhiễm cúm H1N1 Thuộc tính Result bảng có miền giá trị { True, False}, (Trong đó: “True” ứng với “Bị cúm H1N1”, “False” “Không bị cúm H1N1”) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 59  Thuật toán ID3 chương trình thực sau: Tập liệu S đƣợc cho bảng gồm 14 mẫu liệu, có mẫu có giá trị “True” mẫu có giá trị “False” Ký hiệu [9+,5-], Entropy tập S là: Entropy(S) =Entropy(True, False)  Entropy([9+ ,5- ]) = - 9 5 log  log  0.94 14 14 14 14 Tính giá trị Gain cho thuộc tính ta có:  Với thuộc tính Đầu = {Nhức đầu, Khơng nhức đầu} ta có: + Đầu = Nhức đầu có mẫu nhận giá trị "True" mẫu nhận giá trị "False": [5+,0-] + Đầu = Không nhức đầu có mẫu nhận giá trị "True",5 mẫu nhận giá trị "False": [4+,5-] Khi ta có: 5 5 Snhức đầu = [5+,0-]=> Entropy(Snhuc dau )= Entropy([5+ ,0- ]) = - log  log 0 Skhông nhức đầu = [4+,5-]=> 4 5 Entropy(Skhong nhuc dau )= Entropy([4+ ,5- ]) = - log  log  0.99 9 9 Từ kết ta có: Thuộc tính Đầu Số lƣợng [True; False] Entropy(True, False) Nhức đầu + [5 ,0 ] Không nhức đầu + [4 ,5 ] 0.99 Entropy(S Nhuc đau ) Entropy(SKhôngnhucđau ) 14 14 = Entropy([9+ ,5- ]) Entropy([5+ ,0- ]) Entropy([4+ ,5- ]) = 0.303 14 14  Gain( S , Dau )  Entropy(S)-  Với thuộc tính Mũi = {Hắt hơi, Xổ mũi nặng, Xổ mũi nhẹ} Khi ta có: Thuộc tính Mũi Số lƣợng [True; False] Entropy(True, False) Hắt + [2 ,1 ] 0.918 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Xổ mũi nặng + [4 ,2 ] 0.92 Xổ mũi nhẹ + [3 ,2 ] 0.971 http://www.lrc-tnu.edu.vn 60 Entropy(SHathoi )- Entropy(S Xomuinang )- Entropy(SXomuinhe ) 14 14 14 = 0.94 - *0.918 * 0.92 - * 0.971 = 0.003 14 14 14  Gain( S , Mui)  Entropy(S)-  Xét thuộc tính Cổ họng = {Ho thường, ho có đờm, ho khan} Khi ta có: Thuộc tính Cổ họng Ho thƣờng Ho có đờm Ho khan Số lƣợng 5 + + + [True; False] [2 ,3 ] [5 ,0 ] [2 ,2 ] Entropy(True, False) 0.971 5  Gain( S , Cohong )  Entropy([9+ ,5- ])- Entropy([2+ ,3- ])- Entropy([5+ ,0- ])- Entropy([2+ ,2- ]) 14 14 14 5 = 0.94 - *0.971 * - * 1= 0.308 14 14 14  Với thuộc tính Cơ thể ={Nhức mỏi toàn thân,Chỉ bị đau vùng đầu} Khi ta có: Thuộc tính Cơ thể Số lƣợng [True; False] Entropy(True, False) Nhức mỏi toàn thân Chỉ bị đau vùng đầu 7 [4+,3-] [5+,2-] 0.985 0.87 7  Gain( S , Cothe)  Entropy(S) Entropy(SNhuc moi toàn thân ) Entropy(SChi bi đau vùng đau ) 14 14 7 = Entropy([9+ ,5- ]) Entropy([4+ ,3- ]) Entropy([5+ ,2- ]) = 0.015 14 14 Vậy ta có: Gain(S, Đầu) = 0.303 ; Gain(S, Mũi) = 0.003 Gain(S, Cổ họng) = 0.308 ; Gain(S, Cơ thể) = 0.015 So sánh giá trị Gain(S, Đầu), Gain(S, Cổ họng), Gain(S, Mũi), Gain(S, Cơ thể), ta nhận thấy Gain(S, Cổ họng) có giá trị lớn Vậy ta chọn thuộc tính “Cổ họng” thuộc tính đƣợc dùng để triển khai Cây có dạng: Cổ họng [ 9+,5-] Ho thƣờng ? + [2 ,3 ] Ho có đờm ? + [5 ,0 ] Ho khan ? [2+,2-] Hình 3.1 : Khai triển định theo thuộc tính “Cổ Họng” Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 61  Xét nhánh cây, Cổ họng = Ho có đờm Ta nhận thấy mẫu thuộc lớp "True" => nút với nhãn nút "True " Chúng ta tiếp tục thu đƣợc nhƣ hình sau: Cổ họng [ 9+,5-] Ho thƣờng Ho có đờm ? + [2 ,3 ] Ho khan ? [2+,2-] True [5+,0-] Hình 3.2: Khai triển định theo thuộc tính Cổ Họng = “Ho có đờm”  Xét nhánh bên trái cây, Cổ họng = Ho thƣờng, Ta nhận thấy mẫu nhánh khơng thuộc lớp nên phải tính giá trị Gain thuộc tính ứng viên cịn lại Khi đó: Entropy (Sho thƣờng) = Entropy ([2+,3-]) = 0.971 Tính Gain cho thuộc tính ứng viên cịn lại để chọn thuộc tính mở rộng Tính Entropy cho thuộc tính {Đầu, Mũi, Cơ thể} Ta có tập liệu ứng với Cổ họng = Ho thƣờng ĐẦU Nhức đầu Không nhức đầu Không nhức đầu Không nhức đầu Nhức đầu MŨI Hắt Xổ mũi nặng Xổ mũi nhẹ Xổ mũi nặng Xổ mũi nặng CƠ_THỂ result Nhức mỏi toàn thân Nhức mỏi toàn thân Nhức mỏi toàn thân Nhức mỏi toàn thân Chỉ bị đau vùng đầu true false false false true Bảng 3.2 Bảng tập liệu ứng với Cổ họng = Ho thƣờng * Với thuộc tính Đầu = {Nhức đầu, Khơng nhức đầu} Khi ta có: Thuộc tính Đầu Số lƣợng [True; False] Entropy(True, False) Nhức đầu [2+,0-] Không nhức đầu [0+,3-]  Gain( S Hothuong , Dau )  Entropy(SHothuong )- Entropy(SNhuc dau )- Entropy(SKhong nhuc dau ) 5 = Entropy([2+ ,3- ])- Entropy([2+ ,0- ])- Entropy([0+ ,3- ]) = 0.971 5 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 62 * Xét thuộc tính Mũi = {Hắt hơi, Xổ mũi nặng, Xổ mũi nhẹ} Khi ta có: Thuộc tính Mũi Số lƣợng [True; False] Entropy(True, False) Hắt Xổ mũi nặng Xổ mũi nhẹ + + + [1 ,0 ] [1 ,2 ] [0 ,1 ] 0.918  Gain( Shothuong , Mui)  Entropy(Shothuong )- Entropy(SHathoi )- Entropy(S Xomuinang )- Entropy(SXomuinhe ) 5 = 0.971 - *0 - * 0.918 - * = 0.421 5 * Xét thuộc tính Cơ thể = {Nhức mỏi tồn thân, Chỉ bị đau vùng đầu} Khi ta có: Thuộc tính Cơ thể Số lƣợng [True; False] Entropy(True, False) Nhức mỏi toàn thân Chỉ bị đau vùng đầu [1+,3-] [1+,0-] 0.811  Gain( S Hothuong , Co the)  Entropy([2+ ,3- ]) - Entropy([1+ ,3- ]) - Entropy([1+ ,0- ]) 5 = 0.971- *0.811- *0  0.971 - 0.65 = 0.321 5 Vậy ta có: Gain(S, Đầu) = 0.971 Gain(S, Mũi) = 0.421 Gain(S, Cơ thể)= 0.321 Ta nhận thấy thuộc tính “Đầu” có Gain (độ lợi thơng tin) lớn Vậy ta chọn thuộc tính “Đầu” thuộc tính đƣợc dùng để triển khai Với nhánh: + Đầu = Nhức đầu ta thấy mẫu thuộc lớp "True" => Đây nút nhãn nút " True " + Đầu = Không nhức đầu ta thấy mẫu thuộc lớp "False" => Đây nút nhãn nút "False" Cây có dạng: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 63 Cổ họng [ 9+,5-] Ho thƣờng Ho có đờm Đầu + Nhức đầu ? True - [2 ,3 ] Không nhức đầu [2+,2-] [5+,0-] False [0+,3-] True + Ho khan - [2 ,0 ] Hình 3.3: Khai triển định theo thuộc tính Đầu  Xét nhánh bên phải cây, Cổ họng = Ho khan, Ta nhận thấy mẫu nhánh khơng thuộc lớp nên phải tính giá trị Gain thuộc tính ứng viên cịn lại Khi đó: Sho khan = [2+,2-] => Entropy (Sho khan) = Entropy ([2+,2-]) = Tính Gain cho thuộc tính ứng viên cịn lại để chọn thuộc tính mở rộng Tính Entropy cho thuộc tính {Mũi, Cơ thể} Ta có tập liệu ứng với Cổ họng = Ho khan MŨI Hắt Xổ mũi nặng Xổ mũi nhẹ Xổ mũi nhẹ CƠ_THỂ Chỉ bị đau vùng đầu Chỉ bị đau vùng đầu Nhức mỏi toàn thân Chỉ bị đau vùng đầu result false true true false Bảng 3.3 Bảng tập liệu ứng với Cổ họng = Ho khan * Xét thuộc tính Mũi = {Hắt hơi, Xổ mũi nặng, Xổ mũi nhẹ} Khi ta có: Thuộc tính Mũi Số lƣợng [True; False] Entropy(True, False) Hắt + [0 ,1 ] Xổ mũi nặng + [1 ,0 ] Xổ mũi nhẹ + [1 ,1 ] 1  Gain( S hokhan , Mui )  Entropy(Shokhan )- Entropy(SHathoi )- Entropy(S Xomuinang )- Entropy(SXomuinhe ) 4 1 = - *0 - * - * 1=1  0.5 = 0.5 4 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 64 * Xét thuộc tính Cơ thể = {Nhức mỏi tồn thân, Chỉ bị đau vùng đầu} ta có: Thuộc tính Cơ thể Số lƣợng [True; False] Entropy(True, False) Nhức mỏi toàn thân Chỉ bị đau vùng đầu + + [1 ,0 ] [1 ,2 ] 0.918  Gain( S Ho khan , Co the)  Entropy([2+ ,2- ]) - Entropy([1+ ,2- ]) - Entropy([1+ ,0- ]) 4 = - *0.918 - *0  - 0.6885 = 0.31 4 Vậy ta có: Gain(S, Mũi) = 0.5; Gain(S, Cơ thể) = 0.31 Ta nhận thấy thuộc tính “Mũi” có Gain (độ lợi thơng tin) lớn Vậy ta chọn thuộc tính “Mũi” thuộc tính đƣợc dùng để triển khai Chúng ta tiếp tục thu đƣợc nhƣ hình sau: Cổ họng [ 9+,5-] Ho thƣờng Đầu + Nhức đầu True + - [2 ,0 ] Ho có đờm Ho khan Mũi True - [2 ,3 ] Không nhức đầu [2+,2-] [5+,0-] False [0+,3-] Xổ mũi nặng Hắt Xổ mũi nhẹ True + - [1 ,0 ] False ? [1 ,1-] [0+,1-] + Hình 3.4: Khai triển định theo thuộc tính Mũi  Xét nhánh Mũi = Xổ mũi nhẹ Ta nhận thấy mẫu nhánh không thuộc lớp nên chọn thuộc tính ứng viên “Cơ thể” cịn lại để khai triển Thuộc tính Cơ thể = {Nhức mỏi tồn thân, Chỉ bị đau vùng đầu} Ta thấy: - Cơ thể = Nhức mỏi toàn thân mẫu thuộc lớp "True" => nút với nhãn nút "True " - Cơ thể = Chỉ bị đau vùng đầu, mẫu thuộc lớp "False" => nút với nhãn nút "False " Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 65 Kết chƣơng trình cho định nhƣ hình sau: Cổ họng [ 9+,5-] Ho có đờm Ho khan Ho thƣờng Mũi Đầu True [2+,3-] [5+,0-] Nhức đầu [2+,2-] Xổ mũi nặng Hắt Xổ mũi nhẹ Không nhức đầu + False True False True [2+,0-] + - - [1 ,0 ] [0 ,3 ] Cơ thể [0+,1-] [1+,1-] Nhức mỏi toàn thân Chỉ bị đau vùng đầu True + False - [0+,1-] [1 ,0 ] Hình 3.5: Cây định sử dụng thuật toán ID3  Từ định hình 3.5 mà chương trình đưa ta đưa Luật sau: IF (Cổ họng = Ho có đờm) THEN Bị cúm H1N1 ELSE IF (Cổ họng = Ho thường) and (Đầu = Nhức đầu) THEN Bị cúm H1N1 ELSE IF (Cổ họng = Ho thường) and (Đầu = Không nhức đầu) THEN Không bị cúm H1N1 ELSE IF (Cổ họng = Ho Khan) and (Mũi = Hắt hơi) THEN Không bị cúm H1N1 ELSE IF (Cổ họng = Ho Khan) and (Mũi = Xổ mũi nặng ) THEN Bị cúm H1N1 ELSE IF (Cổ họng =Ho Khan) and (Mũi =Xổ mũi nhẹ ) and (Cơ thể =Chỉ bị đau vùng đầu) THEN Không bị cúm H1N1 ELSE Bị cúm H1N1 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 66 3.3 Thiết kế chƣơng trình Sau số hình giao diện chƣơng trình: Giao diện chương trình Hình 3.7 Giao diện chƣơng trình Giao diện nhập liệu Hình 3.8 Dữ liệu đƣợc nhập vào cho chƣơng trình Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 67 Giao diện xây dựng định Hình 3.9 Giao diện xây dựng định Thuộc tính Result bảng có giá trị:  Ứng với giá trị True “Bị cúm H1N1”  Ứng với giá trị False “Không bị cúm H1N1” 3.4 Kết qủa thực nghiệm đánh giá - Chƣơng trình minh họa đƣợc vấn đề lý thuyết đặt khai phá liệu định - Chƣơng trình có giao diện thân thiện, dễ sử dụng - Chƣơng trình đƣợc chạy thử liệu khác thu đƣợc kết ổn định Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 68 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Nhiện vụ luận văn sử dụng định khai phá liệu, luận văn đƣợc xây dựng tổng hợp nội dung dựa số nghiên cứu chủ yếu lĩnh vực khai phá liệu nhà nghiên cứu năm gần Internet…Các nội dung tìm hiểu là: Tìm hiểu kiến thức tổng quan khai phá liệu Trình bày kỹ thuật khai phá liệu sử dụng định thuật toán sử dụng cho việc xây dựng định Xây dựng chƣơng trình mơ vấn đề lý thuyết nghiên cứu, (bài tốn đƣợc cài đặt mơ theo thuật toán ID3) Tuy nhiên, kỹ thụât khai phá liệu sử dụng đa dạng phong phú, phụ thuộc vào sáng tạo ngƣời triển khai ứng dụng vào kết lĩnh vực nghiên cứu khác Vì điều kiện hạn hẹp thời gian tài liệu, số phƣơng pháp khai phá luận văn chƣa đề cập đến sâu nghiên cứu Những mà luận văn trình bày bƣớc đầu lĩnh vực nghiên cứu, khơng tránh khỏi sai xót Tác giả luận văn mong muốn nhận đƣợc quan tâm góp ý Thầy cơ, bạn bè để luận văn hồn thiện Hướng phát triển: - Về lý thuyết: Từ kết nghiên cứu luận văn, tiếp tục nghiên cứu, phát triển thuật toán định Nghiên cứu giải pháp kết hợp phƣơng pháp khai phá liệu nhằm đạt đƣợc kết khai phá liệu tốt - Về phát triển ứng dụng: Kết nghiên cứu luận văn sử dụng để cài đặt ứng dụng giải tốn thực tiễn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 69 TÀI LIỆU THAM KHẢO Tài liệu tiếng việt [1] Gs.TS Đỗ Phúc, Bài giảng khai phá liệu, Đại học Quốc gia TP.Hồ Chí Minh, 2007 [2] Nguyễn Thanh Thuỷ, Khai phá liệu – Kỹ thuật ứng dụng Hà Nội Tháng – 2001 [3] Vũ Đức Thi, Cơ sở liệu - Kiến thức thực hành, Nhà xuất Thống kê (1997) [4] Vũ Đức Thi, Thuật toán tin học, Nhà xuất khoa học kỹ thuật (1999) Tài liệu tiếng Anh [5] Han J and Kamber (2000), Data mining Concepts and Techniques, Morgan Kanufmann [6] Murthy, S.K (1998), “Automatic construction of decision trees from data: A multi – disciplication survey” Data mining and Knowledge Discovery 2(4), pp 345 – 389 Danh sách Website [7] Sử dụng cơng cụ tìm kiếm Google.com [8] Một số địa trang Web để tìm hiểu phƣơng pháp định Wikipedia – Bách khoa toàn thƣ mở -Khai phá liệu, Cây định: http://Vi.wikipedia.org/wiki/decision_tree Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 70 PHỤ LỤC Bảng phụ lục: Logarit số hai số nguyên từ đến 100 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... vực ứng dụng, trình bày số kỹ thuật áp dụng việc khai phá liệu đƣợc sử dụng thời gian qua Chương 2: Kỹ thuật khai phá liệu sử dụng định Chƣơng trình bày phƣơng pháp khai phá liệu định sử dụng qua... Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 15 Chƣơng 2: KỸ THUẬT KHAI PHÁ DỮ LIỆU SỬ DỤNG CÂY QUYẾT ĐỊNH 2.1 Giới thiệu kỹ thuật khai phá liệu sử dụng định Kỹ thuật khai phá liệu sử. .. 15 KỸ THUẬT KHAI PHÁ DỮ LIỆU SỬ DỤNG CÂY QUYẾT ĐỊNH 15 2.1 Giới thiệu kỹ thuật khai phá liệu sử dụng định 15 2.2 Thuật toán sử dụng cho việc xây dựng định 17 2.2.1 Thuật

Ngày đăng: 25/02/2021, 10:10

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Gs.TS. Đỗ Phúc, Bài giảng khai phá dữ liệu, Đại học Quốc gia TP.Hồ Chí Minh, 2007 Sách, tạp chí
Tiêu đề: Bài giảng khai phá dữ liệu
[2]. Nguyễn Thanh Thuỷ, Khai phá dữ liệu – Kỹ thuật và ứng dụng. Hà Nội Tháng 8 – 2001 Sách, tạp chí
Tiêu đề: Khai phá dữ liệu – Kỹ thuật và ứng dụng
[3]. Vũ Đức Thi, Cơ sở dữ liệu - Kiến thức và thực hành, Nhà xuất bản Thống kê (1997) Sách, tạp chí
Tiêu đề: Cơ sở dữ liệu - Kiến thức và thực hành
Nhà XB: Nhà xuất bản Thống kê (1997)
[4]. Vũ Đức Thi, Thuật toán trong tin học, Nhà xuất bản khoa học kỹ thuật (1999). Tài liệu tiếng Anh Sách, tạp chí
Tiêu đề: Thuật toán trong tin học
Tác giả: Vũ Đức Thi, Thuật toán trong tin học, Nhà xuất bản khoa học kỹ thuật
Nhà XB: Nhà xuất bản khoa học kỹ thuật (1999). Tài liệu tiếng Anh
Năm: 1999
[5]. Han J. and Kamber (2000), Data mining Concepts and Techniques, Morgan Kanufmann Sách, tạp chí
Tiêu đề: Data mining Concepts and Techniques
Tác giả: Han J. and Kamber
Năm: 2000
[6]. Murthy, S.K (1998), “Automatic construction of decision trees from data: A multi – disciplication survey”. Data mining and Knowledge Discovery 2(4), pp 345 – 389.Danh sách Website Sách, tạp chí
Tiêu đề: “Automatic construction of decision trees from data: A multi – disciplication survey”
Tác giả: Murthy, S.K
Năm: 1998
[8] Một số địa chỉ trang Web để tìm hiểu phương pháp cây quyết định. Wikipedia – Bách khoa toàn thƣ mở -Khai phá dữ liệu, Cây quyết định Khác
w