Tiếp cận tập thô xây dựng cây quyết định đa trị trong khai phá dữ liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGUYỄN THỊ MINH TÂM TIẾP CẬN TẬP THÔ XÂY DỰNG CÂY QUYẾT ĐỊNH ĐA TRỊ TRONG KHAI PHÁ DỮ LIỆU LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH: …………………… Hà Nội 2008 CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc -LỜI CAM ĐOAN Tên là: Nguyễn Thị Minh Tâm Sinh ngày: 21/01/1980 Quê quán: Thành phố Vinh - Tỉnh Nghệ An Địa chỉ: Nghệ An Khối - Phường Quang Trung – Thành phố Vinh - Tỉnh Là học viên lớp Cao học Cơng Nghệ Thơng Tin khố 2003 – 2005, trường Đại học Bách khoa Hà nội Tôi làm luận văn tốt nghiệp cao học với đề tài “Tiếp cận tập thô xây dựng định đa trị khai phá liệu”, PGS TS Nguyễn Thanh Thuỷ hướng dẫn Tôi xin cam đoan luận văn tốt nghiệp làm Các kết luận văn trung thực chưa công bố cơng trình khác Hà nội, ngày 01 tháng 11 năm 2005 Người cam đoan Nguyễn Thị Minh Tâm MỤC LỤC LỜI CAM ĐOAN MỤC LỤC Danh mục hình vẽ bảng Mở đầu Chương Tổng quan phát tri thức sở liệu 1.1 Khái niệm phát tri thức 1.2 Tiến trình phát tri thức sở liệu 10 1.3 Các nhiệm vụ khai phá liệu 12 1.4 Các phương pháp DM 15 1.4.1 Tập thô 15 1.4.2 Tập mờ 16 1.4.3 Cây định 16 1.4.4 Các phương pháp Bayes 16 1.4.5 Mạng Nơron 17 1.4.6 Tin học tiến hoá 17 1.4.7 Học máy 18 1.4.8 Phân cụm 18 1.4.9 Các phương pháp khác 19 1.5 Các ứng dụng KDD 20 1.6 Các thách thức KDD 21 Kết luận 23 Chương : Lý thuyết tập thô 24 2.1 Các khái niệm tập thô 24 2.1.1 Các hệ thông tin 24 2.1.2 Các xấp xỉ tập 26 2.1.3 Các bảng định 31 2.1.4 Sự phụ thuộc thuộc tính 32 2.1.5 Rút gọn thuộc tính 33 2.2 Cách tiếp cận tập thô hệ thông tin đa trị 34 2.2.1 Các hệ thông tin đa trị 36 2.2.2 Các xấp xỉ tập 38 2.2.3 Sự phụ thuộc thuộc tính 39 2.2.4 Rút gọn thuộc tính 39 2.2.5 Các luật định 41 Kết luận 43 Chương Cây định đa trị 44 3.1 Cây định 44 3.1.1 Giới thiệu định 45 3.1.2 Các vấn đề việc khai phá liệu với định 45 3.1.3 Giải thuật xây dựng định 49 3.2 Cây định đa trị 51 3.2.1 Giới thiệu định đa trị 51 3.2.2 Những khó khăn việc quản lý liệu đa trị phương pháp phân lớp truyền thống 54 3.2.3 Giải thuật xây dựng định đa trị 56 Kết luận 58 Chương Xây dựng định đa trị dựa tập thơ có độ xác thay đổi 59 4.1 Giới thiệu 59 4.2 Lý thuyết tập thơ có độ xác thay đổi 61 4.2 Giải thuật xây dựng định dựa tập thơ có độ xác thay đổi 64 4.3 Ví dụ minh hoạ 66 4.4 Đánh giá 69 Kết luận 73 KẾT LUẬN 74 Tài liệu tham khảo 75 Danh mục hình vẽ bảng Hình 1.1 - Tiến trình KDD 11 Hình 1.2 Các kỹ thuật khai phá liệu (tháng 2/2005) [16] 20 Bảng 2.1 – Hệ thông tin T1 25 Hình 2.1 Các xấp xỉ thô tập 27 Hình 2.2 Các miền khơng gian đối tượng 28 Bảng 2.2 Hệ thông tin T2 29 Bảng 2.3 - Hệ thông tin đa trị bệnh nhân bị nghẽn mạch [15] 34 Bảng 3.1 Tập liệu huấn luyện đa trị 52 Hình 3.1 Ví dụ định đa trị 53 Bảng 4.1 Ví dụ bảng định 66 Hình 4.1 Cây định đa trị xây dựng giải thuật VPRSDTA 68 Hình 4.2 Cây định xây dựng giải thuật ID3 72 Mở đầu Với tốc độ tin học hoá nhanh vài thập kỷ qua, hầu hết tổ chức cá nhân thu thập lưu trữ khối lượng liệu khổng lồ sở liệu họ Lúc đó, việc hiểu chúng vượt xa khả người Dữ liệu thu thập sở liệu trở thành liệu "bị chơn vùi" - xem xét Các định thường thực dựa vào trực giác người tạo định mà không dựa vào liệu giàu thông tin có sẵn sở liệu Đơn giản người tạo định khơng có cơng cụ để trích rút tri thức có giá trị Các kỹ thuật hệ chuyên gia dựa vào thao tác thủ công để chuyển đổi tri thức chuyên môn thành tri thức biểu diễn máy Các thao tác thiên tính chủ quan, có nhiều lỗi cộng với chi phí cao, thời gian xử lý lớn Tình lúc mô tả "Giàu liệu nghèo thông tin" [11] Các công cụ phát tri thức sở liệu (Knowledge Discovery in Databases - KDD) đời thực việc phân tích liệu để phát tri thức có ích dạng hay mơ hình Phương pháp dùng định phương pháp khai phá liệu để tìm phân lớp tri thức tập liệu huấn luyện cách xây dựng định Trong trình xây dựng định, thuộc tính xấp xỉ phải chọn làm nút dựa số tiêu chuẩn có độ xác cao, chiều cao nhỏ, để thu kết tối thiểu theo nghĩa Cây định có cấu trúc nút biểu diễn phép kiểm tra giá trị thuộc tính đó, nhánh tương ứng với giá trị thuộc tính, nút biểu diễn lớp hay phân bố lớp Có nhiều giải thuật xây dựng định Giải thuật xây dựng định giải thuật xuống (top – down) tìm kiếm tham lam tồn không gian định Lý thuyết tập thô Pawlak đề xuất vào đầu năm 1980 xem cách tiếp cận để phát tri thức "tạo thành sở vững cho ứng dụng khai phá liệu" [8] Chúng ta thấy rõ phát triển nhanh nghiên cứu lý thuyết tập thô ứng dụng chúng Cho đến nay, có hàng ngàn báo công bố tập thô ứng dụng chúng Lý thuyết tập thô áp dụng thành công nhiều lĩnh vực y học, dược học, ngân hàng, tài chính, phân tích thị trường Lý thuyết tập thơ đưa cơng cụ tốn học để phát dạng ẩn liệu: nhận biết phần toàn phụ thuộc (ví dụ, quan hệ nguyên nhân-kết quả) sở liệu, loại liệu thừa, đưa cách tiếp cận vấn đề liệu không đầy đủ (dữ liệu giá trị, thiếu liệu, liệu động ) Dữ liệu khơng đầy đủ có nhiều dạng, có nhiều trường hợp liệu lưu trữ không chắn thể qua hệ thơng tin với thuộc tính đa trị Cách tiếp cận lý thuyết tập thô Pawlak không xem xét trường hợp này, làm hạn chế ứng dụng xử lý liệu Luận văn trình bày cách tiếp cận để xây dựng định đa trị có khả chịu lỗi dựa phát triển lý thuyết tập thô - mơ hình tập thơ có độ xác thay đổi (VPRS - Variable precision Rough Sets) Dựa lý thuyết tập thơ có độ xác thay đổi, khái niệm quan hệ tương đương đưa ra, quan hệ tương đương có độ xác β dùng để xây dựng định đa trị Ngoài phần mở đầu kết luận, luận văn bao gồm bốn chương Chương Tổng quan phát tri thức sở liệu Chương trình bày khái niệm lĩnh vực nghiên cứu KDD, quy trình KDD, nhiệm vụ chủ yếu khai phá liệu (Data Mining - DM), phương pháp DM, ứng dụng KDD thách thức lĩnh vực nghiên cứu Chương Lý thuyết tập thô Chương trình bày khái niệm lý thuyết tập thô, cách tiếp cận tập thô để xử lý hệ thơng tin với thuộc tính đa trị Chương Cây định đa trị Chương trình bày định đơn trị giải thuật xây dựng định đơn trị Từ ta thấy khó khăn việc quản lý liệu đa trị phương pháp phân lớp truyền thống định đơn trị Trong chương trình bày định đa trị giải thuật để xây dựng định đa trị Chương Xây dựng định đa trị dựa tập thơ có độ xác thay đổi Chương giới thiệu mơ hình tập thơ có độ xác thay đổi đưa giải thuật xây dựng định dựa tập thơ có độ xác thay đổi nhằm khai phá liệu Tác giả xin bày tỏ lòng biết ơn sâu sắc tới PGS TS Nguyễn Thanh Thuỷ dẫn khoa học quý giá, định hướng cho luận văn hướng dẫn tận tình Thầy Tác giả xin chân thành cảm ơn Thầy Cô giáo khoa Công Nghệ Thông Tin, Trung tâm Đào tạo Bồi dưỡng Sau Đại học trường Đại học Bách khoa Hà Nội bạn lớp Cao học 2003 CNTT tạo điều kiện, giúp đỡ tác giả hoàn thành luận văn Chương Tổng quan phát tri thức sở liệu Knowledge Discovery and Data mining (KDD) lĩnh vực nghiên cứu phát triển mạnh mẽ KDD kết hợp sở liệu (CSDL) với kỹ thuật thống kê, học máy lĩnh vực liên quan để trích rút tri thức thơng tin có giá trị từ số lượng liệu lớn KDD có nhiều lợi ích ứng dụng khoa học thương mại Các tổ chức, phủ cộng đồng người nghiên cứu khoa học ngày bị tràn ngập dòng chảy liệu thu thập lưu trữ hàng ngày từ sở liệu trực tuyến Việc phân tích liệu trích rút dạng có ích thời gian hợp lý khó khăn khơng có trợ giúp máy tính cơng cụ phân tích mạnh Các chương trình phân tích thống kê dựa vào máy tính thường bị hạn chế khơng có điều khiển, dẫn nhà thống kê chuyên gia để lọc giải thích kết KDD xem lĩnh vực nghiên cứu có triển vọng từ năm 1990 nhà nghiên cứu học máy sở liệu 1.1 Khái niệm phát tri thức KDD lĩnh vực nghiên cứu ứng dụng tập trung vào liệu, thông tin tri thức Nói chung, thường xem liệu chuỗi bit, số hay ký hiệu, đối tượng mà có ý nghĩa gửi đến cho chương trình theo định dạng cho trước (nhưng chưa hiểu được) Chúng ta sử dụng bit để đo thơng tin xem liệu lược bỏ dư thừa rút gọn tới mức tối thiểu cần thiết để tạo nên định mà đặc tả chất liệu (dữ liệu hiểu được) Chúng ta 63 Tập quan hệ rút gọn có độ xác β S định nghĩa : REDβ(S, A∪{d}) Lõi S có độ xác β : COREβ(S, A∪{d}) = ∩REDβ(S, A∪{d}) Định nghĩa : Nhân tố quan trọng thuộc tính Cj C định nghĩa : importance-factor = - card (C + d − C j ) card (C + d ) Định nghĩa : P, Q họ quan hệ tương đương tập đối tượng U U/IND(P) = {X1, X2, , Xn} U/IND(Q) = {Y1, Y2, , Ym} Đặt H i = β   | X X Yi  ⊆  j  j  x j ∈U / IND ( P )  H m +1 = β   ⊄ X X Yi  |  j  j  x j ∈U / IND ( P )  Thì {H1, H2, , Hm+1} suy rộng P với độ xác β liên quan đến Q, định nghĩa : GENQβ(P) (0.5≤β≤1) Định lý : {H1, H2, , Hm+1} phép tách tập đối tượng U Chứng minh: Theo định nghĩa phép tách, ta phải hai tính chất sau: Mỗi phần tử U thuộc tập Hi Nếu i≠j Hi ∩Hj ≠ ∅ (i = 1, 2, , m+1) (i,j= 1, 2, , m+1) 64 Ta thấy tính chất (1) hiển nhiên m +1  Hi = i =1 n X i = U i =1 Bên cạnh đó, theo định nghĩa Hi ∩Hj = ∅ (i= 1, , m),(j= 1, , m+1) Ta chứng minh phản chứng tính chất điều kiện i≠j (i,j=1,2, ,m) Nếu Hi ∩Hj = ∅ có phần tử x ∈ U mà x ∈ Hi ∩Hj Giả sử x ∈ Xa, theo định nghĩa : Hi =  {X j x j ∈U / IND ( P ) | X j ⊆ Yi } β ⇒ X a ⊆ Yi β β X a ⊆ Yj & (i=1,2, ,m) β Mà Yi ∩Yj ≠ ∅ ⇒ X a ⊄ Yi & X a ⊄ Y j Như β X a ⊆ Yi β & X a ⊄ Yi thoả mãn, β < 0.5 Điều trái với giá trị β định nghĩa Suy đpcm 4.2 Giải thuật xây dựng định dựa tập thơ có độ xác thay đổi VPRS_DTA (Variable Precision Rough Set base Decision Tree Algorithm) Input : Bảng định S = (U, A ∪ {d}) Output: Cây định đa trị T 65 Procedure Khởi tạo có biến T rỗng Nhãn gốc tập đối tượng U tập thuộc tính điều kiện A (Current Condition Attributes Set - CCAS) Trạng thái nút gốc unready while (có nút mang trạng thái unready) begin for (mỗi nút nhãn N unready T) begin if (tồn đối tượng u nhãn N có σA(u) = ∅) then begin prinf (“bảng định không quán với độ xác β”); return; end if (mọi đối tượng gán nhãn N có σA(u)) then begin Thay tập đối tượng N chung : σA(u); Thay đổi trạng thái N ready; end else begin Tính P = COREβ(N, CCAS ∪{d}) ; if P = ∅ | P = CCAS then begin 66 P = thuộc tính từ tập CCAS có importance factor cao nhất; end Tính GENDβ(P); CCAS = CCAS \ P; Thay nhãn nút N P đánh dấu ready; Tạo m+1 nút N1, N2, , Nm+1 với trạng thái unready nút N, Ni = Hi, i = 1,2, ,m+1 gán nhãn chúng với CCAS end end end return T 4.3 Ví dụ minh hoạ Giả sử ta có bảng định sau: Bảng 4.1 Ví dụ bảng định Thuộc tính Các thuộc tính điều kiện định U C1 C2 C3 C4 Lớp (D) high high high normal H high high high good H low or less than zero low normal good H high high high good H middle high high normal F 67 low or less than zero middle high normal F low or less than zero low normal good H low or less than zero low normal normal F low or less than zero low normal good H 10 low or less than zero low normal good F 11 middle low normal good F 12 high middle high normal H 13 high low normal normal F 14 low or less than zero low normal good H 15 low or less than zero middle normal normal F 16 high middle normal good F 17 middle middle high good F 18 high high high good H 19 middle high normal normal F 20 low or less than zero middle high good H 21 high high high good F 22 high high high good F Ta xây dựng định đa trị bảng 4.1 giải thuật đưa với độ xác β = 0.6 Ta thấy bảng định khơng qn tồn u9 không phân biệt với u10 (u9 ind(C) u10) d(u9) ≠ d(u10) Tuy nhiên lại qn với độ xác β Ta có : U/IND(C) = {{1}, {2,4,18,21,22}, {3,7,9,10,14}, {5}, {6}, {8}, {11}, {12}, {13}, {15}, {16}, {17}, {19}, {20}} U/IND(D) = {{1,2,3,4,7,9,12,14,18,20}, {5,6,10,11,13,15,16,17,19,21,22}} 68 P = COREβ (N, CCAS ∪ {d}) = {C1,C4} U/P = {{1,12,13},{2,4,16,18,21,22},{3,7,9,10,14,20}, {5,6,8,10,11,13,15,16,17,19,21,22}} Theo định nghĩa 6, ta tính GENDβ(P), ta : H1 = {3,7,9,10,14,20}, H2 = {5,6,8,11,15,17,19}, H3 = {1,2,4,12,13,16,18,21,22} Tập đối tượng U phân tách thành H1, H2, H3 Thực tương tự ta thu định đa trị hình 4.1 Tập đối tượng C1: low or less than zero C1: high {C1: low or less than zero C4: good {1,2,4,12,13,16,18,21,22} C4: normal} or C1: middle {3,7,9,10,14,20} {5,6,8,11,15,17,19} H F C3: high C3: normal {1,2,4,12,18,21,22} {13,16} H F Hình 4.1 Cây định đa trị xây dựng giải thuật VPRS-DTA 69 Giải thuật đưa luật sau: Luật 1: (C1 = middle) → F Luật 2: (C1 = low or less than zero) ∧ (C4 = normal) → F Luật 3: (C1 = low or less than zero) ∧ (C4 = good) → H Luật 4: (C1 = high) ∧ (C3 = high) Luật 5: (C1 = high) ∧ (C3 = normal) → → H F Từ hình 4.1 luật ta thấy đối tượng u9 u10 thuộc lớp H u9 ind(C) u10 d(u9) ≠ d(u10) Điều nói lên bảng định có liệu nhiễu giải thuật đưa định đa trị 4.4 Đánh giá Để đánh giá giải thuật xây dựng định dựa tập thơ có độ xác thay đổi trình bày, ta so sánh với phương pháp dựa phổ tín hiệu (giải thuật ID3) mặt từ cấu trúc đến độ xác phân lớp định Giải thuật ID3 [5]: Giải thuật ID3 giải thuật định học đơn giản phát triển Ross Quinlan (1983) Giải thuật xây dựng định xuống tìm kiếm tham lam tập cho trước để kiểm tra thuộc tính nút Giải thuật ID3 dùng độ đo thông tin thu để lựa chọn thuộc tính tốt nhằm phân lớp tập cho trước Entropy - độ đo tính đồng tập huấn luyện: 70 Cho tập S chứa ví dụ khẳng định phủ định khái niệm xét, entropy S liên quan đến phân lớp logic là: Entropy(S) = - p(khẳng định)log2(p(khẳng định) ) - p(phủ định)log2 (p(phủ định) ) Trong : p(khẳng định) / p(phủ định) số ví dụ khẳng định/phủ định S Ta quy ước 0log0 = Nếu thuộc tính xét có c giá trị phân biệt entropy S liên c quan đến phân lớp : Entropy ( S ) = ∑ − pi log pi pi tỷ lệ S i =1 thuộc vào lớp i Thông tin thu Gain(S,A) thuộc tính A: Gain( S , A) = Entropy ( S ) − ∑ | Sv | Entropy ( Sv ) v ∈Values ( A ) | S | Trong Values(A) tập giá trị khẳng định thuộc tính A; Sv tập S mà thuộc tính A có giá trị v Độ đo thông tin thu độ đo xác dùng giải thuật ID3 để lựa chọn thuộc tính tốt bước phát triển Từ liệu bảng 4.1 ta xây dựng định theo giải thuật ID3 sau: Entropy(S) = -10/22 log2(10/22) – 12/22 log2(12/22) = 0.99 bits 71 Gain(S,C1) = Gain( S , A) = Entropy ( S ) − | Sv | Entropy ( S v ) v∈Values ( C1) | S | ∑ Values(C) = {high; low or less than zero; middle} Entropy(Shigh…) = -5/9 log2(5/9) – 4/9 log2(4/9) = 0.99 Entropy(Smiddle) = -0 log2(0) – 4/4log2(4/4) = Entropy(Slow…) = -5/9 log2(5/9) – 4/9 log2(4/9) = 0.99 ⇒ Gain(S,C1) = 0.99 – 9/22*0.99 – 9/22*0.99 = 0.18 Tương tự ta tính : Gain(S,C2) = 0.07 Gain(S,C3) = 0.02 Gain(S,C4) = 0.07 Trong S tập ví dụ bảng 4.1 Dựa theo độ đo thông tin thu ta thấy thuộc tính C2 đưa dự đốn tốt thuộc tính phân lớp D tập huấn luyện Vì thuộc tính C chọn nút gốc nhánh tạo ứng với giá trị (high, low, middle) Q trình lựa chọn thuộc tính phân tách tập huấn luyện lặp lại nút chưa kết thúc Cuối ta thu định hình 4.2 72 C2 high C1 middle C4 high F middle low normal C4 normal C3 good high C1 F C1 middle H normal low middle F F C4 normal H F good F Hình 4.2 Cây định xây dựng giải thuật ID3 So sánh phương pháp : Qua ví dụ ta so sánh dễ dàng mặt cấu trúc độ xác phân lớp định xây dựng hai phương pháp Từ hình 4.1 4.2, dễ thấy cấu trúc hai hoàn toàn khác định xây dựng phương pháp tập thô có độ xác thay đổi có cấu trúc đơn giản hơn, nút Cây xây dựng hình 4.2 cho ta luật hình 4.1 có luật 73 Kết luận Phương pháp xây dựng định dựa lý thuyết tập thô truyền thống thực bảng liệu quán Luận văn đưa giải thuật xây dựng định dựa tập thơ có độ xác thay đổi có khả chịu lỗi, xây dựng định có khơng qn bảng định 74 KẾT LUẬN Việc xây dựng định dựa lý thuyết tập thô truyền thống thực bảng định quán Luận văn nghiên cứu cách tiếp cận tập thô để xây dựng định đa trị nhằm quản lý hệ thông tin đa trị đưa giải thuật xây dựng định dựa mơ hình tập thơ có độ xác thay đổi có khả chịu lỗi Cho dù tồn không quán bảng định giải thuật đưa kết vừa ý So với giải thuật ID3 định xây dựng dựa giải thuật trình bày có cấu trúc đơn giản có luật tốt Tuy nhiên tồn số vấn đề việc lựa chọn giá trị độ xác β thích hợp Mục đích để xác định cách thích ứng tự động mơ hình giá trị xác β để giảm tác động nhiễu ngoại lệ từ lớp vấn đề Một vấn đề làm để diễn dịch hiểu định sinh từ định Các vấn đề cần tiếp tục nghiên cứu: • Xây dựng ứng dụng thử nghiệm dựa vào giải thuật đề xuất • Phát triển cách tiếp cận cho nhiệm vụ khai phá liệu khác: phân cụm, dự báo • Kết hợp tập thơ với tập mờ đưa độ đo nhằm cải tiến độ xác lựa chọn thuộc tính phân tách liệu trình xây dựng định 75 Tài liệu tham khảo Tiếng Việt [1] Nguyễn Ngọc Hiếu (2004), “Tiếp cận tập thô để phát luật định khai phá tri thức từ sở liệu đa trị”, Luận văn thạc sĩ khoa học CNTT, Trường Đại học Bách khoa Hà Nội Tiếng Anh [2] Agrawal, R., Mehta, M., Shafer J., Srikant R (1996), "A The Quest Data Mining System", Proceedings of The Second International Conference on Knowledge discovery and Data Mining, 244 – 249 [3] Almuallim, H., Kaneda, S., Akiba, Y (2002), Development and applications of Decision Trees, Academic Press, 55-77 [4] Bahuman, A (2000), Data Mining And Knowledge Discovery: An Introduction To The Data Mining Methods In Knowledge Discovery, University of Georgia Press, Athens [5] Bao, H T (2000), Introduction To Knowledge Discovery And Data Mining, http://www.ioit.ac.vn [6] Chang-Ling Hsu (2004), Multi-valued and Multi-labeled Decision Tree Classifiers For Data Mining, PhD Thesis in Information Management, China [7] Date, C.J (1999), An Introduction To Database System, 7th edition, Addison Wesley [8] Doegun, J., Raghavan, V., Sarkar, A., Sever, H (1997), "Data Mining: Trends In Research And Development", Rough Sets 76 and Data Mining, Kluwer Academic Publishers, Boston, Dordrecht, 9-45 [9] D.Q Miao, Yu Wang (1997), Rough Sets Based Approach For Multivariate Decision Tree Construction, Journal of Software, 425-431 [10] Gregory Piatetsky-Shapiro, Christopher Matheus, Padhraic Smyth, Ramasamy Uthurusamy (1994), KDD-93: Progress and Challenges in Knowledge Discovery in Database, AAAI [11] Han, J., Kamber, M (2000), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers [12] Hu, X (1995), Knowledge Discovery In Databases: An Attributeoriented Rough Set Approach, A Thesis For The Degree Of Doctor Of Philosophy In Computer Science Faculty Of Graduate Studies University Of Regina, Canada [13] Jin Mao Wei (2002), Rough Set based approach to selection of node, Yang’s Scientific Research Institute [14] Liu, X., Huang, H., Xu, W (2004), A Contribution to Decision Tree Construction Based on Rough Set Theory, SpringerVerlag Berlin, 637-642 [15] Medical dataset (1999), PKDD'99 Discovery Challenge, Dept of Medical Informatics, Shimane Medical University, Japan [16] Morik, K (2005), Applications of Knowledge Discovery In Data, Universität Dortmund [17] Nguyen, S H (2003), "On The Decision Table With Maximal Number Of Reducts", Electronic Notes in Theoretical Computer Science 82 (No.4) 77 [18] Nguyen, S H., Nguyen, H.S (1996), "Some Efficient Algorithms For Rough Set Methods", Proceedings IPMU’96 (Information Processing and Management under Uncertainty), Granada, Spain, 1451–1456 [19] Pawlak, Z (2000), "Rough Sets And Their Applications", Computational Intelligence In Theory And Practice, SpringerVerlag, 73-91 [20] Pawlak, Z (1991), Rough Sets: Theoretical Aspects Of Reasoning About Data, Kluwer Academic Publishers [21] Richard Jensen, Combining rough and fuzzy sets for feature selection, Doctor of Philosophy School of Informatics University of Edinburgh, 2005 [22] Sonajharia Minz, Rajni Jain (2003), Rough Set based Decision Tree Model for Classification, Springer-Verlag Berlin, 172181 [23] Stefanowski, J (1998), "On Rough Set Based Approaches To Induction Of Decision Rules", Rough Sets in Data Mining and Knowledge Discovery, Vol1, Physica Verlag, Heidelberg, 500529 [24] Ziarko, W (1993), Variable Precision Rough Set Model, Journal of computer and System Sciences, Vol 46 39–59 [25] Zhao, Y., Zhang, H., Pan, Q (2003), Classification Using the Variable Precision Rough Set, Springer-Verlag Berlin, 350-353 ... dựng định đơn trị Từ ta thấy khó khăn việc quản lý liệu đa trị phương pháp phân lớp truyền thống định đơn trị Trong chương trình bày định đa trị giải thuật để xây dựng định đa trị Chương Xây dựng. .. thuyết tập thơ Chương trình bày khái niệm lý thuyết tập thô, cách tiếp cận tập thô để xử lý hệ thông tin với thuộc tính đa trị Chương Cây định đa trị Chương trình bày định đơn trị giải thuật xây dựng. .. Chương Cây định đa trị 44 3.1 Cây định 44 3.1.1 Giới thiệu định 45 3.1.2 Các vấn đề việc khai phá liệu với định 45 3.1.3 Giải thuật xây dựng định 49 3.2 Cây định đa trị

Định dạng
Số trang	78
Dung lượng	0,91 MB