ÔN TẬP BÀI TẬP DATAMINING

Lớp KHMT B2010-2011………………………………………………….Bài tập Datamining BÀI TẬP DATAMINING \1. Các dạng dữ liệu trong thực tế. Văn bản, hình ảnh, dạng số, Video, âm thanh và những dữ liệu khác phi số, các ký hiệu. 2. Tại sao phải rời rạc hoá dữ liệu. Trong thực tế dữ liệu đa dạng, phức tạp (đa dạng số, kí hiệu…phức tạp liên tục) .Trong khi đó máy tính chỉ xử lý được dữ liệu rời rạc. Vì vậy phải rời rạc hóa dữ liệu. 3. Rút gọn dữ liệu có là mất thông tin không. Không. Vì dữ liệu không phải lúc nào cũng chuẩn nên ta phải chọn lọc, rút gọn để tránh dư thừa dữ liệu, tránh rườm rà. Những đặc trưng đó phải là đặc trưng tiêu biểu nhằm hạn chế mất mát thông tin. Phần 1: Phân lớp dữ liệu. 1.Chứng minh hàm dấu là một độ đo tương tự. Hàm dấu có dạng: Sign: RxR -> {0, 1} (x,y) -> 1 nếu x.y >0 0 nếu x.y<0 Ta chứng minh nó thảo mản 3 tính chất 3 tính hất của độ đo tương tự như sau: i, Không âm Hiển nhiên ta có Rx j ∈∀ , x i ta có sign(x i, x j) ≥ 0 vì sign(x i, x j)=1 nếu x i, x j cùng dấu và =0 nếu x i, x j trái dâu. ii, Chuẩn hoá: R ∈∀ i x ta luôn có sign(x i, x i) =1 vì nó luôn cùng dấu với nó. iii, Đối xứng: Rx j ∈∀ , x i theo bài giả thiết ta có: sign(x i, x j) = 1 nếu x i, x j cùng dấu (1) 0 nếu x i, x j trái dấu sign(x j, x i) = 1 nếu x i, x j cùng dấu (2) 0 nếu x i, x j trái dấu Từ (1 ) và (2) => sign(x i, x j) = sign(x j, x i) thoả mản tính chất đối xứng. Vậy hàm dấu thoả mản 3 tính chất của độ đo tương tự => hàm dấu là một độ đo tương tự. 2.Các chỉ số tương tự của russel và rao; Jaccard; sokal và Michener có phải là các độ đo tương tự không? Các tính chất khác hiển nhiên ta chỉ kiểm tra T/c 2. russel và rao: CP P không phải độ đo tương tự. vì nó không thoả mản tính chất về chuẩn hoá. Vì số giá trị thuộc tính A đều bằng 1 <>P. Jaccard: CP CP PA AP + + phải Vì lúc này PA=AP=0. sokal và Michener: CP CA P + phải vì số thuộc tính CP(A=1) + CA (A=0)=P nê tỉ lệ này bằng 1. Ghi chú: Ở đây chú ý: P là số thuộc tính CP: số giá trị thuộc tính cả A và B đều bằng 1 CA: nt 0 PA: số giá trị thuộc tính A=1, B=0 1 Lớp KHMT B2010-2011………………………………………………….Bài tập Datamining AP: số giá trị thuộc tính A=0, B=1 3. Phân biệt các mô hình phân lớp. 3 mô hình a. Phân hoạch P={E 1 ,E 2 ….E n } là một k-phân hoạch của E nếu i) ∀ l ∈ {1,…k} : E l ≠ φ ii) ∀ l,m ∈ {1,…k} : E l ∩ E m = φ iii) 1 = E = U k l l E b. Phủ Chỉ cần thoả mản (i) và (iii) của phân hoạch. c. Phân cấp Cho H là một tập khác rỗng các tập con của E. H là một sự phân cấp trên E nếu: i) E H ∈ i) ∀ x ∈ E l , {x} ∈ H l (lớp đơn) i) ∀ h i ,h j ∈ H l : h i ∩ h j , ≠ φ ->h i ⊂ h j hoặc h j ⊂ h i Đồ thị biểu diển một sự phân cấp là một cây +Gốc biểu diễn lớp lớn nhất E. +n lớp đơn biểu diễn nút lá của cây. Phần cấp gồm: 1. Phân cấp từ trên xuống. PP kết nối đơn, kết nối đầy đủ. 2. Phân cấp từ dưới lên. Cây quyết định. 4. Các phương pháp nào tính khoảng cách giửa 2 nhóm chỉ phụ thuộc vào ma trận khoảng cách ban đâu? Phương pháp nào phụ thuộc vào cả dữ liệu ban đầu. -Phương pháp kế nối đơn, kết nối đầy đủ, kết nối trung bình. -Phương pháp nào phụ thuộc vào cả dữ liệu ban đầu là phương pháp kết nối đầy đủ và ward. vì phương pháp trọng tâm trước tiên cần phải biết điểm trung tâm của nhóm 5.Kết quả phân cụm có phụ thuộc vào việc chọn lựa phương pháp tính khoảng cách giử 2 cụm. -Có. Ví từ ma trận ban đầu nếu giả sử ta chọn phương pháp kết nối đơn và phương pháp kết nối đầy đủ ở đây giả sử dòng nào đó được chọn nếu một giá trị nào đó nhỏ hơn tất cả các giá giá trị ở trong ma trận còn lại (từ đi dòng và cột được chọn) thì phương pháp kết nối đơn sẻ chọn giá gị này. Còn phương pháp kết nối đầy đủ sẻ không được chọn giá trị này vì nó chọn max của các giá trị ở ma trân ban đầu. 6. Nhược điểm của thuật toán K-Mean là gì? Thuật toán K-Mean Phương pháp không phân cấp (Thuộc phương pháp phân hoạch) B1. Chọn K đối tượng trung tâm, phân chia các đối tượng thành K nhóm. B2. Phân phối lại các đối tượng cho các nhóm có phần tử “Trung tâm” gần với nó nhất. Tính lại phần tử trung tâm của mỗi nhóm. B3. Lặp lại bước b2 cho đến khi không có sự phân phối lại Ưu điểm: -Đơn giản, nhanh, cho phép thực hiện trên tập dữ liệu lớn -Độ phức tạp: O(K.N.1) với l là số lần lặp. -Có khả năng mở rộng, có thể dễ dàng sửa đổi với những dữ liệu mới. -Bảo đảm hội tụ sau 1 số bước lặp hữu hạn. -Luôn có k cụm dữ liệu. -Luôn có ít nhất 1 điểm trong 1 cụm dữ liệu. -Các cụm không phân cấp và không bị chồng chéo dữ dữ liệu lên nhau. -Mọi thành viên của cụm là gần với chín cụm đó hơn bất cứ một cụm nàm khác. Nhược điểm: 2 Lớp KHMT B2010-2011………………………………………………….Bài tập Datamining -Không tạo ra cùng 1 kết quả sau mỗi lần chạy vì kết quả phân cụm phụ thuộc vào gán tâm cụm ngẫu nhiên lúc khởi tạo. -Không có khả năng tìm ra các cụm không lồi hoặc các cụm có hình dạng phức tạp. -Khó khăn trong việc xác định các trọng tâm cụm ban đầu + Chọn ngẫu nhiên các trung tâm cụm lúc khởi tạo + Độ hội tụ của thuật toán phụ thuộc vào việc khởi tạo các vector trung tâm cụm -Khó để chọn ra được số lượng cụm tối ưu ngay từ đầu, mà phải qua nhiều lần thử để tìm ra được số lượng cụm tối ưu. -Rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu. -Không phải lúc nào mỗi đối tượng cũng chỉ thuộc về 1 cụm, chỉ phù hợp với đường biên giữa các cụm rõ. 7.Cho ví dụ thực tế sử dụng từng phương pháp phân lớp phù hợp. Ví dụ về phân hoạch: Phép chia đồng dư 7 Ví dụ về phủ: Các mặt hàng Tách, ấm chén, bát, tô… Ví dụ về phân cấp. Với n=250, t=300 Phần 2: Tổng quan về khai phá dữ liệu (Lý thuyết về tập thô): 1, Xấp xỉ trên, xấp xỉ dưới, miền khẳng định. a, Xấp xỉ dưới, xấp xỉ trên. -Cho hệ thông thông tin IS = (U, A), B ⊆ A các quan hệ tương ứng. U là tập các đối tượng, A là tập các thuộc tính. _ + IND(B): gọi là quan hệ B không phân biệt được. _ + Nếu (x,x’) ∈ IND(B) được gọi là không phân biệt được ứng với mỗi thuộc tính của B. -[x] B : Lớp tương đương của quan hệ B không phân biệt được có chứa x. - IND(B) là tập các phân hoặch không phân biệt được trên thuộc tính B. Ví dụ: _ + + + 3 U Số nợ Thu nhập Quyết định u 1 200 300 Cho vay u2 200 50 Không cho vay u 3 300 300 Không cho vay u 4 150 200 Cho vay u 5 250 100 Không cho vay )}'()(,|)',{()()( 2 xaxaBaUxxBINDBIND IS =∈∀∈== B={Age} ta có IND(B)= {{x 1 ,x 2 ,x 6 }, {x 3 ,x 6 },{x 5 ,x 6 } -Sự xấp xỉ tập: Nghĩa là các đối tượng xấp xỉ (gần giống nhau) trên tập điều kiện. -Cho T=(U,A) và B ⊆ A và X ⊆ U (U là tập các đối tượng, A tập các thuộc tính) +Xấp xỉ dưới: [ ] {x| x X} B BX = ⊆ +Xấp xỉ trên: [ ] {x| x X } B BX φ = ∩ ≠ Chú ý: Miền ngoài U-Xấp xỉ trên Miền biên Lớp KHMT B2010-2011………………………………………………….Bài tập Datamining Cho W={x| walk = yes} A={Age, lems} Tìm xấp xỉ dưới, xấp xỉ trên. Giài Ta có: W={x 1 , x 4 , x 6 } U/A ={{x 1 }, {x 2 }, {x 3 ,x 4 }, {x 5 ,x 7 }, {x 6 }} =>1, WA = {x 1 ,x 3 ,x 4 ,x 6 } 2, WA = {x 1 ,x 6 } 3, Miền biên: BN A (W)= {x 3 ,x 4 } 4, Miền ngoài: U-xấp xỉ trên={x 2 ,x 5 ,x 7 } Ở ví dụ trên nếu chỉ có thuộc tính Age thì ta có: + WA = φ ; + WA = {x 1 ,x 2 ,x 3 ,x 4 ,x 6 } b, Miền khẳng định: Miền khẳng định của C đối với D (thuộc tính quyết định) POS C (D)= CX ∪ X ∈ U/D Ví dụ: Ở vì dụ trên ta có thuộc tính quyết địng là D=Walk U/D={{x 1 , x 4 , x 6 },{x 2 ,x 3 ,x 5 ,x 7 }} hay X1={x 1 , x 4 , x 6 }, X2={x 2 ,x 3 ,x 5 ,x 7 } từ đó ta có 1AX = {x 1 ,x 6 }, 2AX = {x 2 } =>POS C (D)= 1AX ∪ 2AX ={x 1 ,x 2 ,x 6 } Chú ý: -Thuộc tính c gọi là dư thừa nếu ta loại bỏ nó ra miền khẳng định củng không thay đổi nghĩa là: POS C (D) = POS (C-{c}) (D) ngược lại thì không dư thừa. -T=(U,R,D) là độc lập nếu tất cả thuộc tính C không dư thừa trong T. -Rõ ràng POS(D) là tập tất cả các đối tượng u sao cho với mọi v ∈ U mà u(B)=v(B) ta đều có u(D)=v(D). Nói cách khác, PO B (D)={u ∈ U | [u] B ⊆ [u] D } 2, Chứng minh các tính chất của xấp xỉ. Xem phần sau cùng 3, Tìm tập lõi, rút gọn. (Core và Reduct ) Core (C) là tập tất cả các thuộc tính điều kiện không dư thừa trong T. Reduct(C) là tập tất cả các rút gọn của C. 4, Ý nghĩa của lõi, rút gọn. Có tối đa bao nhiêu tập rút gọn. -Ý nghĩa của lõi: Là thuộc tính không loại bỏ được trong phải có mặt trong bất kỳ tập rút gọn nào -Tập rút gọn là tập nhỏ nhất của các thuộc tính điều kiện để quyết định thuộc tính quyết định giống nhau. -Có tối đa A reduct. (A là tập tất cả các thuộc tín). 5, Tính ma trận phân biệt được, hàm phân biệt được. T = (U, C, D) 4 { { : ( ) ( )} [ ( ) ( )] [ ( ) ( )] i j i j i j c C c u c u if d D d u d u ij if d D d u d u m λ ∈ ≠ ∃ ∈ ≠ ∀ ∈ = = Lớp KHMT B2010-2011………………………………………………….Bài tập Datamining Ví dụ: Hình 1. Ma trận phân biệt f(u1)=(b ∨ c ∨ d) ∧ b ∧ (a ∨ b ∨ c ∨ d) = b f(u2)=(b ∨ c) ∧ (b ∨ d) ∧ (a ∨ b ∨ c)=(b ∨ c) ∧ (b ∨ d)= b ∨ (c ∧ d) f(u3)=(b ∨ c ∨ d ) ∧ (b ∨ c) ∧ (b ∨ d) ∧ (a ∨ b ∨ c ∨ d )= b ∨ (c ∧ d) f(u4)=b ∧ (b ∨ d) ∧ (c ∨ d) ∧ (a ∨ b ∨ c ∨ d) ∧ (a ∨ b) =b ∧ (c ∨ d)= (b ∧ c) ∨ (b ∧ d) f(u5)= (a ∨ b ∨ c ∨ d) ∧ (a ∨ b ∨ c) ∧ (c ∨ d)=(a ∨ b ∨ c) ∧ (c ∨ d)= c ∨ (d ∧ (a ∨ b)) f(u6)=(a ∨ b ∨ c ∨ d) ∧ (a ∨ b ∨ c) ∧ (c ∨ d)= c ∨ (d ∧ (a ∨ b)) f(u7)=(a ∨ b ∨ c ∨ d) ∧ (a ∨ b) ∧ (c ∨ d)= (a ∨ b) ∧ (c ∨ d) Từ đó ta có hàm phân biệt: 7 1i = ∧ f T (u i )=b ∧ (c ∨ d)=(b ∧ c) ∨ (b ∧ d) từ đó ta có: reduct1={b,c} =>core={b} reduct1={b,d} 6, Khai phá Luật quyết định dựa vào lý thuyết tập thô. -Xấp xỉ dưới chỉ quyết định các luật chắc chắn. -Xấp xỉ dưới có thẻ quyết định các luật không chắc chắn. 7, Phân biệt giửa luật kết hợp và luật quyết định. 5 Lớp KHMT B2010-2011………………………………………………….Bài tập Datamining Phần 3: Khai phá dữ liệu với luật kết hợp. 1.Độ hỗ trợ của tập mục; độ hỗ trợ và độ tin cậy của luật kết hợp, ý nghĩa và cách tính. a, Độ hỗ trợ của tập mục: -Công thức: Card({T:X T}) Supp(X) Card(D) ⊆ = +T ,X là tập các tập mục +D là các giao tác. -Ý nghĩa: Độ hỗ trợ của tập mục cho biết khả năng có mặt của X hay sức mạnh của tập mục. b, Độ hỗ trợ của luật kết hợp: Công thức tính: Suppord(X=>Y)=suppord(Y=>X)=supp( X Y ∪ ). -Ý nghĩa: Độ hỗ trợ của luật biểu diễn sức mạnh của luật. Luật có ảnh hưởng như thế nào trong toàn bộ hệ thống. c, Độ tin cây của luật: Công thức tính: ( ) Sup p(X Y) Card({T:X Y T}) Connfidence X Y Supp(X) Card(T : X T) ∪ ⊆ = > = = ⊆ U -Ý nghĩa: +Độ tin cậy biểu diễn mức độ đúng của quy tắc X=>Y +Connfidence(X=>Y) =P(Y/X) Công thức này là xác suất có điều kiện, có nghĩa là khả năng Y “đúng” khi X đã “đúng”. Độ hỗ trợ (Support) và độ tin cây (Confidence) là 2 tham số dùng để đo lường luật kết hợp. Độ hỗ trợ (Support) của luật kết hợp X =>Y là tần suất của giao dịch chứa tất cả các items trong cả hai tập X và Y. Ví dụ, support của luật X =>Y là 5% có nghĩa là 5% các giao dịch X và Y được mua cùng nhau. Công thức để tính support của luật X =>Y như sau: Trong đó: N là tổng số giao dịch. Độ tin cậy (Confidence) của luật kết hợp X =>Y là xác suất xảy ra Y khi đã biết X. Ví dụ độ tin cậy của luật kết hợp {Apple} =>Banana} là 80% có nghĩa là 80% khách hàng mua Apple cũng mua Banana. Công thức để tính độ tin cậy của luật kết hợp X =>là xác suất có điều kiện Y khi đã biết X như sau : Trong đó: n(X) là số giao dịch chứa X 2.Số lượng luật sinh ra có phụ thuộc vào giá trị minsup và minconf không? -Trả lời: có. vì khi giá trị minsupp và minconf càng bé thì số lượng luật sinh ra càng nhiều và ngược lại. 3.Chứng minh các tính chất của độ hỗ trợ và độ tin cậy. Mệnh đề 2.1: Cho A và B là các tập mục. Nếu A B ⊆ thì supp(A)≥supp(B). Chứng minh: ∀ T ta có từ A B ⊆ => Card({T: A T ⊆ }) ≥ Card({T: B T ⊆ }) Card({T:A T) Card({T:B T) Card(D) Card(D) ⊆ ⊆ ⇔ ≥ Hay supp(A) ≥ supp(B). đpcm Mệnh đề 3.1. Cho A và B là hai tập mục, với độ hỗ trợ tối thiểu min_sup cho trước, ngoài ra, A B ⊆ . Khi đó: a, Nếu B là tập mục phổ biến thì A cũng là tập mục phổ biến. b, Nếu A là tập mục không phổ biến thì B cũng là tập mục không phổ biến. 6 Lớp KHMT B2010-2011………………………………………………….Bài tập Datamining Chứng minh: a, Từ giả thiết A B ⊆ => Supp(A) ≥ Supp(B) (theo t/c 2.1) (1) Nếu B là phổ biên thì ta có: Supp(B) > min_sup (2) từ (1) và (2) => Supp(A) > min_sup hay A là tập mục phổ biến. b, Từ giả thiết A B ⊆ => Supp(A) ≥ Supp(B) (theo t/c 2.1) (1) Nếu A là tập mục không phổ biên thì ta có: Supp(A) < min_sup (2) từ (1) và (2) => Supp(B) < min_sup hay B là tập mục phổ biến. 4.Thuật toán Apriori; độ phức tạp tính toán. Ý tưởng của thuật toán Input: T, D, min_sup Output: Tất cả tập mục phổ biến. Phương pháp: Trước tiên tìm tất cả 1-tập mục phổ biến. Từ 1 – tâp mục phổ biên sinh ra 2 - tập mục phổ biến dựa vào tính chất của mệnh đề 3.1. Quá trình lặp lại cho đến kho không còn tập mục phổ biến nào được tạo ra. Thuật toán gồm 2 bước sau: Giai đoạn rút gọn: Tạo tập L k từ C k 1. Khởi tạo L k := “” 2. For l ∈ C k do 3. if supp(l) ≥min_sup then 4. L k := L k ∪ {l} *Độ phức tạp của thuận toán: O(n 2 ) n số mục. 5. Nếu cố định về phải của luật, thuật toán sẻ thay đổi như thế nào? Liên tưởng gì đến bài toán tìm phụ thuộc hàm? Chương 4: Phương pháp phân cấp từ trên xuống. Câu 1: Miền giá trị và ý nghĩa của Entropy, Gain a, Entropy: -Đặt p i = i Card(U ) Card(U) , i=1 k, U i là lớp các phân hoạch của U đối với d (thuộc tính quyết định). Entropy(U)=E(U)= i 2 i p .log p − ∑ 7 Lớp KHMT B2010-2011………………………………………………….Bài tập Datamining -Ý nghĩ của Entropy là độ đo(thông tin) khả năng không chắc chắn của kết qủa đầu ra. b.Gain ( ) ( ) ( ) a v v v V Card(U ) Gain U,a G U,a E U .E(U ) Card(U) ∈ = = − ∑ -Ý nghĩa: -Gain là gia lượng thông tin. (là độ lợi thông tin) -Gain càng lớn thì thu được nhiều thông tinnhất để phan chia. -Thuật toán chọn thuộc tính phân nhánh trong cây quyết định B1: V:=U B2: Tính giá trí E(V) B3: For a ∈ C do tính giá trị G(V,a) B4: Chọn thuộc tính a có giá trị G(V,a) lớn nhất làm phân nhánh. C:=C\{a} B5: For v ∈ V a do B5.1: V:=V o B5.2: if card(V d )>1 then thực hiện lại các bước 2, 3, 4 Ví dụ: Xét 6 bệnh nhân: d =cảm cúm 1 2 3 3 3 2 1 2 2 1 2 2 E(U ) ( log log ) log 3 3 3 = − + = − 2 1 3 3 3 2 2 2 2 2 1 2 E(U ) ( log log ) log 3 3 3 = − + = − G(U,a=đđ)= ( ) a v v v V Card(U ) E U .E(U ) Card(U) ∈ − ∑ = 3 3 2 2 3 2 3 2 1 (log ) (log ) 6 3 6 3 − − − − = 1-( 3 2 2 log 3 − ) (*) *Xét thuộc tính đau cơ: U đc ={{u1,u2,u3,u4,u6},{u5}}; U 1 ={u1,u2,u3,u4,u6}; U 2 = {u5} U 1/d = {u1,u4},{u2,u3,u6}; => E(U 1 )= 2 3 5 5 2 2 2 3 ( log log ) 5 5 − + ; E(U 2 )=0 G(U,a=đc)= 2 3 2 3 3 5 5 5 5 2 2 2 2 2 5 2 3 1 1 4 1 ( ( log log ) 1 ( log log ) log 6 5 5 3 2 3 − − + = − + = − (**) *Xét thuộc tính thanh nhiệt: U đc ={{u1,u4},{u2,u5},{u3,u6}}; U 1 ={u1,u4};U 2 ={u2,u5}; U 3 = {u3,u6} U 1/d = {u1,u4} => E(U 1 )= 2 2 2 2 ( log ) 0 2 − = 8 U Đau đầu Đau cơ Thân nhiệt Cảm cúm u 1 C C BT K u 2 C C C C u 3 C C RC C u 4 K C BT K u 5 K K C K u 6 K C RC C Ta có: U c=’C’ ={u2,u3,u6}=>p1=1/2 U c=’K’ ={u1,u4,u5}=>p2=1/2 1 1 2 2 2 2 1 1 E(U) ( log log ) 1 2 2 = − + = *Xét thuộc tính đau đầu ta có: U đđ ={{u1,u2,u3},{u4,u5,u6}} U 1 ={u1,u2,u3}, U 2 ={u4,u5,u6} U 1/d ={{u1},{u2,u3}}, U 2/d ={{u4,u5},u6} Lớp KHMT B2010-2011………………………………………………….Bài tập Datamining U 2/d = {{u2},{u5}} => E(U 2 )= 1 1 2 2 2 2 1 1 ( log log ) 1 2 2 − + = U 3/d = {u3,u6}=> E(U 3 )= 2 2 2 2 ( log ) 0 2 − = =>G(U,a=tn)= 2 1 1 .1 1 6 3 − = − (***) Từ (*), (**) và (***) ta thấy G(U,a=tn)= 1 1 3 − (***) vậy ta chọn thuộc tính thân nhiệt để phân nhánh. Từ đó ta có cây quyết định ở bước này như sau: *Xét thuộc tính đau đầu: U đđ ={u2},{u5} U 1/d ={u2} =>G(U 1 )= 1 1 1 1 2 2 1 1 ( log log ) 0 1 1 − + = U 2/d ={u5} =>G(U 1 )= 1 1 1 1 2 2 1 1 ( log log ) 0 1 1 − + = G(U,a=đđ)=1- 1 1 ( .0 .0) 1 2 2 + = (a) *Tương tự xét thuộc tính đau cơ ta có: G(U,a=đc)=1- 1 1 ( .0 .0) 1 2 2 + = (b) Từ (a) và (b) ta có thể chọn thuộc tính đđ hay đc để phân nhánh. Giả sử chọn đđ ta có cây quyết định sau: 9 u1,u2,u3,u4,u5,u6 u1,u4 u2,u5 u3,u6 CC=K CC=C tn=BT tn=Cao tn=R.cao Nhận xét: Ở đây ta thấy nhánh 1 và 3 đã đi đến thuộc tính quyết định. Vậy ta tiếp tực phân nhánh tại nhánh 2 với 2 thuộc tính còn lại là đđ và đc. Ta có bảng: U Đau đầu Đau cơ Cảm cúm u 2 C C C u 5 K K K Ta có: U c=’C’ ={u2} =>p1=1/2 U c=’K’ ={u5} =>p2=1/2 G(U)= 1 1 2 2 2 2 1 1 ( log log ) 1 2 2 − + = u1,u2,u3,u4,u5,u6 u1,u4 u2,u5 u3,u6 CC=K CC=C tn=BT tn=Cao tn=R.cao u2 u5 CC=C CC=K đđ=C đđ=K Từ cây quyết định ta có luật quyết định sau: 1.(thân nhiệt,BT)->(cảm cúm,K) 2.(thân nhiệt,R.Cao)->(cảm cúm,C) 3.(thân nhiệt,Cao) ∧ (đau đầu,C)->(cảm cúm,C) 4.(thân nhiệt,Cao) ∧ (đau đầu,K)->(cảm cúm,K) hoặc (nếu phân nhánh theo thuộc tính đau cơ) 3.(thân nhiệt,Cao) ∧ (đau cơ,C)->(cảm cúm,C) 4.(thân nhiệt,Cao) ∧ (đau cơ,K)->(cảm cúm,K) Lớp KHMT B2010-2011………………………………………………….Bài tập Datamining Câu 2: Hệ thống được xem là ổn định với giá trị nào của Entropy • Miền giá trị Entropy: [0,log 2 n ] với n là số đối tượng phân lớp. • Entropy ổn định khi: +Entropy=0 khi có 1 phân lớp. Khi đó độ chắc chắn chắn lớn. Entropy(U)=E(U)= i 2 i p .log p − ∑ với đặt p i = i Card(U ) Card(U) • Ý nghĩa entropy: chỉ ra số lượng trạng thái cần thiết để mã hóa của 1 phần tử lấy ra ngẫu nhiên từ U • Miền giá trị Gain: xem công thức G(U,A) ( ) ( ) ( ) a v v v V Card(U ) Gain U,a G U,a E U .E(U ) Card(U) ∈ = = − ∑ • Ý nghĩa Gain: Số trạng thái giảm được đ/v việc mà hóa lớp của 1 p.tử đc lấy ra ngẫu nhiên từ U khi biết g.trị thuộc tính A. Câu 3: ưu và nhược điểm khi xây dựng cây quyết định dựa vào Entropy Ưu điểm: Thời gian huấn luyện vừa phải Nhanh, dễ hiểu, dễ thực hiện khả năng xử lý lớn 1 lượng các đặc tính, các đặc trưng. Chúng đặc biệt phù hợp với khám phá tri thức vì nó không tạo ra bất kỳ giải quyết nào về sự phân bố dữ liệu. -Khả năng sinh ra các quy tắc hiểu được Cây quyết định có khả năng sinh ra các quy tắc có thể chuyển đổi được sang dạng tiếng Anh, hoặc các câu lệnh SQL. Đây là ưu điểm nổi bật của kỹ thuật này. Thậm chí với những tập dữ liệu lớn khiến cho hình dáng cây quyết định lớn và phức tạp, việc đi theo bất cứ đường nào trên cây là dễ dàng theo nghĩa phổ biến và rõ ràng. Do vậy sự giải thích cho bất cứ một sự phân lớp hay dự đoán nào đều tương đối minh bạch. -Khả năng thực thi trong những lĩnh vực hướng quy tắc Điều này có nghe có vẻ hiển nhiên, nhưng quy tắc quy nạp nói chung và cây quyết định nói riêng là lựa chọn hoàn hảo cho những lĩnh vực thực sự là các quy tắc. Rất nhiều lĩnh vực từ di truyền tới các quá trình công nghiệp thực sự chứa các quy tắc ẩn, không rõ ràng (underlying rules) do khá phức tạp và tối nghĩa bởi những dữ liệu lỗi (noisy). Cây quyết định là một sự lựa chọn tự nhiên khi chúng ta nghi ngờ sự tồn tại của các quy tắc ẩn, không rõ ràng. -Dễ dàng tính toán trong khi phân lớp 10 [...]... phù hợp với tập d.liêu lớn - Lượng mẫu phải lớn - Cây sẽ có nhiều nhánh Câu 4: Các luật quyết định sinh ra từ cây quyết định 11 Lớp KHMT B2010-2011………………………………………………… .Bài tập Datamining Xem bài tập 1 chương này Chứng minh các tính chất của tập xấp xỉ 1) R X ⊆ X ⊆ R X 2) R ∅ = R ∅ = ∅ ; R U = R U = U 3) R (X ∪ Y) = R X ∪ R Y và R (X ∩ Y) = R X ∩ R Y 4) Nếu X ⊆ Y thì R X ⊆ R Y và R X ⊆ R Y 5) R (X ∪ Y)... (đfcm) 2.1) Từ 1) ta có R ∅ ⊆ ∅ mà tập rỗng là con của tất cả các tập nên ∅ ⊆ R ∅ do đó R ∅ = ∅ (2.1a) Giả sử R ∅ ≠ ∅ thì tồn tại x ∈ R ∅ do đó [x]R ∩ ∅ ≠ ∅ (vô lý) vì tất cả mọi tập giao với tập ∅ đều bằng ∅ Vậy R ∅ = ∅ (2.1b) Từ (2.1a) và (2.1b) ta có: R ∅ = R ∅ = ∅ (đfcm) 2.2) Từ 1) ta có R U ⊆ U Mặt khác với mọi x ∈ U thì [x]R ⊆ U (vì U là cha của tất cả mọi tập phân hoạch của U) do đó x ∈ R...Lớp KHMT B2010-2011………………………………………………… .Bài tập Datamining Mặc dù như chúng ta đã biết, cây quyết định có thể chứa nhiều định dạng, nhưng trong thực tế, các thuật toán sử dụng để tạo ra cây quyết định thường tạo ra những cây với số phân nhánh thấp và các test đơn giản tại từng node Những test điển hình là: so sánh số, xem xét phần tử của một tập hợp, và các phép nối đơn giản Khi thực thi trên... chia tốt nhất tập dữ liệu đào tạo bắt đầu từ node gốc của cây Từ đó có thể thấy những thuộc tính nào là quan trọng nhất cho việc dự đoán hay phân lớp - Qúa trình xây dựng cây q.định dễ, trực quan - Phân lớp nhanh - Dễ xây dựng cho cây nhỏ Nhược điểm: Dù có những sức mạnh nổi bật trên, cây quyết định vẫn không tránh khỏi có những điểm yếu Đó là cây quyết định không thích hợp lắm với những bài toán với... (splitting criteria) trên cây quyết định: mỗi nhánh tương ứng với từng phân tách tập dữ liệu theo giá trị của thuộc tính được chọn để phát triển tại node đó Các thuộc tính liên tục cũng dễ dàng phân chia bằng việc chọn ra một số gọi là ngưỡng trong tập các giá trị đã sắp xếp của thuộc tính đó Sau khi chọn được ngưỡng tốt nhất, tập dữ liệu phân chia theo test nhị phân của ngưỡng đó -Thể hiện rõ ràng những... giá trị của thuộc tính liên tục như thu nhập, huyết áp hay lãi xuất ngân hàng,… Cây quyết định cũng khó giải quyết với những dữ liệu thời gian liên tục nếu không bỏ ra nhiều công sức cho việc đặt ra sự biểu diễn dữ liệu theo các mẫu liên tục Không thể xử lỹ các mối quan hệ phúc tạp giửa các đặc tính -Dễ xẩy ra lỗi khi có quá nhiều lớp Một số cây quyết định chỉ thao tác với những lớp giá trị nhị phân... ∪ R Y Do đó R X ∪ R Y = R Y hay R X ⊆ R Y 5) Ta có: X ⊆ X ∪ Y và Y ⊆ X ∪ Y Theo 4) ta có R X ⊆ R (X ∪ Y) và R Y ⊆ R (X ∪ Y) Do đó ( R X ∪ R Y) ⊆ R (X ∪ Y) 12 Lớp KHMT B2010-2011………………………………………………… .Bài tập Datamining Ta có: X ∩ Y ⊆ X và X ∩ Y ⊆ Y Theo 4) ta có R (X ∩ Y) ⊆ R X và R (X ∩ Y) ⊆ R Y Do đó R (X ∩ Y) ⊆ ( R X ∩ R Y) 6.1) Với mọi x ∈ R (–X) ta có: [x]R ⊆ –X ⇔ [x]R ∩ X = ∅ (vì –X ∩ X= ∅ ) ⇔ x... thêm thao tác xắp xếp lại tập dữ liệu theo thứ tự giá trị của thuộc tính đó Sau đó mới có thể chọn được một thuộc tính phát triển và tương ứng là một phân chia tốt nhất Một vài thuật toán sử dụng tổ hợp các thuộc tính kết hợp với nhau có trọng số để phát triển cây quyết định Quá trình cắt cụt cây cũng “đắt” vì nhiều cây con ứng cử phải được tạo ra và so sánh - Ko phù hợp với tập d.liêu lớn - Lượng mẫu... khác với mọi x ∈ U thì [x]R ⊆ U (vì U là cha của tất cả mọi tập phân hoạch của U) do đó x ∈ R U hay U ⊆ R U Vì vậy R U = U (2.2a) Từ 1) ta có U ⊆ R U Mặt khác ta có R U ⊆ U (vì U là cha của tất cả mọi tập phân hoạch của U) Vì vậy R U = U (2.2b) Từ (2.2a) và (2.2b) ta có: R U = R U = U (đfcm) 3.1) Với mọi x ∈ R (X ∪ Y) thì ta có: [x]R ∩ (X ∪ Y) ≠ ∅ ⇔ ([x]R ∩ X) ∪ ([x]R ∩ Y) ≠ ∅ ⇔ ([x]R ∩ X ≠ ∅ ) ∨ ([x]R... là: so sánh số, xem xét phần tử của một tập hợp, và các phép nối đơn giản Khi thực thi trên máy tính, những test này chuyển thành các toán hàm logic và số nguyên là những toán hạng thực thi nhanh và không đắt Đây là một ưu điểm quan trọng bởi trong môi trường thương mại, các mô hình dự đoán thường được sử dụng để phân lớp hàng triệu thậm trí hàng tỉ bản ghi -Khả năng xử lý với cả thuộc tính liên tục . Lớp KHMT B2010-2011………………………………………………… .Bài tập Datamining BÀI TẬP DATAMINING 1. Các dạng dữ liệu trong thực tế. Văn bản, hình ảnh, dạng số, Video,. B2010-2011………………………………………………… .Bài tập Datamining -Không tạo ra cùng 1 kết quả sau mỗi lần chạy vì kết quả phân cụm phụ thuộc vào gán tâm cụm ngẫu nhiên lúc khởi tạo. -Không có khả năng tìm ra các cụm không lồi hoặc. B2010-2011………………………………………………… .Bài tập Datamining Phần 3: Khai phá dữ liệu với luật kết hợp. 1.Độ hỗ trợ của tập mục; độ hỗ trợ và độ tin cậy của luật kết hợp, ý nghĩa và cách tính. a, Độ hỗ trợ của tập mục: -Công thức:

Định dạng
Số trang	13
Dung lượng	360,52 KB