1. Trang chủ
  2. » Công Nghệ Thông Tin

Ôn tập lý thuyết và bài tập Chuyên đề khai phá dữ liệu và nhà kho dữ liệu

26 669 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 799,5 KB

Nội dung

Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc ÔN TẬP LÝ THUYẾT VÀ BÀI TẬP BÀI 3: Episode và Luật Episode 1. Các khái niệm cơ bản về Episode Episodes: o Episode là cặp (V, ≤)  V là tập hợp các loại sự kiện,ví dụ loại tín hiệu báo động  ≤ là thứ tự riêng phần trên V o Cho chuỗi S các tín hiệu báo động, episode α = (V, ≤ ) xảy ra trong phạm vi S nếu có cách thỏa loại sự kiện (ví dụ loại tín hiệu báo động) trong V dùng các tín hiệu báo động của S để thứ tự riêng phần ≤ được tôn trọng o Nhận xét: episodes chứa các tín hiệu báo động có các tính chất nào đó và xày ra theo một thứ tự riêng phần nào đó. Các thứ tự riêng phần phổ dụng như: o Thứ tự toàn phần  Các vị từ của mỗi episode có thứ tự cố định  Các episodes như vậy được gọi là tuần tự (hay “có thứ tự") o Các thứ tự riêng phần hiển nhiên  Không xét trật tự của các vị từ  Các episodes này được gọi là song song (hay “không có thứ tự") Ví dụ: HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 1/26 A B C Episode vừa tuần tự vừa song song A B Episode tuần tự A B Episode song song Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc Thuật toán WINEPI • Cho tập E các loại sự kiện, chuỗi sự kiện S = (s,Ts,Te) là một chuỗi có thứ tự các sự kiện eventi sao cho eventi ≤ eventi+1 với mọi i=1, …, n-1, và Ts ≤ eventi < Te với mọi i=1, …, n • Cửa sổ trên chuỗi sự kiện S là chuỗi sự kiện S=(w,ts,te), với ts < Te, te > Ts, và w chứa các cặp (event, t) của s mà ts ≤ t < te • Giá trị ts ≤ t < te được gọi là bề rộng cửa sổ W HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 2/26 Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc • Theo định nghĩa, cửa sổ đầu và cuối trên chuỗi vuơn ra ngoài chuỗi, do vậy cửa sổ đầu tiên chỉ chứa thời điểm đầu và cửa sổ cuối cùng chỉ chứa thời điểm cuối • Tần suất (độ hỗ trợ với luật kết hợp) của episode α là tỷ số giữa các cửa số có xuất hiện với tổng sổ các cửa sổ khả dĩ. Với W(S, W) là tập tất cả các cửa số Sw của chuỗi S sao cho bề rộng cửa sổ là W • Khi tìm episodes cần sử dụng một ngưỡng tần suât min_fr • Episode α là phổ biến nếu fr( α , s, win) ≥ min_fr, ví dụ, “nếu tần suất của α vượt quá nguỡng tần suất nhỏ nhất trong phạm vi chuỗi dữ liệu s và với bề rộng cửa sổ win" • F(s, win, min_fr): tập hợp các episodes phổ biến trong s ứng với win và min_fr • Meo Apriori: Nếu episode α là phổ biến trong chuỗi sự kiện s, thì tất cả các episodes con β p α là phổ biến • Luật episode rule là biểu thức β ⇒ γ, với β và γ là các episodes sao cho β là episode con của γ • Episode β là episode con của γ (β p γ), nếu đồ thị biểu diễn β là đồ thị con của đồ thị biểu diễn γ HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 3/26 |Sw ∈ W(S, W) | α xuất hiện trong Sw | fr(α, S, W) = |W(S, W)| Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc • Nhận xét: – Các luật WINEPI giống luật kết hợp nhưng có thêm yếu tố thời gian: Nếu sự kiện (tín hiệu báo động) thỏa về trái của luật xuất hiện theo thứ tự bên phải trong phạm vi W đơn vị thời gian, thì cũng xuất hiện trong phần kết luận (vế phải ) xuất hiện trong vị trí được mô tả bởi quan hệ thứ tự ≤, trong phạm vi W đơn vị thời gian. phần thân ⇒ kết luận [bề rộng cửa sổ ] (f, c) Bài toán đầu tiên: cho chuỗi và episode, xác định episode có xuất hiện trong chuỗi. • Tìm số các cửa sổ có episode xuất hiện • Các cửa sổ liền nhau có nhiều phần chung • Cách xử lý? – Thuật toán tăng cường (incremental algorithm) – Giống ý tưởng luật kết hợp – Episode ứng viên là tổ hợp của hai episodes có kích thước nhỏ hơn – Các episodes song song, episodes tuân tự HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 4/26 Phân số fr(γ, S, W) = tần suất của toàn bộ episode fr(β, S, W) = tần suất của episode về trái là độ tin cậy của luật WINEPI episode Độ tin cậy được xem như xác suất điều kiện của toàn bộ của γ xảy ra trong cửa sổ khi cho trước β xảy ra trong cửa sổ đó. Thuật toán winEpi • Input: Tập R các loại sự kiện/th báo động , chuỗi sự kiện s trên R, tập E các episodes, bề rộng cửa sổ win, và nguỡng tần suất min_fr • Output: Tập hợp F(s, win, min_fr) • Method: 1. Tính C1 := {α ∈ E | |α| = 1}; 2. i := 1; 3. while Ci≠ ∅ do 4.(* Tính F(s, win, min_fr) := {α ∈ Ci | fr(α, s, win) ≥ min_fr}; 5. i := l+1; 6.(** Tính Ci:= {α ∈ E | |α| = I, and β ∈ F|β|(s, win, min_fr) for all β ∈ E, β p α}; (* = quét database , (** tạo ứng viên Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc Bài tập 1 : Ví dụ về WINEPI (slide 22 – tài liệu giảng của Thầy Phúc) Cho chuỗi tín hiệu: D C A B D A B C Chiều dài chuổi là 70 giây, bắt đầu từ giây 10, kết thúc giây 80. Bề rộng cửa sổ là 40 giây, mỗi bước di chuyển khoảng cách 10 giây, cửa sổ đầu tiên chỉ chứa 1 sự kiện đầu tiên và cửa sổ cuối cùng chỉ chứa 1 sự kiện cuối cùng. Minfr=0.4 1. Tìm các cửa sổ trượt qua chuỗi tín hiệu 2. Tìm các Eps song song phổ biến và luật Eps 3. Tìm các Eps tuần tự phổ biến và luật Eps Giải 1. Tìm các cửa sổ trượt qua chuỗi tín hiệu HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 5/26 -20 -10 0 10 20 30 40 50 60 70 80 90 D C A B D A B C W1 W2 W3 W4 W5 W6 W7 W8 W9 W11 W10 Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc Bề rộng cửa số là 40 giây, bước dịch chuyển là 10 giây. Chiều dài của chuỗi sự kiện là 70 giây (10 đến 80). Bằng cách trượt cửa sổ, ta thu được 11 cửa sổ : Cửa sổ Wi Khoảng thời gian/cửa sổ Nội dung của Wi W1 [ -20, 20] [ _, _, _, D ] W2 [ -10, 30] [ _, _, D, C ] W3 [ 0, 40 ] [ _, D, C, A ] W4 [ 10, 50 ] [ D, C, A, B ] W5 [ 20, 60] [ C, A, B, D ] W6 [ 30, 70] [ A, B, D, A ] W7 [ 40, 80] [ B, D, A, B ] W8 [ 50, 90] [ D, A, B, C ] W9 [60, 100] [ A, B, C, _ ] W10 [70, 110] [ B, C, _, _ ] W11 [80, 120] [ C, _, _, _ ] 2. Tìm các Eps song song phổ biến và luật Eps Cửa sổ Wi Khoảng thời gian/cửa sổ Nội dung của Wi W1 [ -20, 20] [ _, _, _, D ] {D} W2 [ -10, 30] [ _, _, D, C ] {C, D},{CD} W3 [ 0, 40 ] [ _, D, C, A ] { A,C,D}, { AC, AD, CD},{ACD} W4 [ 10, 50 ] [ D, C, A, B ] {A, B, C, D},{AB, AC, AD, BC, BD, CD}, {ABC, ABD, ACD, BCD}, {ABCD} W5 [ 20, 60] [ C, A, B, D ] {A, B, C, D},{AB, AC, AD, BC, BD, CD}, {ABC, ABD, ACD, BCD}, {ABCD} W6 [ 30, 70] [ A, B, D, A ] {A,B,D}, {AB, AD, BD}, {ABD} W7 [ 40, 80] [ B, D, A, B ] {A,B,D}, {AB, AD, BD}, {ABD} W8 [ 50, 90] [ D, A, B, C ] {A, B, C, D},{AB, AC, AD, BC, BD, CD}, {ABC, ABD, ACD, BCD}, {ABCD} W9 [60, 100] [ A, B, C, _ ] {A,B,C}, {AB, AC, BC}, {ABC} W10 [70, 110] [ B, C, _, _ ] {B,C},{BC} W11 [80, 120] [ C, _, _, _ ] {C} Để tìm các Episode phổ biến với minfr=0.4 thi các ứng viên phải xuất hiện trong 11 cửa sổ phải bằng 0.4 *11 ≈ 5 cửa sổ trở lên. Tìm các Eps phổ biến Tập ứng viên C1 A B C D Số lần xuất hiện trong cửa sổ 7 7 8 8 Dựa vào bảng trên ta thấy Eps một phần tử đều xuất hiện nhiều hơn 5 cửa sổ và thỏa minfr  Tập các Eps phổ biến một phần tử L1 = {A,B,C,D} HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 6/26 Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc Tập cá Eps 2 phần tử được tạo ra từ tập Eps phổ biến 1 phần tử Tập ứng viên C2 AB AC AD BC BD CD Số lần xuất hiện trong cửa sổ 6 5 6 5 5 5 Dựa vào bảng trên thì các Eps 2 phần tử đều thỏa vì xuất hiện từ 5 cửa sổ trở lên thỏa minfr  Tập các Eps phổ biến 2 phần tử L2 = {AB, AC, AD, BC,BD,CD} Từ L2 ta có C3 = {ABC, ABD, ACD, BCD} Tập ứng viên C3 ABC ABD ACD BCD Số lần xuất hiện trong cửa sổ 3 5 4 3 Tương tự ta thấy chỉ có {ABD} xuất hiện trong 5 cửa số nên tập các Eps phổ biến 3 phần tử là L3={ABD} Tóm lại các tập Eps song song phổ biến là : L1 = {A,B,C,D} L2 = {AB, AC, AD, BC,BD,CD} L3={ABD} Tập các luật Eps Ta không xét tập Eps 1 phần tử Để tìm ra những luật có độ tin cậy là 100% thì ρ(vế trái) ⊆ ρ(vế phải) nghĩa là tập các cửa sổ có chứa vế trái là tập con của các cửa sổ chứa vế phải Luật Kết Hợp ρ(S1) (vế trái) ρ(S2} (vế phải) ρ(S1) ⊆ ρ(S2) Kết quả {AB} A ⇒ B W 3,4,5,6,7,8,9 W 4,5,6,7,8,9,10 ρ(A) ⊄ ρ(B) Loại B ⇒ A W 4,5,6,7,8,9,10 W 3,4,5,6,7,8,9 ρ(B) ⊄ ρ(A) Loại {AC} A ⇒ C W 3,4,5,6,7,8,9 W 2,3,4,5,8,9,10,11 ρ(A) ⊄ ρ(C) Loại C ⇒ A W 2,3,4,5,8,9,10,11 W 3,4,5,6,7,8,9 ρ(C) ⊄ ρ(A) Loại {AD} A ⇒ D W 3,4,5,6,7,8,9 W 1,2,3,4,5,6,7,8 ρ(A) ⊄ ρ(D) Loại D ⇒ A W 1,2,3,4,5,6,7,8 W 3,4,5,6,7,8,9 ρ(D) ⊄ ρ(A) Loại BC B ⇒ C W 4,5,6,7,8,9,10 W 2,3,4,5,8,9,10,11 ρ(B) ⊄ ρ(C) Loại C ⇒ B W 2,3,4,5,8,9,10,11 W 4,5,6,7,8,9,10 ρ(C) ⊄ ρ(B) Loại BD B ⇒ D W 4,5,6,7,8,9,10 W 1,2,3,4,5,6,7,8 ρ(B) ⊄ ρ(D) Loại D⇒ B W 1,2,3,4,5,6,7,8 W 4,5,6,7,8,9,10 ρ(D) ⊄ ρ(B) Loại CD C ⇒ D W 2,3,4,5,8,9,10,11 W 1,2,3,4,5,6,7,8 ρ(C) ⊄ ρ(D) Loại D⇒ C W 1,2,3,4,5,6,7,8 W 2,3,4,5,8,9,10,11 ρ(D) ⊄ ρ(C) Loại {ABD} A ⇒ BD W 3,4,5,6,7,8,9 W 4,5,6,7,8 ρ(A) ⊄ ρ(BD) Loại HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 7/26 Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc BD ⇒ A W 4,5,6,7,8 W 3,4,5,6,7,8,9 ρ(BD) ⊆ ρ(A) Nhận B ⇒ AD W 4,5,6,7,8,9,10 W 3,4,5,6,7,8 ρ(B) ⊄ ρ(AD) Loại AD ⇒ B W 3,4,5,6,7,8 W 4,5,6,7,8,9,10 ρ(AD) ⊄ ρ(B) Loại D ⇒ AB W 1,2,3,4,5,6,7,8 W 4,5,6,7,8,9 ρ(D) ⊄ ρ(AB) Loại AB ⇒ D W 4,5,6,7,8,9 W 1,2,3,4,5,6,7,8 ρ(AB) ⊄ ρ(D) Loại Chỉ có duy nhất một luật Eps song song thỏa minconf = 1 là : BD ⇒ A 3. Tìm các Eps tuần tự phổ biến và luật Eps (bài giải của Lâm Bình) a. Tìm các Eps tuần tự Tương tự cách tìm Eps song song, nhưng Eps tuần tự quan tâm đến thứ tự trước sau giữa các sự kiện. Ban đầu cũng có 4 Eps tuần tự phổ biến một phần tử giống như Eps phổ biến song song một phần tử (đương nhiên vì một phần tử thì không phân biệt trước hay sau)  Tập các Eps phổ biến tuần tự một phần tử L1 = {A,B,C,D} Từ L1, ta có tập ứng viên 2 phần tử C2={AB,BA,AC,CA,AD,DA,BC,CB,BD,DB,CD,DC} Tiếp tục vẽ các ứng viên lên hình 2, thấy hầu hết các ứng viên đều tham gia dưới 5 cửa sổ, không thỏa minsupp.  Vì vậy, tập các Eps phổ biến tuần tự hai phần tử chỉ còn lại L2 = {AB,DA} (Xem hình 2) Từ L2, ta có tập ứng viên 3 phần tử C3 = {ABD,ADB,BAD,BDA,DAB,DBA} Trong đó có 3 ứng viên ADB, BAD và DBA không xuất hện ở cửa sổ nào => loại. Tiếp tục vẽ các ứng viên còn lại lên hình 2, ta có hình 3. Hình 3 cho thấy tất cả các ứng viên đều tham gia ít hơn 5 cửa sổ, không thỏa minsupp. (Xem hình 3)  Không có Eps tuần tự phổ biến ba phần tử. HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 8/26 A 7 B 7 C 8 D 8 Hình 1 Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc b. Tìm luật Eps tuần tự Từ các Eps tuần tự phổ biến tối đại, rút ra các luật dạng vế_trái => vế_phải p(A)={W3, W4, W5, W6, W7, W8, W9} (1) p(B)={W4, W5, W6, W7, W8, W9, W10} (2) p(D)={W1, W2, W3, W4, W5, W6, W7, W8} (4) Nhưng từ (1), (2) và (4) cho thấy không có luật nào có độ tin cậy là 100%.  Tổng kết - Có 11 cửa sổ duyệt qua chuỗi tín hiệu có 8 sự kiện. - Tập các Eps song song phổ biến L={A, B, C, D, AB,AC,AD,BC,BD,CD, ABD} với {ABD} là Eps song song phổ biên tối đại. - Có duy nhất một luật BD => A được dẫn ra từ Eps song song phổ biến tối đại có độ tin cậy là 100%. - Tập các Eps tuần tự phổ biến L={A, B, C, D, AB,DA} với {AB} và {DA} là 2 Eps tuần tự phổ biến tối đại. Không có luật nào được dẫn ra từ các Eps tuần tự phổ biến tối đại. 2. Đề xuất ứng dụng HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 9/26 Hình 2 Hình 2 A 7 B 7 C 8 D 8 AB 6 AC 2 AD 2 BC 3 BD 3 CD 1 BA 2 CA 3 DA 5 CB 2 DB 3 DC 4 AB 6 DA 5 ABD 2 DAB 3 BDA 1 Hình 3 Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc BÀI 4: Phân lớp dữ liệu 1. Phân lớp là gì ? Phân lớp dữ liệu là tiến trình có 2 bước  Huấn luyện : Dữ liệu huấn luyện được phân tích bởi thuật toán phân lớp ( có thuộc tính nhãn lớp)  Phân lớp : Dữ liệu kiểm tra được dùng để ước lượng độ chính xác của bộ phân lớp. Nếu độ chính xác là chấp nhận được thì có thể dùng bộ phân lớp để phân lớp các mẫu dữ liệu mới.  Độ chính xác (accuracy) của bộ phân lớp trên tập kiểm tra cho trước là phần trăm của các mẫu trong tập kiểm tra được bộ phân lớp xếp lớp đúng 2. Phân lớp trên cây quyết định (ID3) a. Cây quyết định là cấu trúc cây sao cho:  Mỗi nút trong ứng với một phép kiểm tra trên một thuộc tính  Mỗi nhánh biểu diễn kết quả phép kiểm tra  Các nút lá biểu diễn các lớp hay các phân bố lớp  Nút cao nhất trong cây là nút gốc. ví dụ HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 10/26 sampltest ofnumber total sampletest classifiedcorrectly Accuracy = [...].. .Chuyên đề khai phá dữ liệu và nhà kho dữ liệu HọTên: Trần Thị Ngọc Châu – CH0601005 Giáo viên :TS Đỗ Phúc Trang 11/26 Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc Thuật toán tạo cây quyết định bao gồm các bước sau ( Sách Giáo trình khai thác dữ liệu) Bước 1: Cây được xây dựng đệ quy từ trên xuống và theo cách chia để trị Bước 2: Ban đầu các mẫu học đều nằm ở gốc... vị trí địa lý HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 25/26 Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc BÀI 7: Tập thô trong khai phá dữ liệu  Hệ thông tin, quan hệ bất khả phân  Xấp xỉ tập hợp ,độ chính xác của xấp xỉ  Ma trận phân biệt, hàm phân biệt, tính rút gọn của hệ thông tin  Phụ thuộc thuộc tính  Đề xuất ứng dụng BÀI 8: Khám phá dãy từ phổ biến và cách đặc... CH0601005 Trang 19/26 Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc Bài tập 1: dùng thuật toán Bayes Giải bài tập 2 đề thi khóa 1 Vóc dáng Quốc tịch Gia cảnh O1 Nhỏ Đức Độc thân O2 Lớn Pháp Độc thân O3 Lớn Đức Độc thân O4 Nhỏ Ý Độc thân O5 Lớn Đức Có gia đình O6 Lớn Ý Độc thân O7 Lớn Ý Có gia đình O8 Nhỏ Đức Có gia đình tìm các luật phân lớp của bảng quyết định trên với - Tập thuộc tính... CH0601005 Trang 18/26 Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc 3 Phân lớp Bayes a Định lý Bayes     X là mẫu dữ liệu chưa biết nhãn lớp H là giả thuyết sao cho X thuộc về lớp C Ấn định xác suất hậu nghiệm posterior probability P(H|X) sao cho H đúng khi cho trước quan sát X (H conditioned on X) Giả sử thế giới các mẫu dữ liệu gồm trái cây, được mô tả bằng màu sắc và hình dáng -... 24/26 Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc    Tiếp thị: khám phá các nhóm khác hàng phân biệt trong CSDL mua hàng Sử dụng đất: nhận dạng các vùng đất sử dụng giống nhau khi khảo sát CSDL quả đất Bảo hiểm: nhận dạng các nhóm công ty có chính sách bảo hiểm mô tô với chi phí đền bù trung bình cao  Hoạch định thành phố: nhận dạng các nhóm nhà cửa theo loại nhà, giá trị và. .. .Cả hai thuộc tính đều có độ lợi thông tin bằng nhau nên chọn ngẫu nhiên thuộc tính đó là “Gió” HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 17/26 Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc Cây quyết định cho thuật toán ID3 tạo ra : nútgốc là “Gió” Tương tự ta còn 2 tập học đó là 2 và 7 nên ta dựa vào thuộc tính Áp suất  Do đó ta có cây quyết định dựa vào thuật toán ID3 như... việc sử dụng cách tìm kiếm từ trên xuống trên tập học Độ lợi thông tin đựoc sử dụng để chọn thuộc tính có khả năng phân loại tốt nhất Thuật toán ID3 được trình bày sau đây : HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 12/26 Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc Thuật toán ID3(S, D, A) Vào : Tập học S ; Thuộc tính quyết định D, tập thuộc tính A Ra : nút gốc cùa Cây_Quyết_định... {Trong, Mây} Tập thuộc Áp suất có miền giá trị {Cao, Trung bình, Thấp } Tập thuộc Gió có miền giá trị {Bắc, Nam} Đặt P là lớp {Mưa} , N là lớp {Không mưa} P có 4 phần tử và N có 4 phần tử HọTên: Trần Thị Ngọc Châu – CH0601005 Trang 16/26 Chuyên đề khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc Bước 1: a Khối lượng thông tin cần để quyết định các mẫu trong S thuộc về lớp P hay lớp N được... khai phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc 4 Có dùng thuốc → không rám 5 Màu tóc Đen, Tầm thước, Nhẹ, Không dùng thuốc thì bị rám 6 Màu tóc Đen, Tầm thước, Vừa, Không dùng thuốc thì bị rám 7 Màu tóc Đen, Tầm thước, Nặng, Không dùng thuốc thì bị rám 8 Màu tóc Đen, Thấp, Nhẹ, Không dùng thuốc thì bị rám 9 Màu tóc Đen, Thấp, Vừa, Không dùng thuốc thì bị rám 10 Màu tóc Đen, Thấp, Nặng, Không... phá dữ liệu và nhà kho dữ liệu Giáo viên :TS Đỗ Phúc BÀI 5: Gom cụm 1 Gom cụm là gì ?  Gom cụm: gom các đối tượng dữ liệu o Tương tự với một đối tượng khác trong cùng cụm o Không tương tự với các đối tượng trong các cụm khác  Mục tiêu của gom cụm: để gom tập các đối tượng thành các nhóm 2 Phương pháp gom cụm k-means i) Điểm mạnh của phương pháp gom cụm k-means  Scalable tương đối: trong khi xử lý

Ngày đăng: 05/04/2015, 22:21

TỪ KHÓA LIÊN QUAN

w