Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 175 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
175
Dung lượng
6,79 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG KHOA CÔNG NGHỆ THÔNG TIN BÀI GIẢNG IT KHO DỮ LIỆU VÀ PT KHAI PHÁ DỮ LIỆU NGUYỄN QUỲNH CHI HàNội 2014 Mục lục CHƢƠNG I: Giới thiệu kho liệu khai phá liệu 1.1 Khai phá liệu 1.2 Các loại liệu kiểu mẫu liệu đƣợc khai phá 1.3 Các toán phƣơng pháp khai phá liệu Định nghĩa toán phân loại Định nghĩa toán phân cụm Định nghĩa toán phát luật kết hợp 10 Bài toán phân loại cho liệu hồi quy 10 Phát sai lệch hay dị thƣờng 11 IT Khai phá liệu Nguyên lý quy nạp 11 1.4 Sự tích hợp khai phá liệu với sở liệu hay kho liệu 12 Vai trò khai phá liệu trình phát tri thức từ liệu 12 PT Các bƣớc trình phát tri thức từ liệu 12 Các chuyên ngành khác liên quan tới khai phá liệu 14 So sánh khai phá liệu với phân tích thống kê 14 So sánh khai phá liệu với sở liệu 15 So sánh khai phá liệu với công nghệ kho liệu 15 Kiến trúc mơ tơ phân tích trực tuyến (OLAM) 15 So sánh Cơ sở liệu, xử lý phân tích trực tuyến khai phá liệu 16 1.5 Ứng dụng kho liệu khai phá liệu 19 Ứng dụng toán phân lớp (phân loại) 19 Ứng dụng toán phân cụm 20 Ứng dụng toán phát luật kết hợp 20 Những vấn đề lĩnh vực cơng nghệ kho liệu khai phá liệu 21 Chƣơng 2: Các cơng nghệ kỹ thuật tích hợp sở liệu 23 2.1 Giới thiệu Mơ hình liệu mở rộng XML 23 Giới thiệu ngôn ngữ XML (Extensible Markup Language) 23 Một hệ thống XML điển hình 24 Cú pháp XML 25 Khai báo kiểu văn – Data Type Declaration (DTD) 28 Nhắc lại kiến thức mơ hình thực thể liên kết mở rộng 36 Kiến trúc tích hợp nhiều sở liệu 43 Kỹ thuật chuyển đổi lƣợc đồ quan hệ sang mơ hình thực thể liên kết mở rộng 43 Ví dụ việc chuyển đổi từ lƣợc đồ quan hệ sang mơ hình thực thể liên kết 46 IT 2.3 Tích hợp lƣợc đồ liệu 50 Khái niệm tích hợp liệu 50 Các bƣớc tích hợp ngữ nghĩa liệu 51 PT Bài thực hành 62 2.4 Chuyển đổi tích hợp liệu 64 Phƣơng pháp luận cho công nghệ kho liệu OLAP 64 Các cách chuyển đổi liệu 64 Một ví dụ việc chuyển đổi 68 Tích hợp liệu 72 Chƣơng 3: Công nghệ kho liệu xử lý phân tích trực tuyến 79 3.1 Khái niệm kho liệu 79 3.2 Mơ hình liệu đa chiều 82 3.3 Kiến trúc kho liệu 91 3.4 Cài đặt kho liệu 93 3.5 Liên hệ công nghệ kho liệu với khai phá liệu 100 3.6 Xây dựng kho liệu với mục đích hỗ trợ định (DSS) 102 Nhắc lại chút khái niệm kho liệu tác nhân liên quan 102 Các giai đoạn xây dựng 102 Thiết kế sở liệu với lƣợc đồ hình 105 Nghiên cứu xây dựng kho liệu 106 Chƣơng 4: Khai phá liệu 111 4.1 Tiền xử lý liệu trƣớc khai phá 111 Khái niệm liệu 111 Tiền xử lý liệu 119 4.2 Phƣơng pháp khai phá luật kết hợp 124 IT Nguồn gốc khai phá luật kết hợp 124 Các ứng dụng luật kết hợp 124 Khái niệm tốn tìm luật kết hợp 125 PT Cách tiếp cận theo kiểu vét cạn (Brute-force approach) 125 Khai phá luật kết hợp với cách tiếp cận hai bƣớc 127 Phƣơng thức giảm số lƣợng ứng cử viên: thuật toán Apriori 128 Một phƣơng pháp sinh tập mặt hàng thƣờng xuyên FP-growth 134 Sinh luật kết hợp 138 4.3 Phƣơng pháp định 140 Những khái niệm toán phân loại 140 Phƣơng pháp phân loại định 141 Các thuật tốn tìm định 144 Đánh giá mơ hình phân loại 155 4.4 Phƣơng pháp phân nhóm phân đoạn 159 Khái niệm phân tích phân cụm 159 Độ đo phân cụm 161 Phân loại phân cụm 165 Phƣơng pháp phân cụm 168 PT IT Tài liệu tham khảo 174 CHƢƠNG I: Giới thiệu kho liệu khai phá liệu Vấn đề bùng nổ liệu: công cụ thu thập liệu tự động công nghệ sở liệu trở nên hoàn thiện, lƣợng lớn liệu đƣợc thu thập lƣu trữ sở liệu, kho liệu kho lƣu trữ thông tin khác Lúc này, có q nhiều liệu, chƣa mang tính phục vụ có mục đích cho ngƣời sử dụng Chúng ta thiếu tri thức, liệu qua xử lý phục vụ riêng cho mục đích ngƣời sử dụng Vấn đề làm để khai thác tri thức từ đống liệu khổng lồ có tay Giải pháp cho việc khai phá tri thức đời cơng nghệ kho liệu phƣơng pháp khai phá liệu Giải pháp liên quan tới khía cạnh sau đây: - Công nghệ để xây dựng kho liệu lớn phƣơng thức để xử lý phân tích trực tuyến (sẽ nghiên cứu học sau) Trích lọc tri thức có ích cho ngƣời bao gồm luật, thể chế, mẫu, ràng buộc IT - từ khối lƣợng lớn liệu hay nhiều sở liệu có kích cỡ lớn Các lý cần khai phá liệu quan điểm thƣơng mại giới thực Rất nhiều liệu đƣợc thu thập giới thực đƣợc lƣu trữ cách hệ thống PT - kho liệu bao gồm: o Các liệu web, liệu thƣơng mại điện tử o Các liệu mua bán cửa hàng, gian hàng siêu thị o Các liệu giao dịch ngân hàng, thẻ tín dụng - Máy tính trở nên rẻ có sức mạnh xử lý liệu - Sức ép cạnh tranh mạnh mẽ hơn: cần cung cấp dịch vụ tốt tùy biến với khách hàng (nhất quan hệ với khách hàng) Các lý cần khai phá liệu quan điểm khoa học - Các liệu đƣợc thu thập lƣu trữ với tốc độ nhanh (GB/h) thông qua o Bộ cảm biến (sensor) điều khiển từ xa trạm vệ tinh o Kính viễn vọng quan sát bầu trời o Dùng công cụ microarray để sinh liệu thể đặc tính gene (gene expression data) o Dùng mô khoa học để tạo hàng tera byte liệu - Các kỹ thuật truyền thống khơng cịn khả thi cho lƣợng lớn liệu thô - Các kỹ thuật khai phá liệu giúp ích đƣợc nhà khoa học công việc o Phân loại phân mảnh liệu o Hình thành giả thuyết nghiên cứu khoa học 1.1 Khai phá liệu Khai phá liệu (phát tri thức sở liệu sẵn có) việc trích lọc thơng tin có ích (khơng hiển nhiên, khơng tƣờng minh, khơng biết trƣớc, có ích cách tiềm năng), mẫu liệu sở liệu lớn Khai phá liệu có số tên gọi khác đƣợc sử dụng đƣợc đề cập đến sống nhƣ sách tạp chí khoa học nhƣ: - Khám phá tri thức (knowledge discovery) sở liệu (thƣờng đƣợc viết tắt theo tiếng anh KDD) Trích lọc tri thức - Phân tích mẫu/dữ liệu - Khảo cổ liệu - Tri thức kinh doanh (business intelligence) nhiều tên khác dùng IT - PT Xem xét ví dụ sau để phân biệt khái niệm khai phá liệu với khái niệm sở liệu, mà dễ nhầm tƣởng khai phá liệu Những xử lý khai phá liệu Những xử lý khai phá liệu Tra cứu số điện thoại danh bạ điện thoại Xác định tên đƣợc cho phổ biến địa danh cụ thể Truy vấn mơ tơ tìm kiếm thơng tin Gộp nhóm tài liệu giống đƣợc trả Web liên quan tới từ “Amazon” cơng cụ tìm kiếm thơng tin dựa vào ngữ cảnh chúng (ví dụ nhƣ rừng Amazon, hay vùng miền Amazon.com) 1.2 Các loại liệu kiểu mẫu liệu đƣợc khai phá Khi thực công việc khai phá liệu, để đƣa định cần thiết cho công việc khai phá, cần xác định yếu tố sau: - Loại sở liệu cần khai phá Các loại sở liệu dùng cho khai phá bao gồm sở liệu quan hệ, sở liệu giao dịch, hƣớng đối tƣợng, sở liệu quan hệ- đối tƣợng, không gian, sở liệu văn bản, chuỗi thời gian, đa phƣơng tiện, sở liệu hỗn tạp, sở liệu luật, sở liệu Web, loại sở liệu khác - Loại tri thức cần phát Bao gồm tri thức miêu tả đặc điểm cá thể tập cá thể xét, phân biệt cá thể với cá thể khác, luật kết hợp, tìm xu hƣớng, phân loại cá thể tập hợp, phân cụm gộp nhóm cá thể giống nhau, phân tích tìm cá thể ngoại lai khác biệt phần đơng cá thể khác, v.v… Ngồi ra, tri thức cịn chức tích hợp, đa chức khai phá nhiều mức độ khác - Loại kỹ thuật cần đƣợc sử dụng để giải vấn đề Bao gồm kỹ thuật theo hƣớng sở liệu, kỹ thuật kho liệu (xử lý phân tích trực tuyến), phƣơng pháp học máy, phƣơng pháp thống kê, biểu diễn trực quan, mạng nơron nhân tạo, phƣơng pháp khác Loại ứng dụng cần đƣợc xây dựng, áp dụng cho vấn đề khai phá IT - Bao gồm ứng dụng lĩnh vực bán lẻ, truyền thơng, ngân hàng, phân tích lỗi, khai phá liệu gen, phân tích thị trƣờng chứng khốn, khai phá liệu Web, phân tích Weblog PT Một công việc cần đƣợc xác định nhận thức rõ nhiệm vụ toán khai phá liệu thuộc loại hai loại sau đây: - Bài tốn khai phá liệu dạng mơ tả Nhiệm vụ tốn dạng tìm mẫu mơ tả liệu mà ngƣời hiểu đƣợc - Bài toán khai phá liệu dạng tiên đoán Sử dụng vài biến để tiên đoán giá trị chƣa biết tƣơng lai biến khác Các nhiệm vụ thƣờng gặp việc khai phá liệu - Phân loại: thuộc loại toán tiên đoán - Phân cụm: thuộc loại toán mô tả - Phát luật kết hợp: thuộc loại tốn mơ tả - Phát mẫu dạng liên tục: thuộc loại tốn mơ tả - Bài tốn hồi quy: thuộc loại toán tiên đoán - Phát khác biệt: thuộc loại toán tiên đoán 1.3 Các toán phƣơng pháp khai phá liệu Định nghĩa toán phân loại - Cho tập ghi đƣợc gọi tập huấn luyện, ghi chứa tập thuộc tính, thuộc tính gắn nhãn phân loại đƣợc gọi thuộc tính lớp - Nhiệm vụ tốn phân loại tìm mơ hình thể thuộc tính lớp hàm giá trị thuộc tính khác - Sau tìm đƣợc mơ hình thích hợp cho tốn, mục đích cuối áp dụng mơ hình (hàm tìm đƣợc) để tiên đốn ghi chƣa đƣợc biết đến trƣớc thuộc lớp cách xác tốt - Một tập ghi kiểm thử đƣợc dùng để xác định độ xác mơ hình Thơng thƣờng, tập liệu đƣợc đƣa đƣợc chia thành tập huấn luyện tập kiểm thử, tập huấn luyện đƣợc dùng để xây dựng mơ hình tập kiểm thử đƣợc dùng để kiểm tra hình vẽ dƣới Tid IT Một ví dụ minh họa cho tốn phân loại: Cho tập ghi đƣợc coi tập huấn luyện nhƣ Refund Marital Status Taxable Income Cheat Yes Single 125K No No Married 100K No PT No Single 70K No Yes Married 120K No No Divorced 95K Yes No Married 60K No Yes Divorced 220K No No Single 85K Yes No Married 75K No 10 No Single 90K Yes 10 Trong thuộc tính Cheat thuộc tính phân lớp, thuộc tính Tid khơng có ý nghĩa việc huấn luyện mơ hình Các ghi tập huấn luyện đƣợc sử dụng để tìm phụ thuộc thuộc tính phân lớp thuộc tính cịn lại (hàm phụ thuộc) Khi tìm đƣợc phụ thuộc (hay cịn gọi phân lớp) nói huấn luyện xong mơ hình phân lớp Mơ hình phân lớp tìm đƣợc đƣợc xác định tính xác thơng qua việc áp dụng mơ hình Refund Marital Taxable No Single 75K ? Yes Married 50K ? No Married 150K ? 90K ? phân lớp cho liệu dùng để Status kiểm thử nhƣ hình vẽ Cheat Income 10 Yes Divorced No Single 40K ? No Married 80K ? Giá trị thuộc tính Cheat đƣợc tính sau đƣa ghi qua mơ hình phân lớp, giá trị đƣợc so sánh với giá trị thực thuộc tính liệu đƣợc cho trƣớc, để xác định tính xác mơ hình phân lớp Mơ hình tìm đƣợc đƣợc sử dụng để phân loại ghi với giá trị thuộc tính (ngoại trừ thuộc tính phân lớp) biết, để phục vụ nhu cầu ngƣời sử dụng Với ví dụ minh họa này, với giá trị sẵn có ngƣời nhƣ tình trạng nhân, thu nhập tính thuế thơng tin có hồn trả thuế hay khơng, mơ hình phân loại ghi thơng tin giả hay thật Định nghĩa toán phân cụm chúng để phân cụm cho: IT Cho tập điểm liệu, điểm có tập thuộc tính có độ đo tƣơng đồng điểm khác PT o Những điểm liệu cụm có tƣơng đồng cao, nhiều với o Những điểm liệu cụm riêng rẽ tƣơng đồng điểm thuộc cụm Các độ đo tƣơng đồng kể đến - Khoảng cách Ơclit thuộc tính giá trị liên tục - Các độ đo khác theo tốn lĩnh vực Mơ tả phân cụm dựa khoảng cách Ơclit không gian chiều đƣợc thể hình vẽ dƣới o Phân loại tài liệu trang Web o Phân cụm liệu Weblog để phát nhóm mẫu truy nhập giống Các ví dụ ứng dụng phân cụm - Ứng dụng tiếp thị: giúp cho ngƣời tiếp thị phát nhóm đặc biệt liệu khách hàng họ sau sử dụng tri thức để phát triển chƣơng trình tiếp thị có mục tiêu - Ứng dụng việc sử dụng đất: Xác định vùng sử dụng đất giống sở liệu quan sát toàn trái đất - Ứng dụng bảo hiểm: Xác định nhóm ngƣời có bảo hiểm tơ với chi phí trung bình đƣợc chi trả bảo hiểm cao - Ứng dụng lập kế hoạch cho thành phố: Xác định nhóm nhà dựa kiểu nhà, giá trị vị trí địa lý ngơi nhà họ Nghiên cứu động đất: địa chấn trận động đất đƣợc phân cụm dựa lỗi lục địa Khái niệm phân cụm tốt IT - Một phƣơng pháp phân cụm tốt sinh phân cụm có chất lƣợng cao hai phần tử cụm có độ giống cao giống hai phần tử khác cụm PT Chất lƣợng kết phân cụm phụ thuộc vào độ đo giống đƣợc sử dụng cho phƣơng pháp phân cụm việc cài đặt độ đo Chất lƣợng phƣơng pháp phân cụm đƣợc đo khả phát tất mẫu tiềm ẩn liệu Những yêu cầu việc phân cụm khai phá liệu Tồn nhiều phƣơng pháp phân cụm khai phá liệu, muốn đề xuất phƣơng pháp phải thỏa mãn đặc tính sau - Tính mở rộng kích cỡ - Khả phân cụm với kiểu thuộc tính khác - Có thể phát cụm với hình thù - Đòi hỏi yêu cầu nhỏ tri thức miền liệu để xác định tham số đầu vào - Có khả giải với nhiễu thành phần ngoại lai - Trật tự ghi đầu vào cho phƣơng pháp không làm ảnh hƣởng tới kết việc phân cụm - Có khả làm việc liệu có nhiều chiều - Cho phép chấp nhận thêm ràng buộc ngƣời sử dụng định nghĩa 160 - Có tính phiên dịch sử dụng đƣợc Độ đo phân cụm Cấu trúc liệu đƣợc sử dụng việc phân cụm Trong phân cụm, liệu đƣợc lƣu trữ dƣới hai dạng: dạng ma trận liệu hai chiều có n hàng p cột n số phần tử tập liệu xét p số đặc tính quan tâm phân cụm phần tử dạng ma trận khác x11 x i1 xn1 x 1f x if x nf d(2,1) d(3,1) d (3,2) : : : d (n,1) d (n,2) 0 x 1p x ip x np Trong ma trận thể khác nhau, phần tử d(i,j) thể khoảng cách hay khác IT phần tử thứ i thứ j Ma trận ma trận đối xứng khác phần tử i phần tử j j i, đồng thời đƣờng chéo ma trận khoảng cách phần tử i Đo giống PT Đơn vị đo lƣờng để đo giống hay khác hai phần tử tập liệu xét đƣợc biểu diễn hàm khoảng cách, độ đo điển hình d(i,j) khoảng cách phần tử (i) phần tử (j) Để đánh giá chất lƣợng cụm, hàm chất lƣợng riêng biết đƣợc sử dụng tới Việc định nghĩa hàm khoảng cách thƣờng khác biến phạm vi, phân khoảng, biến nhị phân, phân loại, biến có trật tự biến tỉ lệ Các trọng số đƣợc sử dụng với biến khác dựa loại ứng dụng ngữ nghĩa liệu Rất khó để định nghĩa “đủ giống nhau” “đủ tốt” trình xác định giống phần tử tập liệu Câu trả lời thƣờng mang tính chủ quan, khác đối tƣợng cảm nhận đối tƣợng Đối với biến có giá trị nằm khoảng đó, cần chuẩn hóa liệu trƣớc thực phân cụm Sở dĩ nhƣ khiến cho thuật tốn phân cụm đƣa kết xác Chuẩn hóa cách - Tính tốn trung bình phƣơng sai bình phƣơng 2 sf n (| x1 f m f | | x2 f m f | | xnf m f | ) 161 mf n (x1 f x2 f phần tử ma trận hai chiều xnf ) sau tính độ đo đƣợc chuẩn hóa (z-score) xif m f zif sf Sử dụng phƣơng sai trị tuyệt đối trung bình (khơng phải phƣơng sai bình phƣơng trung bình trên) khiến thuật tốn đƣợc thực nhanh chóng sử dụng phƣơng sai chuẩn Sự giống khác đối tƣợng liệu Các khoảng cách thông thƣờng đƣợc sử dụng để đo giống hay khác hai đối tƣợng liệu Một số khoảng cách phổ biến thƣờng đƣợc dùng bao gồm - Khoảng cách Minkowski đƣợc tính theo cơng thức Trong d (i, j) q (| x x |q | x x |q | x x |q ) i1 j1 i2 j2 ip jp IT i = (xi1, xi2, …, xip) j = (xj1, xj2, …, xjp) hai đối tượng liệu có p chiều q số nguyên dương Nếu q=1thì d đƣợc gọi khoảng cách Manhattan PT d (i, j) | x x | | x x | | x x | i1 j1 i2 j2 ip jp Nếu q=2 d khoảng cách Ơclit (Euclit) d (i, j) (| x x |2 | x x |2 | x x |2 ) i1 j1 i2 j2 ip jp Với thuộc tính • d(i,j) • d(i,i) = • d(i,j) = d(j,i) • d(i,j) d(i,k) + d(k,j) Ngồi sử dụng khoảng cách có trọng số, tƣơng hỗ tích mơmen có tham số Pearson độ đo khác khác, miễn thỏa mãn thuộc tính khoảng cách trình bày - Độ giống Cosin Nếu d1 d2 hai vectơ tài liệu cos( d1, d2 ) = (d1 d2) / ||d1|| ||d2|| thể phép tốn nhân vectơ || d || độ dài vectơ d Ví dụ: d1 = 0 0 162 d2 = 0 0 0 d1 d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = ||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481 ||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos( d1, d2 ) = 3150 - Độ giống biến nhị phân Bảng sau đƣợc sử dụng để tính độ giống biến nhị phân, thành phần phần tử bảng số thuộc tính đối tƣợng i đối tƣợng j nhận giá trị hay Chẳng hạn a số thuộc tính đối tƣợng i j có giá trị 1, cịn b là số thuộc tính đối tƣợng i IT đối tƣợng j PT Đo độ tuơng đồng hai đối tƣợng, dùng khoảng cách đơn giản sau (là bất biến biến nhị phân đối xứng d (i, j) bc a b c d Nếu biến nhị phân khơng đối xứng độ tƣơng quan không bất biến, đƣợc gọi độ tƣơng bc quan Jaccard có cơng thức tính nhƣ sau d (i, j) a b c Ví dụ: Cho bảng liệu nhƣ sau Name Jack Mary Jim Gender M F M Fever Y Y Y Cough N N P Test-1 P P N Test-2 N N N Test-3 N P N Test-4 N N N Trong Gender thuộc tính đối xứng thể giới tính đối tƣợng có tên thuộc tính Name xét Các thuộc tính cịn lại lần lƣợt biểu có sốt, có ho không kết xét nghiệm 1, 2, 3, Tất thuộc tính cịn lại thuộc loại nhị phân không đối xứng Giả sử giá trị Y (yes-có) P (positive- dƣơng tính) đƣợc đặt giá trị N (No- không hay âm tính) đƣợc đặt ta có khoảng cách Jaccard nhƣ sau 163 1 0.33 1 11 d ( jack , jim ) 0.67 111 1 d ( jim , mary) 0.75 11 d ( jack , mary) - Độ giống biến tên Là tổng quát hóa biến nhị phân biến có nhiều hai trạng thái (trong biến nhị phân có hai trạng thái 1), ví dụ nhƣ biến dạng tên nhận giá trị màu sắc đỏ, vàng, xanh nƣớc biển xanh Để đo độ giống biến dùng số cách đề xuất sau Cách 1: so sánh giống cách đơn giản IT m Trong p tổng số thuộc tính đối tƣợng, m số d (i, j) p p i j có giá trị thuộc tính hai đối tƣợng Cách 2: sử dụng số lƣợng lớn biến nhị phân cách tạo biến nhị phân cho - PT M trạng thái biến tên Độ đo giống cho biến trật tự: Một biến có trật tự rời rạc liên tục Trật tự biến quan trọng ví dụ nhƣ biến thể phân bậc đối tƣợng Chúng ta coi loại biến có trật tự nhƣ dạng biến khoảng phạm vi cách o Thay xif cấp bậc rif {1, , M f } o Ánh xạ phạm vi biến vào khoảng [0,1] cách thay đối tƣợng thứ i biến thứ f z-score zif rif 1 M f 1 o Tính tốn khác sử dụng cách thức dùng cho biến khoảng phạm vi - Độ đo cho biến tỉ lệ Biến tỉ lệ đơn vị đo lƣờng dƣơng phạm vi phi tuyến dạng lũy thừa xấp xỉ ví dụ nhƣ AeBt Ae-Bt Cách thức để tính tốn độ đo giống/khác biến loại nhƣ sau: - Coi chúng nhƣ biến phạm vi lựa chọn tốt - Áp dụng số chuyển đổi logarit yif = log(xif) 164 - Coichúng nhƣ liệu có trật tự liên tục coi cấp bậc chúng nhƣ khoảng phạm vi - Độ đo cho loại liệu hỗn hợp (trộn nhiều loại khác nhau) Một sở liệu chứa tất sáu loại biến: nhị phân đối xứng, nhị phân không đối xứng, loại tên thƣờng, loại có trật tự, loại tỉ lệ phạm vi Chúng ta sử dụng cơng thức có trọng số để kết hợp hiệu chúng vào với theo cơng thức sau Trong pf 1 ij( f )dij( f ) d (i, j) pf 1 ij( f ) - f làdạng nhị phân dạng tên dij(f) = xif = xjf , dij(f) = - f dạng phạm vi: sử dụng khoảng cách chuẩn - f dạng trật tự khoảng tỉ lệ cần o tính cấp bậc rif Phân loại phân cụm zif r M if 1 f 1 IT o coi zif nhƣ dạng biến khoảng phạm vi Khái niệm không rõ ràng cụm không gian điểm liệu Đây vấn đề trình phân cụm: với tập hợp điểm khơng gian liệu, PT có nhiều cách phân cụm với số lƣợng cụm khác với tiêu chí khác Xem ví dụ sau để minh họa điều với khơng gian liệu ban đầu phân thành cụm, cụm hay cụm nhƣ hình vẽ dƣới (mỗi phần tử cụm đƣợc thể hình giống nhau) Sự khác biệt loại phân cụm 165 - Loại trừ không loại trừ: phân cụm không loại trừ, điểm khơng gian liệu thuộc nhiều phân cụm đại diện nhiều lớp điểm nằm biên giới lớp - Cụm mờ không mờ: o Trong phân cụm mờ, điểm thuộc vào cụm với trọng số (xác suất điểm thuộc cụm đó) o Tổng trọng số phải o Các phân cụm xác suất có đặc tính giống - Cụm phần tồn bộ: số trƣờng hợp muốn phân cụm vài liệu khơng phải tồn liệu - Hỗn tạp đồng điệu: cụm có kích cỡ, hình dạng mật độ khác thuộc loại hỗn tạp, cịn tƣơng đồng thuộc loại đồng điệu Các loại cụm IT Cụm phân chia rõ ràng: Là loại cụm bao gồm tập điểm mà điểm cụm - gần (hay giống) điểm khác cụm tới điểm cụm khác Ví dụ loại cụm phân chia rõ ràng đƣợc thể hình vẽ sau với cụm đƣợc biểu PT diễn hình trịn màu đỏ, màu xanh da trời màu xanh nõn chuối sau - Cụm có tâm điểm: o Là loại cụm bao gồm tập đối tƣợng cho đối tƣợng cụm gần (hay giống) “trung tâm ” cụm “trung tâm “ cụm khác o Trung tâm cụm thƣờng đƣợc gọi “tâm điểm” (centroid), trung bình tất điểm cụm gọi medoid, điểm đại diện cụm o Ví dụ loại cụm dựa vào tâm điểm đƣợc mơ tả hình vẽ dƣới có cụm đƣợc thể hình trịn màu khác 166 - Cụm dựa tiếp giáp (hay hàng xóm gần bắc cầu) o Là loại cụm bao gồm tập hợp điểm cho điểm cụm gần (hay giống) nhiều điểm khác cụm tới điểm không nằm cụm ây o Ví dụ loại cụm đƣợc thể hình vẽ dƣới màu thể Cụm dựa mật độ: PT - IT cụm o Là loại cụm cụm mộtvùng điểm dày đặc, tách biệt với vùng có mật độ điểm thƣa thớt, từ vùng có mật độ dày đặc o Đƣợc sử dụng cụm có hình dạng đặc biệt gắn kết với có nhiễu phần tử ngoại lai xuất tập liệu o Ví dụ loại cụm đƣợc thể hình vẽ dƣới màu thể - cụm phân tách Cụm theo thuộc tính khái niệm o Là cụm có chia sẻ thuộc tính chung thể khái niệm cụ thể o Ví dụ loại cụm đƣợc mơ tả nhƣ hình vẽ dƣới 167 Phƣơng pháp phân cụm Các cách tiếp cận phân cụm - Các thuật toán phân mảnh: xây dựng nhiều mảnh khác sau đánh giá chúng theo tiêu chí Các thuật tốn phân cấp: tạo phân chia theo cấp tập liệu (hoặc đối tƣợng) sử dụng tiêu chí Các thuật toán dựa mật độ: dựa hàm kết nối hàm mật độ để phân cụm đối tƣợng liệu Các thuật toán dựa lƣới: dựa cấu trúc lõi đa mức Các thuật tốn dựa mơ hình: Một mơ hình đƣợc giả thiết cụm ý IT - tƣởng tìm mơ hình phù hợp với cụm PT Trong phạm vi giảng xem xét loại nhóm thuật tốn Phƣơng pháp phân cụm K-means Phƣơng pháp có số đặc tính sau: - Đây cách tiếp cận phân cụm dạng phân mảnh - Mỗi cụm liên quan tới tâm điểm (đƣợc gọi centroid) - Mỗi điểm đƣợc gán tới cụm mà có tâm điểm gần - Số lƣợng cụm K, phải đƣợc xác định cụ thể từ đầu - Ý tƣởng thuật toán đơn giản đƣợc thể dƣới dạng mã giả dƣới Lựa chọn K điểm làm tâm điểm khởi tạo cụm Lặp công việc sau Hình thành K cụm cách gán tất điểm tới tâm điểm gần Tính tốn lại tâm điểm cụm Cho đến tâm điểm không thay đổi Một số nhận xét K-means 168 - Tâm điểm khởi tạo thƣờng đƣợc chọn cách ngẫu nhiên thực tế thấy cụm đƣợc sinh thay đổi lần chạy thuật toán khác - Tâm điểm thƣờng kết trung bình điểm cụm - Đặc tính “gần nhau” đƣợc đo khoảng cách Ơclit, giống Cosine, độ tƣơng hỗ,v.v… - Thuật toán K-mean hội tụ cho hầu hết độ đo độ tƣơng tự phổ biến đƣợc đề cập đến - Hầu hết hội tụ xảy vài vòng lặp lại o Thông thƣờng điều kiện dừng đƣợc chuyển thành “tới cịn điểm thay đổi cluster” - Độ phức tạp thuật toán O( n * K * I * d ) n = số điểm khơng gian liệu xét, K = số cluster đƣợc ấn định khởi tạo, I = số vòng lặp, d = IT số thuộc tính liệu Khi chạy thuật tốn K-mean, kết khác lần chạy cho dù chọn số cụm nhƣ tâm điểm khởi tạo đƣợc chọn ngẫu nhiên nên lần chạy đƣợc sinh giá trị khác Xét ví dụ minh họa hình vẽ dƣới để thấy đƣợc kết khác PT sinh chạy K-mean tập liệu Để đánh giá cụm đƣợc tìm thấy phƣơng pháp K-mean dùng độ đo lỗi phổ biến tổng bình phƣơng lỗi (Sum of Squared Error –SSE) - Đối với điểm, lỗi đƣợc tính khoảng cách tới cụm gần 169 - Để tính đƣợc SSE, lỗi tính đƣợc đƣợc bình phƣơng lên lấy tổng chúng, theo nhƣ công thức dƣới K SSE dist (mi , x) i 1 xCi Trong – - x điểm liệu cụm Ci mi điểm đại diện cho cluster Ci Nếu kết chạy thuật tốn cho cụm thƣờng chọn cụm với lỗi nhỏ Thông thƣờng muốn lỗi nhỏ để thu đƣợc cách phân cụm tốt Một cách đơn giản làm giảm SSE tăng số lƣợng K cụm, K tăng SSE giảm nhƣng điều khơng có ý nghĩa thực tế K tăng lên giá trị lớn số điểm khơng gian liệu lỗi SSE nhỏ nhƣng ý nghĩa Vì lƣu ý cách phân cụm tốt với số cụm K nhỏ có lỗi SSE nhỏ phân cụm tồi với số lƣợng K lớn IT Nhƣ phân tích việc lựa chọn tâm điểm khởi tạo gây ảnh hƣởng lớn tới kết chạy thuật toán (tới thời gian hội tụ, kết phân cụm khác nhau) Một số giải pháp thực để giải vấn đề o Chạy nhiều lần PT o Lấy mẫu sử dụng phƣơng pháp phân cụm dạng phân cấp để xác định tâm điểm khoiử tạo ban đầu o Có thể lựa chọn nhiều K tâm điểm ban đầu sau lựa chọn số tâm khởi tạo với độ phân tách rộng o Dùng phƣơng pháp hậu xử lý liệu (xử lý sau tìm đƣợc cụm) o Dùng phƣơng pháp K-means dạng phân đôi: không dễ bị vấn đề thƣờng xảy khởi tạo Giải vấn đề có cụm rỗng kết phân cụm o Thuật toán K-mean cho kết cụm rỗng (cụm khơng có phần tử nào) o Một số chiến lƣợc đƣợc sử dụng để loại bỏ cụm rỗng vô nghĩa o Lựa chọn điểm có đóng góp nhiều tới tổng bình phƣơng lỗi SSE đƣa điểm vào cụm liệu rỗng o Lựa chọn điểm cụm có SSE cao đƣa vào cụm rỗng để giảm SSE nhiều đồng thời làm cụm rỗng có phần tử 170 o Nếu có nhiều cụm rỗng cơng việc đƣợc lặp lại nhiều lần Q trình phân cụm cần trình tiền xử lý liệu hậu xử lý liệu giống nhƣ sử dụng số phƣơng pháp chung khai phá liệu Tiền xử lý liệu cần thiết trình phân cụm liệu cần đƣợc chuẩn hóa loại bỏ phần tử ngoại lai trƣớc đƣa vào thuật toán Hậu xử lý liệu cần thiết trƣờng hợp sau: o Cần loại bỏ cụm nhỏ (số lƣợng phần tử cụm ít) chúng chứa đựng phần tử ngoại lai, khơng có ý nghĩa ứng dụng thực tế o Phân chia cụm lỏng lẻo (hay mật độ phần tử cụm không đồng đều, chỗ dày đặc, chỗ thƣa thớt), hay nói cách khác cụm có tổng bình phƣơng lỗi lớn thành cụm nhỏ o Trộn cụm có khoảng cách gần nhau, hay có tổng bình phƣơng lỗi SSE thấp Phƣơng pháp K-mean phân đôi IT o Có thể sử dụng bƣớc q trình phân cụm dạng phân mảnh PT Là biến đổi K-mean mà sinh phân cụm có phân cấp phân cụm Thuật tốn đƣợc thể nhƣ bƣớc dƣới Khởi tạo danh sách L cụm để chứa cụm tìm đƣợc, ban đầu chứa có cụm bao gồm tất điểm Lặp bƣớc sau Chọn cụm danh sách L cụm For i=1 to số lƣợng vòng lặp định trƣớc Phân đôi cụm đƣợc lựa chọn thành hai phân cụm phƣơng pháp K-mean Ènd for Thêm hai phân cụm kết lần phân đơi cụm với tổng bình phƣơng lỗi SSE nhỏ vào danh sách cụm Cho đến danh sách cụm chứa K cụm dừng Những hạn chế K-means o K-mean có nhiều vấn đề cụm khác 171 o kích cỡ: số cụm có cụm có kích cỡ lớn nhiều so với cụm khác dùng K-mean để phân cụm cho kết sai nhiều kích cỡ cụm kết phƣơng pháp thƣờng tƣơng đƣơng Ví dụ minh họa nhƣ o IT hình vẽ dƣới mật độ liệu: mật độ liệu không đủ dầy đặc cụm khiến cho chúng bị phân tách làm nhiều cụm khác sử dụng phƣơng pháp PT K-means, ngƣợc lại mật độ tƣơng đối dày đặc hai cụm gần dễ bị ghép lại thành cụm nhƣ hình vẽ minh họa sau o Hình dạng khơng phải hình cầu: với trƣờng hợp điểmdữ liệu phân bố theo hình dạng khơng phải hình cầu (khơng phải hình lồi) gây ảnh hƣởng lớn tới kết phƣơng pháp K-means Ví dụ nhƣ đƣợc minh họa hình vẽ dƣới đây, hình dạng hai cụm liệu (màu xanh màu đỏ) ban đầu dạng phi cầu nên dùng K-means để phân cụm có lỗi nhƣ hình vẽ 172 o K-mean có vấn đề liệu chứa phần tử ngoại lai Để giải hạn chế phƣơng pháp K-means có khác kích cỡ liệu mật độ điểm liệu cụm, giải pháp đƣợc đƣa sử dụng nhiều cụm, lúc cụm to kết đƣợc phân thành nhiều phân cụm khác nhau, sau cần kết PT IT hợp chúng lại với để thành cụm to ban đầu Hình vẽ sau mơ tả điều 173 Tài liệu tham khảo Jiawei Han and Micheline Kamber, “Data Mining: Concepts and Techniques”, Morgan Kanfmann Publishers, Second Edition Joseph Fong, “Information Systems Reengineering and Integration”, Springer Verlag, 2006, ISBN 978-1-84628-382-6, Second edition http://www-sal.cs.uiuc.edu/~hanj/DM_Book.html http://www-users.cs.umn.edu/~kumar/csci5980/index.html http://www.cs.cityu.edu.hk/~jfong/course/cs5483/ http://www.ist.temple.edu/~vucetic/cis526fall2004.htm PT IT 174 ... CHƢƠNG I: Giới thiệu kho liệu khai phá liệu 1.1 Khai phá liệu 1.2 Các loại liệu kiểu mẫu liệu đƣợc khai phá 1.3 Các toán phƣơng pháp khai phá liệu Định nghĩa... phá liệu với sở liệu hay kho liệu 12 Vai trò khai phá liệu trình phát tri thức từ liệu 12 PT Các bƣớc trình phát tri thức từ liệu 12 Các chuyên ngành khác liên quan tới khai phá liệu. .. nghệ kho liệu khai phá liệu Một vấn đề cần giải liên quan tới đa dạng loại liệu đƣợc dùng khai phá nhƣ đƣợc tích hợp vào kho liệu bao gồm - Xử lý loại liệu quan hệ liệu loại tổng hợp phức tạp - Khai