Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 177 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
177
Dung lượng
37,75 MB
Nội dung
Mục lục Chương 1: Giới thiệu kho liệu khai phá liệu 1.1 Khai phá liệu 1.2 Các loại liệu kiểu mẫu liệu khai phá 1.3 Các toán phương pháp khai phá liệu Định nghĩa toán phân loại Định nghĩa toán phân cụm Định nghĩa toán phát luật kết hợp 10 Bài toán phân loại cho liệu hồi quy 10 Phát sai lệch hay dị thường 11 Khai phá liệu Nguyên lý quy nạp 11 1.4 Sự tích hợp khai phá liệu với sở liệu hay kho liệu 12 Vai trò khai phá liệu trình phát tri thức từ liệu 12 Các bước trình phát tri thức từ liệu 12 Các chuyên ngành khác liên quan tới khai phá liệu 14 So sánh khai phá liệu với phân tích thống kê 14 So sánh khai phá liệu với sở liệu 15 So sánh khai phá liệu với công nghệ kho liệu 15 Kiến trúc mô tơ phân tích trực tuyến (OLAM) 15 So sánh Cơ sở liệu, xử lý phân tích trực tuyến khai phá liệu 16 1.5 Ứng dụng kho liệu khai phá liệu 19 Ứng dụng toán phân lớp (phân loại) 19 Ứng dụng toán phân cụm 20 Ứng dụng toán phát luật kết hợp 21 Những vấn đề lĩnh vực công nghệ kho liệu khai phá liệu 21 Chương 2: Các công nghệ kỹ thuật tích hợp sở liệu 23 2.1 Giới thiệu Mô hình liệu mở rộng XML 23 Giới thiệu ngôn ngữ XML (Extensible Markup Language) 23 Một hệ thống XML điển hình 24 Cú pháp XML 25 Khai báo kiểu văn – Data Type Declaration (DTD) 28 2.2 Chuyển đổi lược đồ liệu mô hình 36 Nhắc lại kiến thức mô hình thực thể liên kết mở rộng 36 Kiến trúc tích hợp nhiều sở liệu 43 Kỹ thuật chuyển đổi lược đồ quan hệ sang mô hình thực thể liên kết mở rộng 43 Ví dụ việc chuyển đổi từ lược đồ quan hệ sang mô hình thực thể liên kết 46 2.3 Tích hợp lược đồ liệu 50 Khái niệm tích hợp liệu 50 Các bước tích hợp ngữ nghĩa liệu 51 Bài thực hành 62 2.4 Chuyển đổi tích hợp liệu 64 Phương pháp luận cho công nghệ kho liệu OLAP 64 Các cách chuyển đổi liệu 64 Một ví dụ việc chuyển đổi 68 Tích hợp liệu 72 Chương 3: Công nghệ kho liệu xử lý phân tích trực tuyến 79 3.1 Khái niệm kho liệu 79 3.2 Mô hình liệu đa chiều 82 3.3 Kiến trúc kho liệu 91 3.4 Cài đặt kho liệu 93 3.5 Liên hệ công nghệ kho liệu với khai phá liệu 100 3.6 Xây dựng kho liệu với mục đích hỗ trợ định 102 Nhắc lại chút khái niệm kho liệu tác nhân liên quan 102 Các giai đoạn xây dựng 102 Thiết kế sở liệu với lược đồ hình 105 Nghiên cứu xây dựng kho liệu 106 Chương 4: Khai phá liệu 111 4.1 Tiền xử lý liệu trước khai phá 111 Khái niệm liệu 111 Tiền xử lý liệu 119 4.2 Phương pháp khai phá luật kết hợp 124 Nguồn gốc khai phá luật kết hợp 124 Các ứng dụng luật kết hợp 124 Khái niệm toán tìm luật kết hợp 125 Cách tiếp cận theo kiểu vét cạn (Brute-force approach) 125 Khai phá luật kết hợp với cách tiếp cận hai bước 127 Phương thức giảm số lượng ứng cử viên: thuật toán Apriori 128 Một phương pháp sinh tập mặt hàng thường xuyên FP-growth 134 Sinh luật kết hợp 138 4.3 Phương pháp định 140 Những khái niệm toán phân loại 140 Phương pháp phân loại định 141 Các thuật toán tìm định 144 Đánh giá mô hình phân loại 155 4.4 Phương pháp phân nhóm phân đoạn 161 Khái niệm phân tích phân cụm 161 Độ đo phân cụm 163 Phân loại phân cụm 167 Phương pháp phân cụm 170 4.5 Các phương pháp khai phá liệu phức tạp 176 Chương 1: Giới thiệu kho liệu khai phá liệu Vấn đề bùng nổ liệu: công cụ thu thập liệu tự động công nghệ sở liệu trở nên hoàn thiện, lượng lớn liệu thu thập lưu trữ sở liệu, kho liệu kho lưu trữ thông tin khác Lúc này, có nhiều liệu, chưa mang tính phục vụ có mục đích cho người sử dụng Chúng ta thiếu tri thức ,dữ liệu qua xử lý phục vụ riêng cho mục đích người sử dụng Vấn đề làm để khai thác tri thức từ đống liệu khổng lồ có tay Giải pháp cho việc khai phá tri thức đời công nghệ kho liệu phương pháp khai phá liệu Giải pháp liên quan tới khía cạnh sau đây: - Công nghệ để xây dựng kho liệu lớn phương thức để xử lý phân tích trực tuyến (sẽ nghiên cứu học sau) - Trích lọc tri thức có ích cho người bao gồm luật, thể chế, mẫu, ràng buộc từ khối lượng lớn liệu hay nhiều sở liệu có kích cỡ lớn Các lý cần khai phá liệu quan điểm thương mại giới thực - Rất nhiều liệu thu thập giới thực lưu trữ cách hệ thống kho liệu bao gồm: o Các liệu web, liệu thương mại điện tử o Các liệu mua bán cửa hàng, gian hàng siêu thị o Các liệu giao dịch ngân hàng, thẻ tín dụng - Máy tính trở nên rẻ có sức mạnh xử lý liệu - Sức ép cạnh tranh mạnh mẽ hơn: cần cung cấp dịch vụ tốt tùy biến với khách hàng (nhất quan hệ với khách hàng) Các lý cần khai phá liệu quan điểm khoa học - Các liệu thu thập lưu trữ với tốc độ nhanh (GB/h) thông qua o Bộ cảm biến (sensor) điều khiển từ xa trạm vệ tinh o Kính viễn vọng quan sát bầu trời o Dùng công cụ microarray để sinh liệu thể đặc tính gene (gene expression data) o Dùng mô khoa học để tạo hàng tera byte liệu - Các kỹ thuật truyền thống không khả thi cho lượng lớn liệu thô - Các kỹ thuật khai phá liệu giúp ích nhà khoa học công việc o Phân loại phân mảnh liệu o Hình thành giả thuyết nghiên cứu khoa học 1.1 Khai phá liệu Khai phá liệu (phát tri thức sở liệu sẵn có) việc trích lọc thông tin có ích (không hiển nhiên, không tường minh, trước, có ích cách tiềm năng), mẫu liệu sở liệu lớn Khai phá liệu có số tên gọi khác sử dụng đề cập đến sống sách tạp chí khoa học như: - Khám phá tri thức (knowledge discovery) sở liệu (thường viết tắt theo tiếng anh KDD) - Trích lọc tri thức - Phân tích mẫu/dữ liệu - Khảo cổ liệu - Tri thức kinh doanh (business intelligence) nhiều tên khác dùng Xem xét ví dụ sau để phân biệt khái niệm khai phá liệu với khái niệm sở liệu, mà dễ nhầm tưởng khai phá liệu Những xử lý khai phá liệu Những xử lý khai phá liệu Tra cứu số điện thoại danh bạ điện thoại Xác định tên cho phổ biến địa danh cụ thể Truy vấn mô tơ tìm kiếm thông tin Gộp nhóm tài liệu giống trả Web liên quan tới từ “Amazon” công cụ tìm kiếm thông tin dựa vào ngữ cảnh chúng (ví dụ rừng Amazon, hay vùng miền Amazon.com) 1.2 Các loại liệu kiểu mẫu liệu khai phá Khi thực công việc khai phá liệu, để đưa định cần thiết cho công việc khai phá, cần xác định yếu tố sau: - Loại sở liệu cần khai phá Các loại sở liệu dùng cho khai phá bao gồm sở liệu quan hệ, sở liệu giao dịch, hướng đối tượng, sở liệu quan hệ- đối tượng, không gian, sở liệu văn bản, chuỗi thời gian, đa phương tiện, sở liệu hỗn tạp, sở liệu luật, sở liệu Web, loại sở liệu khác - Loại tri thức cần phát Bao gồm tri thức miêu tả đặc điểm cá thể tập cá thể xét, phân biệt cá thể với cá thể khác, luật kết hợp, tìm xu hướng, phân loại cá thể tập hợp, phân cụm gộp nhóm cá thể giống nhau, phân tích tìm cá thể ngoại lai khác biệt phần đông cá thể khác,v.v… Ngoài ra, tri thức chức tích hợp, đa chức năng, khai phá nhiều mức độ khác - Loại kỹ thuật cần sử dụng để giải vấn đề Bao gồm kỹ thuật theo hướng sở liệu, kỹ thuật kho liệu (xử lý phân tích trực tuyến), phương pháp học máy, phương pháp thống kê, biểu diễn trực quan, mạng nơron nhân tạo, phương pháp khác - Loại ứng dụng cần xây dựng, áp dụng cho vấn đề khai phá Bao gồm ứng dụng lĩnh vực bán lẻ, truyền thông, ngân hàng, phân tích lỗi, khai phá liệu gen, phân tích thị trường chứng khoán, khai phá liệu Web, phân tích Weblog Một công việc cần xác định nhận thức rõ nhiệm vụ toán khai phá liệu thuộc loại hai loại sau đây: - Bài toán khai phá liệu dạng mô tả Nhiệm vụ toán dạng tìm mẫu mô tả liệu mà người hiểu - Bài toán khai phá liệu dạng tiên đoán Sử dụng vài biến để tiên đoán giá trị chưa biết tương lai biến khác Các nhiệm vụ thường gặp việc khai phá liệu - Phân loại: thuộc loại toán tiên đoán - Phân cụm: thuộc loại toán mô tả - Phát luật kết hợp: thuộc loại toán mô tả - Phát mẫu dạng liên tục: thuộc loại toán mô tả - Bài toán hồi quy: thuộc loại toán tiên đoán - Phát khác biệt: thuộc loại toán tiên đoán 1.3 Các toán phương pháp khai phá liệu Định nghĩa toán phân loại - Cho tập ghi gọi tập huấn luyện, ghi chứa tập thuộc tính, thuộc tính gắn nhãn phân loại gọi thuộc tính lớp - Nhiệm vụ toán phân loại tìm mô hình thể thuộc tính lớp hàm giá trị thuộc tính khác - Sau tìm mô hình thích hợp cho toán, mục đích cuối áp dụng mô hình (hàm tìm được) để tiên đoán ghi chưa biết đến trước thuộc lớp cách xác tốt - Một tập ghi kiểm thử dùng để xác định độ xác mô hình Thông thường, tập liệu đưa chia thành tập huấn luyện tập kiểm thử, tập huấn luyện dùng để xây dựng mô hình tập kiểm thử dùng để kiểm tra Một ví dụ minh họa cho toán phân loại: Cho tập ghi coi tập huấn luyện hình vẽ Tid Refund Marital Status Taxable Income Cheat Yes Single 125K No No Married 100K No No Single 70K No Yes Married 120K No No Divorced 95K Yes No Married 60K No Yes Divorced 220K No No Single 85K Yes No Married 75K No 10 No Single 90K Yes 10 Trong thuộc tính Cheat thuộc tính phân lớp, thuộc tính Tid ý nghĩa việc huấn luyện mô hình Các ghi tập huấn luyện sử dụng để tìm phụ thuộc thuộc tính phân lớp thuộc tính lại (hàm phụ thuộc) Khi tìm phụ thuộc (hay gọi phân lớp) nói huấn luyện xong mô hình phân lớp Mô hình phân lớp tìm xác định tính xác thông qua việc áp dụng mô hình phân lớp cho liệu dùng để kiểm thử hình vẽ Refund Marital Status Taxable Income Cheat No Single 75K ? Yes Married 50K ? No Married 150K ? Yes Divorced 90K ? No Single 40K ? No Married 80K ? 10 Giá trị thuộc tính Cheat tính sau đưa ghi qua mô hình phân lớp, giá trị so sánh với giá trị thực thuộc tính liệu cho trước, để xác định tính xác mô hình phân lớp Mô hình tìm sử dụng để phân loại ghi với giá trị thuộc tính (ngoại trừ thuộc tính phân lớp) biết, để phục vụ nhu cầu người sử dụng Với ví dụ minh họa này, với giá trị sẵn có người tình trạng hôn nhân, thu nhập tính thuế thông tin có hoàn trả thuế hay không, mô hình phân loại ghi thông tin giả hay thật Định nghĩa toán phân cụm Cho tập điểm liệu, điểm có tập thuộc tính có độ đo tương đồng chúng để phân cụm cho: o Những điểm liệu cụm có tương đồng cao, nhiều với điểm khác o Những điểm liệu cụm riêng rẽ tương đồng điểm thuộc cụm Các độ đo tương đồng kể đến - Khoảng cách Ơclit thuộc tính giá trị liên tục - Các độ đo khác theo toán lĩnh vực Mô tả phân cụm dựa khoảng cách Ơclit không gian chiều thể hình vẽ m đư phân thành cụm thể bởii ba màu đỏ, đ nâu xanh Nhìn hình vẽ thấy rõ điểm cho khoảng cách hai điểểm cụm nhỏ có thểể khoảng cách hai điểm hai cụm m khác llớn Định nghĩa toán phát lu luật kết hợp Cho tập ghi, mỗỗi ghi có chứa số mặt hàng nằm m m tập mặt hàng cho sẵn Nhiệm vụụ toán sản xuất luật phụ thuộc, thu thể tiên đoán xuất mộột mặt hàng dựa xuất mặặt hàng khác Bài toán xuất phát từ nhu ccầu thực tế người mua bán siêu thị th Một ví dụ mô tả toán sau: Cho thông tin vvề giao dịch mua bán đượ ợc thể bảng gồm cột: t: mã giao ddịch mặt hàng mua bán mỗỗi giao dịch Các luật tìm được: {Milk} > > {Coke} {Coke}; {Diaper, Milk} > {Beer} có nghĩa làà n người mua sữa (Milk) nhiều khảả mua Coca cola (Coke); Và nếuu mua tã sữa s (Diaper, Milk) nhiều khả mua bia (Beer) TID Items Bread, Coke, Milk Beer, Bread Beer, Coke, Diaper, Milk Beer, Bread, Diaper, Milk Coke, Diaper, Milk hồi quy Bài toán phân loại cho liệu h Định nghĩa toán 10 - Có thể phát cụm với hình thù - Đòi hỏi yêu cầu nhỏ tri thức miền liệu để xác định tham số đầu vào - Có khả giải với nhiễu thành phần ngoại lai - Trật tự ghi đầu vào cho phương pháp không làm ảnh hưởng tới kết việc phân cụm - Có khả làm việc liệu có nhiều chiều - Cho phép chấp nhận thêm ràng buộc người sử dụng định nghĩa - Có tính phiên dịch sử dụng Độ đo phân cụm Cấu trúc liệu sử dụng việc phân cụm Trong phân cụm, liệu lưu trữ hai dạng: dạng ma trận liệu hai chiều có n hàng p cột n số phần tử tập liệu xét p số đặc tính quan tâm phân cụm phần tử dạng ma trận khác x 11 x i1 xn1 x 1f x if x nf d(2,1) d(3,1) d (3,2) : : : d (n,1) d (n,2) 0 x 1p x ip x np Trong ma trận thể khác nhau, phần tử d(i,j) thể khoảng cách hay khác phần tử thứ i thứ j Ma trận ma trận đối xứng khác phần tử i phần tử j j i, đồng thời đường chéo ma trận khoảng cách phần tử i Đo giống Đơn vị đo lường để đo giống hay khác hai phần tử tập liệu xét biểu diễn hàm khoảng cách, độ đo điển hình d(i,j) khoảng cách phần tử (i) phần tử (j) Để đánh giá chất lượng cụm, hàm chất lượng riêng biết sử dụng tới Việc định nghĩa hàm khoảng cách thường khác biến phạm vi, phân khoảng, biến nhị phân, phân loại, biến có trật tự biến tỉ lệ 163 Các trọng số sử dụng với biến khác dựa loại ứng dụng ngữ nghĩa liệu Rất khó để định nghĩa “đủ giống nhau” “đủ tốt” trình xác định giống phần tử tập liệu Câu trả lời thường mang tính chủ quan, khác đối tượng cảm nhận đối tượng Đối với biến có giá trị nằm khoảng đó, cần chuẩn hóa liệu trước thực phân cụm Sở dĩ khiến cho thuật toán phân cụm đưa kết xác Chuẩn hóa cách - Tính toán trung bình phương sai bình phương s f = 1n (| x1 f − m f |2 + | x2 f − m f |2 + + | xnf − m f |2 ) m f = 1n (x f + x f + + x nf ) sau phần tử ma trận hai chiều z if = tính độ đo chuẩn hóa (z-score) x if − m f sf Sử dụng phương sai trị tuyệt đối trung bình (không phải phương sai bình phương trung bình trên) khiến thuật toán thực nhanh chóng sử dụng phương sai chuẩn Sự giống khác đối tượng liệu Các khoảng cách thông thường sử dụng để đo giống hay khác hai đối tượng liệu Một số khoảng cách phổ biến thường dùng bao gồm - Khoảng cách Minkowski tính theo công thức Trong d (i, j ) = q (| x − x | q + | x − x | q + + | x − x | q ) i1 j1 i2 j2 ip jp i = (xi1, xi2, …, xip) j = (xj1, xj2, …, xjp) hai đối tượng liệu có p chiều q số nguyên dương Nếu q=1thì d gọi khoảng cách Manhattan d (i , j ) =| x − x | + | x − x | + + | x − x | i1 j1 i2 j2 ip jp Nếu q=2 d khoảng cách Ơclit (Euclit) d (i, j ) = (| x − x |2 + | x − x |2 + + | x − x |2 ) i1 j1 i2 j2 ip jp Với thuộc tính • d(i,j) ≥ • d(i,i) = • d(i,j) = d(j,i) 164 • d(i,j) ≤ d(i,k) + d(k,j) Ngoài sử dụng ng kho khoảng cách có trọng số, tương hỗ tích mômen có tham số Pearson độ đo khác khác, mi miễn thỏa mãn thuộcc tính khoảng kho cách trình bày - Độ giống Cosin Nếu d1 d2 hai vectơ tài liệuu tthì cos( d1, d2 ) = (d1 • d2) / ||d1|| ||d2|| • thể phép toán nhân vectơ || d || độ dài ccủa vectơ d Ví dụ: d1 = 0 0 d2 = 0 0 0 d1 • d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = ||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481 ||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos( d1, d2 ) = 3150 - Độộ giống biến nhị phân Bảng sau ợc sử dụng để tính độ giống biến nhị phân, thành phần ần phần tử bảng số thuộc tính đối ttượng i đối tượng j nhận giá trị làà hay 1 Chẳng hạn a số thuộc tính đối tượng ợng i j có giá trị 1, b là số thuộc ộc tính đối tượng t i đối tượng j Đo độ tuơng đồng ồng hai đối ttượng, dùng khoảng cách đơn giản ản sau (là (l bất biến d (i, j ) = biến nhị phân đối ối xứng b+c a+b+c+d Nếu biến nhị phân không đốii xxứng độ tương quan không bất biến, đượcc gọi g độ tương quan Jaccard có công thứcc tính sau d ( i , j ) = b + c a + b + c Ví dụ: Cho bảng liệuu sau Name Jack Mary Jim Gender M F M Fever Y Y Y Cough N N P Test-1 P P 165 N Test-2 N N N Test-3 N P N Test-4 Test N N N Trong Gender thuộc tính đối xứng thể giới tính đối tượng có tên thuộc tính Name xét Các thuộc tính lại biểu có sốt, có ho không kết xét nghiệm 1, 2, 3, Tất thuộc tính lại thuộc loại nhị phân không đối xứng Giả sử giá trị Y (yes-có) P (positive- dương tính) đặt giá trị N (No- không hay âm tính) đặt ta có khoảng cách Jaccard sau +1 = 33 + +1 1+1 = 67 d ( jack , jim ) = 1+1+1 1+ d ( jim , mary ) = = 75 1+1+ d ( jack , mary ) = - Độ giống biến tên Là tổng quát hóa biến nhị phân biến có nhiều hai trạng thái (trong biến nhị phân có hai trạng thái 1), ví dụ biến dạng tên nhận giá trị màu sắc đỏ, vàng, xanh nước biển xanh Để đo độ giống biến dùng số cách đề xuất sau Cách 1: so sánh giống cách đơn giản Trong p tổng số thuộc tính đối tượng, m số d ( i , j ) = p −p m thuộc tính hai đối tượng i j có giá trị Cách 2: sử dụng số lượng lớn biến nhị phân cách tạo biến nhị phân cho M trạng thái biến tên - Độ đo giống cho biến trật tự: Một biến có trật tự rời rạc liên tục Trật tự biến quan trọng ví dụ biến thể phân bậc đối tượng Chúng ta coi loại biến có trật tự dạng biến khoảng phạm vi cách o Thay xif cấp bậc r if ∈ {1 , , M 166 f } o Ánh xạ phạm vi biến vào khoảng [0,1] cách thay đối tượng thứ i biến thứ f z-score r if − M f −1 z if = o Tính toán khác sử dụng cách thức dùng cho biến khoảng phạm vi - Độ đo cho biến tỉ lệ Biến tỉ lệ đơn vị đo lường dương phạm vi phi tuyến dạng lũy thừa xấp xỉ ví dụ AeBt Ae-Bt Cách thức để tính toán độ đo giống/khác biến loại sau: - Coi chúng biến phạm vi lựa chọn tốt - Áp dụng số chuyển đổi logarit yif = log(xif) - Coichúng liệu có trật tự liên tục coi cấp bậc chúng khoảng phạm vi - Độ đo cho loại liệu hỗn hợp (trộn nhiều loại khác nhau) Một sở liệu chứa tất sáu loại biến: nhị phân đối xứng, nhị phân không đối xứng, loại tên thường, loại có trật tự, loại tỉ lệ phạm vi Chúng ta sử dụng công thức có trọng số để kết hợp hiệu chúng vào với theo công thức sau Trong d (i, j ) = Σ ( f ) ( f ) p f = ij ij ( f ) p f = ij δ Σ d δ - f làdạng nhị phân dạng tên dij(f) = xif = xjf , dij(f) = - f dạng phạm vi: sử dụng khoảng cách chuẩn - f dạng trật tự khoảng tỉ lệ cần o tính cấp bậc rif o coi zif dạng biến khoảng phạm vi z if = r M if −1 f −1 Phân loại phân cụm Khái niệm không rõ ràng cụm không gian điểm liệu Đây vấn đề trình phân cụm: với tập hợp điểm không gian liệu, có nhiều cách phân cụm với số lượng cụm khác với tiêu chí khác Xem ví dụ sau để minh họa điều với không gian liệu ban đầu phân thành cụm, cụm hay cụm hình vẽ (mỗi phần tử cụm thể hình giống nhau) 167 Sự khác biệt loạii phân ccụm - Loại trừ không loại ại trừ: phân cụm không loại trừ trừ, điểm ểm không gian ữ liệu thuộc nhiều phân cụm vvà đại diện nhiều ều lớp l điểm nằm ên biên gi giới lớp - Cụm ụm mờ không mờ: o Trong phân ccụm mờ, điểm thuộc vào cụm với v trọng số (xác suất ất điểm thuộc cụm đó) vvà o Tổng trọng số phải o Các phân ccụm xác suất có đặc tính giống - Cụm ụm phần to toàn bộ: số trường ờng hợp muốn phân cụm vài ữ liệu to toàn liệu - Hỗn tạp đồng ồng điệu: cụm có kích cỡ, hhình dạng mật ật độ khác thuộc loại hỗn tạp, tương ương đđồng thuộc loại đồng điệu Các loại cụm - loại cụm bao gồm tập điểm mà ọi điểm cụm Cụm phân chia rõ ràng: Là lo gần ần (hay giống) điểm khác cụm hhơn tới ới điểm cụm khác Ví dụụ loại cụm phân chia rrõ ràng thể hình vẽẽ sau với cụm đ biểu diễn hình tròn màu đỏ, ỏ, m màu xanh da trời màu xanh nõn chuối sau 168 - Cụm có tâm điểm: ại cụm bao gồm tập đối ttượng cho đối tượng ợng cụm l gần o Là loại (hay giống) “trung tâm ” ccủa cụm “trung tâm “ cụm n khác o Trung tâm cụm th thường gọi “tâm điểm” (centroid), làà trung bình c tất cảả điểm cụm gọi llà medoid, điểm ểm đại diện cụm o Ví dụụ loại cụm dựa vvào tâm điểm mô tả hình vẽ ới có cụm ợc thể hhình tròn màu khác - Cụm dựa ự tiếp giáp (hay hhàng xóm gần bắc cầu) o Là loại ại cụm bao gồm tập hợp điểm cho điểm cụm gần (hay giống) nhi nhiều điểm khác cụm tới ới điểm không nằm ằm cụm ây o Ví dụụ loại cụm nnày thể hình vẽ ới màu m thể cụm - Cụm dựa mật độ: 169 ại cụm cụm llà mộtvùng điểm dày đặc, ặc, tách biệt với vùng v có o Là loại mật độ điểm thưa thớt, ớt, từ vvùng có mật độ dày đặc o Được ợc sử dụng cụm có hhình dạng ạng đặc biệt gắn kết với có nhiễu phần ần tử ngoại lai xuất tập liệu o Ví dụ loại cụm ày đư thể hình vẽ ới màu m thể ột - cụm phân tách Cụm ụm theo thuộc tính khái niệm o Là cụm ụm có chia sẻ thuộc tính chung thể khái niệm cụ thể nnào o Ví dụ loại cụm ày đư mô tả hình vẽ Phương pháp phân cụm m Các cách tiếp cận phân cụm - Các thuật toán phân m mảnh: ảnh: xây dựng nhiều mảnh khác sau đánh giá chúng theo tiêu chí Các thuật ật toán phân cấp: tạo phân chia ttheo cấp ấp tập liệu (hoặc đối tượng) sử dụng tiêu chí Các thuật toán dựa ên m mật độ: dựa hàm kết nối hàm mật ật độ để phân cụm đối tượng liệu Các thuật toán dựa ên lư lưới: dựa cấu trúc lõi đa mức Các thuật toán dựa ựa tr mô hình: Một mô hình ợc giả thiết cụm v ý tưởng tìm ột mô hhình phù hợp với cụm Trong phạm vi giảng ng ch xem xét loại nhóm thuật toán đầuu tiên 170 Phương pháp phân cụm K-means Phương pháp có số đặc tính sau: - Đây cách tiếp cận phân cụm dạng phân mảnh - Mỗi cụm liên quan tới tâm điểm (được gọi centroid) - Mỗi điểm gán tới cụm mà có tâm điểm gần - Số lượng cụm K, phải xác định cụ thể từ đầu - Ý tưởng thuật toán đơn giản thể dạng mã giả Lựa chọn K điểm làm tâm điểm khởi tạo cụm Lặp công việc sau Hình thành K cụm cách gán tất điểm tới tâm điểm gần Tính toán lại tâm điểm cụm Cho đến tâm điểm không thay đổi Một số nhận xét K-means - Tâm điểm khởi tạo thường chọn cách ngẫu nhiên thực tế thấy cụm sinh thay đổi lần chạy thuật toán khác - Tâm điểm thường kết trung bình điểm cụm - Đặc tính “gần nhau” đo khoảng cách Ơclit, giống Cosine, độ tương hỗ,v.v… - Thuật toán K-mean hội tụ cho hầu hết độ đo độ tương tự phổ biến đề cập đến - Hầu hết hội tụ xảy vài vòng lặp lại o Thông thường điều kiện dừng chuyển thành “tới điểm thay đổi cluster” - Độ phức tạp thuật toán O( n * K * I * d ) n = số điểm không gian liệu xét, K = số cluster ấn định khởi tạo, I = số vòng lặp, d = số thuộc tính liệu Khi chạy thuật toán K-mean, kết khác lần chạy cho dù chọn số cụm tâm điểm khởi tạo chọn ngẫu nhiên nên lần chạy sinh giá trị khác Xét ví dụ minh họa hình vẽ để thấy kết khác sinh chạy K-mean tập liệu 171 ìm th thấy phương pháp K-mean mean dùng m độ đo lỗi phổ Để đánh giá cụm tìm biến tổng bình phương lỗi ỗi (Sum of Squared Error –SSE) - Đối ối với điểm, lỗi đđược tính khoảng cách tới cụm gần - Để tính ợc SSE, lỗi tính đđược bình phương ương lên lấy l tổng chúng, theo công tthức K SSE = ∑ ∑ dist (mi , x) i =1 x∈ C i Trong – - x ột điểm liệu cụm Ci mi điểm ểm đại diện cho cluster Ci Nếu kết ết chạy thuật toán cho cụm thường ờng chọn cụm với lỗi nhỏ Thông thường muốn lỗii nh nhỏ để thu cách phân cụm tốtt nh Một cách đơn giản làm giảm m SSE tăng ssố lượng K cụm, K tăng thìì SSE s giảm điều ý nghĩa ĩa th thực tế K tăng lên giá trị lớn nhấtt b số điểm không gian liệu lỗii SSE nh nhỏ ý nghĩa ngh Vì lưu ý cách phân cụm tốt với số cụm K nhỏ có lỗi SSE nhỏ mộtt phân cụm c tồi với số lượng K lớn Như phân tích việc lựaa ch chọn tâm điểm khởi tạo gây ảnh hưởng ng lớn l tới kết chạy thuật toán (tới thờii gian hhội tụ, kết phân cụm m khác nhau) Một M số giải pháp thực để giải vấnn đđề o Chạy nhiều lần 172 o Lấy mẫu sử dụng phương pháp phân cụm dạng phân cấp để xác định tâm điểm khoiử tạo ban đầu o Có thể lựa chọn nhiều K tâm điểm ban đầu sau lựa chọn số tâm khởi tạo với độ phân tách rộng o Dùng phương pháp hậu xử lý liệu (xử lý sau tìm cụm) o Dùng phương pháp K-means dạng phân đôi: không dễ bị vấn đề thường xảy khởi tạo Giải vấn đề có cụm rỗng kết phân cụm o Thuật toán K-mean cho kết cụm rỗng (cụm phần tử nào) o Một số chiến lược sử dụng để loại bỏ cụm rỗng vô nghĩa o Lựa chọn điểm có đóng góp nhiều tới tổng bình phương lỗi SSE đưa điểm vào cụm liệu rỗng o Lựa chọn điểm cụm có SSE cao đưa vào cụm rỗng để giảm SSE nhiều đồng thời làm cụm rỗng có phần tử o Nếu có nhiều cụm rỗng công việc lặp lại nhiều lần Quá trình phân cụm cần trình tiền xử lý liệu hậu xử lý liệu giống sử dụng số phương pháp chung khai phá liệu Tiền xử lý liệu cần thiết trình phân cụm liệu cần chuẩn hóa loại bỏ phần tử ngoại lai trước đưa vào thuật toán Hậu xử lý liệu cần thiết trường hợp sau: o Cần loại bỏ cụm nhỏ (số lượng phần tử cụm ít) chúng chứa đựng phần tử ngoại lai, ý nghĩa ứng dụng thực tế o Phân chia cụm lỏng lẻo (hay mật độ phần tử cụm không đồng đều, chỗ dày đặc, chỗ thưa thớt), hay nói cách khác cụm có tổng bình phương lỗi lớn thành cụm nhỏ o Trộn cụm có khoảng cách gần nhau, hay có tổng bình phương lỗi SSE thấp o Có thể sử dụng bước trình phân cụm Phương pháp K-mean phân đôi 173 mean mà có th thể sinh phân cụm có phân cấp hoặặc phâncụm dạng Là biến đổi K-mean phân mảnh bước Thuật toán thể hiệnn bư Khởi ởi tạo danh sách L cụm để chứa cụm ttìm được, ợc, ban đầu chứa có cụm bao gồm tất điểm Lặp bước sau ọn cụm danh sách L cụm tr Chọn For i=1 to số lượng vòng òng llặp định trước Phân đôi cụm ợc lựa chọn th thành hai phân cụm phương ương pháp K-mean K Ènd for ụm kết lần phân đôi cụm tr với ới tổng bình b phương lỗi Thêm hai phân cụm SSE nhỏ vào danh sách ccụm Cho đến ến danh sách cụm chứa K cụm th dừng Những hạn chế K-means ều vấn đề cụm khác o K-mean có nhiều o kích cỡ: ếu số cụm có cụm có kích cỡ lớn hhơn nhiều ều so với cụm khác dùng K mean đểể phân cụm cho kết sai nhiều kích cỡ cụm kết phương hương pháp thư thường làà tương đương Ví dụ d minh họa hình vẽ o vềề mật độ liệu: mật độ liệu không đủ dầy đặc ccùng cụm khiến ến cho chúng bị phân tách llàm nhiều ều cụm khác sử dụng phương ph pháp 174 ợc lại mật độ tương đối dày đặc hai cụm ụm gần dễ bị ghép K-means, ngược lại thành ột cụm nh hình vẽ minh họa sau o Hình dạng ạng hhình cầu: với trường ờng hợp điểmdữ liệu phân bố theo hình dạng ạng hhình cầu (không phải hình lồi) gây ảnh hưởng hư lớn tới kết phương pháp K K-means Ví dụ minh họa hình ình vẽ v đây, hình dạng ạng hai cụm liệu (m (màu xanh màu đỏ) ban đầu dạng ạng phi cầu nên n dùng K-means đểể phân cụm có lỗi nh hình vẽ o K-mean có vấn đề ddữ liệu chứa phần tử ngoại lai Để giải hạn chế củủa phương pháp K-means có khác kích cỡ liệu mật độ điểm liệuu ccụm, giải pháp đưa sử dụng nhiều cụm, lúc cụm to kết quảả phân thành nhiều phân cụm m khác nhau, sau cần c kết hợp chúng lại với để thành ccụm to ban đầu Hình vẽ sau mô tả điều 175 4.5 Các phương pháp khai phá d liệu phức tạp Bài giảng dùng cho sinh viên năm cu cuối đào tạo đại học nên phần giới thiệu với sinh viên số phương pháp khai phá ddữ liệu phức tạp để gợi mở cho sinh viên tự học tự nghiên cứu bậc họcc cao vvề sau Các phương pháp khai phá liệệu khác kể đến o Phương pháp phân loại ại dựa luật o Phương pháp phân loại ại dựa tr hàng xóm thân cận (nearest neighbor) o Phương pháp phân loại ại dựa tr mạng Bayes (Bayes) o Phương pháp phân loại ại dựa tr mạng nơron nhân tạo ạo (artificial neural network) n o Phương pháp vectơ hỗỗ trợ (support vect vectơ machine) o Và phương pháp khác vvới kết hợp chúng 176 o Tài liệu tham khảo Jiawei Han and Micheline Kamber, “Data Mining: Concepts and Techniques”, Morgan Kanfmann Publishers, Second Edition Joseph Fong, “Information Systems Reengineering and Integration”, Springer Verlag, 2006, ISBN 978-1-84628-382-6, Second edition http://www-sal.cs.uiuc.edu/~hanj/DM_Book.html http://www-users.cs.umn.edu/~kumar/csci5980/index.html http://www.cs.cityu.edu.hk/~jfong/course/cs5483/ http://www.ist.temple.edu/~vucetic/cis526fall2004.htm 177 [...]... loại dữ liệu cho khai phá dữ liệu có thể kể đến các loại sau - Cơ sở dữ liệu quan hệ: đã được học trong học phần Cơ sở dữ liệu - Kho dữ liệu - Các cơ sở dữ liệu giao dịch - Các cơ sở dữ liệu nâng cao và các kho chứa thông tin bao gồm c o các cơ sở dữ liệu hướng đối tượng và cơ sở dữ liệu đối tượng quan hệ, o cơ sở dữ liệu không gian, o dữ liệu thời gianvà chuỗi thời gian o Cơ sở dữ liệu văn bản và đa... liệu vào kho dữ liệu từ các nguồn dữ liệuu khác nhau Trư Trước hết xem xét kiến trúc đa tầng ng của c kho dữ liệu và khai phá dữ liệu thể hiệnn trong hình vvẽ dưới đây Dữ liệu được thu thập từ nhiềuu ngu nguồn khác nhau trong đó có cơ sở dữ liệuu tác nghiệp nghi và các nguồn dữ liệu khác Chúng đượcc trích llọc, chuyển đổi và tải vào một nơi lưu trữ ữ được gọi là kho dữ liệu Ngoài ra dữ liệuu còn có th... củaa khai phá d dữ liệu với cơ sở dữ liệu hay kho dữ ữ liệu Vai trò của khai phá dữ liệu uđ đối với quá trình phát hiện tri thức từ dữ liệệu (KDD) được thể hiện trong hình vẽ dư dưới đây Các bước củaa quá trình phát hi hiện tri thức từ dữ liệu - Học từ lĩnh vực ứng dụng: ng: liên quan ttới các tri thức liên quan trướcc đó và mục m tiêu của ứng dụng - Tạo một tập dữ liệu đích: cầnn ph phải lựa chọn dữ liệu. .. Các cơ sở dữ liệu thông tin bằng chữ và hỗn tạp o Hệ thống trang Web trên toàn cầu Các chuyên ngành khác liên quan tới khai phá dữ liệu - Các công nghệ cơ sở dữ liệu - Các kỹ thuật học máy - Thống kê - Khoa học thông tin - Biểu diễn trực quan và các chuyên ngành khác So sánh khai phá dữ liệu với phân tích thống kê Phân tích thống kê Khai phá dữ liệu phù hợp với các loại dữ liệu có cấu trúc và Phù hợp... 16 o Khai phá dữ liệu từ những thông tin tiềm ẩn bên trong dữ liệu của khai phá dữ liệu (DM) - Loại kết quả: o Thông tin của DBMS o Phân tích của OLAP o Chi tiết bên trong và dự đoán của DM - Phương pháp: o Suy diễn bằn các hỏi các câu hỏi và kiểm định vớidữ liệu của DBMS o Mô hình dữ liệu đa chiều, tích hợp và thống kê của OLAP o Quy nạp bằng cách xây dựng mô hình, áp dụng nó với dữ liệu mới và thu... lý và ra quyết định - Tích hợp các tri thức phát hiện được với các tri thức đã tồn tại sẵn có Đây chính là bài toán trộn tri thức - Bảo đảm an toàn dữ liệu, toàn vẹn và riêng tư của dữ liệu 22 Chương 2: Các công ngh nghệ và kỹ thuật tích hợp cơ sở ở dữ liệu 2.1 Giới thiệu Mô hình dữ liệu mở rộng XML Phần đầu tiên của môn học sẽ đi vào xem xét các kkỹ thuật chuyển đổii và tích hợp h dữ liệu vào kho dữ. .. mũi m tên đó Ngoài dữ liệu ra, tầng ng 2 còn có ssự góp phần của siêu dữ liệu giúp bổ sung thông tin cho các dữ d liệu chính trong hệ thống trực tuyến và khai phá dữ liệu So sánh Cơ sở dữ liệu, xử lý phân tích tr được thể hiệnn theo các tiêu chí so sánh bao ggồm - Nhiệm vụ: o Trích xuất dữ liệuu chi ti tiết và tổng quát của cơ sở dữ liệu (DBMS) o Tóm tắt, xác định nh xu hư hướng và dự đoán của hệ thống... câu hỏi trả lời được bởi khai phá dữ liệu kiểu như sau: - Đặc điểm chung của các khách hàng không dùng liên tục dịch vụ của công ty và sự khác nhau giữa họ và các khách hàng có dùng dịch vụ liên tục - Loại người dùng bảo hiểm mô tô nào là khách hàng tiềm năng cho loại bảo hiểm đồ đạc trong nhà So sánh khai phá dữ liệu với công nghệ kho dữ liệu - Kho dữ liệu là một kho lưu trữ dữ liệu tập trung có thể... phân tích trực tuyến (OLAP), vớ ới quản trị dữ liệu đa chiều (MDA) Hai mứcc này được đư thực hiện bởi người quản trị hệ thống ng cơ ssở dữ liệu Tiếp tới các dữ liệu được thăm dòò bằng b các phương pháp phân tích thống ng kê, báo cáo và tru truy vấn và được khai phá để phát hiệnn ra thông tin bởi b các nhà phân tích dữ liệu Cuốii cùng, ddữ liệu sau khi được khai phá sẽ đượcc trình bày sử s dụng các kỹ 13... bao gồm - Xử lý loại dữ liệu quan hệ và dữ liệu loại tổng hợp và phức tạp - Khai phá các thông tin từ những cơ sở dữ liệu hỗn tạp và hệ thống lưu trữ thông tin trên oàn cầu như trên hệ thống trang web toàn cầu (www) Thứ hai là các vấn đề liên quan tới ứng dụng và các ảnh hưởng về mặt xã hội bao gồm 21 - Các ứng dụng các tri thức khai phá được liên quan tới các công cụ khai phá dữ liệu cho các lĩnh vực ... nghệ kho liệu khai phá liệu Một vấn đề cần giải liên quan tới đa dạng loại liệu dùng khai phá tích hợp vào kho liệu bao gồm - Xử lý loại liệu quan hệ liệu loại tổng hợp phức tạp - Khai phá thông... phương pháp khai phá liệu phức tạp 176 Chương 1: Giới thiệu kho liệu khai phá liệu Vấn đề bùng nổ liệu: công cụ thu thập liệu tự động công nghệ sở liệu trở nên hoàn thiện, lượng lớn liệu. .. người sử dụng Vấn đề làm để khai thác tri thức từ đống liệu khổng lồ có tay Giải pháp cho việc khai phá tri thức đời công nghệ kho liệu phương pháp khai phá liệu Giải pháp liên quan tới khía cạnh