1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÀI BÁO CÁO-TÌM HIỂU GOM CỤM DỮ LIỆU VÀ HỌ GIẢI THUẬT K-MEAN

23 924 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 23
Dung lượng 188,98 KB

Nội dung

TÌM HIỂU GOM CỤM DỮ LIỆU VÀ HỌ GIẢI THUẬT K-MEAN GOM CỤM DỮ LIỆU • Gom cụm dữ liệu là một tác vụ trong khai phá dữ liệu. • Gom cụm dữ liệu giúp ta có thể hệ thống lại dữ liệu làm cho chúng không bị rời rạc. • Với một cơ sở dữ liệu lớn và rời rạc thì việc gom cụm rất cần thiết và hầu như là không thể thiếu. MỤC ĐÍCH CỦA GOM CỤM • Mục đích của gom cụm dữ liệu là nhằm khám phá ra cấu trúc dữ liệu thành lập các tập dữ liệu từ các nhóm dữ liệu lớn YÊU CẦU CỦA GOM CỤM DỮ LIỆU • Gom cụm dữ liệu là làm cho các dữ liệu trong cụm thì “tương tự” nhau. Còn các phần tử khác cụm thì “không tương tư” nhau. • Độ tương tự giữa các cụm dữ liệu do người dùng định nghĩa. Được xác định dựa trên các đối tượng thuộc tính mô tả đối tượng. Thường ta đo khoản cách giữa các đối tượng. YÊU CẦU CỦA GOM CỤM DỮ LIỆU • Khả năng co giãn về tập dữ liệu. • Khả năng xử lý nhiều thuộc tính khác nhau. • Khả năng khám phá các cụm với hình dạng tùy ý. • Tối thiểu hóa yêu cầu về tri thức miền trong việc xác định thông số nhập. • Khả năng xử lý dữ liệu có nhiễu. YÊU CẦU CỦA GOM CỤM DỮ LIỆU • Khả năng gom cụm tăng dần độc lập với dữ liệu nhập • Khả năng xử lý dữ liệu đa chiều • Khả năng gom cụm dựa trên ràng buộc • Khả diển và khả dụng PHÂN LOẠI CÁC PHƯƠNG PHÁP GOM CỤM • Phân hoạch (partitioning): các phân hoạch được tạo ra và đánh giá theo một tiêu chí nào đó. • Phân cấp (hierarchical): phân rã tập dữ liệu/đối tượng có thứ tự phân cấp theo một tiêu chí nào đó. • Dựa trên mật độ (density-based): dựa trên connectivity and density functions. • Dựa trên lưới (grid-based): dựa trên a multiple-level granularity structure. • Dựa trên mô hình (model-based): một mô hình giả thuyết được đưa ra cho mỗi cụm; sau đó hiệu chỉnh các thông số để mô hình phù hợp với cụm dữ liệu/đối tượng nhất. • …… PHƯƠNG PHÁP ĐÁNH GIÁ GOM CỤM DỮ LIỆU • Đánh giá ngoại (external validation) • Đánh giá kết quả gom cụm dựa vào cấu trúc được chỉ định trước cho tập dữ liệu • Độ đo : Rand statistic, Jaccard coefficient, Folkes and Mallows index • Đánh giá nội (internal validation) • Đánh giá kết quả gom cụm theo số lượng các vector của chính tập dữ liệu (ma trận gần – proximity matrix) • Độ đo : :Hubert’s statistic, Silhouette index, Dunn’s index, … • Đánh giá tương đối (relative validation) • Đánh giá kết quả gom cụm bằng việc so sánh các kết quả gom cụm khác ứng với các bộ trị thông số khác nhau  Tiêu chí cho việc đánh giá và chọn kết quả gom cụm tối ưu - Độ nén (compactness): các đối tượng trong cụm nên gần nhau. - Độ phân tách (separation): các cụm nên xa nhau. PHƯƠNG PHÁP ĐÁNH GIÁ GOM CỤM DỮ LIỆU • Đánh giá theo Entropy (trị nhỏ khi chất lượng gom cụm tốt) ∑ ∑∑ ∑ −=−= i i ij j i ij i i i ij j i ij i n n n n n n p p p p pIEntropy )log()log()( CÁC VẤN ĐỀ CẦN GIẢI QUYẾT • Biểu Diển Kiểu Dữ Liệu + Ta chỉ quan tâm đến những kiểu mà cần thiết cho việc gom cụm mà thôi + Ta định nghĩa d(i,j) là khoản cách giữa 2 đối tượng i và j. • d(i,j) ≥ 0 • d(i,i) = 0 • d(i,j) = d(j,i) • d(i,j) ≤ d(i,k) + d(k,j) với k là một điểm bất kì khác i,j. [...]... CẦN GIẢI QUYẾT zif = r −1 M −1 if f Ý NGHĨA CỦA VIỆC PHÂN CỤM • Phân cụm ta có thể đi sâu vào phân tích nghiên cứu từng cụm dữ liệu nhằm khám phá và tìm kiếm các thông tin ẩn nhằm hỗ trợ cho việc ra quyết định CÁC GIẢI THUẬT GOM CỤM DỮ LIỆU • Trong gom cụm dữ liệu có nhiều giải thuật , tiêu biểu là giải thuật k-mean và giải thuật gom cụm phân cấp nhóm • Chúng ta sẽ tìm hiểu giải thuật K-Mean trong gom. .. cộng , trừ, nhân hoặc chia GIẢI THUẬT K-MEANS • Ưu điểm :K-Means phân tích phân cụm đơn giản nên có thể áp dụng với tập dữ liệu lớn • Nhược điểm: K-Means chỉ áp dụng với dữ liệu có thuộc tính số và khám phá ra các cụm có dạng hình cầu, k-means còn rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu Ngoài ra còn phụ thuộc nhiều vào các thông số đầu vào GIẢI THUẬT K-MEANS • Trong trường hợp,... trọng tâm cụm tự nhiên thì kết quả phân cụm của k-means là rất thấp, nghĩa là các cụm dữ liệu được khám phá rất lệch so với các cụm trong thực tế Trên thực tế người ta chưa có một giải pháp tối ưu nào để chọn các tham số đầu vào, giải pháp thường được sử dụng nhất là thử nghiệm với các giá trị đầu vào k khác nhau rồi sau đó chọn giải pháp tốt nhất GIẢI THUẬT K-MEANS • Đến nay, đã có rất nhiều thuật toán... cụm phân cấp nhóm • Chúng ta sẽ tìm hiểu giải thuật K-Mean trong gom cụm dữ liệu GIẢI THUẬT K-MEANS • INPUT: Một CSDL gồm n đối tượng và số các cụm k • OUTPUT: Các cụm Ci (i=1, ,k) sao cho hàm tiêu chuẩn E đạt giá trị tối thiểu • Bước 1: Khởi tạo Chọn k đối tượng mj (j=1 k) là trọng tâm ban đầu của k cụm từ tập dữ liệu (việc lựa chọn này có thể là ngẫu nhiên hoặc theo kinh nghiệm) • Bước 2: Tính toán... nhật lại trọng tâm Đối với mỗi j=1, ,k, cập nhật trọng tâm cụm mj bằng cách xác định trung bình cộng của các vector đối tượng dữ liệu • Bước 4: Điều kiện dừng Lặp các bước 2 và 3 cho đến khi các trọng tâm của cụm không thay đổi GIẢI THUẬT K-MEANS • Độ phức tạp dữ liệu được tính là O(n.k.d.t.T) Trong đó : n là số đối tượng dữ liệu k là số cụm dữ liệu d là số chiều t là số vòng lặp T là thời gian tính... vào k khác nhau rồi sau đó chọn giải pháp tốt nhất GIẢI THUẬT K-MEANS • Đến nay, đã có rất nhiều thuật toán kế thừa tư tưởng của thuật toán k-means áp dụng trong khai phá dữ liệu để giải quyết tập dữ liệu có kích thước rất lớn đang được áp dụng rất hiệu quả và phổ biến như thuật toán k-medoid, PAM, CLARA, CLARANS, k- prototypes, … ...CÁC VẤN ĐỀ CẦN GIẢI QUYẾT • • Đối tượng i,j được biểu diển bởi vector x,y Độ tương tự (similarity) giữa i và j dược tính theo công thức • x = (x1, …, xp) • y = (y1, …, yp) • 2 2 1/2 2 2 1/2 s(x, y) = (x1*y1 + … + xp*yp)/((x1 + … + xp ) *(y1 + … + yp ) ) CÁC VẤN ĐỀ CẦN GIẢI QUYẾT • Interval-scaled variables/attributes + khoản lệch s f = 1 (|... + Z-score measurement xif − m f zif = sf CÁC VẤN ĐỀ CẦN GIẢI QUYẾT • Các công thức tính độ đo khoản cách + Độ đo khoảng cách Minkowski + Độ đo khoản cách Manhattan d (i, j) =| x − x | + | x − x | + + | x − x | i1 j1 i2 j 2 ip jp + Độ đo khoản cách Euclidean d (i, j) = (| x − x |2 + | x − x |2 + + | x − x |2 ) i1 j1 i2 j2 ip jp CÁC VẤN ĐỀ CẦN GIẢI QUYẾT • Binary variables/attributes Obj j Obj i 1 0... j) = b+c a +b+c CÁC VẤN ĐỀ CẦN GIẢI QUYẾT • Variables/attributes of mixed types ( ( Σ p = 1δ ij f ) dij f ) d (i, j) = f p ( Σ f = 1δ ij f ) Nếu xif hoặc xjf bị thiếu (missing) thì f (variable/attribute): binary (nominal) dij (f) (f) = 0 if xif = xjf , or dij = 1 otherwise f : interval-scaled (Minkowski, Manhattan, Euclidean) f : ordinal or ratio-scaled tính ranks rif và zif trở thành interval-scaled . TÌM HIỂU GOM CỤM DỮ LIỆU VÀ HỌ GIẢI THUẬT K-MEAN GOM CỤM DỮ LIỆU • Gom cụm dữ liệu là một tác vụ trong khai phá dữ liệu. • Gom cụm dữ liệu giúp ta có thể hệ thống lại dữ liệu làm cho. giải thuật k-mean và giải thuật gom cụm phân cấp nhóm. • Chúng ta sẽ tìm hiểu giải thuật K-Mean trong gom cụm dữ liệu GIẢI THUẬT K-MEANS • INPUT: Một CSDL gồm n đối tượng và số các cụm k. • OUTPUT:. từng cụm dữ liệu nhằm khám phá và tìm kiếm các thông tin ẩn nhằm hỗ trợ cho việc ra quyết định CÁC GIẢI THUẬT GOM CỤM DỮ LIỆU • Trong gom cụm dữ liệu có nhiều giải thuật , tiêu biểu là giải thuật

Ngày đăng: 02/06/2015, 17:12

TỪ KHÓA LIÊN QUAN

w