1. Trang chủ
  2. » Công Nghệ Thông Tin

ThuatToanK meanstronggomcumdulieu

3 442 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

Gom cụm nhìn từ góc độ tự nhiên là một việc hết sức bình thường mà chúng ta vẫn làm và thực hiện hàng ngày ví dụ như phân loại học sinh khá, giỏi trong lớp, phân loại đất đai, phân loại tài sản, phân loại sách trong thư viện… Việc phân loại này là thực hiện gom các đối tượng có cùng tính chất hay có các tính chất gần giống nhau thành nhóm. Để thực hiện phân loại các đối tượng nào đó, chúng ta bao giờ cũng đặt câu hỏi, chúng ta phân nhóm dựa trên yếu tố nào? Hoặc chúng ta định phân thành bao nhiêu nhóm? Ví dụ: Hãy phân các sản phẩm thành nhóm theo các yếu tố sau: thịt, cá, đậu và rau củ. Hoặc hãy sắp xếp các sản phẩm một cách khoa học thành 5 gian hàng trong siêu thị.

Lê Đức Hiếu – CH0401016 Cao học khóa II THUẬT TOÁN K-MEANS TRONG GOM CỤM DỮ LIỆU Sau đọc tài liệu Thầy Phúc số tài liệu khác em có rút số điểm Gom cụm liệu thuật toán K-Means sau: Gom cụm nhìn từ góc độ tự nhiên việc bình thường mà làm thực hàng ngày ví dụ phân loại học sinh khá, giỏi lớp, phân loại đất đai, phân loại tài sản, phân loại sách thư viện… Việc phân loại thực gom đối tượng có tính chất hay có tính chất gần giống thành nhóm Để thực phân loại đối tượng đó, đặt câu hỏi, phân nhóm dựa yếu tố nào? Hoặc định phân thành nhóm? Ví dụ: Hãy phân sản phẩm thành nhóm theo yếu tố sau: thịt, cá, đậu rau củ Hoặc xếp sản phẩm cách khoa học thành gian hàng siêu thị Khi áp dụng máy tính vào phân cụm liệu phải cho thuật toán biết muốn phân cụm Đối với thân có (Xếp) nói với bạn “ phân loại sản phẩm siêu thị” chắn bạn phải hỏi “Xếp muốn phân loại nào?” Đối với gom cụm, liệu cố định kết gom cụm khác ta đưa yêu cầu gom cụm khác Tuy nhiên có yêu cầu gom cụm khác bước chuẩn hoá liệu khác ta quan tâm đến thuộc tính liệu cần thiết cho gom cụm mà Ví dụ: Ta có không gian liệu dân số nước Việt nam: - Yêu cầu gom cụm theo yếu tố giai cấp xã hội ta có k = (nông dân, công nhân, trí thức, thương nhân) - Yêu cầu gom cụm theo nhóm tuổi ta có k =3 (già, trẻ, trung niên) - Yêu cầu gom cụm theo trình độ học vấn ta có k = 7(mù chử, cấp 1, cấp 2, cấp 3, đại học, thạc sĩ, tiến sĩ) (Vì việc tạo similarity query tổng quát cho liệu không đơn giản chút nào) Các thuật toán gom cụm yêu cầu xác định số cụm cần thực (đối với thuật toán K-means) yêu cầu độ phân biệt để xác định đối tượng có tính chất tương tự (DBSCAN) K-Means thuật toán áp dụng nhiều gom cụm liệu hiệu tính thực tốt Tuy nhiên việc cần cho trước số cụm, K-Means đòi hỏi phải chọn trước k điểm làm trọng tâm, việc chọn ngẫu nhiên cho kết khác Data Mining Lê Đức Hiếu – CH0401016 Cao học khóa II Chi tiết thuật toán K-Means số cải tiết K-Means K-medoids Fuzzy c-mean Thầy Phúc nói kỹ giáo trình nên xin không nhắc lại mà muốn trình bày thuật toán cải tiết khác k-means Incremental K-Means: Như ta biết thuật toán K- means bắt đầu cách chọn k cụm chọn ngẫu nhiên k điểm làm trung tâm cụm, chọn phân hoạch ngẫu nhiên k cụm tính trọng tâm cụm Việc chọn ngẫu nhiên k điểm làm trung tâm cụm nói cho kết khác tùy vào chọn k điểm Thuật toán Incremental K-means dựa thuật toán k-means không chọn k điểm làm trọng tâm cho k cụm mà tăng số cụm từ lên k cụm cách đưa trung tâm cụm vào cụm có độ méo dạng lớn (tăng số cụm) tính lại trọng tâm cụm Thuật toán trình bày sau: Gán K=1 Phase1: Bước 1: Nếu K=1 chọn điểm làm trung tâm cụm Nếu K>1 thêm trung tâm cụm vào cụm có méo dạng lớn Bước 2: Gán điểm vào cụm có trung tâm gần điểm xét cập nhật lại trung tâm cụm Bươc 3: Nếu trung tâm cụm không thay đổi, thực Phase Else, thực Phase bước Phase 2: (tăng số cụm) Nếu K

Ngày đăng: 04/10/2016, 20:39

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w