1. Trang chủ
  2. » Luận Văn - Báo Cáo

(LUẬN VĂN THẠC SĨ) Nghiên cứu các kỹ thuật phân cụm dữ liệu và ứng dụng

102 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 102
Dung lượng 1,43 MB

Cấu trúc

  • 1.1. Giới thiệu chung (10)
  • 1.2. Khai phá tri thức và quá trình khai phá tri thức (10)
    • 1.2.1. Khai phá tri thức (10)
    • 1.2.2. Quá trình khai phá tri thức (11)
  • 1.3. Khai phá dữ liệu (12)
    • 1.3.1. Khai phá dữ liệu (12)
    • 1.3.2. Mục tiêu của khai phá dữ liệu (13)
    • 1.3.3. Quá trình khai phá dữ liệu (13)
    • 1.3.4. Các hướng tiếp cận cơ bản và kỹ thuật áp dụng trong khai phá dữ liệu (14)
    • 1.3.5. Thách thức – khó khăn trong khai phá tri thức và khai phá dữ liệu (20)
    • 1.3.6. Ứng dụng của khai phá dữ liệu (20)
    • 1.3.7. Kết luận (21)
  • Chương 2. PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN TRONG (10)
    • 2.1. Giới thiệu (22)
    • 2.2. Các ứng dụng của phân cụm (23)
    • 2.3. Các yêu cầu về thuật toán phân cụm dữ liệu (24)
    • 2.4. Các kiểu dữ liệu trong phân cụm (25)
    • 2.5. Phép đo độ tương tự và khoảng cách đối với các kiểu dữ liệu (28)
    • 2.6. Các hướng tiếp cận của bài toán phân cụm dữ liệu (35)
      • 2.6.1. Phương pháp phân hoạch (Partitioning Methods) (35)
      • 2.6.2. Phương pháp phân cấp (Hierarchical Methods) (43)
      • 2.6.3. Phương pháp dựa trên mật độ (Density-Based Methods) (51)
      • 2.6.4. Phương pháp dựa trên lưới (Gird-Based Methods) (58)
      • 2.6.5. Kết luận (63)
  • Chương 3: ỨNG DỤNG (65)
  • KẾT LUẬN (71)
  • TÀI LIỆU THAM KHẢO (73)
  • PHỤ LỤC (75)

Nội dung

Giới thiệu chung

Cách mạng khoa học kỹ thuật đã thúc đẩy sự phát triển mạnh mẽ trong mọi lĩnh vực của đời sống, đặc biệt là sự bùng nổ thông tin Khối lượng dữ liệu mà con người thu thập và lưu trữ ngày càng lớn, dẫn đến sự gia tăng nhanh chóng của các cơ sở dữ liệu (CSDL) Trong những CSDL này chứa đựng nhiều tri thức chưa được khám phá Tuy nhiên, với khối lượng dữ liệu khổng lồ, việc tìm kiếm tri thức trở nên khó khăn hơn bao giờ hết Do đó, nhu cầu khai thác tri thức từ CSDL ngày càng trở nên cấp thiết, dẫn đến sự hình thành của lĩnh vực khai phá dữ liệu (Data Mining) hay khai phá tri thức trong cơ sở dữ liệu (KDD).

Knowledge discovery in databases involves the process of uncovering useful, essential, implicit, and previously unknown information from large datasets This process aims to extract valuable insights that can drive decision-making and enhance understanding within various fields.

Khai phá tri thức và khai phá dữ liệu là những lĩnh vực đang được nghiên cứu và ứng dụng rộng rãi trên toàn thế giới Tại Việt Nam, mặc dù kỹ thuật này còn mới mẻ, nhưng đã bắt đầu được chú trọng và áp dụng trong những năm gần đây Các vấn đề quan tâm bao gồm phân lớp nhận dạng mẫu, luật kết hợp, phân cụm dữ liệu và phần tử dị biệt.

Khai phá tri thức và quá trình khai phá tri thức

Khai phá tri thức

Khai phá tri thức trong cơ sở dữ liệu là quy trình nhận diện các mẫu và mô hình từ dữ liệu, với các đặc điểm như phân tích, tổng hợp, hợp thức, khả ích và dễ hiểu Khám phá dữ liệu là bước quan trọng trong quy trình này, sử dụng các thuật toán khai thác dữ liệu dưới các tiêu chí hiệu quả tính toán nhằm phát hiện các mẫu hoặc mô hình Mục tiêu chính của cả hai quá trình này là tìm ra những mẫu và mô hình tiềm ẩn trong các cơ sở dữ liệu, vốn bị che khuất bởi khối lượng dữ liệu khổng lồ.

Quá trình khai phá tri thức

Việc khai phá tri thức thông thường có thể mô tả bằng sơ đồ các quy trình sau [4]:

Hình 1.2: Quá trình khai phá tri thức

Trong đó, mỗi bước là một quy trình có vai trò riêng và nhiệm vụ khác nhau, bao gồm:

Bước đầu tiên trong quy trình ứng dụng là tìm hiểu lĩnh vực và xác định bài toán, điều này rất quan trọng để rút ra tri thức hữu ích Việc này cũng giúp lựa chọn các phương pháp khai thác dữ liệu phù hợp với mục đích ứng dụng và đặc điểm của dữ liệu.

Bước thứ hai trong quy trình khai thác tri thức là thu thập và xử lý dữ liệu thô, hay còn gọi là tiền xử lý dữ liệu Mục tiêu của bước này là loại bỏ nhiễu, xử lý các vấn đề thiếu dữ liệu, biến đổi và rút gọn dữ liệu khi cần thiết Đây thường là giai đoạn tốn nhiều thời gian nhất trong toàn bộ quy trình.

Bước thứ ba: khai phá dữ liệu, hay nói cách khác là trích ra các mẫu hoặc/và các mô hình ẩn dưới các dữ liệu

Bước thứ tư là hiểu rõ tri thức đã thu thập, đặc biệt là làm rõ các mô tả và dự đoán Các bước trước đó có thể được lặp lại nhiều lần, và kết quả cuối cùng có thể được tính trung bình từ tất cả các lần thực hiện.

Bước thứ năm là áp dụng tri thức đã được khám phá vào thực tế, với việc tích hợp chặt chẽ các tri thức này trong hệ thống Để sử dụng hiệu quả, đôi khi cần sự hỗ trợ từ các chuyên gia trong các lĩnh vực liên quan, vì tri thức rút ra có thể chỉ đóng vai trò hỗ trợ quyết định hoặc được sử dụng cho quá trình khai phá tri thức mới.

Mặc dù quá trình khám phá tri thức được tóm tắt thành năm bước, nhưng thực tế không chỉ tuân theo các bước cố định Các giai đoạn này có thể lặp lại, với mỗi lần lặp sẽ hoàn thiện hơn lần trước, dựa trên kết quả của giai đoạn trước Sự lặp đi lặp lại này giúp quá trình khai phá và tìm kiếm dữ liệu ngày càng trở nên hoàn thiện hơn.

Khai phá dữ liệu

Khai phá dữ liệu

Khai phá dữ liệu là giai đoạn quan trọng trong quá trình KPTT, đóng vai trò then chốt trong việc phát hiện thông tin mới Nó được xem như là việc khai thác tri thức từ cơ sở dữ liệu, bao gồm trích xuất tri thức, phân tích mẫu dữ liệu và khảo cứu dữ liệu Các thuật ngữ liên quan như đào xới và nạo vét dữ liệu cũng phản ánh sự sâu sắc trong việc khai thác giá trị từ dữ liệu.

Khai phá dữ liệu (Data Mining) là quá trình trích xuất thông tin giá trị ẩn từ lượng lớn dữ liệu trong các cơ sở dữ liệu hoặc kho dữ liệu Quá trình này tìm kiếm và khám phá các mối tương quan, mối liên hệ dưới nhiều góc độ khác nhau để phát hiện các mẫu và mô hình bị che khuất Để rút ra các mẫu và mô hình tiềm ẩn có tính tri thức, cần áp dụng các phương pháp và kỹ thuật khai phá phù hợp với đặc trưng của dữ liệu và mục đích sử dụng Mặc dù khai phá dữ liệu chỉ là một bước trong quy trình khám phá tri thức, nhưng nó đóng vai trò quyết định và ảnh hưởng lớn đến toàn bộ quá trình.

Khai phá dữ liệu là quá trình tìm kiếm thông tin tiềm ẩn trong cơ sở dữ liệu lớn Hai thuật ngữ khám phá tri thức và khai phá dữ liệu có thể coi là tương đương ở khía cạnh tổng quan Tuy nhiên, ở góc độ chi tiết, khai phá dữ liệu đóng vai trò quan trọng trong quá trình khám phá tri thức.

Mục tiêu của khai phá dữ liệu

Khai phá dữ liệu là quá trình tìm kiếm thông tin hữu ích và tiềm ẩn trong các cơ sở dữ liệu lớn, với mục đích chính là phát hiện các mẫu dữ liệu và dự đoán xu hướng tương lai.

Khai thác thông tin tiềm ẩn từ các cơ sở dữ liệu lớn thông qua công cụ khai phá dữ liệu giúp dự đoán xu hướng tương lai Điều này hỗ trợ các tổ chức, doanh nghiệp và nhà nghiên cứu trong việc đưa ra quyết định kịp thời, dựa trên tri thức được khám phá.

- Thực hiện phân tích xử lý, tính toán dữ liệu một cách tự động cho mỗi quá trình xử lý dữ liệu để tìm ra tri thức.

Quá trình khai phá dữ liệu

KPDL là giai đoạn quan trọng trong KPTT, nơi phát hiện thông tin mới và tiềm ẩn từ CSDL Giai đoạn này phục vụ cho việc mô tả và dự đoán, trong đó dự đoán liên quan đến việc suy luận dữ liệu để tạo ra các dự báo, phân tích tập dữ liệu huấn luyện và xây dựng mô hình cho các mẫu mới Mô tả dữ liệu là quá trình tổng kết và diễn tả các đặc điểm chung của thuộc tính dữ liệu, giúp con người dễ dàng hiểu được thông tin trong kho dữ liệu.

Quá trình KPDL bao gồm các bước như trong hình sau:

Hình 1.3: Qúa trình khai phá dữ liệu

 Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết

 Xác định các dữ liệu liên quan: Dùng để xây dựng giải pháp

Quá trình thu thập và tiền xử lý dữ liệu là bước quan trọng để đảm bảo thuật toán KPDL có thể hoạt động hiệu quả Việc này bao gồm việc thu thập dữ liệu liên quan và chuẩn bị chúng theo cách mà thuật toán có thể hiểu Tuy nhiên, quá trình này thường gặp nhiều khó khăn, chẳng hạn như cần sao chép dữ liệu thành nhiều bản, quản lý tập dữ liệu phức tạp và phải lặp lại quy trình nếu mô hình dữ liệu thay đổi.

Thuật toán khai phá dữ liệu (KPDL) đóng vai trò quan trọng trong việc tìm kiếm các mẫu có ý nghĩa từ tập dữ liệu Việc lựa chọn thuật toán phù hợp và thực hiện quá trình phân tích KPDL giúp xác định các mẫu này, thường được biểu diễn dưới dạng luật kết hợp hoặc cây quyết định, phù hợp với ý nghĩa mà chúng mang lại.

Các hướng tiếp cận cơ bản và kỹ thuật áp dụng trong khai phá dữ liệu

Vấn đề khai phá dữ liệu có thể được phân chia theo lớp các hướng tiếp cận chính sau:

1.3.4.1 Phân lớp và dự đoán

Hướng tiếp cận này sử dụng các suy diễn từ dữ liệu hiện có để đưa ra dự đoán, bao gồm các kỹ thuật như phân lớp (classification) và hồi quy (regression) Quá trình này liên quan đến việc xếp một đối tượng vào các lớp đã biết, chẳng hạn như phân loại bệnh nhân dựa trên hồ sơ bệnh án hoặc phân loại vùng địa lý theo dữ liệu thời tiết Để thực hiện, thường áp dụng một số kỹ thuật học máy như cây quyết định (decision tree) và mạng nơron nhân tạo (neural network).

Phương pháp phân cụm dữ liệu nhằm mục tiêu nhóm các điểm dữ liệu thành các cụm, trong đó các điểm trong cùng một cụm có độ tương đồng cao, trong khi các điểm không cùng cụm có sự tương đồng thấp Điểm mạnh của phân cụm là khả năng phát hiện cấu trúc hữu ích từ dữ liệu mà không cần tri thức cơ sở Đây là một phương pháp học không có thầy (unsupervised learning), khác với phân lớp dữ liệu, không yêu cầu định nghĩa trước các mẫu huấn luyện Phân cụm được coi là học bằng quan sát, trong khi phân lớp là học bằng ví dụ Kết quả của các cụm không thể xác định trước, do đó cần có chuyên gia đánh giá Phân cụm dữ liệu được áp dụng rộng rãi trong phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu và phân loại trang web, đồng thời cũng có thể là bước tiền xử lý cho các thuật toán khai phá dữ liệu khác.

1.3.4.3 Phân lớp dữ liệu và hồi qui

Mục tiêu của phương pháp phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu Quá trình này thường bao gồm hai bước chính: xây dựng mô hình và sử dụng mô hình để thực hiện phân loại.

Để xây dựng một mô hình, bước đầu tiên là phân tích các mẫu dữ liệu sẵn có, mỗi mẫu tương ứng với một lớp được xác định bởi thuộc tính lớp Những mẫu dữ liệu này được gọi là tập dữ liệu huấn luyện Trước khi xây dựng mô hình, các nhãn lớp của tập dữ liệu huấn luyện cần được xác định, vì vậy phương pháp này thuộc loại học có thầy, khác với phương pháp phân cụm dữ liệu thuộc loại học không có thầy.

Bước 2 trong quá trình phân lớp dữ liệu là sử dụng mô hình để xác định độ chính xác Nếu độ chính xác đạt yêu cầu, mô hình sẽ được áp dụng để dự đoán nhãn lớp cho các mẫu dữ liệu tương lai Cần lưu ý rằng hồi quy khác với phân lớp, vì hồi quy nhằm dự đoán các giá trị liên tục, trong khi phân lớp chỉ tập trung vào việc dự đoán các giá trị rời rạc.

Có nhiều loại luật có thể được phát hiện từ cơ sở dữ liệu, bao gồm luật đặc trưng, luật biệt số, luật kết hợp, cùng với luật về sự lệch hướng và sự phát triển.

Phương pháp phát hiện luật kết hợp không gian là một công cụ quan trọng trong việc khám phá tri thức, giúp xác định các luật liên quan đến sự kết hợp giữa các thuộc tính khác nhau Hướng tiếp cận này được ứng dụng rộng rãi trong nhiều lĩnh vực như kinh doanh, y học, tin sinh học, giáo dục, viễn thông, tài chính và thị trường chứng khoán, mang lại giá trị thực tiễn cao cho việc phân tích và ra quyết định.

Khái niệm về luật kết hợp được phát biểu diễn như sau: một luật có dạng X

Luật kết hợp Y (c%) với X và Y được xác định khi có ít nhất c% đối tượng trong cơ sở dữ liệu thoả mãn điều kiện: nếu X được thoả mãn thì Y cũng sẽ được thoả mãn.

Ví dụ, luật sau là luật kết hợp: is_a(x, school)  close (x, park) (80%) Luật trên thể hiện là: 80% trường học gần với công viên

Có nhiều kiểu thuộc tính tạo thành các luật kết hợp, dẫn đến việc số luật tìm được có thể vượt quá nhu cầu Để hạn chế số lượng luật này, khái niệm hỗ trợ tối thiểu (α) và độ tin cậy tối thiểu (δ) được sử dụng Hai tham số này giúp loại bỏ các luật không cần thiết, chỉ giữ lại những luật thực sự hữu ích cho người sử dụng.

Trong cơ sở dữ liệu lớn, nhiều luật giữa các đối tượng có thể không hữu ích do chỉ áp dụng cho một tỷ lệ nhỏ hoặc có độ tin cậy thấp Chẳng hạn, người dùng có thể không quan tâm đến mối quan hệ giữa nhà ở và trường học nếu luật đó chỉ áp dụng cho 5% số nhà ở, trong khi họ mong muốn luật này áp dụng cho hơn 50% Do đó, cần lọc bỏ những luật kết hợp chỉ áp dụng cho một tỷ lệ nhỏ đối tượng trong cơ sở dữ liệu để tăng tính ứng dụng và giá trị cho người sử dụng.

2 Độ tin cậy tối thiểu

Nếu một luật có độ tin cậy thấp, nghĩa là tỷ lệ đối tượng dữ liệu thỏa mãn cả hai điều kiện X và Y so với tổng số đối tượng thỏa mãn X, sẽ không có giá trị ứng dụng thực tiễn Chẳng hạn, nếu luật cho biết chỉ 1% số người bị bệnh tim do ăn cá biển, thì thông tin này gần như vô nghĩa trong việc chẩn đoán nguyên nhân bệnh tim Vì vậy, chúng ta cần loại bỏ những luật có độ tin cậy thấp và chỉ giữ lại những luật có độ tin cậy cao với tỷ lệ đúng tối thiểu là %.

1.3.4.5 Phân tích chuỗi theo thời gian

Giống như khai phá dữ liệu bằng luật kết hợp, khai thác mẫu tuần tự cũng nhấn mạnh tính thứ tự và thời gian Luật mô tả mẫu tuần tự thường có dạng X -> Y, cho thấy sự xuất hiện của biến cố X dẫn đến biến cố Y Phương pháp này được ứng dụng rộng rãi trong lĩnh vực tài chính và thị trường chứng khoán nhờ vào khả năng dự đoán cao.

1.3.4.6 Khai phá dữ liệu sử dụng mạng Neural

Mạng Neural là một phương pháp khai thác dữ liệu tiên tiến, được xây dựng dựa trên cấu trúc toán học, với khả năng học hỏi từ mô hình hệ thần kinh của con người.

Mạng Neural có khả năng phân tích và hiểu các dữ liệu phức tạp hoặc không chính xác, cho phép chiết xuất mẫu và phát hiện xu hướng mà con người cũng như các kỹ thuật máy tính khác không thể nhận diện.

Mạng Neural nổi bật với khả năng tạo ra các mô hình dự đoán chính xác cao, phù hợp với nhiều bài toán khác nhau Điều này giúp đáp ứng hiệu quả các nhiệm vụ trong khai phá dữ liệu như phân lớp, phân nhóm, mô hình hóa và dự báo.

Thách thức – khó khăn trong khai phá tri thức và khai phá dữ liệu

KPTT và KPDL tác động đến nhiều ngành và lĩnh vực, dẫn đến sự gia tăng các thách thức và khó khăn Do đó, cần chú trọng đến một số thách thức chính để tìm ra giải pháp hiệu quả.

Các cơ sở dữ liệu lớn thường chứa các tập dữ liệu có kích thước khổng lồ, với dung lượng thường đạt tới tera-byte, tương đương hàng ngàn giga-byte.

- Mức độ nhiễu cao hoặc dữ liệu bị thiếu

- Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không còn phù hợp

- Quan hệ giữa các trường phức tạp

Ứng dụng của khai phá dữ liệu

Các kỹ thuật KDD có thể được áp dụng vào trong nhiều lĩnh vực, điển hình:

Thông tin thương mại bao gồm việc phân tích dữ liệu tiếp thị, bán hàng và thị trường để đưa ra quyết định sáng suốt Nó cũng liên quan đến việc phân tích vốn đầu tư và quyết định cho vay vốn, đồng thời giúp phát hiện gian lận trong các giao dịch thương mại.

 Thông tin sản xuất: o Điều khiển và lập lịch; o Hệ thống quản lý; o Quản trị mạng; o Phân tích kết quả thí nghiệm; o V.v

 Thông tin khoa học: o Dự báo thời tiết; o CSDL sinh học; o Khoa học địa lý: tìm động đất; v.v

PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN TRONG

Giới thiệu

Phân cụm là quá trình tổ chức các điểm dữ liệu trong cơ sở dữ liệu thành các nhóm, trong đó các điểm dữ liệu trong cùng một cụm có độ tương đồng cao, trong khi các điểm không cùng cụm có sự tương đồng thấp Ví dụ, trong mô hình phân cụm các trường dựa trên tiêu chuẩn thu nhập và số nợ, có thể xác định ba cụm: Cụm 1 bao gồm những người có thu nhập cao và nợ nhiều; Cụm 2 là những người có thu nhập cao nhưng nợ ít; và Cụm 3 là những đối tượng có thu nhập thấp nhưng nợ nhiều.

Hình 2.1: Mô hình về phân cụm dựa trên tiêu chuẩn thu nhập và số nợ

Quá trình phân cụm là một phương pháp tự động tìm kiếm các đối tượng trong cơ sở dữ liệu mà không cần thông tin xác định trước, khác với phân lớp Đây là hình thức học không thầy (unsupervised learning) trong trí tuệ nhân tạo, rất hiệu quả khi thông tin về các cụm chưa rõ ràng Nhiều thuật toán và hệ thống đã được phát triển để giải quyết bài toán phân cụm trong các cơ sở dữ liệu lớn, và lĩnh vực này đã được ứng dụng rộng rãi trong nhiều lĩnh vực như xử lý ảnh, nhận dạng và đánh giá kinh doanh Sự đa dạng của các thuật toán phân cụm xuất phát từ sự khác biệt trong các ứng dụng thực tế, dẫn đến yêu cầu dữ liệu và thuật toán khác nhau.

Một trong những thách thức lớn trong phân cụm dữ liệu là đo lường độ tương đồng không gian giữa các đối tượng Đối với dữ liệu không gian, độ tương đồng được hiểu là mối quan hệ về vị trí giữa các đối tượng Cụ thể, hai đối tượng dữ liệu được coi là tương đồng khi khoảng cách không gian giữa chúng là nhỏ.

Một phương pháp hiệu quả để đo độ tương đồng giữa hai đối tượng là sử dụng nghịch đảo của hàm không tương đồng Hàm không tương đồng dựa trên các thuộc tính không gian của dữ liệu, bao gồm tọa độ và độ cao của các đối tượng Trong nhiều trường hợp, hàm không tương đồng được coi là hàm khoảng cách không gian, tương tự như hàm khoảng cách Euclid, Manhattan và Minkowski.

Bài toán phân cụm là quá trình nhóm dữ liệu thành các nhóm đối tượng nhằm phục vụ cho mục đích cụ thể của từng ứng dụng Không có thuật toán phân cụm nào là tốt nhất cho tất cả các ứng dụng, do đó, người dùng cần lựa chọn thuật toán phù hợp với yêu cầu của từng ứng dụng Kết quả đánh giá của mỗi thuật toán cũng phụ thuộc vào các tiêu chí và yêu cầu cụ thể của từng trường hợp sử dụng.

Các ứng dụng của phân cụm

Phân cụm dữ liệu là một kỹ thuật đang được nghiên cứu và ứng dụng rộng rãi trên toàn thế giới Tại Việt Nam, mặc dù còn mới mẻ, nhưng kỹ thuật này đang dần được khám phá và áp dụng trong nhiều lĩnh vực khác nhau.

 Quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiểu và vị trí địa lí… nhằm cung cấp thông tin cho quy hoạch đô thị;

 Nghiên cứu trái đất: Phân cụm để theo dõi các tâm động đất nhằm cung cấp thông tin cho nhận dạng các vùng nguy hiểm;

Trong lĩnh vực thương mại, việc xác định nhóm khách hàng quan trọng với những đặc điểm tương đồng là rất cần thiết Điều này có thể thực hiện thông qua việc phân tích các bản ghi mua bán trong cơ sở dữ liệu mua hàng để tìm ra những đặc trưng nổi bật của họ.

 Sinh học: Phân loại các gen với các chức năng tương đồng và thu được các cấu trúc trong mẫu;

 Thư viện: Theo dõi độc giả, sách, dự đoán nhu cầu của độc giả…;

Bảo hiểm đóng vai trò quan trọng trong việc phân nhóm các đối tượng sử dụng dịch vụ tài chính, giúp dự đoán xu hướng khách hàng và phát hiện gian lận tài chính hiệu quả.

 WWW: Phân loại tài liệu, phân loại người dùng web.

Các yêu cầu về thuật toán phân cụm dữ liệu

Hiện tại, chưa có phương pháp phân cụm tổng quát nào có thể giải quyết hoàn toàn tất cả các dạng cấu trúc cơ sở dữ liệu (CSDL) Các phương pháp phân cụm cần có cách thức biểu diễn cấu trúc của CSDL, và mỗi cách thức biểu diễn sẽ tương ứng với thuật toán phân cụm phù hợp Do đó, phân cụm dữ liệu vẫn là một vấn đề khó khăn và mở, đòi hỏi giải quyết nhiều vấn đề cơ bản một cách toàn diện và phù hợp với nhiều dạng dữ liệu khác nhau Thách thức này càng lớn hơn với sự gia tăng của kho dữ liệu hỗn hợp trong lĩnh vực khai thác dữ liệu (KPDL).

Phân cụm dữ liệu là một thách thức lớn trong nghiên cứu do các ứng dụng tiềm năng của nó phụ thuộc vào những yêu cầu đặc thù Với đặc điểm của cơ sở dữ liệu lớn, phức tạp và có dữ liệu nhiễu, các thuật toán phân cụm cần phải đáp ứng những yêu cầu cụ thể để đảm bảo hiệu quả.

 Thuật toán phải hiệu quả và thời gian chạy phải là tăng tuyến tính theo kích thước của dữ liệu

Thuật toán cần phải xử lý hiệu quả với cơ sở dữ liệu phức tạp và nhiều nhiễu, bao gồm cả dữ liệu không gian và phi không gian, dữ liệu số và phi số, cũng như kiểu nhị phân và dữ liệu định danh Điều này đòi hỏi khả năng thích nghi với các kiểu dữ liệu hỗn hợp.

Thuật toán cần phải có khả năng nhận diện các cụm dữ liệu với nhiều hình dạng khác nhau, bao gồm cụm hình lồng nhau, cụm lõm, hình cầu và hình que.

Để xác định các tham số đầu vào cho thuật toán phân cụm, cần tối thiểu một lượng tri thức nhất định Các giá trị đầu vào có ảnh hưởng lớn đến hiệu quả của thuật toán, và việc xác định các giá trị phù hợp trong các cơ sở dữ liệu lớn là một nhiệm vụ phức tạp.

Thuật toán cần hoạt động hiệu quả với mọi thứ tự đầu vào của dữ liệu, đảm bảo rằng kết quả cuối cùng không bị ảnh hưởng bởi cách sắp xếp dữ liệu Điều này có nghĩa là khi sử dụng cùng một tập dữ liệu, việc thay đổi thứ tự đưa vào xử lý cho thuật toán PCDL trong các lần thực hiện khác nhau sẽ không làm thay đổi đáng kể kết quả phân cụm.

 Thuật toán không đòi hỏi những tri thức về cơ sở dữ liệu từ người dùng

 Thuật toán phải làm việc được với cơ sở dữ liệu chứa nhiều lớp đối tượng dữ liệu phức tạp và có tính chất khác nhau

 Thuật toán phải thích nghi với dữ liệu đa chiều: Thuật toán có khả năng áp dụng hiệu quả cho dữ liệu có số khác chiều nhau

Thuật toán phân cụm cần phải dễ hiểu, dễ cài đặt và khả thi để người sử dụng có thể nhận được kết quả rõ ràng và dễ lý giải Điều này có nghĩa là việc giải thích ý nghĩa và ứng dụng của phân cụm là rất quan trọng Nghiên cứu cách thức ứng dụng đạt được mục tiêu sẽ ảnh hưởng đến sự lựa chọn các phương pháp phân cụm.

Các kiểu dữ liệu trong phân cụm

Trong phân cụm, các đối tượng dữ liệu được mô tả qua các thuộc tính, đóng vai trò quan trọng trong việc giải quyết vấn đề phân cụm Việc lựa chọn thuộc tính ảnh hưởng lớn đến kết quả phân cụm, do đó, phân loại các kiểu thuộc tính là cần thiết để nhận diện sự khác biệt giữa các phần tử dữ liệu Các thuật toán phân cụm thường dựa vào hai cấu trúc dữ liệu chính để thực hiện quá trình này.

Ma trận dữ liệu (Data matrix) là cấu trúc gồm n hàng và p cột, trong đó p đại diện cho số thuộc tính của mỗi đối tượng Mỗi hàng trong ma trận biểu thị một đối tượng, và các phần tử trong hàng đó chứa giá trị của các thuộc tính tương ứng với đối tượng đó.

Ma trận phi tương tự (Dissimilarity matrix) là một mảng có cấu trúc n hàng và n cột, trong đó phần tử d(i,j) biểu thị khoảng cách hoặc độ khác biệt giữa hai đối tượng i và j Giá trị d(i,j) luôn không âm; nếu d(i,j) gần bằng 0, điều này cho thấy hai đối tượng i và j khá "gần" nhau, trong khi giá trị d(i,j) lớn hơn cho thấy sự khác biệt đáng kể giữa chúng Đặc biệt, vì d(i,j) = d(j,i) = 0, ma trận phi tương tự có thể được biểu diễn một cách đối xứng.

Hầu hết các thuật toán phân cụm dựa trên cấu trúc ma trận phi tương tự Do đó, để thực hiện phân cụm hiệu quả, dữ liệu cần được chuyển đổi từ dạng ma trận dữ liệu sang dạng ma trận phi tương tự.

Có hai đặc trưng để phân loại: kích thước miền và hệ đo [10]

Cho một CSDL D chứa n đối tượng trong không gian k chiều; x, y, z là các đối tượng thuộc D:

( , , , k ); ( , , k ); ( , , ) k x x x x y y y y z z z z trong đó x i , y i , z i với i = 1, , k là các đặc trưng hoặc thuộc tính tương ứng của các đối tượng x, y, z; như vậy sẽ có các kiểu dữ liệu sau:

1 Kiểu dữ liệu dựa trên kích thước miền

Thuộc tính liên tục đề cập đến miền giá trị vô hạn không đếm được, trong đó giữa hai giá trị có thể tồn tại vô số giá trị khác Ví dụ về các thuộc tính này bao gồm màu sắc, nhiệt độ và cường độ âm thanh.

Thuộc tính rời rạc là những thuộc tính có miền giá trị là tập hữu hạn và có thể đếm được, như các thuộc tính số Một trường hợp đặc biệt của thuộc tính rời rạc là thuộc tính nhị phân, trong đó miền giá trị chỉ bao gồm hai phân tử, ví dụ như Yes/No, True/False, hoặc On/Off.

2 Kiểu dữ liệu dựa trên hệ đo

Thuộc tính định danh là một dạng thuộc tính khái quát của thuộc tính nhị phân, với miền giá trị rời rạc không phân biệt thứ tự và có nhiều hơn hai phần tử Trong đó, nếu x và y là hai đối tượng thuộc tính, ta chỉ có thể xác định mối quan hệ giữa chúng là x ≠ y hoặc x = y.

Thuộc tính có thứ tự là loại thuộc tính định danh có tính thứ tự nhưng không thể định lượng Khi xét hai thuộc tính thứ tự x và y, chúng ta có thể xác định mối quan hệ giữa chúng, bao gồm các trường hợp x ≠ y, x = y, x > y, hoặc x < y.

Thuộc tính khoảng cho phép đo các giá trị theo xấp xỉ tuyến tính, xác định mối quan hệ giữa các thuộc tính Nếu x i lớn hơn y i, ta có thể nói rằng khoảng cách giữa x và y là x i - y i, tương ứng với thuộc tính thứ i.

Việc lựa chọn đơn vị đo cho các thuộc tính có ảnh hưởng lớn đến chất lượng phân cụm, vì đơn vị đo càng nhỏ sẽ làm tăng khoảng cách xác định của thuộc tính, từ đó tác động đến kết quả phân cụm Để giảm thiểu sự phụ thuộc vào đơn vị đo, việc chuẩn hóa dữ liệu là cần thiết, giúp gán trọng số bằng nhau cho tất cả các thuộc tính Tuy nhiên, người sử dụng vẫn có thể điều chỉnh trọng số cho các thuộc tính theo ưu tiên của họ Một phương pháp phổ biến để chuẩn hóa là biến đổi các thuộc tính về dạng không có đơn vị đo.

- Tính độ lệch trung bình:

n       trong đó x 1 f , x nf là giá trị thuộc tính f của n phần tử dữ liệu, và m f là giá trị trung bình của f, được cho như sau: m f 1(x 1 f x 2 f x nf )

- Độ đo được chuẩn hóa: if f if f x m z S

 Thuộc tính nhị phân là thuộc tính có hai giá trị là 0 và 1

 Thuộc tính tính tỷ lệ: Là thuộc tính khoảng nhưng được xác định một cách tương đối so với điểm mốc

Trong các thuộc tính trình bày, thuộc tính định danh và thuộc tính có thứ tự được gọi là thuộc tính hạng mục, trong khi thuộc tính khoảng cách và thuộc tính tỷ lệ được gọi là thuộc tính số Dữ liệu không gian, một loại dữ liệu có thuộc tính số khái quát trong không gian nhiều chiều, mô tả thông tin liên quan đến không gian chứa đựng các đối tượng, bao gồm thông tin về hình học, quan hệ metric và quan hệ hướng Dữ liệu không gian có thể tồn tại dưới dạng dữ liệu liên tục hoặc rời rạc.

- Dữ liệu không gian liên tục: Bao chứa một vùng không gian

Dữ liệu không gian rời rạc là các điểm trong không gian nhiều chiều, cho phép xác định khoảng cách giữa các đối tượng dữ liệu Việc này giúp phân tích và so sánh các dữ liệu một cách hiệu quả trong các ứng dụng khác nhau.

Phép đo độ tương tự và khoảng cách đối với các kiểu dữ liệu

1 Khái niệm tương tự, phi tương tự

Khi xác định các đặc tính của dữ liệu, cần tìm phương pháp phù hợp để đo khoảng cách giữa các đối tượng, hay còn gọi là phép đo tương tự dữ liệu Các hàm này dùng để đo sự giống nhau giữa các cặp đối tượng, thường tính toán độ tương tự hoặc độ phi tương tự Giá trị của hàm đo tương tự càng cao thì sự giống nhau giữa các đối tượng càng lớn, trong khi hàm đo phi tương tự tỉ lệ nghịch với hàm đo tương tự Độ tương tự hoặc phi tương tự có thể được xác định qua nhiều phương pháp, thường được đo bằng khoảng cách giữa các đối tượng Tất cả các phương pháp đo độ tương tự đều phụ thuộc vào loại thuộc tính mà con người phân tích; ví dụ, thuộc tính hạng mục không sử dụng độ đo khoảng cách mà áp dụng một hướng hình học của dữ liệu.

Tất cả các độ đo được xác định trong không gian metric, trong đó bất kỳ metric nào cũng là một độ đo, nhưng không phải mọi độ đo đều là metric Thuật ngữ "độ đo" ở đây ám chỉ đến hàm tính độ tương tự hoặc độ phi tương tự Một không gian metric là tập hợp có khả năng xác định "khoảng cách" giữa từng cặp phần tử, với những tính chất tương tự như khoảng cách hình học Do đó, một tập X, bao gồm các đối tượng dữ liệu trong CSDL D, được gọi là không gian metric nếu đáp ứng các tiêu chí về khoảng cách.

- Với mỗi cặp phần tử x, y thuộc X đều xác định theo một quy tắc nào đó, một số thực δ(x,y) được gọi là khoảng cách giữa x và y

- Quy tắc nói trên thỏa mãn hệ tính chất sau:

(ii) δ(x,y) = 0 nếu x= y ; (iii) δ(x,y) = δ(y,x) với mọi x,y ; (iv) δ(x,y) ≤ δ(x,z) + δ(z,y) ; Hàm δ(x,y) được gọi là một metric của không gian Các phần tử của X được gọi là các điểm của không gian này

Một yếu tố quan trọng trong thuật toán phân cụm là cách đo khoảng cách giữa hai điểm dữ liệu Khi các thành phần của vectơ dữ liệu thuộc cùng một đơn vị, khoảng cách Euclidean có thể được sử dụng để xác định nhóm dữ liệu tương đồng Tuy nhiên, cần lưu ý rằng khoảng cách Euclidean không phải lúc nào cũng mang lại kết quả chính xác.

Vấn đề không nằm ở đồ thị mà ở công thức toán học kết hợp khoảng cách giữa các thành phần dữ liệu vectơ Các công thức khác nhau sẽ tạo ra những cụm phân loại khác nhau, ảnh hưởng đến hiệu quả của việc phân cụm.

Các thuật toán phân cụm yêu cầu các phép đo khoảng cách hoặc độ tương tự giữa hai đối tượng Để đảm bảo hiệu quả, kiến thức miền cần được áp dụng nhằm xác định phép đo khoảng cách phù hợp cho từng ứng dụng cụ thể Hiện nay, các phép đo này có nhiều mức độ khác nhau tùy thuộc vào từng trường hợp cụ thể.

 Khoảng cách Minkowski được định nghĩa như sau :

Trong đó x, y là hai đối tượng với n là số lượng thuộc tính, x( ,x x 1 2 , ,x n ) và y = (y , 1 y 2 , ,y n ); dist là kích thước của dữ liệu

 n i i i q x y x y dist là khoảng cách giữa hai đối tượng trong trường hợp đặc biệt q = 2

 n i i i q x y x y dist là khoảng cách trung bình giữa hai đối tượng trong trường hợp đặc biệt q=1

Trong trường hợp q = ∞, hữu ích để định nghĩa các đối tượng phi tương tự nếu chúng khác nhau chỉ trong một kích thước biến đổi

 Bình phương khoảng cách Euclidean

 Tỉ lệ khác nhau Giả sử các biến là tuyệt đối

Khoảng cách Euclidean là phương pháp phổ biến để đo độ tương tự trong khoảng cách Minkowski Khi xem xét hai trường hợp C1 và C2 với các biến liên tục x và y, ta có các giá trị (x1, y1) và (x2, y2) Điều này cho phép chúng ta vẽ đồ thị của hai trường hợp trong không gian x-y, như minh họa trong Hình 2.2.

Không có nguyên tắc tổng quát nào để chọn phép đo cho mọi bài toán Một phương pháp đơn giản để đo độ tương tự giữa các nhóm là thay thế nhóm cho thuộc tính thứ i của đối tượng đo, chẳng hạn như sử dụng khoảng cách Euclidean, khoảng cách Manhattan hoặc bình phương Mahalanobis Ví dụ, nếu nhóm A có vectơ trung bình A = [x a1, x a2, , x an] và nhóm B có vectơ trung bình B = [x b1, x b2, , x bn], thì khoảng cách Euclidean giữa hai nhóm có thể được định nghĩa rõ ràng.

Một cách tiếp cận khác để xác định khoảng cách giữa phần tử gần nhất hoặc phần tử xa nhất là sử dụng các thuật toán phân cụm phân cấp như liên kết đơn và liên kết đầy đủ Tuy nhiên, vấn đề chính của cả hai phương pháp này là không thể cảm nhận được mâu thuẫn định lượng và không tính toán các yếu tố của các phần tử trong một nhóm.

Cách tiếp cận trung bình nhóm cho phép so sánh sự tương đồng giữa các nhóm bằng cách tính toán giá trị trung bình của các phép đo giữa các đối tượng trong từng nhóm Cụ thể, trung bình phi tương tự giữa nhóm A và B được xác định thông qua việc lấy giá trị trung bình của tất cả các phép đo giữa các cặp đối tượng trong hai nhóm khác nhau.

Trong đó, n là tổng số đối tượng trong các cặp, với n = nx × ny, trong đó nx và ny lần lượt là số lượng đối tượng trong x_i và y_i Độ tương tự giữa một cặp đối tượng x_i và y_i được ký hiệu là d(xi, yi), với xi thuộc tập A và yi thuộc tập B Hàm độ tương tự có thể dễ dàng chuyển đổi sang hàm phi tương tự bằng cách thay thế cho nhau.

Tất cả các phép đo được đề cập chủ yếu áp dụng cho các biến liên tục Đối với các biến danh nghĩa, "phép đo khoảng cách" sẽ bằng 0 khi các trường hợp có cùng giá trị danh nghĩa và bằng 1 khi các trường hợp có giá trị khác nhau, hoặc có thể áp dụng độ đo tương tự với 1 cho các trường hợp có cùng giá trị danh nghĩa.

Khi xem xét p biến định danh, có thể đánh giá độ tương tự giữa các trường hợp dựa trên số lượng biến có giá trị giống nhau Để thực hiện điều này, một biến nhị phân mới được tạo ra từ mỗi biến danh nghĩa, trong đó các nhãn danh nghĩa được nhóm thành hai lớp: một lớp mang giá trị 1 và lớp còn lại mang giá trị 0 Tiến hành xây dựng và phân tích bảng ngẫu nhiên các sự kiện có thể xảy ra, đồng thời định nghĩa các thuộc tính của đối tượng x và y thông qua các biến số nhị phân 0 và 1.

Trong đó, a là tổng số thuộc tính có giá trị 1 trong hai đối tượng x và y; b là tổng số thuộc tính có giá trị 1 trong x và 0 trong y; c là tổng số thuộc tính có giá trị 0 trong x và 1 trong y; d là tổng số thuộc tính có giá trị 0 trong cả hai đối tượng x và y; p là tổng tất cả các thuộc tính của hai đối tượng x và y Các phép đo độ tương tự giữa các trường hợp với dữ liệu thuộc tính nhị phân được thực hiện theo những cách sau:

 Hệ số đối sánh đơn giản: ( , ) a d d x y p

  ; cả hai đối tượng có vai trò như nhau, nghĩa là chúng đối xứng và có cùng trọng số

Tham số này loại bỏ số lượng các đối sánh 0-0, được áp dụng khi trọng số của các thuộc tính có giá trị 1 của đối tượng dữ liệu cao hơn đáng kể so với các thuộc tính có giá trị 0 Do đó, thuộc tính nhị phân ở đây mang tính không đối xứng.

, 2 Các giá trị được định nghĩa trong khoảng [0, 1] và có thể biến đổi sang độ đo phi tương tự bằng biểu thức: ds x y( , ) 1 d x y( , ).

4 Thuộc tính định danh Độ đo phi tương tự giữa hai đối tượng x và y được định nghĩa như sau:

  p m y p x d ,   trong đó, m là số thuộc tính đối sánh tương ứng trùng nhau, p là tổng số các thuộc tính

5 Thuộc tính có thứ tự

Phép đo độ phi tương tự giữa các đối tượng dữ liệu với thuộc tính thứ tự được thực hiện bằng cách xác định thuộc tính thứ tự i có M i giá trị, trong đó M i đại diện cho kích thước miền giá trị.

 Các trạng thái M i được sắp xếp thứ tự như nhau: [1…M i ], có thể thay thế mỗi giá trị của thuộc tính bằng giá trị cùng loại r i với r i  {1…M i }

Các hướng tiếp cận của bài toán phân cụm dữ liệu

Các phương pháp phân cụm dữ liệu được chia thành bốn nhóm chính: phương pháp phân hoạch, phương pháp phân cấp, phương pháp dựa trên mật độ và phương pháp dựa trên lưới Bài viết này sẽ chỉ giới thiệu một số thuật toán tiêu biểu cho từng phương pháp.

2.6.1 Phương pháp phân hoạch (Partitioning Methods)

Thuật toán phân hoạch là một phương pháp phân cụm lâu đời và phổ biến trong lĩnh vực khai phá dữ liệu Phân cụm không thứ bậc, hay còn gọi là phân cụm theo phân hoạch, hoạt động bằng cách xác định các đối tượng đại diện cho các cụm trước Mỗi đối tượng dữ liệu sẽ được phân vào cụm mà khoảng cách đến đối tượng đại diện là nhỏ nhất Sau mỗi bước, đối tượng đại diện của các cụm có thể được cập nhật dựa trên các đối tượng dữ liệu trong cụm Mặc dù có nhiều cách biểu diễn khác nhau cho các cụm dữ liệu, nhưng các thuật toán này đều chia sẻ phương pháp chung trong việc tính toán giải pháp.

Trong bài viết này, chúng ta sẽ tìm hiểu về thuật toán phân hoạch cho tập D gồm n đối tượng và tham số đầu vào k do người dùng xác định Thuật toán sẽ chọn k đối tượng đại diện cho k cụm, có thể được chọn ngẫu nhiên hoặc theo tiêu chuẩn của người sử dụng Đối tượng dữ liệu q sẽ được phân vào cụm có đối tượng đại diện gần nhất Sau đó, đối tượng đại diện của mỗi cụm sẽ được tính toán lại dựa trên các điểm dữ liệu thuộc cụm đó, với mục tiêu giảm thiểu khoảng cách từ đối tượng đại diện đến điểm xa nhất Hình ảnh minh họa quá trình phân hoạch với k=3, bắt đầu với 3 đối tượng đại diện được chọn ngẫu nhiên Mỗi đối tượng dữ liệu sẽ được phân vào cụm mà khoảng cách tới đối tượng đại diện là nhỏ nhất Quá trình này sẽ lặp lại cho đến khi các đối tượng đại diện không còn thay đổi.

Hình 2.4: Ví dụ quá trình phân hoạch với k=3

Mô hình thuật toán phân cụm phân hoạch Đầu vào: Số cụm k và CSDL D gồm n đối tượng Đầu ra: tập các cụm

1 Chọn ngẫu nhiên k tâm bất kỳ O 0 Đặt i = 0

2 Với mỗi điểm dữ liệu p  D thì tìm đối tượng đại diện gần nhất và đưa p vào cụm đó

3 Tính lại đối tượng đại diện của các cụm O i+1 dựa vào các điểm dữ liệu thuộc cụm

4 Nếu O i+1 = O i thì dừng lại Trong trường hợp ngược lại i = i+1 và quay lại 2

, o2 (i),…, o k (i) } là tập các đối tượng đại diện của k cụm

Phương pháp phân hoạch yêu cầu số cụm được xác định trước, thích hợp cho việc tìm kiếm các cụm trong không gian 2D Nó xem xét khoảng cách giữa các điểm dữ liệu để xác định mối quan hệ gần gũi hay không giữa chúng Tuy nhiên, nhược điểm của phương pháp này là cần phải xác định tham số k và không hiệu quả với các cụm có hình dạng phức tạp hoặc mật độ dày đặc Hơn nữa, thuật toán có độ phức tạp tính toán cao khi tìm kiếm kết quả tối ưu.

Các thuật toán trong phương pháp phân hoạch: k-means, PAM (Partitioning

Around Medoids), CLARA (Clustering LARge Application), CLARANS

(Clustering Large Applications based upon RANdomized Search), Dưới đây trình bày 3 trong số các thuật toán điển hình trong phương pháp phân hoạch

Thuật ngữ "k-means" được J MacQueen giới thiệu vào năm 1967, phát triển từ ý tưởng của H Steinhaus vào năm 1956 Thuật toán này sử dụng giá trị trung bình của các đối tượng trong cụm làm tâm cụm, với mục tiêu phân nhóm các đối tượng vào K cụm (K là số cụm đã được xác định trước, K là số nguyên dương) Ý tưởng chính của thuật toán K-Means là tối thiểu hóa tổng bình phương khoảng cách giữa các đối tượng và tâm cụm.

Tổng bình phương khoảng cách giữa các đối tượng đến tâm cụm còn gọi là hàm tiêu chuẩn (criterion function) được tính bởi công thức:

Thuật toán k-means được sử dụng để phân nhóm dữ liệu, trong đó x là một điểm và m i là giá trị trung bình của cụm C i Đầu vào của thuật toán bao gồm số lượng cụm k và cơ sở dữ liệu với n đối tượng, trong khi đầu ra là tập k cụm với giá trị hàm tiêu chuẩn E đạt mức nhỏ nhất.

B1: Khởi tạo k điểm trung tâm cụm bằng cách chọn k đối tượng tùy ý B2: Lặp các bước

B2.1 Gán mỗi đối tượng vào cụm có trung tâm gần đối tượng đó nhất, hình thành một tập các cụm mới

B2.2 Tính lại giá trị E của mỗi cụm theo các đối tượng mới thu được sau bước B2.1

B3 Thuật toán dừng khi giá trị E không thay đổi

Trong bước 1, chọn ngẫu nhiên k điểm từ cơ sở dữ liệu làm điểm tâm cho k cụm Sau đó, tính khoảng cách từ điểm tâm đến các điểm khác và gán các điểm gần hơn vào cụm tương ứng Cuối cùng, cập nhật giá trị hàm tiêu chuẩn để phản ánh sự phân cụm.

E, nếu giá trị mới nhỏ hơn giá trị cũ thì thay đổi giá trị E Thuật toán lặp lại các bước cho đến khi giá trị E không thay đổi nữa Để tính khoảng cách giữa điểm tâm tới các điểm, dùng độ đo khoảng cách Euclidean

Thuật toán k-means chỉ áp dụng khi trung bình của một cụm được xác định

Hình 2.6: Ví dụ về một số hình dạng cụm dữ liệu được khám phá bởi K-means

Thuật toán có nhược điểm là chỉ áp dụng cho dữ liệu số và phát hiện các cụm hình cầu, không phù hợp với các cụm không lồi hoặc có hình dạng khác biệt Nó nhạy cảm với các phần tử ngoại lai, nhiễu và cận biên, có thể làm sai lệch giá trị trung bình Chọn lựa điểm trung tâm ban đầu cũng ảnh hưởng lớn đến chất lượng cụm Hiện tại, chưa có giải pháp tối ưu nào để xác định các tham số đầu vào; phương pháp phổ biến nhất là thử nghiệm với nhiều giá trị k khác nhau để tìm ra giải pháp tốt nhất.

K=2 Chọn k đối tượng trung tâm tùy ý

Gán mỗi đối tượng vào các cụm

Cập nhật lại trọng tâm Gán lại các đối tượng

Cập nhật lại trọng tâm Gán lại các đối tượng

Thuật toán k-means được xếp vào lớp bài toán NP, do vậy để phát triển thuật toán này người ta kết hợp với phỏng đoán (heuristic)

Trong quá trình xử lý, thuật toán sử dụng cây K-D tree để cải thiện tốc độ tìm kiếm dữ liệu Phương pháp này được áp dụng rộng rãi trong các công cụ phân cụm phổ biến, phục vụ cho nhiều ứng dụng trong lĩnh vực khoa học và công nghiệp.

Mỗi cụm trong phân cụm được biểu diễn bởi một điểm trọng tâm, tạo ra một giải pháp đơn giản và linh hoạt cho mọi loại thuộc tính Khi một đối tượng được chọn làm trọng tâm, cụm sẽ được xác định là tập hợp các điểm gần gũi với điểm trọng tâm đó Mục tiêu chính là tính toán khoảng cách trung bình hoặc áp dụng hàm tương tự giữa các đối tượng và trọng tâm của chúng.

Thuật toán k-medoids tương tự như k-means, với k đại diện cho số lượng đối tượng được chọn ngẫu nhiên làm trung tâm cụm Một phiên bản phổ biến của k-medoids là thuật toán PAM (Partitioning Around Medoids), bao gồm các bước cụ thể để phân chia dữ liệu thành các cụm dựa trên các medoids.

B1: Lấy ngẫu nhiên k đối tượng tùy ý làm trọng tâm của k cụm (n>k)

B2.1 Gán các đối tượng vào cụm mà có độ tương tự gần với trọng tâm của cụm đó

B2.2 Chọn ngẫu nhiên đối tượng O’ thuộc n-k B2.3 Tính tổng chi phí S để chuyển từ điểm trọng tâm cũ sang O’

B2.4 Nếu S

Ngày đăng: 17/12/2023, 01:54

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN