Thuật toán phân cụm dữ liệu: Tổng quan và ứng dụng trong đời sống

MỤC LỤC

Một số kiểu dữ liệu

    Thuật toán phân cụm dữ liệu có nhất rất nhiều liên kết với các loại dữ liệu. Vì vậy, sự hiểu biết về quy mô, bình thường hoá, và gần nhau là rất quan trọng trong việc giải thích các kết quả của thuật toán phân cụm dữ liệu. Anderberg, 1973) - một thuộc tớnh duy nhất cú thể được gừ như nhị phõn, rời rạc, hoặc liên tục. Chúng ta xem xét các dữ liệu tập hợp với một số hữu hạn các điểm dữ liệu, một thuộc tính trên danh nghĩa của các điểm dữ liệu trong tập dữ liệu có thể chỉ có một số hữu hạn các giá trị; như vậy, các loại danh nghĩa cũng là một trường hợp đặc biệt của kiểu rời rạc.

    Hình 2. Biểu đồ các dạng dữ liệu
    Hình 2. Biểu đồ các dạng dữ liệu

    Phép biến đổi và chuẩn hóa dữ liệu

    • Biến đổi dữ liệu

      BIRCH thực hiện tính toán khá tốt, độ phức tạp tính toán của BIRCH là tuyến tính tỷ lệ với số các đối tượng, do BIRCH chỉ duyệt toàn bộ dữ liệu một lần với một lần quét thêm tùy chọn( thực hiện phân cụm lại các nút lá cây của CF), có thể được đo trong thời gian O(n) với n là số đối tượng dữ liệu. Để xử lý được các CSDL lớn, CURE sử dụng ngẫu nhiên và phân hoạch, một mẫu là được xác định ngẫu nhiên trước khi được phân hoạch, và sau đó được tiến hành phân cụm trên mỗi phân hoạch, như vậy mỗi phân hoạch là từng phần đã được phân cụm, các cụm thu hoạch, như vậy mỗi phân hoach là từng phần đã được phân cụm, các cụm thu được lại được phân cụm lần thứ hai để thu được các cụm con mong muốn, nhưng mẫu ngẫu nhiên không nhất thiết đưa ra một mô tả tốt cho toàn bộ tập dữ liệu.

      Bảng  4.1  Một  vài  phép  chuẩn  hóa  dữ  liệu,  nơi  x * j ,  R * j  và   * j  được  định  nghĩa  trong biểu thức 4.3
      Bảng 4.1 Một vài phép chuẩn hóa dữ liệu, nơi x * j , R * j và  * j được định nghĩa trong biểu thức 4.3

      Thuật toán phân cụm dữ liệu mờ

      Thuật toán FCM

      Như vậy FCM sử dụng phép lặp để tối ưu hàm mục tiêu, dựa trên đo đạc độ tương tự có trọng số giưa xk và cụm trung tâm Vi, sau mỗi vòng lặp, thuật toán tính toán và cập nhật phân tử ujk trong ma trân phân hoạch U. Thuật toán FCM tính toán ma trận phân hoạch U và kích thước của các cụm để thu được các mô hình mờ từ ma trận này.

      Repeat j:=j+1

      Thuật toán εFCM

      Output : Các cụm dữ liệu sao cho hàm mục tiêu trong (2) đạt giá trị cực tiểu;.

      MSE’=MSE’

      Thuật toán PAM

      Thuật toán PAM là thuật toán mở rộng của thuật toán K-means nhằm có khả năng xử lý hiệu quả đối với dữ liệu nhiễu hoặc phần tử ngoại lai, PAM sử dụng các đối tượng medoid để biểu diễn cho các cụm dữ liệu, một đối tượng medoid là đối tượng đặt tại vị trí trung tâm nhất bên trong mỗi cụm. Giả sử Oj là đối tượng không phải medoid mà Om là một đối tượng medoid, khi đó ta nói Oj thuộc về cụm có đối tượng medoid là Om làm đại diện nếu d(Oj, Om) = minOe(Oj, Oe); trong đó d(Oj, Om) là độ phi tương tự giữa Oj và Oe, minOe là giá trị nhỏ nhất của độ phi tương tự giữa Oj và tất cả các đối tượng medoid của các cụm dữ liệu.

      Thuật toán CLARA

      Sau mỗi bước thực hiện , PAM cố gắng hoán chuyển giữa đối tượng Medoid Om và một đối tượng Op, không phải là medoid, miễn là sự hoán chuyển này nhằm cải tiến chất lượng của phân cụm, quá trình này kết thúc khi chất lượng phân cụm không thay đổi. Tính đố phi tương tự trung bình cho phân hoạch các đối tượng thu được ở bước trước, nếu giá rị này bé hơn giá trị tối thiểu hiện thời thì sử dụng giá trị này thay cho giá trị tối thiểu ở trạng thái trước, như vậy, tập k đối tượng medoid xác định ở bước này là tốt nhất cho đến thời điểm này.

      Thuật toán CLARANS

      Mỗi đối tượng được gán cho một tâm medoid của cụm nếu khoảng cách từ trọng tâm của đối tượng đó tới tâm medoid của nó là nhỏ nhất. Cuối cùng định nghĩa một cụm tới tâm mediod mi tương ứng là một tập con các đối tượng trong O với medoid(o) = mi.

      Thuật toán phân cụm dữ liệu dựa vào tìm kiếm 1 Thuật toán di truyền (GAS)

      J- Means

      S2 (điểm chiếm đóng) Tìm điểm trống, nghĩa là, điểm trong D không trùng với một cụm trọng tâm trong một dung sai nhỏ;. Thêm một cụm mới centroid Z k+1 tại một số điểm trống xj vị trí và tìm thấy những chỉ số i của trọng tâm tốt nhất để xóa; cho vij biểu sự thay đổi trong giá trị hàm mục tiêu; (b) Giữ tốt nhất.

      Thuật toán phân cụm dữ liệu dựa vào lưới 1 STING

      Thuật toán CLIQUE

      Nó phân hoạch tập dữ liệu thành các hình hộp chữ nhật và tìm các hình hộp chữ nhật đặc, nghĩa là các hình hộp này chứa một số các đối tượng dữ liệu trong số các đối tượng láng giếng cho trước. Phương pháp bắt đầu nhận dạng các cells đặc đơn chiều trong không gian dữ liệu và tim kiếm phân bố của dữ liệu, tiếp đến CLINQUE lần lượt tìm các hình chữ nhật 2 chiều, 3 chiều,…., cho đến khi hình hộp chữ nhật đặc k chiều được tìm thấy, độ phức tạp tính toán của CLIQUE là O(n).

      Thuật toán WaveCluster

      Tuy nhiên , CLINQUE được bắt đầu bằng cách tiếp cận đơn giản do đó chính xác của kết quả phân cụm có thể bị ảnh hưởng dẫn tới chất lượng của các phương pháp này có thể giảm. - Xử lý tập dữ liệu lớn có hiệu quả, khám phá các cụm có hình dạng bất kỳ, xử lý phần tử ngoại lai, mẫn cảm với thứ tự vào, và không phụ thuộc vào các tham số vào như số các cụm hoặc bán kính láng giềng.

      Thuật toán phân cụm dữ liệu dựa vào mật độ 1 Thuật toán DBSCAN

      Thuật toán OPTICS

      Đõy là thứ tự mụ tả cấu trỳc phõn dữ liệu cụm dựa trên mật độ của dữ liệu, nó chứa thông tin tương ứng với phân cụm dựa trên mật độ từ một dãy các tham số được thiết lập và tạo thứ tự của các đối tượng trong CSDL, đồng thời lưu trữ khoản cỏch lừi và khoảng cỏch liờn lạc phù hợp của mỗi đối tượng. DENCLUDE đưa ra cách tiếp cận khác với các thuật toán phân cụm dựa trên mật độ trước đó, cách tiếp cận này xem xét mô hình được sử dụng một công thức toán để mô tả mỗi điểm dữ liệu sẽ ảnh hưởng trong mô hình như thế nào được gọi là hàm ảnh hưởng có thể xem như một hàm mà mô tả ảnh hưởng của điểm dữ liệu với các đối tượng làng giếng của nó.

      Thuật toán phân cụm dữ liệu dựa trên mẫu 1 Thuật toán EM

      Định nghĩa Phân đoạn ảnh

      Jain và Dubes[1981], sau khi Fu và Mui[1981] phát hiện ra 3 kỹ thuật sử dụng để phân đoạn ảnh từ một ảnh đầu vào là : Kỹ thuật phân đoạn ảnh dựa trên miền, Kỹ thuật phân đoạn ảnh dựa trên biên,và kỹ thuật phân đoạn ảnh bằng phân cụm dữ liệu. Nhiều phân đoạn sử dụng cả hai phép đo quang phổ (ví dụ như Máy quét đa quang phổ được sử dụng trong viễn thám) và không gian (dựa trên vị trí điểm ảnh trên một ảnh phẳng).Phép đo ở mỗi điểm ảnh từ đó tương ứng trực tiếp tới nội dung của một mẫu.

      Hình  26.    Nhị  phân  hóa  thông  qua  ngưỡng.  (a):  Ảnh  thang  đo  xám  gốc.  (b)  Biểu đồ mức xám
      Hình 26. Nhị phân hóa thông qua ngưỡng. (a): Ảnh thang đo xám gốc. (b) Biểu đồ mức xám

      Phân đoạn ảnh dựa vào phân cụm dữ liệu

      Các tính năng của cơ bản của khái niệm phân cụm dữ đặc biệt hấp dẫn cho các phân khúc hình ảnh từ nhiều (không giống như đo cường độ) các phép đo tại mỗi điểm ảnh có cùng một đơn vị (chiều dài); này sẽ làm cho quảng cáo hoc biến đổi hoặc chuẩn hóa hình ảnh tính năng không cần thiết nếu mục tiêu của họ là để áp đặt bằng rộng trên các tính năng đó. [1996] mô tả một thuật toán clustering partitional và một kỹ thuật ghi nhãn hướng dẫn sử dụng để xác định các lớp vật liệu (ví dụ, não tủy chất lỏng, chất trắng, bắp Khối, khối u) trong các hình ảnh được đăng ký của một con người có được ở đầu năm kênh khác nhau hình ảnh cộng hưởng từ (yielding một năm chiều tính năng vector tại mỗi điểm ảnh).

      Hình 27. Phân đoạn ảnh bằng phân cụm dữ liệu.
      Hình 27. Phân đoạn ảnh bằng phân cụm dữ liệu.

      Nhận dạng ký tự

      Phân cụm được thực hiện bằng cách sử dụng chương trình CLUSTER mô tả ở trên [Jain và Dubes 1988], trong đó véc tơ tính năng cho một chữ số của nó là N lân cận đến con số của cùng một lớp. Khi đại diện cho một cụm chữ số của một mẫu thử nghiệm duy nhất, tốt nhất nhận diện on-line kết quả được công nhận đã thu được bằng cách sử dụng các chữ số đó là gần nhất để tới trung tâm cụm's.

      Truy hồi thông tin

      Biểu diễn mẫu

      Ở đây, I.5.1.1 tương ứng với các nút có nhãn xác định, và I.5.1.6 là viết tắt của nút có nhãn structural.Ina thời trang tương tự, tất cả các cấp, các nút thứ tư trong cây có thể được gắn nhãn là cần thiết. Hiện nay, các đại diện được tạo ra bằng tay bằng cách quét các bảng nội dung của sách trong lĩnh vực khoa học máy tính như ACM cây phân loại CR cung cấp kiến thức về cuốn sách khoa học máy tính.

      Phép đo tương tự

      Tương tự như vậy, chúng tôi có thể đại diện cho chương khác trong cuốn sách này như các phép tuyển trọng dựa trên các bảng nội dung và phân loại cây ACM CR. Một biện pháp đối xứng của tương [Murty và Jain 1995] được sử dụng để xây dựng một ma trận tương tự có kích thước 100 x 100 tương ứng với 100 cuốn sách được sử dụng trong các thí nghiệm.

      Một giải thuật cho phân cụm dữ liệu sách

      Những cụm sách và mô tả cluster tương ứng có thể được sử dụng như sau: Nếu một người sử dụng đang tìm kiếm sách, nói, về hình ảnh phân khúc (I46), sau đó chúng ta chọn cụm C1 vì đại diện của mình có chứa I46 chuỗi. Nó được quan sát thấy sự phân công của bốn sách các cụm tương ứng là có ý nghĩa, chứng tỏ rằng kiến thức dựa trên phân cụm dữ liệu rất hữu ích trong việc giải quyết các vấn đề liên quan đến lấy tài liệu.

      Khai phá dữ liệu

        Điều khoản sử dụng trong bối cảnh cụ thể (như tập tin trong bối cảnh nộp đơn sáng chế, hơn là một tập tin máy tính) sẽ xuất hiện trong các tài liệu phù hợp với điều kiện thích hợp khác cho rằng bằng sáng chế (bối cảnh đó, phát minh ra) và do đó sẽ có xu hướng cụm lại với nhau. Tiến bộ trong công nghệ khoan và các phương pháp thu thập dữ liệu có dẫn đến các công ty dầu mỏ và ancillaries của họ thu thập một lượng lớn địa vật lý / dữ liệu địa chất từ giếng sản xuất và các trang web thăm dò, và sau đó tổ chức chúng thành các cơ sở dữ liệu lớn.

        Hình 36. Mã vùng so với bản đồ đơn vị địa tầng  một phần của khu vực
        Hình 36. Mã vùng so với bản đồ đơn vị địa tầng một phần của khu vực