1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân cụm mờ sử dụng tập mờ loại hai khoảng

67 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Cụm Mờ Sử Dụng Tập Mờ Loại Hai Khoảng
Tác giả Nguyễn Thị Thi
Người hướng dẫn PGS.TS. Trần Đình Khang
Trường học Đại học Bách Khoa Hà Nội
Chuyên ngành Công nghệ thông tin
Thể loại đồ án tốt nghiệp
Năm xuất bản 2010
Thành phố Hà Nội
Định dạng
Số trang 67
Dung lượng 3,27 MB

Cấu trúc

  • CHƯƠNG 1 CƠ SỞ LÝ THUYẾT (11)
    • 1.1. Tổng quan về phân cụm dữ liệu (11)
      • 1.1.1. Giới thiệu về phân cụm dữ liệu (11)
      • 1.1.2. Các ứng dụng của phân cụm dữ liệu (13)
      • 1.1.3. Kiểu dữ liệu và độ đo tương tự (13)
      • 1.1.4. Khái niệm về tương tự và phi tương tự (14)
      • 1.1.5. Định nghĩa phân cụm (16)
    • 1.2. Những kỹ thuật tiếp cận trong phân cụm dữ liệu (17)
      • 1.2.1. Phân cụm phân hoạch (17)
      • 1.2.2. Phân cụm dữ liệu phân cấp (17)
      • 1.2.3. Phân cụm dữ liệu dựa trên mật độ (18)
      • 1.2.4. Phân cụm dữ liệu dựa trên lưới (19)
      • 1.2.5. Phân cụm dữ liệu dựa trên mô hình (20)
      • 1.2.6. Phân cụm dữ liệu có ràng buộc (20)
      • 1.2.7. Các yêu cầu cần thiết cho tạo dựng kỹ thuật phân cụm dữ liệu (21)
    • 1.3. Lý thuyết tập mờ (22)
      • 1.3.1. Tập mờ loại một (22)
      • 1.3.2. Các phép toán tập hợp (23)
      • 1.3.3. Tập mờ loại hai (25)
      • 1.3.4. Tập mờ loại hai khoảng (Interval type-2 Fuzzy sets) (28)
      • 1.3.5. Tập mờ loại hai nhúng (29)
      • 1.3.6. Tập mờ loại một nhúng (30)
      • 1.3.7. Biểu diễn tập mờ loại hai theo các tập mờ nhúng (30)
    • 1.4. Kết luận (31)
  • CHƯƠNG 2 ỨNG DỤNG TẬP MỜ LOẠI HAI KHOẢNG VÀO PHÂN CỤM DỮ LIỆU (32)
    • 2.1. Định nghĩa phân cụm dựa vào khái niệm tập mờ (32)
    • 2.2. Vấn đề phân cụm mờ và ứng dụng trong thực tế (32)
    • 2.3. Thuật toán K-means (33)
    • 2.4. Thuật toán FCM (34)
      • 2.4.1. Hàm mục tiêu (34)
      • 2.4.2. Giải thuật FCM (34)
      • 2.4.3. Tham số mờ (m) trong giải thuật FCM (35)
    • 2.5. FCM với tập mờ loại hai khoảng (38)
      • 2.5.1. Sơ đồ giải thuật FCM cho tập mờ loại hai khoảng (38)
      • 2.5.2. Cập nhật tâm cụm (40)
    • 2.6. Kết luận.......................................................................................................43 Sinh viên thực hiện: Nguyễn Thị Thi -K50-HTTT (45)
    • 3.1. Biểu đồ phân rã chức năng (46)
      • 3.1.1. Chức năng nhập dữ liệu (47)
      • 3.1.2. Chức năng kiểm tra nhập liệu (47)
      • 3.1.3. Chức năng xử lý dữ liệu (47)
      • 3.1.4. Chức năng hiển thị kết quả phân cụm (47)
    • 3.2. Biểu đồ mức khung cảnh (48)
    • 3.3. Môi trường và công cụ phát triển (48)
    • 3.4. Biểu đồ hoạt động của chương trình chính (Activity Diagram) (49)
    • 3.5. Một số module quan trọng (50)
      • 3.5.1. Module khởi tạo tâm ban đầu (50)
      • 3.5.2. Module tính tâm trái và tâm phải của quá trình cập nhật tâm cụm (51)
    • 3.6. Thiết kết giao diện chương trình (0)
      • 3.6.1. Hệ thống menu (55)
      • 3.6.2. Hệ thống các nút bấm (56)
    • 3.7. File xuất ra của hệ thống (57)
    • 3.8. Kết luận (57)
  • CHƯƠNG 4 KẾT QUẢ VÀ ĐÁNH GIÁ (46)
    • 4.1. Các kết quả (58)
      • 4.4.1. Cụm hình vuông có kích thước giống nhau (58)
      • 4.1.2. Cụm hình vuông có kích thước khác nhau (59)
      • 4.1.3. Tập dữ liệu đa chiều (61)
    • 4.2. Đánh giá kết quả (65)
    • 4.3. Các vấn đề tồn tại và hướng phát triển (65)
    • 4.4. Kết luận (65)
  • TÀI LIỆU THAM KHẢO (67)

Nội dung

CƠ SỞ LÝ THUYẾT

Tổng quan về phân cụm dữ liệu

1.1.1 Giới thiệu về phân cụm dữ liệu Ở một mức cơ bản nhất, ta có khái niệm về phân cụm như sau:

"Phân cụm dữ liệu là một kỹ thuật trong DATA MINING, nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong tập dữ liệu lớn, từ đó cung cấp thông tin, tri thức hữu ích cho ra quyết định"

Như vậy, Phân cụm là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm "tương tự" (Similar) với nhau và các phần tử trong các cụm khác nhau sẽ "phi tương tự" (Dissimilar) với nhau Số các cụm dữ liệu được phân ở đây có thể được xác định trước theo kinh nghiệm hoặc có thể được tự động xác định của phương pháp phân cụm.

Trong học máy, phân cụm dữ liệu được xem là vấn đề học không có giám sát, vì nó phải đi giải quyết vấn đề tìm một cấu trúc trong tập hợp các dữ liệu chưa biết trước các thông tin về lớp hay các thông tin về tập ví dụ huấn luyện Trong nhiều trường hợp, khi phân lớp (Classification) được xem vấn đề học có giám sát thì phân cụm dữ liệu là một bước trong phân lớp dữ liệu, trong đó Phân cụm dữ liệu sẽ khởi tạo các lớp cho phân lớp bằng cách xác định các nhãn cho các nhóm dữ liệu

Một vấn đề thường gặp trong phân cụm dữ liệu, đó là hầu hết các dữ liệu cần phân cụm đều có chứa dữ liệu "nhiễu" (noise) do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ, vì vậy cần phải xây dựng chiến lược cho bước tiền xử lý dữ liệu nhằm khắc phục hoặc loại bỏ "nhiễu" trước khi bước vào giai đoạn phân phân cụm dữ liệu "Nhiễu" ở đây có thể là các đối tượng dữ liệu không không chính xác, hoặc là các đối tượng dữ liệu khuyết thiếu thông tin về một số thuộc tính Một trong các kỹ thuật xử lý nhiễu phổ biến là việc thay thế giá trị của các thuộc tính của đối tượng "nhiễu" bằng giá trị thuộc tính tương ứng của đối tượng dữ liệu gần nhất

Ngoài ra, dò tìm phần tử ngoại lai (Outlier) là một trong những hướng nghiên cứu quan trọng trong Phân cụm dữ liệu, cũng như trong Data Mining, chức năng của nó là xác định một nhóm nhỏ các đối tượng dữ liệu "khác thường" so với các dữ liệu trong CSDL - tức là các đối tượng dữ liệu không tuân theo các hành vi hoặc mô hình dữ liệu - nhằm tránh sự ảnh hưởng của chúng tới kết quả của Phân cụm dữ liệu

Tóm lại, phân cụm dữ liệu nhằm lắm giữ lượng thông tin khổng lồ, vì xử lý mọi thông tin như một thực thể đơn lẻ là không thể Vì vậy chúng ta phân loại các

1 2 thực thể thành các nhóm, mỗi nhóm được đặc trưng bởi các thuộc tính chung của tất cả các thực thể mà nó chứa

Các bước cơ bản để phân cụm gồm có:

Chọn lựa các đặc trưng: các đặc trưng được chọn lựa một cách hợp lý để có thể

“mã hoá” nhiều thông tin liên quan đến phân cụm dữ liệu Mục tiêu chính là phải giảm thiểu sự dư thừa thông tin giữa các đặc trưng Các đặc trưng cần được tiền xử lý trước khi dùng chúng trong các bước sau.

Tiêu chuẩn phân cụm: tùy theo từng tập dữ liệu tạo ra các cụm khác nhau mà chúng ta có tiêu chuẩn phân cụm khác nhau Chẳng hạn, một cụm loại chặt (compact) của các véc tơ đặc trưng trong không gian l-chiều có thể dễ nhận thấy theo một tiêu chuẩn, trong khi một cụm “dài và mỏng” lại có thể được dễ nhận thấy bởi một tiêu chuẩn khác Tiêu chuẩn phân loại có thể được diễn đạt bởi hàm chi phí.

Thuật toán phân cụm: sử dụng các giải thuật phân cụm khác nhau nhằm sáng tỏ cấu trúc cụm của tập dữ liệu.

Công nhận kết quả: khi đã có kết quả phân loại thì ta phải kiểm tra tính đúng đắn của nó Điều này thường được thực hiện bởi việc dùng các kiểm định phù hợp.

Giải thích kết quả: trong nhiều trường hợp, chuyên gia trong lĩnh vực ứng dụng phải kết hợp kết quả phân loại với những bằng chứng thực nghiệm và phân tích để đưa ra các kết quả đúng đắn.

Trong một số trường hợp nên có cả bước phân tích khuynh hướng phân cụm, trong bước này có các kiểm định khác nhau để chỉ ra tập dữ liệu có hay không một cấu trúc phân cụm Ví dụ như: tập dữ liệu của ta có thể hoàn toàn ngẫu nhiên vì vậy mọi cố gắng phân cụm đều là vô nghĩa.

Các lựa chọn khác nhau của các đặc trưng, tiêu chuẩn phân cụm có thể dẫn tới các kết quả phân cụm khác nhau Do đó việc lựa chọn một cách hợp lý nhất, hoàn toàn dựa vào kiến thức và kinh nghiệm của chuyên gia.

Theo các nghiên cứu, đến nay chưa có một phương pháp phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cụm dữ liệu Hơn nữa, các phương pháp phân cụm cần có cách thức biểu diễn cấu trúc của các cụm dữ liệu, với mỗi cách thức biểu diễn khác nhau sẽ có tương ứng một thuật toán phân cụm phù hợp Phân cụm dữ liệu đang là vấn đề mở và khó, vì cần phải đi giải quyết nhiều vấn đề cơ bản như đã đề cập ở trên một cách trọn vẹn và phù hợp với nhiều dạng dữ liệu khác nhau, đặc biệt là đối với các dữ liệu hỗn hợp, đang ngày càng tăng trưởng không ngừng trong các hệ quản trị dữ liệu, đây cũng là một trong những thách thức lớn trong lĩnh vực Data Mining trong những thập kỷ tiếp theo.

Sinh viên thực hiện: Nguyễn Thị Thi -K50-HTTT

1.1.2 Các ứng dụng của phân cụm dữ liệu

Phân cụm rất quan trọng trong một số ứng dụng, sau đây là một số ứng dụng của nó:

 Giảm dữ liệu: Giả sử ta có một lượng lớn dữ liệu (N) Phân cụm sẽ nhóm các dữ liệu này thành C cụm dữ liệu dễ nhận thấy và C d(j,i) x = d(j,i); d(j,num_clus+1) = i; end end end % khoi tao tam cho cac cum for i=1:num_clus for j=1:feature_clus center(i,j)=0; end end % tinh lai trong tam v cua cac cum for i=1:num_clus count =0; for j=1:num_pattern if d(j,num_clus+1)==i +1 count=count; for k=1:feature_clus center(i,k)ter(i,k)+data1(j,k); end endSinh viên thực hiện: Nguyễn Thị Thi -K50-HTTT end % trong tam lay trung binh cua cac mau for k=1:feature_clus center(i,k)ter(i,k)/count; end end % kiem tra tam cu va moi x=0; for j=1:num_clus for i=1:feature_clus y = abs(v(j,i)-center(j,i)); if y > x x=y; end end end if x

Ngày đăng: 30/06/2023, 16:30

w