Các bước của thuật toán MFAMI

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Khai phá luật kết hợp mờ và ứng dụng trong cơ sở dữ liệu cước điện thoại (Trang 55 - 58)

3.5.3.1. Tiền xử lý sử dụng phân cụm mờ k-means

Các thuộc tính liên tục có thể được xử lý bằng cách sử dụng lý thuyết tập mờ. Rất khó để xác định hàm thuộc cho các thuộc tính dựa trên trực giác. Trong phần này, ta mô tả các bước cơ bản của việc tìm các tập mờ và các hàm thuộc tương ứng từ CSDL cho trước. Bước thứ nhất là ta sử dụng một thuật toán phân cụm đã biết để phân cụm các giá trị thuộc tính và tìm trọng tâm cho các cụm. Sau đó, ta tìm các tập mờ và các hàm thuộc tương ứng. Các bước tìm tập mờ và các hàm thuộc có thể tóm tắt như sau: (1) Phân cụm và tìm trọng tâm của các cụm, (2) Xây dựng tập mờ với k trọng tâm đã tìm được, và (3) Tính các hàm thuộc tương ứng.

(1) Phân cụm và tìm trọng tâm các cụm

Để phân cụm các giá trị của một thuộc tính và tìm trọng tâm cho các cụm đó ta sử dụng phương pháp phân cụm mờ k-means. Phương pháp này chia các giá trị của mỗi thuộc tính vào k-cụm. Các bước dưới đây được sử dụng để phân cụm các giá trị của một thuộc tính:

1. Đặt k điểm vào trong không gian đại diện bởi các đối tượng sẽ được phân cụm. Những điểm này đại diện cho trọng tâm (centroid) nhóm ban đầu.

2. Gán từng đối tượng vào nhóm có centroid gần nhất.

3. Khi tất cả các đối tượng đã được gán, tính lại vị trí của k-centroids. 4. Lặp lại các bước 2 và 3 cho đến khi centroids không di chuyển. Điều

này tạo ra một sự tách biệt của các đối tượng trong các nhóm mà từ đó các số liệu được giảm thiểu tối đa có thể được tính toán.

5. Thuật toán này nhằm giảm thiểu hàm mục tiêu (hàm bình phương lỗi).

∑∑ = = − = m 1 i k 1 j 2 j i n ij) (x c ) u ( J (7)

Trong đó (xi – cj)2 là một độ đo khoảng cách được chọn giữa giá trị thuộc tính xi(j) và trọng tâm cụm cj, là một chỉ số khoảng cách của N (số bản ghi) giá trị thuộc tính từ trọng tâm cụm tương ứng.

(2) Xây dựng các tập mờ

Sau khi đã thu được k trọng tâm, ta có thể sử dụng các trọng tâm để phân cụm từng thuộc tính số vào k tập mờ. Giả sử chúng ta muốn tìm tập mờ cho thuộc tính thứ j có miền giá trị từ minj đến maxj, và {a1j,a2j,...,akj} là tập hợp các trọng tâm của các tập mờ cho thuộc tính thứ j. k tập mờ sẽ có miền giá trị là {minj, a2j}, {a1j,a3j}, … , {a(i−1)j,a(i+1)j}, … , {a(k−1)j, maxj}. Các cụm kết quả được kết hợp với k tập mờ. Các tập mờ được kết hợp dựa trên các trọng tâm cụm và bản chất thuộc tính. Sau đó, mức độ thuộc được tính cho mỗi giá trị [22].

Ví dụ: Thuộc tính thời giam đàm thoại có miền giá trị tính theo phút là [0,1440]. Giả sử ta có 5 trọng tâm là {m1, m2, m3, m4, m5} tương ứng với 5 tập mờ là tgdt_rất_ngắn, tgdt_ngắn, tgdt_trung_bình, tgdt_dài, tgdt_rất_dài, trong đó m1= 02:15, m2= 05:23, m3= 08:03, m4 = 11:37, m5 = 16:40. Ta xây dựng các tập mờ như sau:

(3) Tính các hàm thuộc

Tiếp theo ta sẽ mô tả cách tính các hàm thuộc cho mỗi tập mờ tương ứng của mỗi thuộc tính số. Giả sử chúng ta muốn tính hàm thuộc cho các giá trị của thuộc tính thứ j có miền giá trị từ minj đến maxj, và {a1j,a2j,...,akj} là tập hợp các trọng tâm của các tập mờ cho thuộc tính thứ j. Ta sử dụng cách sau để tìm các hàm thuộc yêu cầu [22].

Tập mờ Miền giá trị Trọng tâm Tgdt_rất_ngắn 00:00 – 05:23 02:15

Tgdt_ngắn 02:15 – 08:03 05:23 Tgdt_trung_bình 05:23 – 11:37 08:03 Tgdt_dài 08:03 – 16:40 11:37 Tgdt_rất_dài 11:37 – 16:40

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Khai phá luật kết hợp mờ và ứng dụng trong cơ sở dữ liệu cước điện thoại (Trang 55 - 58)

Tải bản đầy đủ (PDF)

(79 trang)