2.1 Hệ thông tin và hệ quyết định
Một tập dữ liệu về các loại đối tƣợng đƣợc biểu diễn dƣới dạng một bảng, trong đó mỗi dòng biểu diễn một đối tƣợng (có thể là một sự vật, một ngƣời, một tình huống,…). Mỗi cột biểu diễn một thuộc tính (một biến, một quan sát,
một đặc tính,…) của đối tƣợng, thuộc tính này có thể đo đƣợc cho mỗi đối tƣợng, thuộc tính cũng có thể do chuyên gia hoặc ngƣời sử dụng cung cấp. Bảng này đƣợc gọi là hệ thông tin.
Định nghĩa Hệ thông tin:
Hệ thông tin là một cặp I=(U,A), trong đó U là một tập hữu hạn không rỗng các đối tƣợng đƣợc gọi là tập vũ trụ và A là một tập hữu hạn không rỗng các thuộc tính mà a:UVa với aA, các thuộc tính này đƣợc gọi là các thuộc tính điều kiện. Tập Va đƣợc gọi là tập giá trị của a.
Ví dụ:
Tiếng Anh Tiếng Pháp Tin học
t1 Trình độ A Trình độ B Trình độ A t2 Trình độ B Trình độ A Trình độ C t3 Trình độ A Trình độ B Trình độ A t4 Trình độ B Trình độ C Trình độ C t5 Trình độ C Trình độ A Trình độ C t6 Trình độ A Trình độ B Trình độ A Bảng 2.1 Ví dụ hệ thông tin
Trong ví dụ trên, ta thấy các thuộc tính điều kiện của các đối tƣợng {t1,t3,t6} có cùng giá trị, những đối tƣợng này không phân biệt đƣợc với nhau dựa trên giá trị của các thuộc tính cho trƣớc đó.
Trong nhiều ứng dụng các đối tƣợng đã đƣợc phân lớp trƣớc. Tri thức về lớp của các đối tƣợng này đƣợc biểu diễn bằng một thuộc tính khác đƣợc gọi là thuộc tính quyết định. Hệ thông tin loại này đƣợc gọi là hệ quyết định
Định nghĩa Hệ quyết định
Một hệ quyết định là một hệ thông tin đƣợc biểu diễn dƣới dạng I=(U,A{d}), trong đó A là tập thuộc tính điều kiện, dA là thuộc tính quyết định.
Các phần tử của A đƣợc gọi là các thuộc tính điều kiện hoặc có thể gọi tắt là các điều kiện. Miền giá trị của thuộc tính quyết định có thể chứa nhiều giá trị khác nhau nhƣng trong hầu hết bài toán thực tế, miền này thƣờng chỉ có hai giá trị
Ví dụ:
Tiếng Anh Tiếng Pháp Tin học Tuyển dụng
t1 Trình độ A Trình độ B Trình độ A Không t2 Trình độ B Trình độ A Trình độ C Có t3 Trình độ A Trình độ B Trình độ A Có t4 Trình độ B Trình độ C Trình độ C Có t5 Trình độ C Trình độ A Trình độ C Không t6 Trình độ A Trình độ B Trình độ A Không Bảng 2.2 Ví dụ về hệ quyết định
Trong bảng trên, các thuộc tính điều kiện của các đối tƣợng {t1,t3} có cùng giá trị nhƣng giá trị của thuộc tính quyết định “Tuyển dụng” lại khác nhau.
2.2 Tính không phân biệt được (Indiscernibility)
Một hệ quyết định biểu diễn toàn bộ tri thức của mô hình, hệ này không nhất thiết phải có kích thƣớc lớn vì các dữ liệu trong đó có thể dƣ thừa nhƣ: các đối tƣợng giống nhau hoặc không phân biệt đƣợc có thể xuất hiện nhiều lần, hoặc một số thuộc tính có thể không cần thiết. Để thể hiện tính không phân biệt đƣợc cho các đối tƣợng, ta tìm hiểu một số khái niệm liên quan
Định nghĩa Quan hệ tương đương:
Quan hệ tƣơng đƣơng là một quan hệ hai ngôi RXY có tính phản xạ, tính đối xứng và tính bắc cầu.
Định nghĩa lớp tương đương
Lớp tƣơng đƣơng của một phần tử xX là tập tất cả các đối tƣợng yX mà xy
Định nghĩa Quan hệ không phân biệt được
Gọi I=(U,A) là một hệ thống thông tin, với mỗi tập con các thuộc tính BA, tồn tại một quan hệ tƣơng đƣơng INDA(B):
2
( ) {( , ') , ( ) ( ')}
A
IND B x x U a B a x a x
Trong đó a(x) là giá trị trên thuộc tính a của đối tƣợng x. INDA(B) đƣợc gọi là quan hệ B_không phân biệt được
Nếu (x,x’) INDA(B), khi đó đối tƣợng x và x’ là không phân biệt với nhau thông qua các thuộc tính trong B. Các lớp tƣơng đƣơng của quan hệ B- _không phân biệt được ký hiệu là [x]B. Trong thực thế, ngƣời ta có thể không viết ký hiệu tập A trong quan hệ tƣơng đƣơng nếu chỉ xét trên một hệ thống thông tin.
Ví dụ: Từ bảng 1.1, ta có thể có các lớp tƣơng đƣơng của quan hệ không phân biệt đƣợc nhƣ sau:
IND({Tiếng Anh})={{t1,t3,t6},{t2,t4},{t5}}
IND({Tiếng Anh, Tiếng Pháp})={{t1,t3,t6},{t2},{t4},{t5}} IND({Tiếng Anh, Tin học})={{t1,t3,t6},{t2,t4},{t5}}
IND({Tiếng Pháp, Tin học})={{t1,t3,t6},{t2,t5},{t4}}
2.3 Xấp xỉ tập hợp
Một trong những khái niệm cơ bản và rất quan trọng trong lý thuyết tập thô là xấp xỉ tập hợp. Trong lý thuyết tập thô, ngƣời ta có thể thay thế một tập hợp bằng các xấp xỉ của tập hợp đó dựa trên một số thông tin cho trƣớc với quan hệ không phân biệt.
Định nghĩa Xấp xỉ trên và xấp xỉ dƣới của tập hợp
Gọi I=(U,A) là một hệ thống thông tin, với BA và XU. Ta có xấp xỉ U bằng cách sử dụng những thông tin có trong B bằng việc xây dựng các xấp xỉ B- dƣới và B-trên của U, đƣợc ký hiệu làBU BU, trong đó:
{x }, {x }
B B
BU X x U BU X x U
Các đối tƣợng trong BUcó thể đƣợc phân lớp một cách chắc chắn là thành viên thuộc U dựa trên tri thức B, trong khi đó các đối tƣợng trong BUchỉ có thể đƣợc phân lớp là thành viên không chắc chắn thuộc U dựa trên tri thức B.
Tập BN UB( ) BUBUđƣợc gọi là vùng B-biên của U chứa những đối
tƣợng không thể đƣợc phân lớp chính xác vào U dựa trên tri thức B.
Tập X BUđƣợc gọi là vùng ngoài B-ngoài của U chứa những đối tƣợng đƣợc phân lớp một cách chính xác là không thuộc vào U dựa trên tri thức B.
Trong trƣờng hợp BN UB( ) , U đƣợc gọi là tập rõ, ngƣợc lại U đƣợc gọi là tập thô.
Ví dụ: U={u:uX và Tuyển dụng = “Có”}={t2,t3,t4}
U là tập các đối tƣợng đƣợc phân lớp với thuộc tính quyết định Tuyển dụng = có. Nếu ta chỉ sử dụng thuộc tính trình độ Tiếng Anh để tìm những đối tƣợng xấp xỉ của U thì:
B={Tiếng Anh}
Khi đó:
BU={t2,t4}
Một số tính chất của các xấp xỉ tập hợp 1. B U( ) U B U( ) 2. ( )B B( ) , B U( ) U B U( ) 3. B U( Y)B U( )B Y( ) 4. (B UY)B U( )B Y( ) 5. Nếu U Y thì B( )U B Y B U( ), ( ) B Y( ) 6. B U( Y)B U( )B Y( ) 7. B U( Y)B U( )B Y( ) 8. B X( U) X B U( ) 9. B X( U) X B U( ) 10. B B U( ( )B B U( ( ))B U( ) 11. B B U( ( ) B B U( ( ))B U( )
Dựa vào ý nghĩa của các xấp xỉ trên và xấp xỉ dƣới, ngƣời ta định nghĩa bốn lớp cơ bản của các tập thô, hay bốn loại mơ hồ (vagueness):
a, X đƣợc gọi là B - định nghĩa được một cách thô (roughly B -definable)
nếu và chỉ nếu B U( ) và ( )B U X
b, U đƣợc gọi là B - không định nghĩa được một cách nội vi (internally B undefinable) nếu và chỉ nếu B U( ) và ( )B U X
c, U đƣợc gọi là B -không định nghĩa được một cách ngoại vi (externally B undefinable) nếu và chỉ nếu B U( ) và ( )B U X
d, U đƣợc gọi là B -không định nghĩa được một cách hoàn toàn (totally B undefinable) nếu và chỉ nếu B U( ) và ( )B U X
U là B -định nghĩa được một cách thô nghĩa là: Nhờ sử dụng tập thuộc tính B ta có thể chỉ ra một số đối tƣợng của X thuộc về tập U và một số đối tƣợng của X thuộc về X -U.
U là B -không định nghĩa được một cách nội vi nghĩa là: sử dụng tập thuộc tính B ta có thể chỉ ra một số đối tƣợng của X thuộc về X - U, nhƣng lại không thể chỉ ra đƣợc các đối tƣợng thuộc về U.
U là B - không định nghĩa được một cách ngoại vi nghĩa là : sử dụng tập thuộc tính B ta có thể chỉ ra một số đối tƣợng của X thuộc về U, nhƣng không chỉ ra đƣợc các đối tƣợng thuộc về X-U
U là B - không định nghĩa được một cách hoàn toàn nghĩa là: sử dụng tập thuộc tính B ta không thể chỉ ra bất kỳ đối tƣợng nào của X thuộc về U hay thuộc về X -U
Một tập thô có thể đƣợc định lƣợng bởi công thức: ( ) | ( ) | | ( ) | B B U U B U
đƣợc gọi là độ chính xác của xấp xỉ, trong đó |U | chỉ số phần tử của tập U .
Rõ ràng 0 B U 1 . Nếu B U 1 thì U là rõ (chính xác) đối với tập thuộc tính B. Ngƣợc lại, nếu B U 1 thì U là thô (mơ hồ) đối với tập thuộc tính B.
Dƣới đây là các thuật toán xác định các xấp xỉ trên và xấp xỉ dƣới của một tập đối tƣợng theo một tập thuộc tính cho trƣớc.
Thuật toán xác định xấp xỉ dƣới Input: Tập các đối tƣợng U Tập các thuộc tính B Output: Tập các đối tƣợng U Thuật toán : Bước 1: Khởi tạo BU =
Xác định tập các phân hoạch P tạo bởi B.
Bước 2: U1 = U If (U1≠){ Thực hiện bƣớc 3. } else{ Thực hiện bƣớc 4 } Bước 3: Xét x U1
Tìm phân hoạch Pi P sao cho: x Pi If (Pi U){ BU = BU Pi } U1 = U1 - Pi. Quay lại bƣớc 2. Bước 4: Kết thúc
Thuật toán xác định xấp xỉ trên Input : Tập các đối tƣợng U Tập các thuộc tính B Output: - Tập các đối tƣợng U Thuật toán: Bước 1: Khởi tạo B U( ) =
Xác định tập các phân hoạch P tạo bởi B.
Bước 2: U1 = U If (U1 ){ Thực hiện bƣớc 3. Else { Thực hiện bƣớc 4 } Bước 3: Xét x U1.
Tìm phân hoạch Pi P sao cho: x Pi.
i BU BU P For (p Pi U1){ U1 = U1 - {p} } Quay lại bƣớc 2. Bước 4: Kết thúc.
CHƢƠNG 3: TẬP THÔ VÀ BÀI TOÁN PHÂN CỤM
Trong chƣơng này, tôi tập trung vào việc nghiên cứu thêm tập mờ, tập bóng và các bài toán phân cụm: phân cụm thô, phân cụm mờ, phân cụm bóng.
Trong phân cụm dữ liệu, dữ liệu thực thƣờng phân tán, có cấu trúc không rõ ràng và có sự không chắc chắn và chồng chéo giữa các thành phần của cấu trúc (cụm). Trong các thuật toán phân cụm, thuật toán nổi bật và cổ điển là thuật toán K –Means. K-Means là thuật toán nằm trong phƣơng pháp phân cụm phân hoạch. Mặc dù K-Means có hiệu quả, nhƣng tính hiệu quả của nó sẽ giảm khi phân chia với các cụm chồng chéo. Phân cụm mờ, đặc biệt là Fuzzy C-Means (FCM)- phần mở rộng của K -Means, thƣờng đƣợc sử dụng để khám phá cấu trúc của một tập dữ liệu và thông tin để xây dựng hạt nhân. Nó sử dụng một ma trận bộ phận để lƣu trữ điểm thành viên của từng đối tƣợng thuộc mỗi cụm, do đó trƣờng hợp chồng chéo có thể đƣợc mô tả một cách hiệu quả. Thách thức chủ yếu của FCM là các phần tử ngoại lai hay nhiễu.
Gần đây, xét về lý thuyết tập thô, Lingras và West [4] đã giới thiệu phân cụm Rough C -Means (RCM), trong đó mô tả mỗi cụm không chỉ bởi một mẫu, mà còn có một cặp cận trên và dƣới. Các tham số đƣợc sử dụng để đo độ quan trọng của các cận dƣới và vùng biên khi tính cụm mới. RCM có thể đối phó với sự không chắc chắn và không rõ ràng phát sinh trong vùng biên của mỗi cụm (hay nói cách khác là nhiễu và các phần tử ngoại lai).
Hai mô hình quan trọng của tính toán hạt nhân (Granular Computing), tập thô và tập mờ đã đƣợc phát triển riêng biệt đáng kể. Liên quan đến điểm thành viên, Mitra [5] đã đƣa ra một phƣơng pháp phân cụm Rough-Fuzzy C-Means (RFCM), đƣợc tích hợp những ƣu điểm của các công nghệ của tập mờ và tập thô. Cận trên và dƣới đƣợc xác định theo điểm thành viên trong ma trận bộ phận chứ không phải là khoảng cách tuyệt đối giữa từng đối tƣợng với các lân cận của nó. Maji [6] tiếp tục chỉ ra rằng các đối tƣợng ở cận dƣới của một cụm nên có tầm quan trọng với cụm đó và các mẫu trong cụm, trọng số của chúng cũng phải độc lập với các mẫu khác khi lặp đi lặp lại các bƣớc tính toán các mẫu mới. Sau
khi đƣa ra khái niệm này, Maji đã sửa đổi các tính toán cho mẫu mới theo phƣơng pháp phân cụm RFCM.
Tập bóng theo khái niệm của Pedrycz [7], đƣợc coi là cầu nối về khái niệm và thuật toán giữa tập thô và tập mờ. Nó là một mô hình mới đang nổi lên của Granular Computing đƣợc sử dụng thành công trong học không giám sát. Năm 2010, Mitra và Perdrycz đã tạo ra thuật toán phân cụm Shadowed C-Means (SCM). Không giống nhƣ FCM, giá trị của các đối tƣợng ở mức core (lõi) của một cụm đƣợc tăng trong SCM. Các giá trị của các đối tƣợng ở mức exclusion (loại trừ) ở một cụm sẽ đƣợc giảm bằng cách tăng hệ số mờ lên mũ 2.
3.1. Phân cụm thô (Rough C-means)
Thuật toán c-means thông thƣờng bắt đầu bằng cách phân vùng N đối tƣợng xk vào C tập con khác rỗng. Trong mỗi phân vùng, các tâm của các cụm đƣợc tính nhƣ sau k i k x U i i x v C (3.1)
Với Cj là số đối tƣợng trong cụm Ui. Quá trình này đƣợc lặp đi lặp lại cho đến khi hội tụ, có nghĩa là, các đối tƣợng đã thuộc về 1 cụm nào đó.
Phần này sẽ xét giải thuật Rough C-means (RCM), một thuật toán phân cụm phân hoạch của Lingras. Mỗi một tập thô trong RCM đƣợc đặc trƣng bởi xấp xỉ trên và dƣới là ( )B U và B U( )tƣơng ứng và chúng phải thỏa mãn đƣợc các tính chất cơ bản sau:
Tính chất 1. Một đối tƣợng có thể thuộc về cận dƣới của nhiều nhất một cụm.
Tính chất 2. Một đối tƣợng thuộc về cận dƣới của cụm cũng thuộc về cận trên của cụm đó
Tính chất 3. Một đối tƣợng mà không thuộc về bất cứ cận dƣới nào sẽ thuộc về nhiều hơn một cận trên.