Hệ thông tin giá trị tập - (LUẬN văn THẠC sĩ) nghi- 123docz.net

1.2.1. Khái niệm

Định nghĩa 1.9 [15]. Hệ thông tin giá trị tập là một bộ bốn IS U A V f, , , 

trong đó U là tập hữu hạn, khác rỗng được gọi là tập vũ trụ hoặc tập các đối tượng;

A là tập là hữu hạn khác rỗng các thuộc tính; f là hàm thông tin, f U:  A 2Vlà ánh xạ tương ứng mỗi cặp (u,a) tới một tập giá trị thuộc V. Trong luận án quy ước viết tắt ISU A V f, , ,  là IS(U , A ).

Ví dụ 1.6. Bảng 1.3 [44] minh họa một hệ thông tin giá trị tập (bỏ qua cột thuộc tính dec) với mười đối tượng Uu u u u u u u u u u1, 2, 3, 4, 5, 6, 7, 8, 9, 10, bốn thuộc tính giá trị tập A{Audition Spoken Language Reading, , , Writing}, và tập giá trị

{ , , }.

V  E F G

Bảng 1.3. Hệ thông tin giá trị tập

U Audition(A) Spoken Language(S) Reading(R) Writing(W) Dec

1 u { }E { }E { , }F G { , }F G No 2 u { , , }E F G { , , }E F G { , }F G { , , }E F G No 3 u { , }E G { , }E F { , }F G { , }F G No 4 u { , }E F { , }E G { , }F G { }F No 5 u { , }F G { , }F G { , }F G { }F No 6 u { }F { }F { , }E F { , }E F Yes 7 u { , , }E F G { , , }E F G { , }E G { , , }E F G Yes 8 u { , }E F { , }F G { , , }E F G { , }E G Yes 9 u { , }F G { }G { , }F G { , }F G Yes 10 u { , }E F { , }E G { , }F G { , }E F Yes

Tồn tại ba cách tiếp cận về ngữ nghĩa của giá trị tập trong hệ thông tin giá trị tập như trình bày dưới đây.

Cách thứ nhất: Với xU , aA, a x( ) dùng theo nghĩa “và”. Ví dụ giả sử a là thuộc tính các ngôn ngữ lập trình quen thuộc thì giá trị thuộc tính

( ) { , , s }

a u  C  Java Pa cal được hiểu theo cách: u biết được cả 3 ngôn ngữ lập trình

, , à s .

C  Java v Pa cal

Cách thứ hai: Với xU , aA, a x( )dùng theo nghĩa “hoặc”. Ví dụ giả sử a là thuộc tính "quê quán" thì giá trị thuộc tính a(u) = {Hà Nội, Hà Nam, Hà Tĩnh} được hiểu theo cách: u có quê quán ở một trong ba tỉnh hoặc Hà Nội, hoặc Hà Nam, hoặc

Hà Tĩnh. Với giá trị thuộc tính kiểu số b, ví dụ thuộc tính “tuổi” có b x( ) [20, 25] được hiểu là đối tượng utrong độ tuổi 20 và 25. Hệ thông tin không đầy đủ với một số giá trị thuộc tính bị thiếu đều thuộc hệ thông tin tập giá trị.

Cách thứ ba: Kết hợp của hai mô hình trên. Một số thuộc tính trong hệ thống thông tin được hiểu theo nghĩa “và”, như ví dụ thuộc tính " ngôn ngữ lập trình quen thuộc" và một số thuộc tính hiểu theo nghĩa “hoặc” như thuộc tính “tuổi”.

Luận án này tập trung vào cách tiếp cận đầu tiên về ngữ nghĩa giá trị tập. Trường hợp sử dụng cách tiếp cận ngữ nghĩa khác thì sẽ được chỉ rõ.

1.2.2. Quan hệ dung sai trong hệ thông tin giá trị tập

Định nghĩa 1.10. (Quan hệ dung sai trong hệ thông tin giá trị tập)

Cho hệ thông tin giá trị tập IS (U , A ). Với mỗi tập con thuộc tính BA, quan hệ TB  u v,  U U  b B u b, ( )v b   là một quan hệ dung sai và được gọi là quan hệ dung sai tương ứng với B.

Rõ ràng là B  A: B b.

b B

T T



 Sau đây, để ngắn gọn, luận án sử dụng "quan hệ dung sai" để chỉ quan hệ dung sai tương ứng với tập thuộc tính trong hệ thông tin giá trị tập. Đặt    | ( , )  B B T u  v U u v T thì   B T

u được gọi là một lớp dung sai tương ứng với quan hệ TB. Ký hiệu /   | 

B T

U T  u u U biểu diễn tập tất cả các lớp dung sai tương ứng với quan hệ TB, khi đó U T/ B hình thành một phủ của U vì các lớp dung sai trong U T/ B có thể giao nhau và [ ]

B T u U u  =U. Rõ ràng là nếu CB thì     B C T T u  u

với mọi uU. Trong một số trường hợp luận án sử dụng ký hiệu T uB( )thay cho

 

u .

Định nghĩa 1.11 [74]. Cho IS (U , A ) là hệ thông tin giá trị tập. Với mỗi tập thuộc tính BA ta ký hiệu [ ]  { :( , ) }

T B

u v U u v T là lớp dung sai của u U . Chúng ta ký hiệu / {[ ] :  }

B T

U T u u U là họ của tất cả các lớp dung sai của TB.

Ví dụ 1.7. Biểu diễn bảng quyết định giá trị tập cho Bảng 1.3. Có 10 đối

tượng với 4 thuộc tính điều kiện và thuộc tính quyết định. Các đối tượng trong bảng thuộc vào 1 trong 2 lớp quyết định.

Đặt B{Audition Spoken language, } Ta tìm được các lớp dung sai của

B B B 1 T 2 T 3 T u ] ,[u ] ,[u ] [ như sau: 1 1 2 3 4 7 10 [u ] { , , , , , }, B T u u u u u u [u ]2 { ,1 2, ,3 4, , ,5 6 7, , ,8 9 10}= U B T  u u u u u u u u u u 3 1 2 3 4 5 7 8 10 [u ] { , , , , , , , }. B T u u u u u u u u 1.2.3. Bảng quyết định giá trị tập

Bảng quyết định giá trị tập (còn được gọi là hệ quyết định giá trị tập)

 

( , , , )

DS U C d V f trong đó U là tập đối tượng khác rỗng; C là tập thuộc tính điều kiện khác rỗng, d là thuộc tính quyết định với C{ }d  ; V VCVd, VC là tập giá trị của các thuộc tính điều kiện và Vd là tập giá trị của thuộc tính quyết

định; 2VC

f :U C  là ánh xạ tập giá trị còn f U:  d Vd là ánh xạ đơn trị. Trong luận án, quy ước DS( ,U C d V f, , ) viết tắt là DS( ,U C d ).

1.2.4. Tập thô theo quan hệ dung sai

Hai khái niệm cơ bản trong lý thuyết tập thô đó là xấp xỉ trên và xấp xỉ dưới. Trong lý thuyết tập thô, xấp xỉ trên và xấp xỉ dưới của tập đối tượng được định nghĩa dựa trên lớp quan hệ không phân biệt được, còn trong hệ tin giá trị tập thì hai khái niệm này được định nghĩa dựa trên quan hệ dung sai.

Cho hệ thông tin giá trị tập IS (U , A ) và TB là quan hệ dung sai với BA. Xấp xỉ trên và xấp xỉ dưới của tập bất kỳXU được định nghĩa như sau:

( ) { : [ ] }; B B T T X  x U x X ( ) { : [ ] } B B T T X  x U x   X Ta gọi ( ) B T

BND X miền biên của X là tập ( ) ( ) ( )

B T B B BND X T X T X , miền ngoài của X là tập ( ) \ ( ) B T B

NEG X U T X và miền dương (miền khẳng định) của X là

( ) ( ) B T B POS X T X . Ví dụ 1.8. Xét Bảng 1.3 giả sử X { ,u u u u u u u u1 2, 3, 4, 5, 6, 7, },8 { , , , W }

B Audition Spoken Language Reading riting ta tìm các xấp xỉ của X như sau: Trước tiên ta tìm các phân lớp dung sai của từng đối tượng

1 1 2 3 4 7 10 [ ] { , , , , , } B T u  u u u u u u , [ ]2 [ ]7 { ,1 2, ,3 4, , , , , ,5 6 7 8 9 10}. B B T T u u u u u u u u u u u u 3 1 2 3 4 5 6 7 8 10 [ ] { , , , , , , , , } B T u  u u u u u u u u u , [ ]4 { ,1 2, ,3 4, ,5 7, ,9 10}. B T u u u u u u u u u 5 2 3 5 6 7 9 10 [ ] { , , , , , , } B T u  u u u u u u u , [ ]6 { , , , , }.2 5 6 7 8 B T u u u u u u 8 2 3 6 7 8 9 10 [ ] { , , , , , , } B T u  u u u u u u u , [ ]9 { ,2 4, ,5 7, , ,8 9 10}. B T u u u u u u u u 10 1 2 3 4 5 7 8 9 10 [ ] { , , , , , , , , }. B T u u u u u u u u u u Chúng ta có B B B B B B B 6 T 1 T 2 T 3 T 4 T 5 T 7 T [u ] X, [u ]  X, [u ]  X, [u ]  X, [u ]  X, [u ]  X, [u ] X, B B B 8 T 9 T 10 T [u ]  X, [u ] X và [u ] X. Nên T XB( ) {u }, 6 và vì {1, 2, 3, 4, 5, 6, 7,8, 9,10}, [u ] B i T i X      do đó 1 2 3 4 5 6 7 8 9 10 ( ) { , , , , , , , , , } B T X  u u u u u u u u u u

Vùng dương của X ta tính được ( ) {u }.6

B T POS X  Miền biên ( ) {u , u , u , u , u , u , u , u , u }.1 2 3 4 5 7 8 9 10 B T BND X  Miền ngoài ( ) . B T NEG X   1.3. Kết luận

Chương 1 trình bày khái niệm hệ thông tin cùng các khái liên liên quan (quan hệ không phân biệt được, quan hệ dung sai, tập thô, bảng quyết định v.v.) và khái

niệm hệ thông tin giá trị tập cùng các khái niệm liên quan (quan hệ dung sai, tập thô trong hệ thông tin giá trị tập, bảng quyết định giá trị tập, v.v.). Đây là những nội dung nền tảng để trình bày bài toán rút gọn thuộc tính và các giải pháp cho bài toán được trình bày trong các chương tiếp theo.

Chương 2. RÚT GỌN THUỘC TÍNH THEO LÝ THUYẾT TẬP THÔ 2.1. Giới thiệu chung

Như đã được giới thiệu, rút gọn thuộc tính là một trong những bài toán ứng dụng điển hình nhất của lý thuyết tập thô [24, 42, 54, 70]. Trong lý thuyết tập thô, mục tiêu của rút gọn thuộc tính là tìm ra tập nhỏ nhất các thuộc tính cho phân tích dữ liệu mà vẫn giữ được hiệu năng (hoặc hầu hết hiệu năng) như tập toàn bộ các thuộc tính. Rút gọn thuộc tính vừa làm giảm khối lượng xử lý dữ liệu do chỉ phải thao tác trên một khối lượng dữ liệu nhỏ hơn, vừa làm cho kết quả thu được trở nên cô đọng và dễ hiểu hơn.

Theo Yiyu Yao và Yan Zhao [70], mô hình Pawlak và mô hình xác suất là hai mô hình rút gọn thuộc tính điển hình trong lý thuyết tập thô. Điển hình theo mô hình Pawlak là các phương pháp dựa trên miền dương [13, 31, 46, 57], các phương pháp sử dụng ma trận phân biệt [12, 47, 50, 68, 71], các phương pháp sử dụng các phép toán đại số quan hệ [21]. Các phương pháp rút gọn thuộc tính theo mô hình Pawlak thường được tiến hành theo hướng "từ trên xuống" (còn được gọi là phương pháp loại bỏ (deletion method [69])), nghĩa là loại bỏ dần các thuộc tính không cần thiết. Điển hình theo mô hình xác suất là các phương pháp sử dụng entropy thông tin [29, 59, 60, 61, 63, 67, 68], các phương pháp sử dụng các độ đo mà điển hình là các độ đo trong tính toán hạt (granular computing) [6, 14, 15, 28, 53, 75], các phương pháp tích hợp lý thuyết tập thô với lý thuyết tập mờ [22, 24]. Các phương pháp rút gọn thuộc tính theo mô hình xác suất thường được tiến hành theo hướng "từ dưới lên" (còn được gọi là phương pháp bổ sung (addition method [69])), nghĩa là chọn các thuộc tính có độ liên quan cao tới mục tiêu xử lý dữ liệu để bổ sung vào tập thuộc tính rút gọn. Trong nhiều tình huống, tập rút gọn kết quả chỉ cần đảm bảo "hầu hết" hiệu năng của tập toàn bộ các thuộc tính. Một số thuật toán theo hướng kết hợp dưới lên - trên xuống cũng đã được đề xuất (chẳng hạn, thuật toán bổ sung - loại bỏ [69]).

Trong hệ thông tin giá trị tập, các phương pháp tìm tập rút gọn thuộc tính được hình thành dựa trên quan hệ dung sai [15, 51]. Theo hướng tiếp cận mô hình

quan hệ dung sai, một số kết quả nghiên cứu đáng chú ý về rút gọn thuộc tính trên bảng quyết định giá trị tập được công bố trong [8, 27, 44, 45, 64, 65, 66].

Chương này giới thiệu các nội dung cơ bản nhất về rút gọn thuộc tính trong hệ thông tin (Mục 2.2) và rút gọn thuộc tính trong hệ thông tin giá trị tập (Mục 2.3).

2.2. Rút gọn thuộc tính trong hệ thông tin 2.2.1. Tập rút gọn và tập lõi 2.2.1. Tập rút gọn và tập lõi

Trong các ứng dụng của bảng quyết định vào phân tích dữ liệu (bao gồm phân lớp dữ liệu), các thuộc tính điều kiện được phân thành ba nhóm: Thuộc tính lõi, thuộc tính rút gọn và thuộc tính không cần thiết [36, 38, 39]. Thuộc tính lõi là thuộc tính cốt yếu, không thể thiếu trong việc phân lớp chính xác tập dữ liệu. Thuộc tính không cần thiết là những thuộc tính dư thừa; nghĩa là có thể loại bỏ một thuộc tính như vậy (nhưng không phải là tất cả) mà không ảnh hưởng đến việc phân lớp dữ liệu. Thuộc tính của tập rút gọn “nằm giữa” hai tập thuộc tính trên, nó là dư thừa đối với một tập thuộc tính điều kiện này song lại cốt yếu đối với một tập các thuộc tính điều kiện khác. Dưới đây trình bày định nghĩa chính thức cho các khái niệm này [38].

Định nghĩa 2.1. (Thuộc tính cần thiết: indispensable và không cần thiết: dispensable)

Cho bảng quyết định T U C, D V f, , , thuộc tính cC được gọi là không cần thiết (dispensable) nếu POS (D)C POS(C\ c ) (D). Ngược lại, c được gọi là cần thiết (indispensable).

Định nghĩa 2.2. (Bảng quyết định độc lập: independent).

Bảng quyết định T được gọi là độc lập (independent) nếu mọi thuộc tính

cCđều cần thiết.

Tập tất cả các thuộc tính cần thiết trong T được gọi là lõi (Core) và được ký hiệu CORE C . Khi đó, một thuộc tính cần thiết còn được gọi là thuộc tính lõi.

Định nghĩa 2.3. (Tậprútgọn: reductset)

Tập các thuộc tính RC được gọi là tập rút gọn (Reduct Set) của tập thuộc tính điều kiện C nếu T'=(U, RD, V, f) là độc lập và POSR D POSC D .

Nói cách khác, R là tập rút gọn nếu R thỏa mãn POSR(D)=POSC(D) và R "tối thiểu" theo nghĩa mọi tập con thực sự R' của R thì POSR'(D) POSC(D). Rõ ràng là có thể có nhiều tập rút gọn của C. Ta ký hiệu RED C  là tập tất cả các rút gọn của

C Tập thuộc tính là giao của mọi tập rút gọn trong bảng quyết định được gọi là tập lõi (core) và được ký hiệu là CORE (CORE= 

) C ( RED TG TG 

). Dưới đây là các thuật toán tìm vùng dương của một tập thuộc tính điều kiện và tìm tập thuộc tính rút gọn từ một tập thuộc tính cho trước. Tập thuộc tính điều kiện R thỏa mãn POSR(D)=POSC(D)

được gọi là siêu rủt gọn (super-reduct). Rõ ràng là nếu một tập thuộc tính siêu rút gọn là tối thiểu thì nó sẽ là rút gọn. Hơn nữa, tập mọi thuộc tính điều kiện C là một siêu-rút gọn. Rõ ràng là nếu một tập thuộc tính siêu rút gọn mà là tập tối thiểu thì nó sẽ là rút gọn. Một tập thuộc tính điều kiện R mà là tập con của một tập rút gọn thì được gọi là bộ phận rút gọn (partial reduct). Tập lõi là một tập bộ phận rút gọn.

Luận án thực hiện một vài biến đổi nhỏ cho Thuật toán 3 trong [19] để nhận được Thuật toán 2.1. Xác định vùng dương trong bảng quyết định như trình bày dưới đây.

Thuật toán 2.1. Xác định vùng dương trong bảng quyết định Đầu vào: Bảng quyết định TU C, D V f, , 

Tập thuộc tính BC.

Đầu ra: Tập các đối tượng - vùng dương POSB( )D .

Phương pháp:

(1) Xác định các lớp tương đương 1B, 2B,..., B m

X X X của U B/ (2) POSB( ) :D  

(3) Với mọi j1, 2,...,m (for j1 to m do) Nếu mọi đối tượng B

Thì POS DB( ) :POS DB( )XBj

Thuật toán 2.1 có độ phức tạp là O(k | U | log | U |) (Tham khảo [19]).

Tương tự cách hình thành Thuật toán 2.1, luận án thực hiện một vài biến đổi nhỏ tới Thuật toán 6 trong [19] để nhận được Thuật toán 2.2. Tìm tập rút gọn trong bảng quyết định như trình bày dưới đây.

Thuật toán 2.2. Thuật toán tìm tập rút gọn trong bảng quyết định Đầu vào: Bảng quyết định TU C, D V f, ,  với n=|U|, k=|C|;

Một tập con các thuộc tính điều kiện R là một siêu rút gọn.

Đầu ra: Tập rút gọn R'R.

Phương pháp:

(1). Tính POSR(D) và đặt m:= | POSR(D)| (2). Với mọi a  R

begin

Tính POSR-{a}(D) và đặt ma:= | POSR-{a}(D)| Nếu ma m thì R:R\{ };a

end;

(3). R'R.

Lập luận giống như trong [19], thuật toán 2.2 có độ phức tạp là 2

( log ).

O k n n

Ví dụ 2.1. Xét bảng quyết định về bệnh cúm được cho ở Bảng 1.2 (Chương 1).

Bảng này có hai tập rút gọn là R1 = {Đau cơ, Thân nhiệt} (xem bảng 2.1) và

R2 = {Đau đầu, Thân nhiệt} (xem bảng 2.2).

Bảng 2.1.Bảng rút gọn thứ nhất của hệ thống bệnh cúm R1

U Đau cơ Thân nhiệt Cảm cúm

u1, u4 Có Bình thường Không

u2 Có Cao Có

u3, u6 Có Rất cao Có

Như vậy tập lõi là CORE(C) = {Thân nhiệt} và Thân nhiệt là thuộc tính cần thiết duy nhất. Các thuộc tính Đau đầu, Đau cơ đều không cần thiết theo nghĩa từ bảng dữ liệu có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩn đoán được bệnh. Tức là:

POS{Đau cơ, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm}) POS{Đau đầu, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm}).

Bảng 2.2.Bảng rút gọn thứ hai của hệ thống bệnh cúm R2

U Đau đầu Thân nhiệt Cảm cúm

u1 Có Bình thường Không

u2 Có Cao Có

u3 Có Rất cao Có

u4 Không Bình thường Không

u5 Không Cao Không

u6 Không Rất cao Có