Rút gọn thuộc tính sử dụng đối tượng đại diện

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu rút gọn tập thuộc tính trong hệ quyết định giá trị tập (Trang 48 - 52)

Như giới thiệu ở trên, hướng nghiên cứu rút gọn thuộc tính trong bảng quyết định giá trị tập dựa trên việc sử dụng đối tượng đại diện nhận được sự quan tâm của nhiều nhóm nghiên cứu.

Lang G. M. và Li Q. G. [27] sử dụng công cụ trên “hệ thông tin có quan hệ ≥” và dựa trên tính đồng cấu (homomorphism) để thực hiện nén dữ liệu và tìm tập rút gọn trên hệ thông tin giá trị tập sau khi đã nén. Việc tìm tập rút gọn trên hệ thông tin giá trị tập sau khi nén dữ liệu giống như việc tìm tập rút gọn trên hệ thông tin giá trị tập ban đầu.

Định nghĩa 2.12.[27] (Quan hệ dung sai trên hệ thông tin có quan hệ)

Cho hệ thông tin giá trị tập (U, A, V, f) với aA, và BA. Quan hệ dung sai ký hiệu lần lượt là h

a

R và HB

B

h a

R = {(x, y)|| f (x, a) ∩ f (y, a)| ≥ h, x, y U}.

B

H B

R = {(x, y)|| f (x, ai) ∩ f (y, ai)| ≥ hi, x, y U, aiB}.

Ký hiệu | · | biểu diễn lực lượng của tập, HB = (h1, h2, ..., hm) và hi = 0 nếu ai B. Định nghĩa trên cho biết số lượng các giá trị thuộc tính của các đối tượng dựa trên quan hệ dung sai. Như vậy, ta có RaRa, RBRB(1,1,...,1)RB và HB   hi

B a B ai

R R . Để

thuận tiện, sử dụng ký hiệu HB [ ] HB { | ( , ) HB}

B B B

R  x   y x yR .

Định nghĩa quan hệ K {k ,k ,...,k }1 2 m HB khi và chỉ khi kihi với 1 ≤ i m. Đặc biệt, nếu {Rah(x)|xU}sẽ hình thành một phủ của U, khi đó h

a R được gọi là quan hệ ≥ h. Và h a R và HB B

R thỏa mãn đối xứng và tính bắc cầu, nhưng không có tính phản xạ khi h > 1 và HB(1,1,...,1).

Định nghĩa 2.13.[27] (Hệ thông tin giá trị tập có quan hệ thứ tự)

Cho hệ thông tin giá trị tập (U, A, V, f), 1 2 m 1 2 h h h A { a , a ,..., am }       với 1 1 h a 

 thuộc quan hệ hi. Khi đó (U,A) được gọi là hệ thông tin giá trị tập có quan hệ ≥ của hệ thông tin S. Để thuận tiện chúng ta ký hiệu 1

1

h a

R là Ritrong trường hợp

hi= 1.

Định nghĩa 2.14.[27] (Rút gọn của hệ thông tin giá trị tập có thứ tự)

Cho hệ thông tin giá trị tập S( , , , )U A V f , và (U,A) là hệ thông tin giá trị tập có quan hệ ≥ của hệ thông tin S, và PA.Nếu A = P và A  P*

với mọi  P* P thì P được gọi là rút gọn của hệ thông tin (U,A).

Định nghĩa 2.15.[27] (Phân hoạch trong hệ thông tin giá trị tập có thứ tự)

Đặt (U1,A) là hệ thông giá trị tập có quan hệ ≥ có được từ hệ thông tin giá trị tập S = (U1, A, V, f ), RA,[x]R{y | R(x) R(y), x, y U },  1 U1/R x R|x U 1, thì U1/R được gọi là phân hoạch của R.

Luận án thực hiện biến đổi nhỏ để chuyển thuật toán trong hệ thông tin giá trị tập sang bảng quyết định giá trị tập được trình bày dưới đây.

Cho bảng quyết định giá trị tập DS (U A V f1, , , ) , với U1 {x ,...,x }1 n và 1

{a ,...,a }m

A .

Bước 1: Đầu vào là bảng quyết định giá trị tập DS (U A V f1, , , ) và bảng quyết định quan hệ (U ,1 A), với  A { R ,R ,...,R };1 2 m

Bước 2: Tìm các phân hoạch U1/Ri (1 ≤ i ≤ m) và U1/ A {Ci|1 i N}.

U1 R1 R2 . . . Rm A x1 P1x1 1 2x P . . . 1 mx P 1 Ax P x2 2 1x P 2 2x P . . . 2 mx P 2 Ax P . . . . . . . . . . . . xn P1xn 2 2x P . . . n mx P n Ax P

Bước 3: Xác định hàm g x( )yi với xCi và (U2, (g A)), với 2 { ( ) |i i 1

Ug x xUg( A) { (g R1), (g R2),..., (g Rm)};

Bước 4: Tìm các tập rút gọn thuộc tính trong { (g Ri1), (g Ri2),..., (g Rik)} của

2 1 2

(U ,{ (g R), (g R ),..., (g Rm)}) dựa trên ma trận phân biệt.

Bước 5: Tìm các tập rút gọn thuộc tính trong {(Ri1), (Ri2),..., (Rik)} của(U2,A) và đưa ra kết quả .

Chú ý: Hàm ánh xạ g biểu diễn trong Thuật toán 2.7. có tính đồng cấu từ 1

(U ,A) tới (U2, (g A)), và tập rút gọn thuộc tính trong bảng quyết định (U1,A) và bảng quyết định (U2, (g A)) là tương đương nhau.

Thuật toán 4.1 và Thuật toán 4.2 được trình bày trong Chương 4 của luận án là các phiên bản phát triển của Thuật toán 2.7 trên đây.

2.4. Kết luận

Chương 2 trình bày các khái niệm cơ bản nhất về tập rút trên hệ thông tin và hệ thông tin giá trị tập. Đồng thời trong chương 2 luận án giới thiệu hai thuật toán

đó là Thuật toán 2.1, Thuật toán 2.2 cải biên nhỏ từ công trình [19]. Cũng trong công trình [27] các tác giả đề xuất thuật toán 4.2 luận án cải biên nhỏ để được Thuật toán 2.7, dựa trên cơ sở thuật toán 2.7 luận án phát triển và đề xuất hai thuật toán chọn đối tượng đại diện trong chương 4. Đây là những vấn đề cơ bản để nắm bắt và trình bày các kết quả trong chương 3 và chương 4 của luận án.

Chương 3. RÚT GỌN THUỘC TÍNH TRONG HỆ QUYẾT ĐỊNH GIÁ TRỊ TẬP SỬ DỤNG HÀM PHÂN BIỆT THEO BẢNG PHÂN BIỆT NGẪU NHIÊN

Trong chương này, luận án trình bày hai thuật toán đối với bảng quyết định giá trị tập được đề xuất. Trên cơ sở thuật toán Heuristic tìm tập rút gọn trên hệ thông tin của W. Swieboda và H. S. Nguyen [56], luận án đề xuất thuật toán rút gọn thuộc tính GMDSVDT trên bảng quyết định giá trị tập (Generalized Maximal Discernibility heuristic for Set valued Decision Tables) dựa trên hai cấu trúc dữ liệu mới là bảng ngẫu nhiên tổng quát hóa (generalized contingency table) và các dàn giá trị thuộc tính (lattices of attribute values).

Trên cơ sở các cấu trúc dữ liệu đã được đề xuất, luận án đề nghị thuật toán tính xấp xỉ trên - xấp xỉ dưới của một tập trong hệ thông tin giá trị tập (Verifying upper and lower Approximation for Set valued Decision Tables: VASDT). Hai thuật toán cũng được đánh giá bằng lập luận và thực nghiệm.

Kết quả nghiên cứu này được công bố trong công trình số 1, phần “Danh mục các công trình của tác giả”.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu rút gọn tập thuộc tính trong hệ quyết định giá trị tập (Trang 48 - 52)

Tải bản đầy đủ (PDF)

(123 trang)