Lựa chọn thuộc tính và phân lớp dựa trên quan hệ g- 123docz.net

gần –VCR (valued closeness relation)

2.2.1. Vấn đề lựa chọn chỉ tiêu tính [13]

Các cơ sở dữ liệu trong thực tế thường có rất nhiều thuộc tính, những thuộc tính cần thiết cho lĩnh vực mà bài toàn khai phá dữ liệu đang giải quyết không phải là tất cả. Việc lựa chọn những thuộc tính phù hợp để tiến hành các phương pháp khai phá dữ liệu là rất cần thiết. Các thuộc tỉnh dư thừa không cần thiết trong quá trình khai phá tri thức không chỉ làm cho bài toán trở nên phức tạp mà còn dẫn đến một thực tế là lượng tri thức được phát hiện sẽ không nhiều vì phụ thuộc vào cả những thuộc tính không được coi là đặc trưng của bài toán. Mục tiêu của việc lựa chọn thuộc tính là phải đưa ra một tập con các thuộc tính tối ưu trong cơ sở dữ liệu theo một số tiêu chuẩn để từ đó các luật sinh ra trong cơ sở dữ liệu sẽ đạt được hiệu quả cao nhất, dữ liệu mà chúng ta thực sự phải làm việc sẽ nhỏ đi rất nhiều.

Chất lượng của các chỉ tiêu ảnh hưởng đến luật phát sinh cuối cùng bởi vì mô hình lý thuyết tập thô chỉ có thể trích rút các nguyên lý vốn có tồn tại trong bảng thông tin (phát sinh ra các luật chỉ dựa trên những dữ liệu từ bảng thông tin) [13], có nghĩa rằng, nếu các chỉ tiêu không mô tả thông tin liên quan về hệ thống thì các luật phát sinh ra sẽ phân tán và trở nên không có ý nghĩa. Có nhiều phương pháp ước lượng mức độ quan trọng của các thuộc tính đơn. Ví dụ người ta có thể tính toán nhiều mức độ phụ thuộc theo thống kê, hay độ đo thông tin (Quinlan, 1986), những phương pháp này thất bại nếu muốn xây dựng một mô hình dựa trên việc kết hợp một số thuộc tính [13].

2.2.2. Lựa chọn thuộc tính dựa trên tập thô [26, 28]

Lựa chọn thuộc tính là một tiến trình tìm ra một tập con tối ưu các thuộc tính thoả mãn tiêu chí nhất định trong cơ sở dữ liệu. Ở đây chúng ta xem xét đến hai tham số đó là : kích thước của tập con các thuộc tính được lựa chọn và độ chính xác của bộ phân lớp kết luận sử dụng duy nhất các thuộc tính lựa chọn. Chúng ta phải định nghĩa một độ đo đánh giá mà có thể phản ánh cả hai tham số trên, vấn đề lựa chọn các thuộc tính có thể được xem như một vấn đề tìm kiếm.

2.2.2.1. Các phương pháp lựa chọn thuộc tính [26]

Phương pháp trực quan nhất cho việc lựa chọn thuộc tính là liệt kê tất cả các tập con dự tuyển và áp dụng dộ đo đánh giá đối với chúng. Thực sự thì việc tìm kiếm hết mọi khía cạnh là không thể thực hiện được trong hầu hết các tình huống vì có đến 2n

tập con đối với một tập dữ liệu có n thuộc tính. Việc tìm kiếm chỉ có thể được sử dụng khi n tương đối nhỏ, n lớn sẽ làm cho việc tìm kiếm khó khăn trong nhiều ứng dụng thế giới thực.

Một cách có thể được sử dụng khác đó là sử dụng một phương pháp tìm kiếm ngẫu nhiên với mỗi tập con thuộc tính dự tuyển được phát sinh một cách ngẫu nhiên.

Mỗi lần, độ đo đánh giá được áp dụng đối với tập con thuộc tính phát sinh để kiểm tra xem nó thoả mãn tiêu chuẩn nào đó chưa ? Tiến trình lặp lại cho đến khi một tập con thuộc tính thoả mãn tiểu chuẩn đưa ra được tìm thấy.

Phương pháp thứ ba và được sử dụng thông dụng nhất được gọi là tìm kiếm heuristic. Một hàm heuristic được sử dụng để hướng dẫn việc tìm kiếm.

Việc tìm kiếm được thực hiện theo hướng làm cực đại giá trị của hàm heuristic.

Việc tìm kiếm hết các khía cạnh là không thể thực hiện được bởi vì độ phức tạp thời gian cao. Tìm kiếm ngẫu nhiên và heuristic giảm bớt độ

phức tạp tính toán bằng cách dàn xếp hiệu quả. Chúng không phải là tìm kiếm đầy đủ trong hầu hết trường hợp. Nói cách khác chúng không đảm bảo đưa ra một kết quả tối ưu. Tìm kiếm heuristic là một phương pháp tìm kiếm quan trọng được sử dụng cho việc lựa chọn thuộc tính.

2.2.2.2 Những vấn đề cơ bản của lựa chọn thuộc tính theo tập thô với heuristic [26]

Quá trình lựa chọn thuộc tính là một quá trình tìm kiếm trong toàn bộ không gian tìm kiếm 2n

tập con của n thuộc tính. Trong cách tiếp cận lựa chọn thuộc tính dựa trên tập thô,

+ Lựa chọn thuộc tính trong lõi (Core) có thể được sử dụng làm tập con ban đầu.

+ Lần lượt thêm các thuộc tính cho tới khi tiêu chuẩn dừng được thoả mãn.

Chúng ta sử dụng một độ đo hay một hàm heuristic để đánh giá các tập con thuộc tính thay đổi.

Độ đo quyết định tập con thuộc tính dự tuyển kế tiếp. Lọc (Filter) và Bọc (wrapper) là hai lớp độ đọ đợc sử dụng phổ biển. Phương pháp bọc sử dụng thuật toán qui nạp như là một độ đo đánh giá. Phương pháp lọc độc lập với thuật toán qui nạp, nó sử dụng các thuộc tính được chọn vì nó chỉ dựa vào duy nhất các đặc trưng của thuộc tính.

+ Tiêu chuẩn dừng: Kích thước của vùng dương có thể được sử dụng như là một tiêu chuẩn dừng, cụ thể, thuật toán dừng khi vùng dương của các thuộc tính được chọn đạt đến vùng dương ban đầu, có nghĩa là: POSR(D) = POSC(D), C là tấp tất cả các thuộc tính điều kiện, D là tập thuộc tính quyết định, R  C.

2. 2. 2. 3. Các hàm heuristic dựa trên tập thô

Những hàm heuristic này được sử dụng để quyết định thuộc tính nào có liên quan đến khái niệm đích.

a. Những phương pháp hướng ý nghĩa (significance Oriented methods) [26] ý nghĩa của các thuộc tính đã được sử dụng như là heuristic trong một nghiên cứu trước về lựa chọn thuộc tính với tập thô. Mỗi lần, thuộc tính có ý nghĩa nhất từ tập các thuộc tính chưa được lựa chọn được thêm vào để cho ra tập con các thuộc tính dự tuyển tiếp theo. ý nghĩa của thuộc tính a, ký hiệu SIG(a), là độ gia tăng sự phụ thuộc giữa các thuộc tính điều kiện và thuộc tính quyết định bởi kết quả của việc thêm vào thuộc tính a. Vì thế heuristic là lựa chọn các thuộc tính làm cho sự phụ thuộc gia tăng nhanh hơn sẽ ưu tiên cao hơn. Sự phụ thuộc giữa các thuộc tính điều kiện và thuộc tính quyết định được định nghĩa là :

g(R,D) = card(posR(D))/card(U)

Với CARD(POSR(D)) là là lực lượng của vùng dương và Card(U) là lực lượng của tập vũ trụ. Phụ thuộc g(R,D) phản ảnh mức độ quan trọng của R trong việc phân lớp các đối tượng vào các lớp của U/IND(D). Hàm heuristic hình thức được định nghĩa như sau:

SIG(a) = g(R + a, D) ? g(R, D)

Với R là tập các thuộc tính được lựa chọn hiện tại và D là thuộc tính quyết định.

Hàm heuristic này là đơn giản và độ phức tạp về thời gian là thấp. Tuy nhiên, phương pháp này chỉ xem xét sự phụ thuộc của các thuộc tính đã lựa chọn, những thông tin khác được bỏ qua. Vì mục tiêu cuối cùng của việc lựa chọn thuộc tính là để giảm bớt số các thuộc tính sử dụng để phát sinh luật phân lớp, chúng ta phải xem xét đến chất lượng của các luật tiềm năng (potential rules). Chất lượng của các luật này có thể được đánh giá bởi 2 tham số: I). Số các thể hiện được phủ bởi luật thế, có nghĩa là kích thước các thể hiện nhất quán; và 2). Số các thể hiện được phủ bởi mỗi luật gọi là xác thực của mỗi luật.

Phương pháp hướng ý nghĩa chỉ xem xét đến tham số đầu tiên, nó cố gắng gia tăng nhanh hơn kích thước các thể hiện nhất quán nhưng bỏ qua tham số thứ 2 (tính xác thực của các luật riêng rẽ). Tuy nhiên, những luật

với tính xác nhận thấp thường ít được sử dụng. Ví dụ, số nhận diện bệnh nhân có thể được chọn ra.

b. Những phương pháp hướng hỗ trợ (support oriented methods) [26] Một hàm heuristic xem xét đến cả hai tham số được đề xuất bởi Zhong, et al [28]. Heuristic lựa chọn thuộc tính a sao cho, việc thêm a vào tập hiện tại, kích thước các thể hiện nhất quán gia tăng nhanh hơn và việc xác nhận của luật có ý nghĩa nhất là lớn hơn so với thêm bất kỳ thuộc tính nào khác. Hàm này được định nghĩa như sau:

F(R,a) = CARD(POSR+{a}(D)) x MAXSIZE(POSR+{a}(D)/IND(R+{a})) Trong đó :

CARD(POSR+{a}(D)) : là kích thước các thể hiện nhất quán

MAXSIZE(POSR+{a}(D)/IND(R + {a})): kích thước tối đa trong số các phân hoạch của miền dương POSR+{a}(d) xác định bởi (R + {a}). Chúng ta xem heuristic này như là heuristic hổ trợ cực đại.

Giới hạn của Heuristic hổ trợ tối đa là nó chỉ xem xét đến tối ưu cực bộ thay vì tối ưu toàn cục của các luật tiềm năng. Những thể hiện huấn luyện có thể thuộc về nhiều lớp. Heuristic hỗ trợ cực đại xác nhận một trong các lớp đó. Trong một số trường hợp Heuristic hỗ trợ cực đại không thể quyết định giữa hai tập các thuộc tính cùng đưa ra một kích thước vùng dương và hỗ trợ luật ý nghĩa nhất.

c. Heuristic hỗ trợ trung bình (average support heuristic) [26]

Từ những hạn chế của các phương pháp hướng hỗ trợ, các tác giả M. Phang, J.T. Cao [32] đã đề xuất một hàm heuristic mới, gọi là Heuristic hổ trợ trung bình (Average Support Heuristic). Heuristic hổ trợ trung bình xem xét chất lượng tổng của tập luật tiềm năng. Chất lượng tổng của tập các luật tiềm năng (the potential sets of rules), ký hiệu bởi Q là hỗ trợ trung bình của những luật ý nghĩa nhất cho mọi lớp quyết định Không như Heuristic hỗ trợ cực đại, Heuristic hỗ trợ trung bình xem xét tất cả các lớp quyết định, nó lựa chọn với những thuộc tính ưu tiên cao hơn làm cho hỗ trợ trung bình của những luật cao nhất trên toàn bộ các lớp quyết định.

Chất lượng tổng của tập hợp các luật tiềm năng Q(R,a) được định nghĩa như sau:

R(R, a) = 

i S R a di

n 1 ( , , )

Với S(R,a,di) : MAXSIZE(POSR+{a}(d = DI)/IND(R + {a})) là xác nhận của luật ý nghĩa nhất với lớp quyết định {D = di và D là thuộc tính quyết định, miền giá trị của D là {d1, d2 ...dn}.

Hàm Heuristic hỗ trợ trung bình được định nghĩa là tích của CARD(POSR+{a}(D)) và Q(R,a)

F(R,a) CARD(POSR+{A}(D)) x Q(R,a)

Heuristic hỗ trợ trung bình có cùng cấp độ lớn về độ phức tạp thời gian như Heuristic hỗ trợ cực đại. Cả hai cái đều có thể được tính toán bởi một lần quét các lớp quyết định.

2.2.2.4. Thuật toán Heuristic lựa chọn thuộc tính [28]

Thuật toán Hueristic lựa chọn thuộc tính sử dụng tập các thuộc tính lõi (CORE) như là tập con ban đầu, thuật toán tiếp tục lựa chọn lần lượt một thuộc tính từ tập các thuộc tính chưa chọn, thêm nó vào tập con thuộc tính cho tới khi dạt đến một rút gọn .

Thuật toán:

R - là tập các thuộc tính điều kiện được chọn P - là tập các thuộc tính điều kiện không chọn U - tập tất cả các thể hiện (đối tượng)

X - tập tất cả các thể hiện mâu thuẫn EXPECT - một ngưỡng chính xác Trạng thái ban đầu: R = CORE(C) P C - CORE(C), k = 0

Bước I: Loại bỏ tất cả thể hiện nhất quán: X = U - POSR(D) .

Bước 2: Nếu k >= EXPECT thì dừng, với k được tính như sau: K = R(D) = ) ( )) ( ( U Card D POS Card R

Ngược lại:

Nếu POSR(D) = POSC(D) thì dừng

Bước 3: Với mọi p  P, tính vp = CARD(POSR {P}(D))

mp = max_SIZE(POSR{P}(D))/(R {p}  D))

Bước 4: Chọn thuộc tính p tốt nhất, có nghĩa là chọn p sao cho (vp x mp) lớn nhất, và đặt

R = R  {p} P = P - {p} ;

Bước 5: quay về bước 1 . Ví dụ:

Xem bảng quyết định sau : Trong đó tập {a, b, c, d} là tập các thuộc tỉnh điều kiện, E là thuộc tính quyết định, U = {x1, x2, x3, x4, x5, x6, x7}

Bảng 2.1 : Ví dụ về lựa chọn thuộc tính theo tập thô

Ta thấy, {b} là là thuộc tính cốt yếu duy nhất (xoá b sẽ gây ra tính không nhất quán {a1c2d1}  và {a1c2d1}  e0)

U/{b} = {{x1, x2}, {x5, x6, x7}, {x3, x4}} U/{E} ={ {x4}, {x1, x2, x7}. {x3, x5, x6}}

a b

Chúng ta có b-vùng dương của E là POS{b}(E) : {xl, x2}; . X = {x3, x4,x5, x6, x7} ; R = Core(C) = {b}; P = {a, c, d} U b E x3 2 2 x4 2 0 x5 1 2 x6 1 2 x7 1 1

Bảng 2.2. Trạng thái ban đầu cho việc lựa chọn đặc trƣng

Giải sử EXPECT = 1 , điều kiện kết thúc sẽ là k  1 .Vì k = 2/7 < 1 , R không phải là một rút gọn, chúng ta phải tiếp tục lựa chọn các thuộc tỉnh điều kiện. Chúng ta có thể chọn a, c, hay d. bảng sau cho kết quả thêm thuộc tính {a}, {c} và {d} vào R tương ứng. Các lớp tương đương là:

Bảng 2.3 . Lựa chọn thuộc tính từ tập {a, c, d} .

U/{E}= {{x3, x5, x6}. {x4}, {x7} U/{a, b} = { {x3, x4}, {x5, x6, x7} } U{b, c} = {{x3}, {x4}, {x5}, {x6}, {x7}} U a b E x3 1 2 2 x4 1 2 0 x5 2 1 2 x6 2 1 2 x7 2 1 1 1. Chọn {a} U b c E x3 2 0 2 x4 2 2 0 x5 1 0 2 x6 1 1 2 x7 1 2 1 1. Chọn {c} U b d E x3 2 0 2 x4 2 1 0 x5 1 0 2 x6 1 0 2 x7 1 1 1 1. Chọn {d}

U/{b, d} = {{x3}, {x4} {x5, x6} {x7}} POS{a,b}(E) = 

POS{b,c}(E) = POST{b,d}(E) = {x3, x4, x5, x6, x7} Max_size(pos{b,c}(E)/{b,c,E}) = 1

Max size(pos {b,d}(E)/{b,d,E}) = {x5, x6}  = 2

Chúng ta có thể thấy rằng, việc lựa chọn thuộc tính a không thể giảm bớt số các thể hiện nhất quán, nếu chọn c hay d thì tất cả các thể hiện đều trở thành nhất quán. Ta có Vd x md là lớn nhất, do đó d được chọn trước.

R = {b, d}, tất cả các thể hiện đều nhất quán và phải bị xoá khỏi U. Do vậy, U = , k = 1 . Thuật toán kết thúc, như vậy tập con thuộc được chọn là {b, d}

2.2.3. Quan hệ giá trị gần - VCR (valued closeness relation) [5]

Như chúng ta đã biết, một luật quyết định để hỗ trợ người ra quyết định được phát biểu dưới dạng một phát biểu logic

If Hội của những điều kiện cơ sở Then Tuyển của các quyết định cơ sở. Những luật quyết định đã qui nạp từ bảng quyết định có thể được áp dụng để phân lớp những đối tượng mới. Đặc biệt, việc phân lớp các đối tượng mới có thể được xác nhận bởi việc đối sánh mô tả của nó với một trong các luật quyết định.

Việc đối sánh (matching) có thể dẫn đến một trong bốn tình huống sau:

(i) Những đối tượng mới sánh hợp chính xác với một trong các luật quyết định đơn định (deterministic decision rules)

(ii) Những đối tượng mới sánh hợp chính xác với một trong các luật quyết định không đơn định (non-deterministic decision rules)

(iii) Những đối tượng mới không sánh hợp với bất kỳ luật quyết định nào

Trong (i) thì lựa chọn đề xuất là rõ ràng, trong (ii) tuy vậy những đề xuất không trực tiếp bởi vì luật mà đối tượng được sánh hợp là mơ hồ, trong trường hợp này người ra quyết định (Decision Maker - MD) được thông báo số các mẫu lựa chọn đề xuất mỗi loại có thể, số này được gọi là cường độ (strength). Nếu cường độ của một loại lớn hơn cường độ của các loại khác xuất hiện trong những luật không đơn định, người ta có thể kết luận rằng theo luật này, đối tượng được xem xét có khả năng lớn nhất thuộc về loại mạnh nhất.

Tình huống (iii), (iv) rất khó khăn để giải quyết, người ta có thể giúp người ra quyết định (DM) bằng việc mô tả với người này những luật gần nhất đối với mô tả của đối tượng mới. Khái niệm gần nhất liên quan đến độ đo khoảng cách. Slowinski và Stefanowski (1994) đã đề xuất độ đo khoảng cách dựa trên quan hệ giá trị gần (valued closeness relation -VCR). Nó liên quan đến ngưỡng không phân biệt, ngưỡng khác biệt chặt và ngưỡng bác bỏ (veo thresholds) trên những thuộc tính riêng biệt.

Tính toán quan hệ giá trị gần (VCR)

Ứng dụng VCR giảm sự khác biệt lớn trên một thuộc tính đối với việc được bù vào bởi một số những khác biệt thứ yếu trên các thuộc tính khác.

Vì một luật quyết định có thể có ít những điều kiện cơ sở hơn việc mô tả một đối tượng được phân lớp, tính gần (closeness) của luật đối với đối tượng được tính toán với các thuộc tính mô tả trong luật. Ở đây, được hiểu rằng, không có sự khác biệt giữa đối tượng và luật trên những thuộc

Lựa chọn thuộc tính và phân lớp dựa trên quan hệ giá trị gần –VCR