Tập thuộc tính rút gọn và tập thuộc tính nhân- 123docz.net

Một hệ thông tin (hay một bảng quyết định) thể hiện tri thức về các đối tƣợng trong thế giới thực. Tuy nhiên nó có thể bị dƣ thừa thông tin ít nhất trong 2 khả năng sau:

- Các đối tƣợng giống nhau hoặc không phân biệt đƣợc có thể xuất hiện nhiều lần trong bảng.

- Một số thuộc tính có thể là dƣ thừa theo nghĩa khi bỏ đi các thuộc tính này thì thông tin do bảng quyết định cung cấp mà chúng ta quan tâm sẽ không bị mất mát.

Với trƣờng hợp thứ nhất, việc nhận biết các lớp tƣơng đƣơng là xu hƣớng tự nhiên của việc giảm bớt dữ liệu: chỉ cần sử dụng một đối tƣợng đại diện cho mỗi lớp tƣơng đƣơng. Việc ghi lại dữ liệu sẽ đƣợc thực hiện chỉ từ một đối tƣợng của mỗi lớp tƣơng đƣơng là cần thiết để miêu tả toàn bộ lớp.

Trong phần này chúng ta nghiên cứu tiếp cận cho loại dƣ thừa thông tin trong trƣờng hợp thứ hai. Đó là xu hƣớng chỉ giữ lại những thuộc tính mà bảo toàn quan hệ không phân biệt đƣợc và đó bảo toàn khả năng xấp xỉ tập hợp trong một hệ thông tin. Những thuộc tính còn lại mà khi vứt bỏ chúng đi không ảnh hƣởng đến sự phân lớp, đó là những thuộc tính dƣ thừa. Còn lại các tập con các thuộc tính và chúng là tối thiểu gọi là các tập rút gọn.

Xem xét các thuộc tính có thể rút gọn đƣợc và không thể rút gọn đƣợc trong bảng quyết định.

Giả sử với bảng quyết định A= (U, A  D) với thuộc tính a  A tập các thuộc tính điều kiện, U là tập tổng thể và D thuộc tính quyết định. Thuộc tính a có thể rút gọn đƣợc trong A nếu: POSA(D) = POS(A-{a})(D), các trƣờng hợp còn lại thì không thể rút gọn thuộc tính a trong A.

A= (U, A  D) là rút gọn đƣợc nếu tồn tại các thuộc tính a  A là rút gọn đƣợc trong A.

Tập các thuộc tính R  A đƣợc gọi là tập rút gọn của A nếu A’ = (U, R  D) là rút gọn và POSR(D) = POSA(D).

Định nghĩa 1.5: Cho hệ thông tin A=(U,A). Một tập RA đƣợc gọi là một rút gọn của A nếu R thoả mãn 2 điều kiện sau:

1. U / INDR= U / INDA

2. Với a  R , U / IND(R-{a})  U / INDA

Tập tất cả các thuộc tính không thể bỏ đƣợc trong A đƣợc gọi là tập nhân, kí hiệu là CORE(A) và đƣợc xác định nhƣ sau:

CORE(A) =  RED(A) Trong đó, RED(A) là tập tất cả các rút gọn của A.

Ví dụ: Xét bảng quyết định trong Bảng 1.3, tập thuộc tính rút gọn và thuộc tính nhân biểu diễn nhƣ sau:

U Điểm trung bình PTTH Quận/Huyện Trúng tuyển x1 5.5 Hai Bà Trƣng Hai Bà Trƣng Trƣợt

x2 7.0 Chu Văn An Tây Hồ Đỗ

x3 6.5 Đoàn Thị Điểm Cầu Giấy Đỗ

x4 6.5 Đoàn Thị Điểm Cầu Giấy Trƣợt

x5 8.0 Chuyên Ngữ Cầu Giấy Đỗ

x6 8.0 Lê Quý Đôn Cầu Giấy Trƣợt

x7 8.0 Chuyên Ngữ Thanh Xuân Đỗ

Tập rút gọn Red1 = {Điểm trung bình, PTTH}

Điểm trung bình PTTH Trúng tuyển

x1 5.5 Hai Bà Trƣng Đỗ

x3, x4 6.5 Đoàn Thị Điểm Đỗ

x5, x7 8.0 Chuyên Ngữ Đỗ

x6 8.0 Lê Quý Đôn Trƣợt

Tập rút gọn thứ 2 Red2 = {Điểm trung bình, Quận/Huyện}

U Điểm trung bình Quận/Huyện Trúng tuyển x1 5.5 Hai Bà Trƣng Trƣợt

x2 7.0 Tây Hồ Đỗ

x3, x4 6.5 Cầu Giấy Đỗ

x5, x6 8.0 Cầu Giấy Đỗ

x7 8.0 Thanh Xuân Đỗ

Tập thuộc tính nhân CORE = {Điểm trung bình, PTTH}  {Điểm trung bình, Quận/Huyện} = { Điểm trung bình }.