Tập thô trong không gian xấp xỉ

Một phần của tài liệu Khai phá dữ liệu văn bản bằng lý thuyết tập thô (Trang 33 - 38)

Số hóa bởi Trung tâm Học liệu Ờ Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Để hiểu rõ về việc hệ thông tin biểu diễn và xử lý dữ liệu thô như thế nào ta xét định nghĩa dưới đây. Ta xét R là một quan hệ tương đương theo định nghĩa 6 với trường hợp đặc biệt B=A gồm tất cả các thuộc tắnh. Lớp tương đương theo quan hệ R được gọi là các tập sơ cấp [8,22] và gọi E là tập các tập sơ cấp. Z. Pawlak đã đưa ra khái niệm tập mô tả được như sau [8].

Định nghĩa 8: Một tập con X khác rỗng các đối tượng được gọi là mô tả được khi và chỉ khi X là tập hợp của các tập sơ cấp trong hệ thông tin (trong trường hơp đặc biệt tập rỗng cũng được coi là tập mô tảđược).

Như vậy một tập các đối tượng bất kỳ có thể là mô tảđược hoặc không mô tả được theo các tập sơ cấp E. Một vấn đềđặt ra là làm sao có thể tìm ra một cách để biểu diễn các tập không mô tảđược theo các tập sơ cấp E. Nhìn vào bảng quyết định, ta xét một tập các đối tượng X có cùng một giá trị của thuộc tắnh quyết định là d, khi đó sẽ có nhiều trường hợp X không mô tả được theo các tập sơ cấp. Ta chỉ tìm được một tập mô tả được (có số đối tượng là nhỏ nhất) không những chứa tất cả các phần tử thuộc X mà còn chứa các phần tử không thuộc X.

Định nghĩa 9: Giả sử S =(U,A) là một hệ thông tin và B ⊆ A và X ⊆ U, thì các tập xấp xỉ của X theo thông tin có từ B, được tắnh theo các công thức sau:

1. Tập B - xấp x ỉ dưới của X, ký hiệu là BX , là tập BX ={x ∈U: [x]B ∈ X}.

2. Tập B - xấp xỉ trên của X, ký hiệu là BX , là tập BX ={x ∈U:[x]B ∩X≠∅}.

Số hóa bởi Trung tâm Học liệu Ờ Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Theo định nghĩa trên thì khi gặp một tập X mà ta không thể mô tảđược bằng các tập sơ cấp E là các lớp tương đương của quan hệ INDA(B), ta chỉ có thể có được xấp xỉ trên và xấp xỉ dưới của nó.

a. Các tắnh chất của sự xấp xỉ [18,22]:

1.BX X BX

2.B( )  B( ), B( )U B( )UU

3.B(XY)B( )X B( )Y

4.B(XY)B( )X B( )Y

5. Nạu XY th ừ B(X)B(Y) vộ B(X)B(Y)

6.B(XY) B( ) X B( )Y 7.B(XY)B( )X B( )Y 8.B(X) B( )X 9.B(X)-B( )X 10.B(B( ))X B(B( ))X B( )X 11.B(B( ))X B(B( ))X B( )X

Ta ký hiệu ỜX thay cho U-X

b. Người ta phân tập thô thành 4 loại [24]

Số hóa bởi Trung tâm Học liệu Ờ Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

- X là không xác định bên trong theo B nếu BX = và BX U - X là không xác định bên ngoài theo B nếu BX  và BX = U - X là không xác định thực sự theo B nếu BX = và BX = U

c. Độ đo liên quan biên xấp xỉ: Tập thô được chỉ số hóa bởi hệ số sau:

( ) ( ) ( ) B B X X B X  

Trong đó: + B(X) là độ đo liên quan xấp xỉ của X. + X là lực lượng của X

Ta có thể thấy: 0B( ) 1X  . Nếu B(X)=1 thì đúng hoàn toàn

với tập thuộc tắnh B, ngược lại B(X)<1 thì X là thô đối với B. - Tắnh chất của độ đo liên quan đến xấp xỉ:

1 1 . , , 0 ( ) 1 . ( ) 1 ì BN ( ) 0( W W ) B B B a B A X U X b N X th X B B           ạu và tập X có thể xác định dựa trên B.

c. Nếu B(X)<1 Thì BNB(X)  (Tập X không thể xác định dựa trên B).

d. Xấp xỉ và liên quan phụ thuộc:

Quan hệ phụ thuộc biểu được phát biểu như sau:

xR X khi và chỉ khi xRX ( R: x chắc chắn thuộc vào X trên quan hệ R)

xR X khi và chỉ khi xRX ( R: x có thể thuộc vào X trên quan hệ R).

1.2.1.3. Khai phá tri thức theo cách tiếp cận tập thô

Lý thuyết tập thô (Rough Sets) được Zdzislaw Pawlak đề xuất vào đầu những năm 1980, nó được xem như một cách tiếp cận mới để xử lý các thông

Số hóa bởi Trung tâm Học liệu Ờ Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

tin mơ hồ và không chắc chắn, tạo thành một cơ sở vững chắc cho các ứng dụng khai phá dữ liệu, là công cụ để phát hiện các mẫu ẩn trong dữ liệu, phát hiện phụ thuộc một phần hay phụ thuộc hoàn toàn trong dữ liệu, loại bỏ dữ liệu dư thừa, đưa ra cách tiếp cận đối với vấn đề dữ liệu không đầy đủ. Đặc biệt, RST có thể sử dụng trong vấn đề trắch chọn đặc trưng, rút gọn dữ liệu, sinh luật quyết định và trắch rút mẫu (các mẫu, các luật kết hợp).

Triết lý của RST dựa trên giả sử rằng, mọi đối tượng trong vũ trụ đều gắn với 1 thông tin nào đó. Các đối tượng được đặc trưng bởi cùng một thông tin thì bất khả phân biệt. Quan hệ tương đương là cơ sở toán học của RST.

Trong RST, bất cứ khái niệm không rõ ràng nào đều được thay bằng một cặp khái niệm không chắnh xác gọi là xấp xỉ dưới và xấp xỉ trên của khái niệm không rõ ràng. Xấp xỉ dưới gồm tất cả các đối tượng chắc chắn thuộc về khái niệm, xấp xi trên bao gồm tất cả các đối tượng có thể thuộc về khái niệm. Hiệu của xấp xỉ dưới và xấp xỉ trên gọi là vùng biên của khái niệm không rõ ràng.

Các phép toán cơ bản của RST được sử dụng để phát hiện các mẫu cơ sở trong dữ liệu. Do đó, với một ý nghĩa nhất định, phương pháp luận RS cũng chắnh là học máy, phát hiện tri thức, suy diễn thống kê và suy diễn quy nạp. Tuy nhiên, kết quả thu được không bó hẹp trong lý thuyết này và có thể được sử dụng theo nhiều cách khác nhau.

Ở một mức độ nhất định, RST giao với nhiều công cụ toán học khác được dùng để xử lý tri thức không đầy đủ. Khái niệm tập thô (RS) và tập mờ (FS) là khác nhau vì chúng biểu diễn các khắa cạnh khác nhau của sự không chắnh xác. Trong FS, sự không chắnh xác được biểu diễn bởi 1 hàm thuộc, còn trong RS, khái niệm không rõ ràng dựa trên các xấp xỉ và sự không phân biện được.

Số hóa bởi Trung tâm Học liệu Ờ Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Bên cạnh đó, RST còn liên quan tới các phương pháp lập luận logic (Reasoning Boolean), cho dù giao với các công cụ toán học khác, RST vẫn là một môn khoa học nghiên cứu hoàn thiện và độc lập.

Một phần của tài liệu Khai phá dữ liệu văn bản bằng lý thuyết tập thô (Trang 33 - 38)