Mô hình dựa trên tập mờ (Fuzzy Set)

Một phần của tài liệu Khai phá dữ liệu văn bản bằng lý thuyết tập thô (Trang 50 - 52)

Trong toán học truyền thống khái niệm tập hợp được phát biểu như sau: Cho tập hợp X và A ⊆ X khi đó ta có thể xây dựng một hàm, được gọi là hàm đặc trưng, xác định các phần tử của tập X như sau:

Xét ộ : X → {0,1 } với x ∈ X thì: ộ (x) = 1 nếu x ∈ A; ộ (x) = 0 nếu x

 A;

Hàm đặc trưng ộ(x) rõ ràng là hàm xác định các phần tử của tập A. Nhờ hàm ộ(x) ta có thể nói tập A là tập gồm những phần tử x mà ộ (x)=1. Bây giờ tập A có thể biểu diễn một cách khác qua các phần tử của tập X:

A={(x, ộ(x)=1)| x ∈ X}

Mở rộng khái niệm tập hợp của toán học học cổđiển nêu trên, Lofti Zadeh xét hàm ộ trên toàn đoạn [0,1].

* Biểu diễn văn bản sử dụng các khái niệm mờ

Giả sử ta có một tập gồm m văn bản: D=(d1 , d2 , Ầdm ). Khi đó xác định được một tập p từ khóa: K = (k1 , k2 , Ầ kp )

Một khái niệm có thể là một từ khóa theo nghĩa thông thường, trong đó gồm các từ có liên quan đến từ khóa đó.

Vắ dụ: Với khái niệm là ỘTrường họcỢ, nó có thể bao gồm 1 số từ khóa: ỘBan giám hiệuỢ, ỘGiáo viênỢ, Ộhọc sinhỢ, ỘlớpỢ, ỘđiểmỢ.

Gọi C là tập gồm có n khái niệm liên quan đến văn bản, C được kắ hiệu như sau: C = {c1 , c2 , Ầcn }

Số hóa bởi Trung tâm Học liệu Ờ Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Trong đó: ci là khái niệm do người dùng xác định. Giả sử một khái niệm ci sẽ bao gồm các từ khóa có liên quan, ci = {k1 , k2 , Ầkp }, trong đó k là các từ khóa trong tập từ điển và có liên quan đến khái niệm ci.

Trong vắ dụ trên chúng ta có: ỘTrường họcỢ = {ỘBan giám hiệuỢ, ỘGiáo viênỢ, Ộhọc sinhỢ, ỘlớpỢ, ỘđiểmỢ}

Định nghĩa (Khái niệm mờ): Một tập mờ tương ứng với khái niệm trong đó hàm thuộc của nó được xác định bằng độ quan trọng của các từ khóa có liên quan tới khái niệm đó được gọi là một khái niệm mờ, kắ hiệu c* . Ta có thể biểu diễn khái niệm mờ qua tập từ khóa như sau:

* c ={(k , ộ (k )), (k , ộ (k )),...( k , ộ (k ))} c c p c p 1 1 2 2 Trong đó:

Định nghĩa (Hàm tắch hợp khái niệm mờ): Hàm F: [0,1]p

→ [0,1], được gọi là hàm tắch hợp thỏa mãn các tắnh chất của hàm tắch hợp mờ:

1. F(ộc (k1 ),..., ộc(kp )) ∈[0,1] 2. F(ộc (k1 ),..., ộc (ki‟ ),..., ộc(ki)) ≥F(ộc(k1),..., ộc(ki),..., ộc(kp)) Với ộc(ki ) <ộc(ki‟ ), i 1,...,p

Trong đó: ộc (ki) biểu diễn mức độ quan trọng của các từ khóa trong văn bản.

Vắ dụ:

Giả sử ta có tập từ khóa: ỘTrường họcỢ, ỘNhân viênỢ, ỘGiám đốcỢ, ỘBan giám hiệuỢ, ỘGiáo viênỢ, Ộhọc sinhỢ, ỘlớpỢ, ỘđiểmỢ, ỘTrưởng phòngỢ

(k )

c i

   

0 nếu ki không thuộc c

( )k

c i

 nếu ki thuộc c 1 nếu ki thuộc hoàn toàn c

Số hóa bởi Trung tâm Học liệu Ờ Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

K = {ỘTrường họcỢ, ỘNhân viênỢ, ỘGiám đốcỢ, ỘBan giám hiệuỢ, ỘGiáo viênỢ, Ộhọc sinhỢ, ỘlớpỢ, ỘđiểmỢ, ỘTrưởng phòngỢ} với độ liên quan đến văn bản được xác định bằng một hàm đánh chỉ số tương ứng:

ộk = {(ộỘTrường họcỢ), ộ(ỘNhân viênỢ), ộ(ỘGiám đốcỢ), ộ(ỘBan giám hiệuỢ), ộ(ỘGiáo viênỢ), ộ(Ộhọc sinhỢ), ộ(ỘlớpỢ), ộ(ỘđiểmỢ), ộ (ỘTrưởng phòngỢ)} = {0.9, 0.7, 0.2, 0.5, 0.1, 0.0, 0.6, 0.3, 0.1}

Ta tìm được một cụm từ khóa có liên quan đến nhau trong trong văn bản như vắ dụ trên: {ỘTrường họcỢ, ỘBan giám hiệuỢ, ỘGiáo viênỢ, Ộhọc sinhỢ, ỘlớpỢ, ỘđiểmỢ}. Chọn từ khóa ỘTrường họcỢ làm khái niệm, thì khái niệm mờ c* = ỘTrường họcỢ được biểu diễn như sau:

ỘTrường họcỢ = {(ỘBan giám hiệuỢ, 0.5) (ỘGiáo viênỢ, 0.1), (Ộhọc sinhỢ,0.0), (ỘlớpỢ,0.6), (ỘđiểmỢ,0.3)}.

Khi đó, độ quan trọng trong văn bản của Ấbệnh viện‟ được xác định bởi hàm tắch hợp khái niệm mờ:

ộ(ỘTrường họcỢ) = F(ộ(ỘBan giám hiệuỢ), ộ(ỘGiáo viênỢ), ộ(Ộhọc sinhỢ), ộ(ỘlớpỢ), ộ(ỘđiểmỢ) )

Nếu hàm tắch hợp là hàm MAX thì: ộ(ỘTrường họcỢ) = MAX(0.5, 0.1, 0.0, 0.6, 0.3) = 0.6

Nếu hàm tắch hợp là hàm trung bình thì:

ộ(ỘTrường họcỢ) = AVERAGE(0.5, 0.1, 0.0, 0.6, 0.3) = 0.3

Một phần của tài liệu Khai phá dữ liệu văn bản bằng lý thuyết tập thô (Trang 50 - 52)