2.5 Mô hình tập thô (Rough Set Model)
2.5.1 Giới thiệu về lý thuyết tập thô và mô hình tập thô dung sai
Xuất phát điểm ủac lý thuyết tập thô là xem xét ác ập X trong k ng c t hô gian vũ ụ tr U một cách gần únđ g bởi c x x êác ấp ỉ tr n (upper approximations) và xấp xỉ ưới (low d er approximations) của một không gian xấp x ỉℜ=(U,R),
trong đó R⊆UxU là một quan hệ tương đương. Hai đối tượng x, y ∈U được coi là ôkh ng ph n biệt â được đối ới R nếu xRy tức v là giữa x v y c quan hệà ó R. Xấp xỉ êtr n và xấp x dỉ ưới trong kh ng gian xấp x c bô ỉ ℜ ủa ất kỳ mọt t ập X⊆U, được định nghĩa như sau:
L(ℜ,X) = {x U: [x]∈ R⊆ X}
U(ℜ,X) = {x U: [x]∈ R∩ ≠ ∅X }
trong đó [x]R biểu thị ớp ương đương của ác đối tượng kh ng ph n biệt l t c ô â được ới v x đ với ối quan hệ ương đương R. t
M s ột ố nghi n cứu trước đ y vềê â bài toán ìm kiếm th ng tin sử ụng t ô d mô hình ập th ương đương với giả thiết ơ ản t ô t c b là t gập T ồm ác thuật ngữ c có thể chia thành các ớp ương đương xác định ởi quan hệ R. V R l ương l t b ì à t đương n n thoê ả mãn 3 tính chất: ph n x , đối xả ạ ứng và bắc ầu c . Tuy nhiên, tính chất ắc ầu kh ng phải bao giờ ũng thoả b c ô c mãn trong lĩnh ực ử v x lý ông n ngữ ự t nhiên và t ìm ếm ôki th ng tin.
Do vậy, mô hình ập th dung sai được đưa ra, trong đ t ô ó c lác ớp chồng nhau có thể được phát sinh bởi quan h dung sai chệ ỉ yêu cầu hai t h chín ất phản x và ạ đối xứng. Kh ng gian xấp xỉ tổng át d êô qu ựa tr n quan h dung sai ệ g là ôọi kh ng gian dung sai chứa ác ớp đối ượng c l t là phần ử ủa ập ũ trụ U t c t v có thể ếp chồng nhau. Kh ng gian dung sai được định nghĩa ột ách hình x ô m c thức là m b b ột ộ ốn ℜ=(U,I,v,P) trong đó
U là t v ập ũ trụ
I : U → 2u là m hột àm kh ng chắc chắn ô v: 2u 2x u [→ 0,1] là m hàột m tập ờ m P: I(U) → {0,1} là một hàm cấu trúc
Giả thiết rằng ối t ng x đ ượ được ận ết bnh bi ằng hàm thông tin Inf(x).
Hàm kh ng chắc chắn I xác định ớp dung sai của ất cả ác đối ượngô l t c t có
cùng th ng tin với x. Hàm kh ng chắc chắn ô ô có thể là b c hất ứ àm ào thoả n mã đ ềi u kiện: x∈I(x) và y I(x) nếu và ch nếu x∈I(y) với ∈ ỉ ∀x,y∈U.
Hàm tập ờ v li n quan tới m ê câu hỏi ớp dung sai I(x) của ột đối ượng th ng l m t ô tin x∈U vào một trong 2 tập con: tập có c ấu trúc (P(I(x))=1) và t ập không có c ấu trúc (P(I(x))=0).
V ôới kh ng gian dung sai, xấp xỉ tr n v ê à xấp xỉ ưới ủa ột ập X được d c m t định ngh a nh ĩ ưsau:
L(ℜ,X) = {x U / P(I(x)) =1 & v(I(x),X) =1} ∈ U(ℜ,X) = {x U / P(I(x)) =1 & v(I(x),X) >0} ∈
Vấn đề c bản của việc sử dụng không gian dung sai trong các ứng dụng là ơ xác định các hàm I, v, P phù hợp.
2.5.2 Ứng dng mô hình tập thô trong bài toán tìm kiếm thông tin
Chọn tập vũ trụ U là tập các thuật ngữ, U = {t1,t2...,tM}. Chọn quan hệ đồng xuất hiện của các thuật ngữ trong các v n bản tài liệu từ tập D làm quan ă hệ dung sai vì sự ồng xuất hiện của các thuật ngữ cho phép thể hiện một đ cách có ý nghĩa về tính phụ thuộc và quan hệ ngữ nghĩa của các thuật ngữ.
Hơn nữa việc xác ịnh tính ồng xuất hiện của các thuật ngữ khá đơn giản và đ đ hiệu quả tính toán tốt.
Ký hiệu fD(ti, tj) là số tài liệu trong D có chứa cả ti, tj. Ta định nghĩa hàm không chắc chắn I phụ thuộc vào ngưỡng θ như sau:
Iθ(ti) = {tj / c(ti, tj) } ≥ θ ∪{ti} Hàm tập mờ ợc đư định nghĩa nh ư sau:
(X,Y)= X∩XY
v
Hàm thành phần th được định nghĩa như sau: ô à(ti, X) = v(Iθ(ti),X) = ( )
( )i i
t t I
θ θ
I
∩X
v c ới ác định nghĩa tr n, xấp xỉ tr n v ê ê à x x dấp ỉ ưới ủa ập X được định nghĩa c t l là: ại
L(ℜ,X) = {x∈T / v(Iθ(ti),X) =1}
U(ℜ,X) = {x∈T / v(Iθ(ti),X) >0}
Để thực hiện truy vấn trong mô hình tập thô dung sai, việc so sánh giữa câu hỏi và các tài liệu được chuyển thành việc kiểm tra cac mức khác nhau của các độ thô giữa các xấp xỉ trên và xấp xỉ dưới của nó. Các ộ thô đ giữa hai tập được định nghĩa dành cho quan hệ tương đương được mở rộng cho quan hệ dung sai.
Mô hình tập thô có ưu điểm là chi phí tính toán thấp h n so với các ơ mô hình khác trong khi vẫn đảm bảo được độ chính xác cao, vì vậy mô hình này ang đ được nghiên cứu và phá triển trong thời gian gần đây.