Mô hình tập thô dungsai (TRSM) trong việc khai thá- 123docz.net

III. MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN

2. Tìm kiếm văn bản theo mô hình không gian vectơ

3.2 Mô hình tập thô dungsai (TRSM) trong việc khai thác thông tin

3.2.1 Không gian dung sai:

Trước hết chúng ta mô tả cách xác định các hàm I, ν và P phù hợp cho việc khai thác thông tin. Đầu tiên, để định nghĩa không gian dung sai chúng ta chọn tập vũ trụ U là tập τ của tất cả các terms.

U={t1, t2 ,…, tM}= τ (5)

Vấn đề cốt yếu trong công thức của TRSM trong khai thác thông tin là các lớp dung sai của các term. Có nhiều cách để xác định khái niệm các term tương tự. Các đặc điểm của các term được chọn bởi các tính chất sau:

1- Nó mang lại sự giải thích có ý nghĩa trong văn cảnh của khai thác thông tin về sự phụ thuộc và quan hệ ngữ nghĩa của các term.

2- Nó là quan hệ đơn giản và dễ máy tính hoá

Chúng ta cũng cần lưu ý rằng đặc điểm của các term không có tính đối xứng và không thể được sử dụng tự động để xác định các lớp tương đương. Với c (ti ,tj) là tần số xuất hiện đồng thời của hai term ti và tj trong D (Tập các văn bản). Chúng ta định nghĩa hàm không chính xác I phụ thuộc vào ngưỡng θ như sau:

Iθ(ti) ={tj | c(ti ,tj ) ≥θ }∪ {ti} (6) Hàm mập mờ ν được xác định như sau:

Hàm này đơn điệu với mối quan hệ trong tham số thứ 2. Dựa trên hàm này chúng ta xây dựng một hàm thành viên quan trọng µ như sau:

µ(ti,X)= ν(Iθ(ti),X) = | Iθ(ti) ∩X | / | Iθ(ti)| (8)

Giả sử rằng tập τ là đóng trong quá trình khai thác thông tin. Một truy vấn Q bao gồm các từ khoá từ τ. Với giả thiết này chúng ta có thể cho rằng tất cả các lớp dung sai của các term là các lớp con có cấu trúc (P(Iθ(ti))=1 với ti ∈τ).

Với những định nghĩa trên chúng ta đã đạt được không gian dung sai R=(τ,I,ν,P) trong đó xấp xỉ trên và xấp xỉ dưới trong R của các tập hợp con X⊂τ có thể được xác định như sau:

L(R,X)={ti ⊂τ | ν(Iθ(ti),X)=1} (9) U(R,X)={ti⊂τ | ν(Iθ(ti),X)>0} (10)

Để minh hoạ cho phần lý thuyết trên chúng ta hãy xem xét một cơ sở dữ liệu nhỏ gồm có 10 tài liệu về chủ đề “học máy” được cho trong bảng dưới đây. Các từ khoá trong tập vũ trụ nhỏ được thể hiện bởi các biến ti như sau: t1=”học máy”, t2=”thu nhận tri thức” ,…, t30=”mạng nơ ron”, t31=”lập trình logic” .

Với ngưỡng θ = 2 bởi công thức (6) chúng ta có các lớp dung sai của các chỉ mục I2(t1)={t1, t2 , t5 , t16}, I2(t2)={t1, t2 ,t4, t5 , t26}, I2(t3)={t3}, I2(t4)={t2, t4}, I2(t5)={t1, t2 , t5 }, I2(t6)={t6, t7 }, I2(t16)={t1, t16} I2(t26)={t2 ,t26} còn lại đối với các term khác có lớp dung sai tương ứng chính là bản thân nó.

No. Các từ khoá của tài liệu

D1 máy học, thu nhận tri thức, biểu diễn tri thức,cơ sở tri thức, lập luận

D2 máy tri thức, trí tuệ nhân tạo , ứng dụng, kỹ nghệ

D3 lập luận, học máy, lập luận tình huống, giải quyết vấn đề, thu nhận tri thức

D4 máy tri thức, trí tuệ nhân tạo, thiết kế bằng máy tính, tích hợp mức độ cao, thiết kế số

D5 thu nhận tri thức, phương thức xây dựng ống, cơ sở tri thức

D6 học máy, học quy nạp, học từ khái niệm, học có mẫu, học từ quan sát và phát hiện, phân nhóm khái niệm

D7 học dựa trên giải thích, điều khiển vĩ mô, biên dịch tri thức, cấp độ tri thức, phân loại tri thức

D8 Thu nhận tri thức, thiết kế bằng máy tính, hệ chuyên gia, thiết kế bố trí thiết bị

D9 hệ chuyên gia, thu nhận tri thức, hệ phỏng vấn

D10 học máy, học quy nạp, học dựa trên giải thích, hệ chuyên gia, liên kết, mạng nơ ron, lập trình logic

No. Từ khoá L(R,di) U(R,di) D1 t1, t2, t3, t4, t5 t3, t4, t5 t1, t2, t3, t4, t5, t16, t26 D2 t6, t7, t8, t9 t6, t7, t8, t9 t6, t7, t8, t9 D3 t5, t1, t10, t11, t2 t5,t10, t11 t1, t2, t3, t4, t5, t10,t11,t16 t26 D4 t6, t7, t12, t13, t14 t6, t7, t12, t13, t14 t6, t7, t12, t13, t14 D5 t2,t15,t4 t15,t4 t1,t2,t4,t5, t15, t26 D6 t1, t16, t17, t18, t19,t20 t1, t16, t17, t18, t19,t20 t1 , t2 , t5, t16, t17, t18, t19 ,t20 D7 t21, t22, t23, t24, t25 t21, t22, t23, t24, t25 t21, t22, t23, t24, t25 D8 t2, t12, t26, t27 t12, t26, t27 t1 , t2 , t4 , t5 , t12, t26 ,t27 D9 t26, t2, t28 t26 , t28 t1 , t2 , t4 , t5 , t26, t28 D10 t1, t16, t21, t26, t29, t30, t31 t16, t21, t26, t29, t30, t31 t1, t2 , t5, t16, t21, t26, t29, t30, t31

Bảng 3: Biểu diễn các xấp xỉ trên và dưới của 10 văn bản 3.2.2 Giải thuật tìm kiếm văn bản sử dụng TRSM

Kết quả mang lại giữa truy vấn của người sử dụng và các tài liệu có thể thực hiện bởi việc kiểm tra các cấp độ khác nhau của các thành phần thô giữa các xấp xỉ dung sai. Có 12 cấp độ của các thành phần giữa hai tập có thể xuất hiện trong khi so sánh tập các term trong truy vấn q với tập các term trong mỗi tài liệu dj.

1- Định nghĩa: đây là cấp độ đơn giản và chính xác nhưng rất hiếm khi tồn tại : q = dj [1-1]

2- Tương đương thô : với các tập X,Y ⊆τ Nếu L(R,X)=L(R,Y) thì X,Y được gọi là tương đương thô dưới. Tương tự nếu U(R,X)=U(R,Y) thì X,Y được gọi là tương đương thô trên. Khi X và Y thoả mãn cả hai tính chất trên thì ta nói X và Y là tương đương thô. Với truy vấn q ta có các trường hợp sau:

q là tương đương thô với văn bản dj [2-1] q là tương đương thô dưới với văn bản dj [2-2] q là tương đương thô trên với văn bản dj [2-1]

được gọi là thành phần thô trên trong Y. Khi X và Y thoả mãn cả hai tính chất trên thì ta nói X thành phần thô trong Y. Với truy vấn q ta có các trường hợp sau:

q là thành phần thô trong văn bản dj [3-1] q là thành phần thô dưới trong văn bản dj [3-2] q là thành phần thô trên trong văn bản dj [3-3]

4- q bao hàm thô dj (ngược với 3): Với q là một truy vấn ta có các trường hợp sau:

Văn bản dj là thành phần thô trong q [4-1] Văn bản dj là thành phần thô dưới trong q [4-2] Văn bản dj là thành phần thô trên trong q [4-3]

5- Chồng thô: Điều này có thể xảy ra khi xấp xỉ trên và dưới dung sai của q và dj là chồng nhau

L(R,q) ∩ L(R,dj ) ≠∅ [5-1] U(R,q) ∩ U(R,dj ) ≠∅ [5-2]

Chúng ta hãy xem xét một ví dụ của các quan hệ thô trong tập 10 tài liệu đã giới thiệu ở trên với một truy vấn q={học máy, hệ chuyên gia}={t1,t26}. Chúng ta xác định được xấp xỉ trên và dưới của q trong không gian dung sai được định nghĩa như trên với ngưỡng θ=2:

L(R,Q)=∅ , U(R,Q)={t1,t2,t5,t16,t26}

So sánh các xấp xỉ trên với bảng các xấp xỉ của các tài liệu dj chúng ta thấy q là thành phần thô trên của các tài liệu dj với j = 1,3,10 và chồng thô dưới đối với các văn bản dj với j = 1 , 3 , 5 , 6 , 8 , 9 , 10.

Chúng ta biểu diễn A11, A12,…, A52 tương ứng là tập các tài liệu thoả mãn các điều kiện [ 1-1] ,[ 2-1] ,…, [ 5-2]

Một cách tổng quát ta có Akl ={dj ∈D | dj thoả mãn điều kiện [k-l] } đối với truy vấn q.

A11:=∅; A11:= ∅; … A52:= ∅ ;

For j =1 to |D| do begin If Q = dj then A11:=A11 ∪dj; Else If L(R,Q) ≠∅then If L(R,Q) = L(R,dj) then begin A22:=A22 ∪dj;

If U(R,Q) = U(R,dj) then A21:= A21∪dj end;

If U(R,Q) = U(R,dj) then A23:= A23∪dj ; Else

If L(R,Q) ≠∅then

If L(R,Q) ⊂ L(R,dj) then

begin

A32:=A32 ∪dj;

If U(R,Q) ⊂ U(R,dj) then A31:= A31∪dj End;

If U(R,Q) ⊂ U(R,dj) then A33:= A33∪dj ; Else

If L(R,Q) ≠∅then

If L(R,dj) ⊂ L(R,Q) then

begin

A42:=A42 ∪dj;

If U(R,dj) ⊂ U(R,Q) then A41:= A41∪dj End;

If U(R,dj) ⊂ U(R,Q) then A43:= A43∪dj ; Else

Giải thuật TRSM

ThuËt to¸n TRSM

3.3 Hàm xếp hạng chính và xếp hạng phụ trong việc đánh giá mức độ chính xác của tài liệu. xác của tài liệu.

Việc xác định độ chính xác giữa truy vấn của người sử dụng và các tài liệu được khai thác chúng ta sử dụng hàm xếp hạng chính α:

Có một vấn đề trong việc khai thác thông tin từ các nhận xét về độ chính xác là chủ quan và không chắc chắn. Khi một số yếu tố để đưa ra sự nhận định về độ chính xác là tương đối phức tạp, chính vấn đề này đã được nhận biết rằng các mô hình khai thác thông tin không thể chọn chính xác tuyệt đối các tài liệu theo yêu cầu. Điều này đã gợi cho chúng ta xây dựng một hàm xếp hạng rời rạc dựa trên 12 cấp độ khai thác đồng thời xây dựng một hàm xếp hạng phụ cho cấp độ được xác định bởi [5-1] và [5-2].

Với các xấp xỉ dưới là tập các thành phần chắc chắn thuộc về tập các đối tượng cần tìm, và các xấp xỉ trên là tập các đối tượng có thể thuộc tập đó. Chúng ta có thể thấy các xấp xỉ dưới có vai trò mạnh mẽ và quan trọng hơn các xấp xỉ trên. Với đặc điểm này kết hợp với các yếu tố ở trên cho phép chúng ta thiết lập được một hàm xếp hạng độ chính xác cho 12 cấp độ khai thác thông tin của các tài liệu. Chúng ta xem xét 12 cấp độ khai thác thông tin A11, A12 ,…, A52 theo thứ tự giảm dần của độ chính xác với một truy vấn q bất kỳ và một hàm α(Q,dj) xác định mức độ mập mờ như nhau đối với tất c các tài liệu trong cùng một cấp độ. Với hàm cấp độ này chúng ta có thể thấy A11 là tập của các tài liệu hầu như chính xác đối với truy vấn q. Một điểm quan trọng cần lưu ý là trong chiến lược của chúng ta trong các cấp độ A11 , A12 ,…,A43 cho chúng ta số lượng các tài liệu là không lớn lắm nhưng với cấp độ A51, A52 thì có thể mang lại số lượng lớn các tài liệu, điều này tỏ ra không thuận lợi đối với chúng ta. Để giải quyết vấn đề đó chúng ta sử dụng một hàm xếp hạng phụ thực hiện phân chia hai tập này vào các tập con trong đó các thành phần trong mỗi tập con là có cùng độ chính xác. Hàm xếp hạng phụ này được thiết lập thông qua hàm mập mờ được định nghĩa trong (7). Trong thực tế mỗi tài liệu dj được chia vào một trong | Q | +1 nhóm con dựa trên giá trị :

ν(Q,dj) = | Q ∩ dj | / | Q | (12)

Chúng ta nhận thấy rằng các tài liệu trong mỗi nhóm con có cùng độ chính xác tương đương với chúng có cùng số từ khoá chung với truy vấn q. Một cách tổng quát chúng ta có được 2*| Q | +12 các nhóm con của các tài liệu với độ chính xác giảm dần. TRSM cũng phát triển một chiến lược xếp hạng khác từ chiến lược xếp hạng của ERSM thông qua việc lọc ra các xếp hạng rời rạc bởi công thức sau:

TSIM(Q , dj ) = | L(R,Q) ∩ L(R,dj) | / | L(R,Q) ∪ L(R,dj) |

+ | U(R,Q) ∩ U(R,dj) | / | U(R,Q) ∪ U(R,dj) | (13)

Chúng ta không thể ức lượng so sánh một cách thực nghiệm giữa chiến lược xếp hạng của ERSM và TRSM bởi vì ERSM phụ thuộc mạnh vào cách xây dựng không gian xấp xỉ. Khi trọng lượng của các term là có sẵn, với việc sử dụng hàm thành viên µ(tj,Q) trong (8) hàm xếp hạng có thể được xác định như sau :

PHẦN II. PHƯƠNG ÁN GIẢI QUYẾT VÀ CÀI ĐẶT THỬ NGHIỆM I. PHƯƠNG ÁN GIẢI QUYẾT

Như chúng ta đã biết, nhiệm vụ của hệ thống tìm kiếm văn bản là phải xử lý dữ liệu ở dạng phi cấu trúc. Các hệ thống tìm kiếm văn bản tập chung vào hai lĩnh vực chính là tìm kiếm và duyệt. Tìm kiếm được xử dụng khi người dùng đã biết chính xác họ muốn tìm văn bản về lĩnh vực cũng như chủ đề gì còn duyệt là được xử dụng khi người dùng chưa biết chính xác cái mà hộ muốn tìm.

Tìm kiếm và duyệt bổ xung lẫn nhau và tỏ ra hết sức hiệu quả khi ta kết hợp cả hai kỹ thuật theo thứ tự thích hợp. Kỹ thuật duyệt có thể được sử dụng để phát hiện các chủ đề cần tìm kiếm sau đó áp dụng kỹ thuật tìm kiếm trên kết quả.

Có rất nhiều mô hình tìm kiếm thông tin đã được xây dựng để phục vụ cho việc tìm kiếm văn bản. Mỗi mô hình tìm kiếm đều có các tiêu chí tìm kiếm khác nhau, kỹ thuật áp dụng cũng khác nhau nhưng chúng đều phải xây dựng dựa trên các các mục tiêu cụ thể đó là:

Biểu diễn văn bản. Biểu diễn truy vấn. Hàm tìm kiếm

Nhờ có mô hình tìm kiếm thông tin, mỗi văn bản được biểu diễn bằng tập của một số thành phần đặc trưng đó là các term. Mỗi term sẽ được ánh xạ thành một điểm trong không gian nhiều chiều hơn. Tuỳ theo từng mô hình, không gian này có thể là không gian vector n chiều (với mô hình không gian vector), không gian tập thô dung sai (với mô hình tập thô dung sai)…

Mô hình Phương pháp đánh giá

Xếp hạng trọng lượng

term

Chi phí

Toán tử logic Chính xác Không Không Thấp

Không gian vector Không chính xác Liên tục Có Trung bình Tập thô Không chính xác Rời rạc Có Thấp

Bảng 4: Các đặc trưng cơ bản của một số mô hình tìm kiếm thông tin

Trong các mô hình tìm kiếm thông tin đã được đưa ra, chúng ta thấy mỗi một mô hình có những điểm mạnh và điểm hạn chế nhất định. Nhưng qua nghiên cứu ta thấy mô hình lý thuyết tập thô thể hiện được những điểm mạnh nhất là trong việc khai dữ liệu phá văn bản nói chung và việc tìm kiếm văn bản tiếng Việt nói riêng. Mô hình lý thuyết tập thô dung sai được xây dựng dựa trên mô hình lý thuyết tập thô nhưng đồng thời nó đã khắc phục được những nhược điểm của mô hình lý thuyết tập thô. Mô hình tập thô dung sai đã sử dụng các lớp dung sai thay cho việc sử dụng các lớp tương đương như mô hình tập thô đã sử dụng. Cụ thể là có thể loại bỏ được tính chất đối xứng, một trong những tính chất khá nghiêm ngặt của mô hình lý thuyết tập thô.

Vì lý do trên cộng với một khả năng mà mô hình tập thô dung sai có thể giải quyết được vấn đề đồng nghĩa cho nên em chọn mô hình này để nghiên cứu chi tiết để áp dụng trực tiếp vào bài toán tìm kiếm văn bản tiếng Việt.

Phần trên chúng ta đã tìm hiểu về khả năng của TRSM trong việc khai thác thông tin. Dưới đây chúng ta sẽ xây dựng một mô hình cụ thể để có thể phục vụ cho việc tìm kiếm văn bản tiếng Việt dựa trên mô hình tập thô dung sai.

Để giải quyết bài toán tìm kiếm văn bản tiếng Việt trong cơ sở dữ liệu văn bản chúng ta phải làm một loạt các công việc như tiền xử lý văn bản, tách từ, chích lọc các từ đại diện cho văn bản, kỹ thuật lưu trữ từ điển và và sử dụng mô hình tập thô dung sai để tìm kiếm văn bản. Nếu các công việc trên được xử lý tốt thì kết quả của việc tìm kiếm sẽ đạt hiệu quả cao hơn.

Yêu cầu xử lý dữ liệu

Đối với bài toán phân nhóm cũng như các bài toán tìm kiến văn bản, dữ liệu đầu vào phải được tiền xử lý để tìm được các đặc tính cơ bản. Cụ thể trong bài toán văn bản tiếng Việt, văn bản đầu vào phải được tiền xử lý để tách thành các term. Sau đó chọn ra các term đại diên cho văn bản từ đó có thể áp dụng kỹ thuật tính lớp dung sai cho từng term sau đó tính lớp xấp xỉ trên và xấp xỉ dưới cho từng văn bản.

Tách các term từ văn bản

Xây dựng một lược đồ mã hoá term-ID nhằm tiết kiệm không gian lưu trữ và tăng tốc độ xử lý nhờ không phải làm việc trực tiếp với văn bản nguyên thuỷ. Gán trọng số cho các term đã tách.

Xây dựng tập các từ đại diện cho văn bản. Chức năng này có thể loại bỏ các term có trọng số nhỏ hơn một ngưỡng nào đó nhằm tăng tốc độ tính toán và giảm không gian lưu trữ.

Trong bài toán phân nhóm văn bản dùng mô hình tập thô dung sai này, quá trình tiền xử lý còn có thể thực hiện công việc sau:

Xác định các lớp dung sai cho các term

Xác định các xấp xỉ trên và xấp xỉ dưới cho mỗi văn bản đầu vào.

Trong tất cả các hệ thống, việc đọc từ bộ nhớ ngoài (đĩa từ) luôn có tốc độ thấp hơn rất nhiều so vơi đọc từ bộ nhớ trong. Do vậy, quá trình tiền xử lý phải

Mô hình tập thô dungsai (TRSM) trong việc khai thác thông tin

chính xác và độ truy hồi

Xác định các từ khoá trong văn bản