Thiết lập TV_Tree

III. MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN

2. Tìm kiếm văn bản theo mô hình không gian vectơ

2.5.1. Thiết lập TV_Tree

Trước khi định nghĩa TV_Tree để lưu trữ một điểm k chiều, chúng ta cần xác định 2 tham số sau:

Numchild: Số lượng tối đa các con mà bất kỳ nút nào trong TV_Tree cho phép có.

α: Một số lớn hơn 0 và nhỏ hơn hoặc bằng k gọi là số của chiều hoạt động. Chúng ta ký hiệu TV (k, NumChild, α) để biểu thị một TV_Tree được dùng để lưu trữ số liệu kiểu k chiều, với Numchild là số con lớn nhất và α là một số chiều được kích hoạt. Mỗi nút trong TV_Tree có 3 trường:

N.Center: Đại diện cho 1 điểm trong không gian k chiều. N.Radius: Một số thực lớn 0

N.ActiveDims: Đây là danh sách tối đa α chiều. Mỗt một chiều đó là 1 số giữa 1 và k. Như vậy, N.ActiveDims là một tập con của (1,…,k).

Giả sử x và y là 2 điểm trong không gian k chiều và ActiveDims là tập hợp nào đó của chiều hoạt động. Khoảng cách hoạt động (active_distance) giữa x và y, ký hiệu bởi act_dist (x,y) và được biểu diễn bằng công thức:

act_dist (x, y) = ∑( ) ∈ − ActiveDims i i i y x 2 (9)

Trong đó xi và yi biểu thị giá trị của chiều thứ i của x và y tương ứng. Ví dụ: Giả sử k = 200, α = 5 và tập hợp ActiveDims = (1..5).

Giả sử x = (10, 5, 11, 13, 7, x6, x7,…,x2000) y = (2, 4, 14, 8, 6, y6, y7,…y2000) Vậy khoảng cách hoạt động tương ứng là:

act_dist(x,y)= 10 100 ) 6 7 ( ) 8 13 ( ) 14 11 ( ) 4 5 ( ) 2 10 ( − 2 + − 2 + − 2 + − 2 + − 2 = =

Một nút N trong TV_Tree đại diện cho vùng chứa tất cả các điểm x như vậy khoảng cách hoạt động (với tương ứng tới chiều hoạt động trong N.ActiveDims) giữa x và N.Center nhỏ hơn hoặc bằng N.Radius.

Ví dụ: nếu ta có nút N với center của nó.

N.Center = (10, 5, 11, 13, 7, 0, 0, 0, 0,…, 0).

N.ActiveDims = {91, 2, 3, 4, 5} thì nút này đại diện cho vùng gồm tất cả các điểm x như sau:

2 5 2 4 2 3 2 2 2 1 10) ( 5) ( 11) ( 13) ( 7) (x − + x − + x − + x − + x − ≤ N.Radius Ký hiệu Region (N) để biểu thị vùng được đại diện bởi nút N trong TV_Tree. Ngoài Center, Radius và ActiveDims, 1 nút trong cây TV_Tree cũng chứa một mảng, Child hoặc Numchild là con trỏ tới nút khác có cùng kiểu.

Tất cả các dữ liệu được lưu trữ ở nút lá. Mỗi nút trong cây TV (kể cả gốc và lá) phải ít nhất là chứa một nửa (half full) có nghĩa là ít nhất con trỏ Child không chứa Nil.

Nếu N là một nút và chứa một tập các nút con N1, N2, Nr thì Region (N) = Region(Ni).

2.5.2.Chèn vào TV_Tree

Có 3 bước để chèn một vectơ vào cây TV.

Chọn nhánh (branch selection): Khi ta chèn một vectơ vào cây TV mà ta dang ở nút Nj có con là Ni và 1 ≤ i ≤ NumChiild. Ta cần xác định con nào sẽ được chèn khoá vào.

Thu gọn (Telescoping): Giả sử 1 nút N được tách vào 2 nút N1 và N2. Trong trường hợp này, có thể sản sinh vectơ trong Region(N1) chấp thuận hoặc không chiều hoạt động của nút cha N. Việc thêm một số chiều được gọi là lồng động mà chúng ta se xem xét sau đây.

Lựa chọn rẽ nhánh:

Xét tình huống khi có nút N với 1 ≥ j, =NumChild con ký hiệu là n1, …,Numchilds. Dùng ký hiệu expj(v) để biểu thị số lượng. Ta phải mở rộng Nj, Radius như vậy khoảng cách hoạt động của v từ Nj, Center nhỏ hơn hoặc bằng với (Nj (v), Radius +expj(v)).

Expj(v) = 0 nếu act_dist(v, Rj, Center), ≤ Rj, Radius

Hoặc expj(V) = act_dist(v, R, Center) – Rj.Radius nếu act_dist(v,Rj, Center) > Rj.Radius.

Đầu tiên ta chọn tất cả do vậy expj(v) giảm đến mức tối thiểu. Cách nói khác, nếu ta có nút N1,…, N5 với exp có giá trị 10, 40, 19, 10 ,32 tương ứng, hai ứng viên khả thi của việc chọn để chèn là N1 & N4 vì sự mở rộng của chúng là nhỏ nhất.

2.5.3.Tìm kiếm trên TV_Tree

Tìm kiếm một vectơ v trong TV_Tree chỉ là phụ trong quá trình chèn. Khi tìm kiếm một văn bản đại diện bởi vectơ trong TV_Tree, ta có cách giải quyết sau:

Thuật toán tìm kiếm trên cây TV_Tree

ThuËt to¸n 1Search (T, V);

if leaf (t) then {Return (T, Center = v); Half} {if v ∈ Region (T) then

Return VNumchild Search (t, child [i], v)} end

Thuật toán tìm kiếm lân cận gần nhất trên TV_Tree

LSI đã được chứng minh là một trong những phương pháp hiệu quả để lập bảng chỉ dẫn cho văn bản. Tuy nhiên, có một số kỹ thuật khác được sử dụng hiệu quả hơn so với cơ sở dữ liệu văn bản nhằm giải quyết được thời gian và độ phức tạp thuật toán thực hiện

ThuËt to¸n 2 : NNSearch (T, v, p); For i = 1 to p do SOL [i] = ∞; NNSearch 1 (T, v, p);

end: (* kết thúc NNSearch*) Procedure NNSearch 1 (T, v, p);

if leaf (T) & act_dist (T, val, v) < SOL [p] then Insert T. vail into Sol

Else {

if lef (T) then r = 0 else

{Let N1,...,Nr Là con của; S¾p cÕp Nis t¨ng dÇn víi liªn quan tíi min (Ni, v); §Ó Nη [r] lµ kÕt qu¶ cña s¾p xÕp.

}

done = false; i = 1;

While ((i < r) ^ ¬ done) do }

NNSearch (Nη [i], v, p);

if SOL [p], min (Nη [i = 1], v) then done = true;

i = i +1; }; }

3. Tìm kiếm văn bản theo mô hình tập thô dung sai

Hầu hết, các hệ thống thông tin làm việc chính xác bởi các toán tử logic. Mặc dù, cách này đơn giản nhưng không phải lúc nào nó cũng mang lại thông tin đúng theo ý của người sử dụng. Hiện nay, có rất nhiều nỗ lực trong việc cải tiến chất lượng khai thác thông tin với việc sử dụng các kỹ thuật tìm kiếm thông tin cho suy diễn phát triển từ tính mập mờ (vagueness) và tính không chắc chắn (uncertainty) của một khái niệm.

Lý thuyết tập thô, một công cụ toán học để giải quyết vấn đề trên với sự mập mờ và không chính xác được giới thiệu bởi Pawlak trong những năm 80. Lý thuyết tập thô này đã thành công trong một vài ứng dụng. Trong lý thuyết này, mỗi thành phần của tập vũ trụ được mô tả bởi một cặp hai tập hợp khác được gọi là các xấp xỉ trên và các xấp xỉ dưới. Tập các xấp xỉ trên và tập các xấp xỉ dưới được xác định bởi quan hệ tương đương trong tập vũ trụ. Việc xử dụng mô hình tập thô như trên sau này được gọi là mô hình tập thô tương đương (Equivalance Rough Set Model ERSM) đã được sự quan tâm đặc biệt của rất nhiều nhà nghiên cứu. Điểm quan trọng của việc áp dụng tập thô tương đương (ERSM) cho việc khai thác thông tin đó là đưa ra cách mới để tính mối quan hệ ngữ nghĩa dựa trên việc tổ chức từ vựng vào các lớp tương đương. Tuy nhiên chúng ta sẽ nhận thấy rằng, việc sử dụng các quan hệ tương đương trong ERSM là không phù hợp cho việc khai thác thông tin. Điều này là đúng bởi quan hệ tương đương yêu cầu phải có các tính chất: Phản xạ, đối xứng, bắc cầu. Tuy nhiên trong một số trường hợp các tính chất này tỏ ra quá nghiêm ngặt trong việc xử lý ngôn ngữ tự nhiên và khai thác thông tin bởi vì tính chất đối xứng không phải lúc nào cũng được thoả mãn.

Vì lý do trên nên ở đây chúng ta làm quen với một mô hình khác gọi là mô hình tập thô dung sai(Tolerance Rough Set Model TRSM) cho việc khai thác thông tin qua các lớp dung sai thay thế cho các lớp tương đương đã giới thiệu ở trên. Đây chính là mô hình mà tôi sẽ nghiên cứu kỹ và sẽ cài đặt để phục vụ cho việc tìm kiếm văn bản tiếng Việt.

3.1 Khái niệm tập thô và không gian dung sai

Lý thuyết tập thô được phát triển từ giả định rằng để định nghĩa một tập vũ trụ ta cần phải biết một số thông tin (hay tri thức) về các phần tử của tập vũ trụ. Trái với cách tiếp cận cổ điển, định nghĩa tập hợp một cách duy nhất dựa trên các phần tử của tập đó và không cần thêm bất cứ thông tin gì về các phần tử của tập (thông tin về các phần tử có thể biểu diễn. Ví dụ như dưới dạng thuộc tính-giá trị mà đôi khi được gọi là hệ thông tin). Hiển nhiên, là đối với một số phần tử, thông tin của chúng có thể tương tự nhau và do đó các phần tử này không thể phân biệt được một cách rõ ràng nếu chỉ nhìn từ thông tin về chúng. Quan hệ không phân biệt được

chính là điểm khởi đầu của lý thuyết tập thô và quan hệ này chỉ ra rằng sự mập mờ và không chắc chắn có quan hệ chặt chẽ với tính không phân biệt được và chúng có thể định nghĩa dựa trên các cơ sở của quan hệ này.

Điểm đầu tiên của lý thuyết tập thô là mỗi tập X trong tập vũ trụ U có thể được xem xét một cách xấp xỉ bởi các xấp xỉ dưới và xấp xỉ trên trong một không gian xấp xỉ R=(U,R) với R⊆ U×U là một quan hệ tương đương. Hai đối tượng x,y ∈U được xem là không phân biệt được trong R nếu xRy. Các xấp xỉ dưới và trên trong R của các tập X⊆U, biểu diễn bởi L(R,X) và U(R,X) được định nghĩa bởi công thức sau: L(R,X)={x∈U :[x]R ⊆X} (1)

U(R,X)={x∈U :[x]R ∩ X ≠ ∅} (2)

Trong đó: [x]R biểu diễn lớp các đối tượng tương đương không phân biệt được với x trong quan hệ R .

Tất cả các công việc ban đầu của khai thác thông tin sử dụng tập thô đều dựa trên ERSM dựa trên sự giả định tập τ của các term có thể được phân chia vào các lớp tương đương xác định bởi quan hệ tương đương.

Một quan hệ tương đương R đòi hỏi 3 tính chất sau: 1- Tính phản xạ : xRx

2- Tính đối xứng : xRy → yRx

(∀ x,y,z ∈ U)

Tính bắc cầu không phải lúc nào cũng được thỏa mãn .

Các lớp chồng nhau có thể được sinh ra bởi quan hệ dung sai trong quan hệ này chỉ yêu cầu tính phản xạ và tính đối xứng. Với sự xuất hiện của quan hệ dung sai chúng ta có khái niệm không gian dung sai. Không gian dung sai là không gian trong đó bao gồm các lớp chồng nhau của các đối tượng trong tập vũ trụ. Một không gian dung sai được định nghĩa bởi công thức chung R(U,I, ν,P) trong đó U là tập các đối tượng, I : U → 2u là hàm không chắc chắn, ν:2ux2u→[0,1] là thành phần mập mờ, P: I(U) → [0,1] là hàm cấu trúc.

Chúng ta xem xét một đối tượng x được cho bởi thông tin inf(x). Hàm không chính xác I : U → 2u xác định I(x) như một lớp dung sai của tất cả các đối tượng được xem xét có cùng thông tin với x. Hàm không chính xác được định nghĩa là những hàm thoả mãn điều kiện: x ∈I(x) và y∈I(x) nếu x∈I(y) với x,y∈U. Điều này tương đương với hàm tương ứng với một quan hệ ς ⊆U x U trong đó xςy nếu y∈I(x). ς là một quan hệ dung sai bởi vì quan hệ này thoả mãn hai thuộc tính phản xạ và đối xứng .

Hàm mập mờ ν : 2u x 2u → [0,1] đánh giá mức độ của các tập trong tập vũ trụ, trong trường hợp đặc biệt nó liên quan đến câu hỏi lớp dung sai I(x) của đối tượng x∈U có thuộc tập X không ?

Trong hàm ν còn yêu cầu tính đơn điệu đối với tham số thứ hai : ν(X,Y)≤ν(X,Z) với Y⊆ Z , X, Y,Z ⊆U.

Cuối cùng, với hàm cấu trúc P được đề xuất bởi việc phân tích với hình thái toán học. Trong việc xây dựng các xấp xỉ trên và dưới chỉ một số các tập dung sai được coi là các yếu tố có cấu trúc. Chúng ta định nghĩa hàm P: I(U) → [0,1] các lớp I(x) với mỗi x∈U thuộc vào hai lớp: Các tập hợp con có cấu trúc (P(I(x))=1) và không có cấu trúc (P(I(x))=0).

Xấp xỉ dưới L(R,X) và xấp xỉ trên U(R,X) trong R với X∈U được xác định như sau:

L(R,X) = {x∈U \ P(I(x))=1 & ν(I(x),X)=1 } (3) U(R,X)= {x∈U \ P(I(x))=1 & ν(I(x),X) > 0} (4)

Vấn đề cơ bản của việc sử dụng không gian dung sai trong các ứng dụng là làm thế nào để xác định được các hàm I, ν và P phù hợp.

3.2 Mô hình tập thô dung sai (TRSM) trong việc khai thác thông tin 3.2.1 Không gian dung sai:

Trước hết chúng ta mô tả cách xác định các hàm I, ν và P phù hợp cho việc khai thác thông tin. Đầu tiên, để định nghĩa không gian dung sai chúng ta chọn tập vũ trụ U là tập τ của tất cả các terms.

U={t1, t2 ,…, tM}= τ (5)

Vấn đề cốt yếu trong công thức của TRSM trong khai thác thông tin là các lớp dung sai của các term. Có nhiều cách để xác định khái niệm các term tương tự. Các đặc điểm của các term được chọn bởi các tính chất sau:

1- Nó mang lại sự giải thích có ý nghĩa trong văn cảnh của khai thác thông tin về sự phụ thuộc và quan hệ ngữ nghĩa của các term.

2- Nó là quan hệ đơn giản và dễ máy tính hoá

Chúng ta cũng cần lưu ý rằng đặc điểm của các term không có tính đối xứng và không thể được sử dụng tự động để xác định các lớp tương đương. Với c (ti ,tj) là tần số xuất hiện đồng thời của hai term ti và tj trong D (Tập các văn bản). Chúng ta định nghĩa hàm không chính xác I phụ thuộc vào ngưỡng θ như sau:

Iθ(ti) ={tj | c(ti ,tj ) ≥θ }∪ {ti} (6) Hàm mập mờ ν được xác định như sau:

Hàm này đơn điệu với mối quan hệ trong tham số thứ 2. Dựa trên hàm này chúng ta xây dựng một hàm thành viên quan trọng µ như sau:

µ(ti,X)= ν(Iθ(ti),X) = | Iθ(ti) ∩X | / | Iθ(ti)| (8)

Giả sử rằng tập τ là đóng trong quá trình khai thác thông tin. Một truy vấn Q bao gồm các từ khoá từ τ. Với giả thiết này chúng ta có thể cho rằng tất cả các lớp dung sai của các term là các lớp con có cấu trúc (P(Iθ(ti))=1 với ti ∈τ).

Với những định nghĩa trên chúng ta đã đạt được không gian dung sai R=(τ,I,ν,P) trong đó xấp xỉ trên và xấp xỉ dưới trong R của các tập hợp con X⊂ τ có thể được xác định như sau:

L(R,X)={ti ⊂ τ | ν(Iθ(ti),X)=1} (9) U(R,X)={ti⊂τ | ν(Iθ(ti),X)>0} (10)

Để minh hoạ cho phần lý thuyết trên chúng ta hãy xem xét một cơ sở dữ liệu nhỏ gồm có 10 tài liệu về chủ đề “học máy” được cho trong bảng dưới đây. Các từ khoá trong tập vũ trụ nhỏ được thể hiện bởi các biến ti như sau: t1=”học máy”, t2=”thu nhận tri thức” ,…, t30=”mạng nơ ron”, t31=”lập trình logic” .

Với ngưỡng θ = 2 bởi công thức (6) chúng ta có các lớp dung sai của các chỉ mục I2(t1)={t1, t2 , t5 , t16}, I2(t2)={t1, t2 ,t4, t5 , t26}, I2(t3)={t3}, I2(t4)={t2, t4}, I2(t5)={t1, t2 , t5 }, I2(t6)={t6, t7 }, I2(t16)={t1, t16} I2(t26)={t2 ,t26} còn lại đối với các term khác có lớp dung sai tương ứng chính là bản thân nó.

No. Các từ khoá của tài liệu

D1 máy học, thu nhận tri thức, biểu diễn tri thức,cơ sở tri thức, lập luận

D2 máy tri thức, trí tuệ nhân tạo , ứng dụng, kỹ nghệ

D3 lập luận, học máy, lập luận tình huống, giải quyết vấn đề, thu nhận tri thức

D4 máy tri thức, trí tuệ nhân tạo, thiết kế bằng máy tính, tích hợp mức độ cao, thiết kế số

D5 thu nhận tri thức, phương thức xây dựng ống, cơ sở tri thức

D6 học máy, học quy nạp, học từ khái niệm, học có mẫu, học từ quan sát và phát hiện, phân nhóm khái niệm

D7 học dựa trên giải thích, điều khiển vĩ mô, biên dịch tri thức, cấp độ tri thức, phân loại tri thức

D8 Thu nhận tri thức, thiết kế bằng máy tính, hệ chuyên gia, thiết kế bố trí thiết bị

D9 hệ chuyên gia, thu nhận tri thức, hệ phỏng vấn

D10 học máy, học quy nạp, học dựa trên giải thích, hệ chuyên gia, liên kết, mạng nơ ron, lập trình logic

No. Từ khoá L(R,di) U(R,di) D1 t1,t2, t3, t4, t5 t3, t4, t5 t1,t2, t3, t4, t5, t16, t26 D2 t6,t7, t8, t9 t6,t7, t8, t9 t6,t7, t8, t9 D3 t5,t1, t10, t11, t2 t5,t10, t11 t1,t2, t3, t4, t5, t10,t11,t16 t26 D4 t6,t7, t12, t13, t14 t6,t7, t12, t13, t14 t6,t7, t12, t13, t14 D5 t2,t15,t4 t15,t4 t1,t2,t4,t5, t15, t26 D6 t1,t16, t17, t18, t19,t20 t1,t16, t17, t18, t19,t20 t1 , t2 , t5,t16, t17, t18, t19 ,t20 D7 t21,t22, t23, t24, t25 t21,t22, t23, t24, t25 t21,t22, t23, t24, t25 D8 t2,t12, t26, t27 t12, t26, t27 t1 , t2 , t4 , t5 , t12, t26 ,t27 D9 t26, t2, t28 t26 , t28 t1 , t2 , t4 , t5 , t26, t28 D10 t1,t16, t21, t26, t29, t30, t31 t16, t21, t26, t29, t30, t31 t1, t2 , t5, t16, t21, t26, t29, t30, t31

Bảng 3: Biểu diễn các xấp xỉ trên và dưới của 10 văn bản 3.2.2 Giải thuật tìm kiếm văn bản sử dụng TRSM

Kết quả mang lại giữa truy vấn của người sử dụng và các tài liệu có thể thực hiện bởi việc kiểm tra các cấp độ khác nhau của các thành phần thô giữa các xấp xỉ dung sai. Có 12 cấp độ của các thành phần giữa hai tập có thể xuất hiện trong khi so sánh tập các term trong truy vấn q với tập các term trong mỗi tài liệu dj.

TIỀN XỬ LÝ VĂN BẢN TIẾNG VIỆT