Đánh giá độ tương đồng ngữ nghĩa giữa hai keyphrase được gán nhãn

Một phần của tài liệu Nghiên cứu phương pháp đo lường mức độ tương đồng ngữ nghĩa cho bài toán tìm kiếm trong kho tài liệu học tập lĩnh vực công nghệ thông tin (Trang 49)

nhãn

Phần 3.2.1 đã trình bày cách tính độ tương đồng ngữ nghĩa giữa hai kephrase là thuật ngữ chuyên môn thông thường. Trong trường hợp keyphrase mang nhãn là “Chủ đề”, việc tính độ tương đồng ngữ nghĩa sẽ có sự khác biệt do ta quan niệm keyphrase mang nhãn chủ đề sẽ đại diện cho các keyphrase cùng lớp với nó trong đồ thị. Nên độ tương đồng ngữ nghĩa của keyphrase được gán nhãn “chủ đề” với các keyphrase khác sẽ được định nghĩa dựa trên các keyphrase cùng lớp với nó.

Độ tương đồng ngữ nghĩa giữa một keyphrase được gán nhãn chủ đề và một keyphrase được gán nhãn thuật ngữ chuyên môn sẽ được xác định bằng thuật toán sau:

Algorithm: Thuật toán tính trọng số cho các keyphrase trong query

nhãn thuật ngữ chuyên môn

OUTPUT: Một giá trị rel trong khoảng [0, 1] đại diện cho độ tương đồng ngữ nghĩa giữa k và k'

1: let max = 0

2: Tìm c trong tập các lớp C sao cho c trùng tên với k

3: foreach a in c:

3.1: if α(c, k') > max:

3.1.1: max = α(c, k')

4: return max

Độ tương đồng ngữ nghĩa giữa hai keyphrase được gán nhãn là “Chủ đề” sẽ được định nghĩa là trung bình cộng độ tương đồng ngữ nghĩa một keyphrase trong chủ đề này với keyphrase có độ tương đồng gần với nó nhất trong chủ để kia. Thuật toán để tính độ tương đồng ngữ nghĩa trong trường hợp này có thể được cho bên dưới:

Algorithm: Thuật toán tính trọng số cho các keyphrase trong query

INPUT: keyphrase k và k' mang nhãn chủ đề

OUTPUT: Một giá trị trong khoảng [0, 1] đại diện cho độ tương đồng ngữ nghĩa giữa k và k'

1: let sum = 0, count = 0,

2: Tìm c1 trong tập các lớp C sao cho c1 trùng tên với k

3: Tìm c2 trong tập các lớp C sao cho c2 trùng tên với k'

4: foreach k1 in c1:

4.1: max = 0

4.2: foreach k2 in c2:

4.2.1: if α(c, k') > max

4.2.1.1: max = α(c, k')

4.3: sum = sum + max

4.4: count = count + 1

3.3. Độ tương đồng ngữ nghĩa giữa hai đồ thị keyphrase

Để xác định độ tương đồng ngữ nghĩa giữa hai đồ thị keyphrase (cụ thể là một đồ thị biểu diễn tài liệu và một đồ thị biểu diễn câu truy vấn) sau khi xác định độ tương đồng ngữ nghĩa giữa hai keyprhase, ta hịnh nghĩa một phép chiếu từ đồ thị keyphrase H = (KH, RH, EH), biểu diễn truy vấn, tới đồ thị keyphrase G = (KG, RG, EG), biểu diễn tài liều, là một cặp có thứ tự  ( , )f g của 2 ánh xạ

: , :

f RHRG g KHKG thỏa điều kiện:

 Đơn ánh

 Phép chiếu bảo toàn “quan hệ kề” giữa các đỉnh và cung, nghĩa là với mọi , ( i( )) i( ( ))

r RH g adj r adj f r với 1 i 2. Trong đó, adji(r) là đỉnh keyphrase thứ i kề với đỉnh quan hệ r. Nếu hai đỉnh kề kề nhau trong H thì các đỉnh tương ứng của nó cũng kề nhau trong G.

r RH , ( , ( )) 0 r f r

k KH , ( , ( )) 0 k g k

Định nghĩa: Một mô hình lượng giá cho phép chiếu có trọng số từ đồ thị keyphrase H đến đồ thị keyphrase G được định nghĩa như sau (tỉ lệ về khoảng [0,1]): vw(Π)= |KH|∗∑ kKH tf (g(k),G)∗α(k , g(k))∗ip(g(k),G)∗W(k)+ ∑ rRH β(r , f (r)) |KH|+|RH|

Định nghĩa: Tồn tại một phép chiếu bộ phận từ đồ thị keyphrase H tới đồ thị keyphrase G nếu và chỉ nếu tồn tại một phép chiếu từ H’, một đồ thị keyphrase con của H, tới G.

Mô hình lượng giá cho phép chiếu bộ phận vw(partial)chỉ phụ thuộc vào tập

Độ tương quan ngữ nghĩa giữa hai đồ thị keyphrase biểu diễn cho câu truy vấn (H) và cho tài liệu (G) là một giá trị thuộc khoảng [0,1] và được biểu diễn bởi công thức sau:

( , ) { ( ) |w

Rel H GMax v   là phép chiếu bộ phận từ H tới G} Bài toán được đặt ra: Cho trước một ontology CK_ONTO và hai đồ thị keyphrase H, G. Yêu cầu tính giá trị Rel (H, G) phản ánh độ tương quan về ngữ nghĩa giữa hai đồ thị có thể được thực hiện bởi thuật toán sau:

Thuật toán tính độ tương đồng ngữ nghĩa giữa hai đồ thị

Input: Ontology CK_ONTO, đồ thị keyphrase H biểu diễn câu truy vấn, đồ thị keyphrase G biểu diễn tài liệu

Output: một giá trị Rel(H,G)  [0,1]

Bước 1: Khởi tạo

Đặt trạng thái ban đầu cho một số biến điều khiển

Sub_KG:={} // lưu các đồ thị con của H

Projection:={} // lưu các phép chiếu bộ phận từ H đến G

Value:={} // lưu giá trị tương ứng của từng phép chiếu

trong Projection

Bước 2: Tìm các đồ thị con của H

Sub_KG ∪ Find_SubKG(H);

Bước 3: Thực hiện vòng lặp for để dò tìm các phép chiếu từ các đồ thị con của H tới G và bổ sung vào Projection

for kg in Sub_KG do

Projection = Projection ∪ Find_Projection(kg, G)

Bước 4: Tính giá trị của mỗi phép chiếu  w( ) trong

Projection và lưu vào biến Value

Bước 5: Tìm Rel H G( , )Max Value( )

Thuật toán Find_SubKG tìm đồ thị con của đồ thị keyphrase.

Input: Đồ thị keyphrase H, biến Sub_KG để lưu kết quả

Output: một giá trị Rel(H,G)  [0,1]

Bước 1: Tìm các đỉnh cô lập và tính tổng trọng số các keyphrase trong H isolate_keyphrase = {} , sum = 0 foreach keyphrase k in H: sum = sum + W(k) if k.degree = 0 then isolate_keyphrae = isolate_keyphrae {k}∪

Bước 2: Kết thúc nếu đồ thị có tổng trọng số của các keyphrase quá nhỏ

if sum < MIN_THRESHOLD:

return

Bước 3: Đồ thị con có thể được tạo thành bằng cách xóa các đỉnh keyphrase cô lập

foreach k in isolate_keyphrase:

H' = đồ thị keyphrase thu được khi xóa k khỏi H

Sub_KG = Sub_KG {H'}∪

Find_SubKG(H')

Bước 4: Đồ thị keyphrase con cũng có thể đươc tạo thành bằng cách xóa bỏ các quan hệ giữa những đỉnh kephrase

foreach relations r in H:

H' = đồ thị keyphrase thu được khi xóa r khỏi H

Sub_KG = Sub_KG {H'}∪

Find_SubKG(H')

Thuật giải tìm phép chiếu từ đồ thị keyphrase H tới đồ thị keyphrase G

Chương 4. Cài đặt - thử nghiệm và đánh giá

Một phần của tài liệu Nghiên cứu phương pháp đo lường mức độ tương đồng ngữ nghĩa cho bài toán tìm kiếm trong kho tài liệu học tập lĩnh vực công nghệ thông tin (Trang 49)

Tải bản đầy đủ (PDF)

(74 trang)