Sinh vector đặc trưng

Một phần của tài liệu LUẬN VĂN: TRÍCH CHỌN QUAN HỆ THỰC THỂ TRÊN WIKIPEDIA TIẾNG VIỆT DỰA VÀO CÂY PHÂN TÍCH CÚ PHÁP pdf (Trang 54 - 56)

a. Phân tích cú pháp

 Tách từ: sử dụng bộ tách từ JvnTextpro[42] của Nguyễn Cẩm Tú.

46

 Phân tích cú pháp sử dụng bộ phân tích cú pháp coltechparser của Nguyễn Phương Thái và cộng sự [37]

Nhận xét:

 Kết quả thực nghiệm cho thấy kết quả phân tích cú pháp sẽ phụ thuộc rất lớn vào việc tách từ.

 Phân tích cú pháp các câu sau khi đã tách từ sẽ cho cây phân tích cú pháp tốt hơn.

b. Trích chọn cây con biểu diễn quan hệ R và sinh vector đặc trưng

Sử dụng thuật toán như đã trình bày ở mục 3.3.4.2 ta sẽ sinh được các cây con có khả năng biểu diễn quan hệ <E1 – R – E2> (gọi tắt là cây con)

Các thuộc tính của vector đặc trưng v = (v1, v2, v3, v4, v5, v6, v7) thể hiện khả năng mà cây con đó biểu diễn quan hệ R, cụ thể được xác định như sau trong quá trình thực nghiệm:

 Cụm nhãn trung tâm: Khả năng cây con thể hiện quan hệ R đang tìm (chứ không phải là quan hệ R’ nào khác). Giá trị càng cao thì khả năng càng lớn. Nếu NodeR là node trên cây con biểu diễn R, gọi:

o num1 là số node lá của NodeR

o num2 là số node lá của NodeR có giá trị trùng với từ khóa thể hiện R Khi đó: v1được tính theo công thức

 Cụm nhãn thể hiện E1, E2: Khả năng các node biểu diễn thực sự là thực thể. Giá trị càng cao thì khả năng càng lớn. Nếu NodeEi là node trên cây con biểu diễn Ei, gọi:

o num1 là số node lá của NodeEi

o num2 là số node lá của NodeR biểu diễn thực thể Ei (đã xác định trước như theo giả thiết bài toán)

Khi đó: v2 , v3 được tính theo công thức

v n u m 2 n u m 1

v1 =

0 node lá của NodeR có chứa từ như “không

trong trường hợp còn lại

n u m 2 n u m 1

47  Đường dẫn tới nhãn E1, E2:

o v4 : số node đi từ node biểu diễn E1 sang node biểu diễn R

o v6 : số node đi từ node biểu diễn E2 sang node biểu diễn R

o 5 4 wt v v   với w

t là trọng số của các node trên đường đi từ node biểu diễn E1 sang node biểu diễn R với chú ý rằng v5=0 nếu v4=0

o 7 6 wt v v  với w

t là trọng số của các node trên đường đi từ node biểu diễn E2 sang node biểu diễn R với chú ý rằng v7=0 nếu v6=0

o wt được tính theo như mô tả trong mục 3.3.4.2 (adsbygoogle = window.adsbygoogle || []).push({});

 Trong quá trình thực nghiệm áp dụng, trọng số của node lá được gán bằng một mang ý nghĩa, các từ được sử dụng đều được xem là tương đương nhau. Cây con ở hình 14 có vector đặc trưng v = (0.5; 1.0; 1.0; 3.0;0.0; 2.0;0)

Nhận xét:

 Thực nghiệm cho thấy, giá trị của v4, v5, v6, v7càng nhỏ thì cây con thu được càng có khả năng thể hiện đúng bộ quan hệ <E – R – E>. Điều này cũng phù hợp với thực tế là khi các thành phần trên cây phân tích cú pháp càng gần nhau, thì mức độ quan hệ giữa chúng sẽ càng cao hơn.

 Điều này cũng chứng tỏ rằng, các công thức đưa ra tính vector đặc trưng là hợp lý.

 Tuy nhiên, vẫn còn một số nhập nhằng khi xác định trường hợp cụm nhãn trung tâm chứa từ khóa biểu diễn R nhưng lại chứa thêm các từ “không”.

Một phần của tài liệu LUẬN VĂN: TRÍCH CHỌN QUAN HỆ THỰC THỂ TRÊN WIKIPEDIA TIẾNG VIỆT DỰA VÀO CÂY PHÂN TÍCH CÚ PHÁP pdf (Trang 54 - 56)