Mô hình trích chọn quan hệ gồm có 3 pha chính: tiền xử lý, sinh vector đặc trưng và nhận dạng như được mô tả như trong hình vẽ sau:
Hình 13: Mô hình trích chọn quan hệ trên Wikipedia Chi tiết về xử lý của từng pha như sau:
3.3.4.1.Pha tiền xử lý
Trong pha này, nhận đầu vào một tập các trang Wikipedia trên một miền ứng dụng quan tâm, sau quá trình xử lý thu được một tập các câu tiềm năng thể hiện quan hệ R. Các câu tiềm năng là các câu chứa từ khóa thể hiện quan hệ R đang xem xét.
Lần lượt từng trang sẽ được loại bỏ các thẻ html. Trong quá trình loại bỏ thẻ html thì đánh dấu các liên kết tới các thực thể trang Wiki khác.
Tiến hành tách câu sử dụng bộ công cụ JvnTextpro [43].
Chẳng hạn như trong ví dụ về thực thể trang “Trường Đại học Khoa học Tự nhiên,Đại học Quốc gia Hà Nội”, với quan hệ “năm thành lập” các ta sẽ tìm được câu tiềm năng là:
37
“Trường Đại học Khoa học Tự nhiên thuộc Đại học Quốc gia Hà Nội được thành lập theo nghị định số 97/CP ngày 10/12/1993 của chính phủ”.
Các câu này sẽ được lưu lại, phục vụ cho pha tiếp theo.
3.3.4.2.Pha sinh vector đặc trưng
Trong pha này gồm 3 xử lý con: a. Phân tích cú pháp
Trong pha này, sử dụng Hệ phân tích câu tiếng Việt [38], ta thu được các cây phân tích cú pháp tương ứng với từng câu thu được ở pha một.
b. Sinh cây con biểu diễn quan hệ R
Dựa trên một số nhận xét sau:
Tiếng Việt là ngôn ngữ có cấu trúc câu dạng “chủ ngữ - vị ngữ - bổ ngữ”, tức có nghĩa là chủ ngữ thường đi trước, sau đó tới vị ngữ và cuối cùng là bổ ngữ [4]. Cấu trúc này tương đương với cấu trúc “subject – verb – object” trong tiếng Anh [34].
Trong câu, chủ ngữ thường là các danh từ, cụm danh từ. Các thực thể hay khái niệm là các danh từ hay cụm danh từ
Dựa trên liên kết “chủ ngữ - vị ngữ - bổ ngữ”, ta có được liên kết “(cụm) danh từ – (cụm)động từ – (cụm) danh từ” trên cây phân tích cú pháp.
Khi đó, cây con (của cây phân tích cú pháp) có khả năng biểu diễn quan hệ R sẽ có ba thành phần trung tâm là: một cụm từ trung tâm biểu diễn quan hệ R ( thông thường là cụm động từ) và hai cụm danh từ biểu diễn hai thực thể tương ứng. Thủ tục sinh các cây này như sau:
Đầu vào: cây phân tích cú pháp có chứa các từ khóa k thể hiện quan hệ R
Đầu ra: tất cả các cây con tiềm năng thể hiện quan hệ R
Xử lý:
i. Tìm nút nhỏ nhất trên cây chứa từ khóa k, gọi là nút K
ii. Tìm tất cả các cụm danh từ NP thỏa mãn một trong các điều kiện [2]: a. Nhánh NP có độ sâu bằng 1
b. Nhánh NP có độ sâu bằng 2 ó phần đầu, danh từ trung tâm và phần sau. Trong đó, phần sau là nhánh có nhãn khác PP (cụm giới từ) và khác SBAR (câu)
38
c. Nhánh NP có độ sâu bằng 3 chỉ gồm danh từ trung tâm và theo sau là một NP có độ sâu bằng 2
d. Các nhánh có nhãn QP cũng được xem xét là cụm danh từ chỉ số lượng
iii. Với từng cặp (NPi , NPj) có được từ bước ii, dựa vào cây phân tích cú pháp, tìm đường đi từ NPi tới NPj mà đi qua KEY . Đường đi này cho ta cây con tiềm năng biểu diễn R.
Ví dụ với câu “Trường Đại học Công nghệ (tên gọi tiếng Anh : …) được thủ tướng
chính phủ quyết định thành lập ngày 25 tháng 5 năm 2004” ta lấy được cây con
biểu diễn R có dạng:
Hình 14: Cây con biểu diễn quan hệ “thành_lập” c. Sinh vector đặc trưng
Mỗi cây con ở trên tương ứng với một vector đặc trưng. Vector đặc trưng này gồm có 5 đặc trưng sau:
Cụm nhãn trung tâm: cụm nhãn có nội dung biểu diễn quan hệ R. Trong hình
14, cụm này là VP (nhãn màu đỏ)
Cụm_nhãn_thể_hiện_E1: cụm nhãn có nội dung biểu diễn thực thể E1. Ví dụ:
NP ngoài cùng bên trái
Cụm_nhãn_thể_hiện_E2: cụm nhãn có nội dung biểu diễn thực thể E2. Ví dụ:
NP ngoài cùng bên phả
Đường_dẫn_nhãn_Ei: đường đi từ cụm nhãn biểu diễn Ei tới cụm nhãn trung
tâm. Trong ví dụ trên: đường đẫn nhãn E1 và E2 lần lượt là NP -> NP -> VP- > NP -> VP và NP -> VP. Đặc trưng này có 2 thuộc tính:
o Số nút nằm trung gian khi đi từ nút biểu diễn thực thể Ei tới nút trung tâm
o Độ dài trung bình của đường đi (Bằng trung bình trọng số của các nút trung gian trên đường đi từ thực thể Ei tới nút trung tâm)
Trọng số của một nút được xác định như sau:
o Nút lá có trọng số bằng 1
39
Như vậy, một vector đặc trưng gồm có 7 thuộc tính, được mô tả chi tiết trong bảng sau:
Bảng 3-1: Các thuộc tính của vector đặc trưng
STT Tên cụm Giá trị Ý nghĩa
1 Cụm nhãn trung tâm
[0,1]
Khả năng nhãn thể hiện quan hệ đang tìm. Giá trị càng cao thì khả năng càng lớn. 2 Cụm nhãn thể hiệ E1 [0,1] Khả năng nhãn thể hiện một thực thể đúng. Giá trị càng cao thì khả năng càng lớn. 3 Cụm nhãn thể hiện E2 [0,1] Khả năng nhãn thể hiện một thực thể đúng. Giá trị càng cao thì khả năng càng lớn. 4 Đường dẫn nhãn E1 Số nhãn nằm trung gian khi đi từ nhãn biểu diễn thực thể E1 tới nhãn trung tâm
Độ liên quan của thực thể đối với quan hệ, thể hiện qua khoảng cách và thành phần của các nhãn trung gian. Giá trị càng lớn thì độ liên quan càng nhỏ.
5
Độ dài trung bình của đường đi (Bằng trung bình trọng số của các nút trung gian trên đường đi từ thực thể E1 tới nút trung tâm) 6 Đường dẫn nhãn E2 Số nhãn nằm trung gian khi đi từ nhãn biểu diễn thực thể E2 tới nhãn trung tâm
Độ liên quan của thực thể đối với quan hệ, thể hiện qua khoảng cách và thành phần của các nhãn trung gian. Giá trị càng lớn thì độ liên quan càng nhỏ.
7
Độ dài trung bình của đường đi (Bằng trung bình trọng số của các nút trung gian trên đường đi
40 từ thực thể E2 tới nút trung tâm)
3.3.4.3.Pha nhận dạng
Việc nhận dạng các vector đặc trưng trở thành việc phân lớp nhị phân sử dụng mô hình SVM đã được huấn luyện.
Như đã trình bày ở bước xây dựng tập dữ liệu học, các câu trong bộ dữ liệu học sẽ được phân tích cú pháp, sinh cây con biểu diễn quan hệ R và sinh vector đặc trưng tương ứng như các bước ở trên. Sau đó, các vector này sẽ được gán nhãn bằng tay. Nếu cây con được sinh ra thực sự biểu diễn quan hệ R, vector tương ứng sẽ được gán nhãn c1 ngược lại sẽ được gán nhãn c0. Tiến hành huấn luyện mô hình SVM với tập dữ liệu học này ta được bộ phân lớp SVM cho quan hệ R.
Các vector đặc trưng của các cây con tiềm năng sẽ được phân lớp bởi bộ phân lớp này. Từ các vector nhận giá trị c1 tương ứng là các cây con tiềm năng sẽ được chấp nhận và quan hệ thu được từ cây con này là câu trả lời cho bài toán.
Tổng kết chương ba
Trong chương này, dựa trên phân tích các đặc trưng của dữ liệu Wikipedia tiếng Việt và cây phân tích cú pháp tiếng Việt, khóa luận đã đưa ra một phương án xây dựng tập dữ liệu học bán tự động và mô hình trích chọn quan hệ dựa trên phương pháp học có giám sát. Kết quả thực nghiệm ở chương sau cho thấy mô hình là hoàn toàn khả thi.
41
Chương 4. Thực nghiệm và đánh giá kết quả