STT Tên cụm Giá trị Ý nghĩa
1 Cụm nhãn trung tâm
[0,1]
Khả năng nhãn thể hiện quan hệ đang tìm. Giá trị càng cao thì khả năng càng lớn. 2 Cụm nhãn thể hiệ E1 [0,1] Khả năng nhãn thể hiện một thực thể đúng. Giá trị càng cao thì khả năng càng lớn. 3 Cụm nhãn thể hiện E2 [0,1] Khả năng nhãn thể hiện một thực thể đúng. Giá trị càng cao thì khả năng càng lớn. 4 Đường dẫn nhãn E1 Số nhãn nằm trung gian khi đi từ nhãn biểu diễn thực thể E1 tới nhãn trung tâm
Độ liên quan của thực thể đối với quan hệ, thể hiện qua khoảng cách và thành phần của các nhãn trung gian. Giá trị càng lớn thì độ liên quan càng nhỏ.
5
Độ dài trung bình của đường đi (Bằng trung bình trọng số của các nút trung gian trên đường đi từ thực thể E1 tới nút trung tâm) 6 Đường dẫn nhãn E2 Số nhãn nằm trung gian khi đi từ nhãn biểu diễn thực thể E2 tới nhãn trung tâm
Độ liên quan của thực thể đối với quan hệ, thể hiện qua khoảng cách và thành phần của các nhãn trung gian. Giá trị càng lớn thì độ liên quan càng nhỏ.
7
Độ dài trung bình của đường đi (Bằng trung bình trọng số của các nút trung gian trên đường đi
40 từ thực thể E2 tới nút trung tâm)
3.3.4.3. Pha nhận dạng
Việc nhận dạng các vector đặc trưng trở thành việc phân lớp nhị phân sử dụng mơ hình SVM đã được huấn luyện.
Như đã trình bày ở bước xây dựng tập dữ liệu học, các câu trong bộ dữ liệu học sẽ được phân tích cú pháp, sinh cây con biểu diễn quan hệ R và sinh vector đặc trưng tương ứng như các bước ở trên. Sau đó, các vector này sẽ được gán nhãn bằng tay. Nếu cây con được sinh ra thực sự biểu diễn quan hệ R, vector tương ứng sẽ được gán nhãn c1 ngược lại sẽ được gán nhãn c0. Tiến hành huấn luyện mơ hình
SVM với tập dữ liệu học này ta được bộ phân lớp SVM cho quan hệ R.
Các vector đặc trưng của các cây con tiềm năng sẽ được phân lớp bởi bộ phân lớp này. Từ các vector nhận giá trị c1 tương ứng là các cây con tiềm năng sẽ được chấp nhận và quan hệ thu được từ cây con này là câu trả lời cho bài toán.
Tổng kết chương ba
Trong chương này, dựa trên phân tích các đặc trưng của dữ liệu Wikipedia tiếng Việt và cây phân tích cú pháp tiếng Việt, khóa luận đã đưa ra một phương án xây dựng tập dữ liệu học bán tự động và mơ hình trích chọn quan hệ dựa trên phương pháp học có giám sát. Kết quả thực nghiệm ở chương sau cho thấy mơ hình là hồn tồn khả thi.
41
Chương 4. Thực nghiệm và đánh giá kết quả
4.1. Môi trường thực nghiệm 4.1.1. Câu hình phần cứng 4.1.1. Câu hình phần cứng