Xây dựng tập dữ liệu học

Một phần của tài liệu TRÍCH CHỌN QUAN HỆ THỰC THỂ TRÊN WIKIPEDIA TIẾNG VIỆT DỰA VÀO CÂY PHÂN TÍCH CÚ PHÁP (Trang 43 - 45)

Một trong những nhược điểm của phương pháp học có giám sát là chi phí cho việc xây dựng tập dữ liệu là rất tốn kém. Dựa vào các đặc trưng của Wikipedia, khóa luận đã đưa ra mô hình xây dựng tập dữ liệu học bán tự động, giảm thiểu được nhiều chi phí xây dựng. Mô hình này được mô tả như trong hình 11:

Hình 11: Quá trình xây dựng tập dữ liệu học a. Trích chọn thông tin trên Infox:

Như đã mô tả ở phần trước, thông tin trên infobox là một dạng biểu diễn có cấu trúc. Điều này cho phép ta trích chọn tự động các thể hiện của một quan hệ. Mỗi cặp <thuộc tính – giá trị> của infobox cho ta một bộ ba quan hệ với thực thể trang wiki có dạng: <Thực_thể_trang_Wiki – Thuộc_tính - Giá_trị>, các loại quan hệ <thuộc tính> và các cặp thực thể cùng nằm trong quan hệ <Thực_thể_trang_Wiki – Giá_trị>. Ví dụ, trong trường hợp hình 12, ta sẽ trích được bộ ba quan hệ, loại quan hệ, cặp thực thể tương ứng là:

<Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội – Năm thành lập - 1993>

<Năm thành lập>

< Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội – 1993> b. Tìm kiếm trên Wikipedia

Mục tiêu của xử lý này là tìm ra các câu chứa cả ba thành phần của quan hệ <E1 – R – E2>. Do infobox là bảng thông tin tóm tắt về nội dung của trang nên sẽ gần như luôn tìm được các câu mà thể hiện quan hệ <E1 – R – E2>.

35

Infobox Mã html tương ứng

<table class="infobox" >

<tbody> <tr>

<td><b>Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội</b><br></td> </tr> <tr> <td colspan="2"></td> </tr> <tr> <th>Tên gọi khác</th>

<td>Trường Đại học Đông Dương<br> Trường Đại học Khoa học<br>

Trường Đại học Tổng hợp Hà Nội</td> </tr> <tr> <th>Khẩu hiệu</th> <td>Khẩu hiệu</td> </tr> <tr> <th>Năm thành lập</th> <td>1993</td> </tr> <tr> <th>Loại hình</th>

<td>Trường Đại học công lập</td> </tr> <tr> <th>Giám đốc</th> <td>1</td> </tr> <tr> <th>Hiệu trưởng</th>

<td>PGS.TS. Bùi Duy Cam </td> </tr>

<tr>

<th>Hiệu phó</th> <td>Nguyễn Hữu Dư<br> Nguyễn Hoàng Lương<br> Nguyễn Văn Nội</td> </tr> ... <tr> <th>Email</th> <td>dhkhtnhn@vnn.vn</td> </tr> <tr> <th>Website</th> <td>http://www.hus.edu.vn</a></td> </tr> </tbody>

Hình 12: Cấu trúc biểu diễn của thông tin của infobox

Sau khi trích chọn được một tập các câu chứa các bộ quan hệ tương ứng <E1 – R – E2>, tiến hành phân tích cây cú pháp, tìm cây biểu diễn quan hệ này, rồi sinh

36

ra vector đặc trưng tương ứng. Các vector này sẽ được gán nhãn bằng tay và cho vào huyến luyện bộ phân lớp SVM như được mô tả dưới đây.

Một phần của tài liệu TRÍCH CHỌN QUAN HỆ THỰC THỂ TRÊN WIKIPEDIA TIẾNG VIỆT DỰA VÀO CÂY PHÂN TÍCH CÚ PHÁP (Trang 43 - 45)

Tải bản đầy đủ (PDF)

(68 trang)