4.2 Một số đánh giá
4.2.1 Đánh giá về kho ngữ liệu VietTreebank
Kho ngữ liệu VietTreebank đƣợc mã hóa theo dạng Penn Treebank do đó để có thể sử dụng truy vấn với PML-TQ, kho ngữ liệu này cần phải chuyển đổi sang định dạng PML. Trong quá trình nghiên cứu chuyển đổi định dạng với kho ngữ liệu VietTreebank tác giả phát hiện ra nhiều lỗi sai sót về mã hóa trong các tệp dữ liệu của kho ngữ liệu. Các sai sót phổ biến:
Có nhiều câu văn bản chƣa đƣợc tách từ gán nhãn
(SQ(" ")
(XP-WHRP(X-HTại sao))
(NP-SUB(N-H bà)(P ta))
Vi phạm quy tắc giữa các nhãn từ loại, nhãn cú pháp với nhau chỉ chứa duy nhất 1 đấu gạch ngang. Tuy nhiên có nhiều chỗ giữa các nhãn này thừa hoặc thiếu dấu ngạch ngang.Ví dụ: NPSUB, NPTMP, PPADV. Nhƣ vậy cần phải sửa lại tƣơng ứng là NP-SUB, NP-TMP, PP-ADV
(VP(V-H choáng)(V-H ngất)))) (, ,)
(S(NPSUB(N-H bà)(N vợ))
(AP-PRD(A-H luống cuống)
Sử dụng sai nhãn: các nhãn không có trong bộ quy tắc. Ví dụ nhãn Hc không có trong bộ quy tắc.
(PP-MNR (E bằng)
(NP (M một) (N-Hc ánh) (N mắt) (AP (A-H khác))))))
4.2.2 Đánh giá tốc độ xử lý và so sánh độ lớn của treebank tiếng Việt
PML-TQ đƣợc đánh giá [4] là một công cụ truy vấn với tốc độ khá nhanh và tỉ lệ thuận với độ lớn của treebank. Đối với các treebank 1 triệu nút thì tốc độ thực thi một lệnh truy vấn là 2.3s, còn đối với các các treebank có số nút dƣới 0.5 triệu nút thì thời gian trung bình là 1.1s.
Trong quá trình thực nghiệm truy vấn với treebank tiếng Việt – với độ lớn là 0.37 triệu nút, một bộ hơn40 câu lệnh truy vấn (Phụ lục I), trong đó bao gồm hơn10 câu truy vấn tổng hợp thông tin có sử dụng nhiều bộ lọc lồng nhau và gần 30 lệnh tìm kiếm thông tin, đã đƣợc tiến hành thực thi để đánh giá tốc độ.
Đối với các lệnh truy vấn tìm kiếm thông tin thì tốc độ truy vấn trung bình là 1.9s.
Đối với các lệnh truy vấntổng hợp thông tin thì tốc độ trung bình là 35.3s. Thời gian thực thi càng tăng nếu chung ta sử dụng càng nhiều bộ lọc kết quả lồng nhau trong câu truy vấn.
Về độ lớn, của cây cú pháp tiếng Việt hiện tại đƣợc sử dụng trong cuốn luận văn bao gồm 0.37 triệu nút. So với các treebank của các ngôn ngữ khác nhƣ tiếng Anh – WSJ: 2.28 triệu nút, tiếng Trung Quốc (định dạng Penn): 1.86 triệu nút thì cây cú pháp tiếng Việt có kích cỡ tƣơng đối nhỏ. Trong VietTreebank thì nút cực đại bao gồm 52 nút và cây cực đại có độ lớn là 161 nút.
Treebank Tổng số nut (Q1) Nút cực đại (Q2) Cây cực đại (Q3) Chiều sâu cực đại (Q4) Chiều ngang cực đại (Q5) PDT 1.59M 85 195 24 85 Tiger 0.95M 17 237 23 53 WSJ 2.28M 51 441 37 159 Brown 0.92M 24 347 36 53 SWBD 2.37M 26 272 37 54 Chinese (Penn) 1.86M 64 558 30 169 Arabic 0.36M 25 602 52 73 Catalan 0.4M 37 215 24 56 Chinese (CoNLL) 0.63M 35 243 20 114 Spanish 0.44M 62 150 28 64 Vietnamese(Penn) 0.37M 52 161 28 55