Khái quát về dữ liệu sử dụng

Chúng tôi tiến hành thử nghiệm bốn phương pháp trên với đầu vào là ba bộ dữ liệu. Ba bộ dữ liệu này đều xuất phát từ cùng một tập dữ liệu được sưu tầm từ báo Lao Động và PCWorld gồm khoảng 300,000 câu, tương đương với 7,142,500 từ. Điểm khác nhau duy nhất giữa các bộ dữ liệu là ở thông tin về nhãn từ loại và cú pháp. Ba bộ dữ liệu được đề cập bao gồm một bộ dữ liệu chỉ được tách từ đơn thuần, một bộ được gán nhãn từ loại và một bộ đã được phân tích cú pháp. Thông tin về nhãn từ loại và cú pháp sẽ được sử dụng để loại bỏ các bigrams không phù hợp; từ đó, làm tăng độ chính xác của chương trình trích chọn.

Bộ gán nhãn từ loại được chúng tôi sử dụng là bộ vnTagger – một bộ công cụ mã nguồn mở được phát triển bởi tác giả Lê Hồng Phương, có thể được download từ trang http://www.loria.fr/~lehong/tools/vnTagger.php, với độ chính xác đạt xấp xỉ 95% (*). Bộ nhãn được sử dụng bao gồm 17 nhãn chính. Bảng 2-7 trình bày bộ nhãn sử dụng bởi bộ vnTagger.

Bảng 2-7: Bộ nhãn sử dụng bởi vnTagger STT Nhãn Chú thích

16 2 Np Danh từ riêng 3 Nc Danh từ chỉ loại 4 Nu Danh từ đơn vị 5 V Động từ 6 A Tính từ 7 P Đại từ 8 L Định từ (lượng từ) 9 M Số từ 10 R Phụ từ 11 E Giới từ 12 C Liên từ 13 I Thán từ 14 T Trợ từ, tiểu từ, từ tình thái 15 U Từ đơn lẻ 16 X Từ viết tắt

17 Y Các từ không phân loại được

(*): http://www.loria.fr/~lehong/tools/vnTagger.php

Bộ phân tích cú pháp được sử dụng là bộ phân tích được phát triển bởi nhóm Lê Anh Cường, Nguyễn Phương Thái, Vương Hoài Vũ, Phạm Minh Thu, Hồ Tú Bảo; được trình bày trong bài báo “An Experimental on Lexicalized Statiscal Parsing for Vietnamese” trình bày tại hội nghị KSE năm 2009, tổ chức tại trường ĐH Công Nghệ, ĐH Quốc Gia Hà Nội; với độ chính xác khoảng 78%. Bộ phân tích cú pháp cũng sử dụng bộ nhãn được miêu tả trong bảng 2-7.

GIAI ĐOẠN 1: TRÍCH CHỌN CÁC COLLCOATIONS CÓ DẠNG

Bước 2: Lọc các bigram không hợp lệ