Lựa chọn danh sách từ hạt giống

Một phần của tài liệu Nghiên cứu xây dựng thuật toán trích rút tự động các luật văn phạm PCFG LTGA từ các kho ngữ liệu có chú giải cú pháp tiếng việt phục vụ cho bài toán phân tích cú pháp (Trang 35)

Từ hạt giống đóng vai trò là từ khóa tìm kiếm trong việc thu thập kho ngữ

liệu văn bản của mỗi ngôn ngữ. Đây phải là các từđặc trưng cho mỗi ngôn ngữ, tức là phải có tần suất xuất hiện đáng kể và có tính phân biệt so với các từ trong ngôn ngữ khác. Tập từ hạt giống này có thể thu được từ nhiều nguồn khác nhau, ví dụ

như trong các kho ngữ liệu nhỏ đã tồn tại hoặc là từ nguồn Wikipedia (Wiki)- một nguồn ngữ liệu khổng lồ gồm các bài báo từ nhiều lĩnh vực. Đối với tiếng Việt, danh sách từ hạt giống cũng có thểđược thu thập từ Wiki tiếng Việt. Danh sách từ

này không đủđộ lớn, không bao phủđược hết sự thay đổi khác nhau trong mỗi kiểu văn bản phục vụ cho nghiên cứu và xây dựng từđiển nên danh sách và tần suất xuất hiện của chúng sẽ chỉ được sử dụng làm kho ngữ liệu trung gian (làm “hạt giống”) cho việc thu thập kho ngữ liệu lớn từ Web.

2.2.1.1. Trích rút kho ngữ liệu từ Wiki

Để trích rút văn bản từ Wiki trước hết ta cần tải về khối dữ liệu nén XML Wiki cho tiếng Việt, tiếp theo là trích rút các trang XML (có chứa các thẻ Wiki) từ

khối dữ liệu nén XML Wiki, sau đó, phân tích cú pháp các trang XML để loại bỏ

các nhãn Wiki, thu được các trang XML thô. Cuối cùng là trích rút văn bản thô từ

các trang XML thô bằng cách sử dụng công cụ Wikipedia2text [119]

Kết quả cho thấy với 426 MB dữ liệu nén tải về từ Wiki thu được 750 MB văn bản thô. Hầu hết các bài Wiki có số lượng từ quá ít như các định nghĩa ngắn gọn, tập hợp các liên kết1 có kích thước nhỏ là bị loại bỏ. Ide (2002) và các cộng sự

[58] đã đưa ra một ước lượng số từ tối thiểu để nhận biết một mục tài liệu là 2000 từ. Dựa vào đó, có thể coi các tệp tin Wiki cần thiết phải có dung lượng lớn hơn 10 KB (mặc dù trong thực tế có những tệp lớn hơn 10KB cũng không chứa văn bản liên quan, tuy nhiên ảnh hưởng của chúng về mặt thống kê không lớn). Sau khi loại

20

bỏ các tệp nhỏ hơn 10 KB, thu được 57 MB văn bản tiếng Việt (6.8 triệu âm tiết). Kho văn bản này được dùng để xây dựng danh sách tần suất các từ.

2.2.1.2. Lập danh sách tần suất

Danh sách tần suất các từ trong kho ngữ liệu Wiki được xây dựng từ việc tách từ (tách từng dấu hiệu từ) các văn bản trong kho ngữ liệu và một danh sách từ

tiếng Việt được sử dụng để nhận dạng từ và tính tần suất. Thuật toán sử dụng là duyệt theo từng câu, mỗi câu được duyệt từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từđiển rồi tiếp tục cho từ kế tiếp đến kết thúc câu. Thuật toán

ở đây chính là thuật toán khớp tối đa sử dụng trong việc xây dựng công cụ tách từ

tiếng Việt VnTokenizer2 của nhóm tác giả Lê Hồng Phương.

Ví dụ: “ Học sinh học sinh học” được tách thành “ Học sinh|học sinh| học”. Cách lựa chọn này rõ ràng không phải bao giờ cũng chính xác, nhưng sai số

là chấp nhận được cho mục đích lập danh sách tần suất từ. 2.2.1.3. Lựa chọn từ hạt giống trong danh sách tần suất

Tiêu chí lựa chọn từ hạt giống của mỗi ngôn ngữ là khác nhau, ví dụ với tiếng Hà Lan thì chỉ các từ có độ dài ít nhất là 5 kí tự là được lựa chọn. Đối với tiếng Việt thì độ dài của từ không phải là tiêu chí để lựa chọn, qua khảo sát các văn bản tiếng Việt cho thấy phần lớn các từ có chứa kí tự không thuộc phạm vi ASCII. Bởi vậy, ở đây tiêu chí được chọn cho tiếng Việt là từ hạt giống phải có ít nhất 1 kí tự Unicode không thuộc phạm vi ASCII, các từ khác sẽ không được xét, các chữ số hoặc các mục không phải kí tự cũng sẽ bị loại trừ. Danh sách từ hạt giống, được sắp xếp theo chiều giảm dần của tần suất, trong đó 1000 từ có tần suất cao nhất được bỏ qua vì chúng thường được coi là các từ dừng (stop word)3 đối với các máy tìm kiếm, 5000 từ tiếp theo trong danh sách tần suất thuộc nhóm từ có tần suất trung bình được sử

dụng làm từ hạt giống.

2http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer

21

Một phần của tài liệu Nghiên cứu xây dựng thuật toán trích rút tự động các luật văn phạm PCFG LTGA từ các kho ngữ liệu có chú giải cú pháp tiếng việt phục vụ cho bài toán phân tích cú pháp (Trang 35)