TIẾNG VIỆT
2.3.4. Tập đặc trưng
Việc sử dụng nhiều nguồn tri thức có thể hỗ trợ cho việc cải thiện hiệu năng của các hệ thống NLP. Trong nghiên cứu này, một tập đặc trƣng phong phú (bảng 2.3) đƣợc xây dựng dựa trên nhiều nguồn tri thức.
Bảng 2.3. Tập đặc trưng được sử dụng
STT Đặc trƣng Ký hiệu
1 Từ đang xét W0
2 Nhãn từ loại của từ đang xét (POS) POS (W0)
3 Từ đang xét là chữ thƣờng, viết hoa đầu từ hay viết hoa toàn bộ?
Is_Lower(0,0) Is_Initial_Cap (0,0)
Is_All_Cap (0,0)
4 Ngữ cảnh Wi (i = -2,-1,1,2))
5 Liên kết từ vựng Syllable_Conj (-2,2))
6 Biểu thức chính quy Regex(0,0)
7 Nhận dạng tiếng Việt Is_Valid_Vietnamese_Syllable(0,0)
8 Từ điển dict:name, dict:first_name,
dict:vname, dict:vfirst_name
9 Tiền tố prefix:per, prefix:loc, prefix:org
47
- Các đặc trƣng của từ đang xét và ngữ cảnh: đây là các đặc trƣng thông thƣờng đƣợc sử dụng trong nhiều nghiên cứu NLP [CTX06, OCQ09, TLH10].
- Cấu trúc hình thái chung của tiếng Việt đƣợc tổng kết trong nghiên cứu của Cam Tu Nguyen và cộng sự [CTX06] (bao gồm cấu trúc âm tiết, từ vựng tiếng Việt và các từ mới). Dựa trên nghiên cứu này, một số loại mẫu ngữ cảnh vị ngữ (context predicate templates) đƣợc đề xuất cùng với đó là các đặc trƣng tƣơng ứng. Cụ thể, các đặc trƣng hình thái từ vựng, liên kết từ vựng, biểu thức chính quy và đặc trƣng từ có phải từ tiếng Việt hay khơng. - Từ điển tên ngƣời tiếng Anhđƣợc trích xuất từ dữ liệu Freebase (1.397.865
từ).
- Ba từ điển hỗ trợ nhận dạng thực thể tiếng Việt đƣợc nghiên cứu sinh tự xây dựng dựa trên việc thống kê trên các bài báo tiếng Việt:
o Từ điển tên ngƣời tiếng Việt (20.669 từ). o Từ điển địa danh tiếng Việt (18.331 từ).
o Từ điển tiền tố (790 từ), bao gồm tiền tố cho tên ngƣời (ngài, PGS, v.v..), tiền tố địa danh (quận, thành phố, v.v..) và tiền tố của tổ chức (trƣờng đại học, công ty, v.v..).