Thành phần này gồm hai bƣớc chính: (1) bƣớc huấn luyện mơ hình nhận dạng, (2) bƣớc nhận dạng. Mục tiêu của thành phần này là nhận dạng ba loại thực thể phổ biến là ngƣời, địa danh, thời gian.
- ƣớc huấn luyện mơ hình nhận dạng
Mơ hình nhận dạng sẽ đƣợc huấn luyện bằng phƣơng pháp học máy. Dữ liệu huấn luyện sẽ sử dụng tập dữ liệu nhận dạng thực thể do tác giả Nguyễn Cẩm Tú cung cấp, tập dữ liệu này gồm 294 văn bản đã đƣợc gắn nhãn 7 loại thực thể: ngƣời (per), địa danh (loc), tổ chức (org), thời gian (time), số (num), tiền tệ (cur), loại khác (misc).
Ví dụ:
<per> Gill Hyun-chang </per>, giám_đốc điều_hành <org> Motorola </org> tại <loc> Hàn_Quốc </loc> cho_biết: "Chiếc Z của chúng_tơi <time> hiện_nay </time>là loại ĐTDĐ nắp trƣợt mỏng nhất trong tồn_bộ các loại ĐTDĐ nắp trƣợt cĩ_mặt trên thế_giới <time> hiện_nay </time>.
Hình 4.3: Một ví dụ trong bƣớc huấn luyện cho mơ hình NER.
Do nhu cầu của luận văn chỉ sử dụng 3 nhãn là: ngƣời, địa danh và thời gian nên các dữ liệu sẽ đƣợc chuẩn hĩa loại bỏ các nhãn khác.
Để thực thi phƣơng pháp mơ hình Markov ẩn, tơi sử dụng thƣ viện mã nguồn mở Lingpipe do Alias-i6 cung cấp. Đây là thƣ viện nổi tiếng về xử lý ngơn ngữ tự nhiên gồm nhiều thuật tốn về nhận dạng thực thể, gắn nhãn từ loại, phân lớp,… Phƣơng pháp HMM đƣợc cài đặt trong thƣ viện này đã cĩ thêm một số cải tiến khi tích hợp thêm một số đặc trƣng ngơn ngữ nhƣ: đặc trƣng bắt đầu câu, đặc trƣng kết thúc câu, đặc trƣng n-gram,… Cịn để áp dụng CRF, tơi sử dụng thƣ viện mã nguồn mở Mallet7
, đây cũng là thƣ viện về xử lý ngơn ngữ do trƣờng Đại học Massachusetts Amherst cung cấp.
6 http://alias-i.com/lingpipe
Dữ liệu huấn luyện sẽ đƣợc đƣa vào để huấn luyện bằng phƣơng pháp HMM và CRF, đầu ra sẽ là mơ hình tham số phục vụ cho việc nhận dạng 3 thực thể là ngƣời, địa danh và thời gian.
- Tập đặc trƣng
Tập đặc trƣng đƣợc sử dụng để nhận dạng thực thể bao gồm các đặc trƣng sau:
Mẫu đặc trƣng thể hiện đặc điểm của từ
Mẫu đặc trƣng Ý nghĩa
cap:k:i Từ thứ k cĩ kí tự đầu tiên viết hoa
cap:k:a Từ thứ k cĩ tồn bộ kí tự là viết hoa
char:length:n Từ gồm n kí tự
Bsent Nếu từ thứ k đứng đầu câu
Esent Nếu từ thứ k đứng cuối câu
num, punc Nếu từ k là số, dấu
Mẫu đặc trƣng tiền tố
Mẫu đặc trƣng Ý nghĩa
per:prefix: Các từ phía cĩ trong từ điển tiền tố chỉ ngƣời (Anh, chị, em, ơng, bà ….)
loc:prefix: Các từ phía cĩ trong từ điển tiền tố chỉ địa danh (tỉnh, xã, huyện, ….)
time:prefix: Các từ phía cĩ trong từ điển tiền tố chỉ thời gian (ngày, tháng, năm, ….)
Mẫu đặc trƣng ngữ cảnh xung quanh từ đang xét Mẫu đặc trƣng Ý nghĩa
w:-1, w:-2 Từ đứng trƣớc 1 vị trí hoặc 2 vị trí
n-gram:-1-2 Các cụm n-gram xung quanh vị trí cần đánh giá.
Với đặc trƣng n-gram, tơi sử dụng một cửa sổ cĩ độ dài W, và tơi chỉ sử dụng những âm tiết nằm trong cửa sổ này. Trong tài liệu tiếng Việt, cĩ khoảng 70% các từ gồm 2 âm tiết, và 14% các từ gồm 3 âm tiết. Do vậy, tơi sử dụng W là 2 và n=2 và n=3.
Ví dụ:
“Hà Nội là thủ đơ của Việt Nam” và vị trí đang xét ở từ “đơ”
Các đặc trƣng n-gram với n=2 là: n-gram:-1-2:là_thủ; n-gram:0-1:thủ_đơ; n- gram:0+1:đơ_của; n-gram:+1+2:của_việt
Các đặc trƣng n-gram với n=3 là: n-gram:0-1-2:là_thủ_đơ; n-gram:+10- 1:thủ_đơ_của; n-gram:0+1+2:đơ_của_việt
- ƣớc nhận dạng
Sau khi cĩ đƣợc mơ hình nhận dạng, các dữ liệu văn bản cần đƣợc nhận dạng thực thể sẽ đƣợc đƣa vào các hàm giải mã (decode) của thƣ viện Lingpipe và Mallet để tiến hành nhận dạng thực thể.