Thành phần nhận dạng bằng học máy

Thành phần này gồm hai bƣớc chính: (1) bƣớc huấn luyện mơ hình nhận dạng, (2) bƣớc nhận dạng. Mục tiêu của thành phần này là nhận dạng ba loại thực thể phổ biến là ngƣời, địa danh, thời gian.

- ƣớc huấn luyện mơ hình nhận dạng

Mơ hình nhận dạng sẽ đƣợc huấn luyện bằng phƣơng pháp học máy. Dữ liệu huấn luyện sẽ sử dụng tập dữ liệu nhận dạng thực thể do tác giả Nguyễn Cẩm Tú cung cấp, tập dữ liệu này gồm 294 văn bản đã đƣợc gắn nhãn 7 loại thực thể: ngƣời (per), địa danh (loc), tổ chức (org), thời gian (time), số (num), tiền tệ (cur), loại khác (misc).

Ví dụ:

<per> Gill Hyun-chang </per>, giám_đốc điều_hành <org> Motorola </org> tại <loc> Hàn_Quốc </loc> cho_biết: "Chiếc Z của chúng_tơi <time> hiện_nay </time>là loại ĐTDĐ nắp trƣợt mỏng nhất trong tồn_bộ các loại ĐTDĐ nắp trƣợt cĩ_mặt trên thế_giới <time> hiện_nay </time>.

Hình 4.3: Một ví dụ trong bƣớc huấn luyện cho mơ hình NER.

Do nhu cầu của luận văn chỉ sử dụng 3 nhãn là: ngƣời, địa danh và thời gian nên các dữ liệu sẽ đƣợc chuẩn hĩa loại bỏ các nhãn khác.

Để thực thi phƣơng pháp mơ hình Markov ẩn, tơi sử dụng thƣ viện mã nguồn mở Lingpipe do Alias-i6 cung cấp. Đây là thƣ viện nổi tiếng về xử lý ngơn ngữ tự nhiên gồm nhiều thuật tốn về nhận dạng thực thể, gắn nhãn từ loại, phân lớp,… Phƣơng pháp HMM đƣợc cài đặt trong thƣ viện này đã cĩ thêm một số cải tiến khi tích hợp thêm một số đặc trƣng ngơn ngữ nhƣ: đặc trƣng bắt đầu câu, đặc trƣng kết thúc câu, đặc trƣng n-gram,… Cịn để áp dụng CRF, tơi sử dụng thƣ viện mã nguồn mở Mallet7

, đây cũng là thƣ viện về xử lý ngơn ngữ do trƣờng Đại học Massachusetts Amherst cung cấp.

6 http://alias-i.com/lingpipe

Dữ liệu huấn luyện sẽ đƣợc đƣa vào để huấn luyện bằng phƣơng pháp HMM và CRF, đầu ra sẽ là mơ hình tham số phục vụ cho việc nhận dạng 3 thực thể là ngƣời, địa danh và thời gian.

- Tập đặc trƣng

Tập đặc trƣng đƣợc sử dụng để nhận dạng thực thể bao gồm các đặc trƣng sau:

 Mẫu đặc trƣng thể hiện đặc điểm của từ

Mẫu đặc trƣng Ý nghĩa

cap:k:i Từ thứ k cĩ kí tự đầu tiên viết hoa

cap:k:a Từ thứ k cĩ tồn bộ kí tự là viết hoa

char:length:n Từ gồm n kí tự

Bsent Nếu từ thứ k đứng đầu câu

Esent Nếu từ thứ k đứng cuối câu

num, punc Nếu từ k là số, dấu

 Mẫu đặc trƣng tiền tố

Mẫu đặc trƣng Ý nghĩa

per:prefix: Các từ phía cĩ trong từ điển tiền tố chỉ ngƣời (Anh, chị, em, ơng, bà ….)

loc:prefix: Các từ phía cĩ trong từ điển tiền tố chỉ địa danh (tỉnh, xã, huyện, ….)

time:prefix: Các từ phía cĩ trong từ điển tiền tố chỉ thời gian (ngày, tháng, năm, ….)

 Mẫu đặc trƣng ngữ cảnh xung quanh từ đang xét Mẫu đặc trƣng Ý nghĩa

w:-1, w:-2 Từ đứng trƣớc 1 vị trí hoặc 2 vị trí

n-gram:-1-2 Các cụm n-gram xung quanh vị trí cần đánh giá.

Với đặc trƣng n-gram, tơi sử dụng một cửa sổ cĩ độ dài W, và tơi chỉ sử dụng những âm tiết nằm trong cửa sổ này. Trong tài liệu tiếng Việt, cĩ khoảng 70% các từ gồm 2 âm tiết, và 14% các từ gồm 3 âm tiết. Do vậy, tơi sử dụng W là 2 và n=2 và n=3.

Ví dụ:

“Hà Nội là thủ đơ của Việt Nam” và vị trí đang xét ở từ “đơ”

Các đặc trƣng n-gram với n=2 là: n-gram:-1-2:là_thủ; n-gram:0-1:thủ_đơ; n- gram:0+1:đơ_của; n-gram:+1+2:của_việt

Các đặc trƣng n-gram với n=3 là: n-gram:0-1-2:là_thủ_đơ; n-gram:+10- 1:thủ_đơ_của; n-gram:0+1+2:đơ_của_việt

- ƣớc nhận dạng

Sau khi cĩ đƣợc mơ hình nhận dạng, các dữ liệu văn bản cần đƣợc nhận dạng thực thể sẽ đƣợc đƣa vào các hàm giải mã (decode) của thƣ viện Lingpipe và Mallet để tiến hành nhận dạng thực thể.

Mơ hình Markov ẩn (Hidden MarkovModel HMM)