Bộ tách từ và bộ gán nhãn từ loại

Một nét đặc trưng rất khác biệt của tiếng Việt so với tiếng Anh đó là vấn đề tách từ (word segmentation). Trong tiếng Anh các từ được phân biệt bởi dấu trống, tuy nhiên từ trong tiếng Việt thì không như vậy. Một từ có thể bao gồm một, hai, ba hoặc nhiều hơn các tiếng. Một tiếng có thể liên kết với từ đứng trước nó, hoặc đứng sau nó để tạo thành từ. Ví dụ như câu:

“Học sinh học sinh học.” Có thể tách câu trên như sau:

“Học_sinh học sinh_học.” hay

“Học sinh_học sinh_học.”

Như vậy tiếng “sinh” có thể kết hợp với tiếng “Học” đứng trước nó để tạo thành từ “Học sinh”, hay nó còn có thể kết hợp với tiếng “học” đứng sau nó để tạo thành từ “sinh_học”.

Chương 4. Nhận dạng thực thể trong văn bản tiếng Việt Nguyễn Bá Đạt

Quay trở lại bài toán nhận dạng thực thể trong văn bản tiếng Việt, đương nhiên thực thể phải là từ, hoặc cụm từ mang ý nghĩa. Chúng ta không thể nhận một cụm các tiếng không mang một ý nghĩa gì làm thực thể. Vậy yêu cầu đầu tiên của giai đoạn tiền xử lý cho bài toán nhận dạng thực thể là bài toán tách từ trong tiếng Việt. Một hệ thống nhận dạng thực thể chỉ có thể tốt khi có một bộ tách từ hoạt động tốt. Lấy câu sau đây làm ví dụ:

“Anh Hùng lái xe trên đại lộ 5.”

Nếu bộ tách từ hoạt động chính xác, câu đó sẽ được tách thành: “Anh Hùng lái_xe trên đại_lộ 5.”

Từ “Hùng” đứng sau tiền tố nhận dạng “Anh” sẽ được nhận là thực thể chỉ người <Person> và chính xác. Tuy nhiên nếu bộ tách từ hoạt động không chính xác và câu được tách thành:

“Anh_Hùng lái_xe trên đại_lộ 5.”

Khi đó trong tập các từ hoàn toàn không có từ “Hùng” và việc nhận ra “Hùng” là thực thể tên người sẽ trở nên rất khó khăn.

Ngoài yêu cầu bắt buộc về một bộ tách từ, chúng tôi còn sử dụng thêm bộ gán nhãn từ loại trong giai đoạn tiền xử lý của hệ thống, nhằm cung cấp được nhiều thống tin cho các giai đoạn xử lý tiếp theo. Chúng tôi đóng gói bộ WS&PT.2IN1.4VN (Phạm 2009) thành plugin Coltech.NLP.tokenizer trong khung làm việc GATE. Nhờ đó bộ tách từ và gán nhãn từ loại có thể dễ dàng thay đổi, cải tiến mà không làm ảnh hưởng đến kiến trúc của hệ thống.

Các văn bản sau khi được xử lý bởi Coltech.NLP.tokenizer sẽ trở thành văn bản ở định dạng của GATE tức là gồm: nội dung văn bản, tập các nhãn (annotation) và tập các đặc trưng (tham khảo 3.2). Ở đây chúng tôi chỉ tạo ra các nhãn “Word” và “Split”

Mỗi nhãn (annotation) “Word” được tạo mới trên một từ gồm một vài đặc trưng như:

o Từ loại (POS): là từ loại của từ. Ví dụ: Np, Nn v.v…(tham khảo tại phụ lục B).

o Nội dung (string): là xâu thể hiện từ. Ví dụ: “học sinh”, “đại ca” v.v… o Viết hoa (upper): nếu ký tự đầu tiên của từ viết hoa thì upper = “true”.

Ngược lại upper = “false”.

o Ngoài ra còn một số đặc trưng như: kind, nation v.v…để giúp ích cho quá trình viết luật.

Mỗi nhãn “Split” được tạo mới trên một dấu tách câu như: “.”, “?”, “!”, cũng có những đặc trưng tương tự như nhãn “Word”.

Sau khi Coltech.NLP.tokenizer hoàn thành, chúng tôi bước vào xây dựng thành phần xử lý chính trong hệ thống: gồm hai nguồn xử lý (Processing Resource) VNEgazetteer như một bộ từ điển, và VNEtransducer như một bộ luật. Hai nguồn xử lý này được xây dựng và phát triển song song cùng với quá trình tạo tập dữ liệu được gán nhãn (Annotated corpus).

Thành phần thay thế (Macros)

Chuẩn bị tập dữ liệu