Lỗi do gán nhãn từ loại (POS tag)

Chúng tôi sử dụng bộ gán nhãn từ loại trong plugin Coltech.NLP.tokenizer với

độ chính xác chưa cao. Việc viết luật phụ thuộc khá nhiều vào công việc này chính vì vậy mà với một sai lầm trong công việc này cũng ảnh hưởng không nhỏđến độ chính xác của việc nhận dạng các từ, các câu đánh giá quan điểm.

Ví dụ như câu sau:

“Laptop này thỏa mãn được hầu hết các nhu cầu giải trí, làm việc, nhưng

vẫn rất thời trang, tiện lợi và thể hiện được đẳng cấp.”

Trong câu này chúng tôi chỉ nhận dạng được 3 từ PosWord là thời trang, tiện lợi và đẳng cấp. Trong khi đó từ “thỏa mãn” cũng mang ý nghĩa positive tuy nhiên do bộ gán nhãn từ loại không xác định được từ loại của từ đó (nhãn là X) [Hình 12] cho nên hệ thống của chúng tôi cũng không xác định được từ quan điểm này.

Hình 12 - Lỗi do POS Tag ảnh hưởng đến nhận dạng từ

Một trường hợp nữa khá nguy hiểm khi nó làm ảnh hưởng đến việc tách câu như trong ví dụ:

“Kiểu dáng máy đẹp, thời trang và thời lượng dùng Pin dài.”

Trong việc tách câu của chúng tôi, chúng tôi có một luật là:

<Entity><Word>*<Word!=N> <dấu câu, liên từ> <Word==N> <Word>+

Thì chúng tôi sẽ tách ở vị trí dấu câu.

Tuy nhiên trong trường hợp này từ “thời trang” theo gán nhãn từ loại là “Na” tức là danh từ trong khi chính xác phải là tính từ. Chính vì vậy làm cho hệ thống tách câu như sau:

Hình 13 - Lỗi do POS tag ảnh hưởng đến tách câu

Xây dựng plugin trên GATE

Mô tả tổng quan hệ thống