Lỗi do gán nhãn từ loại (POS tag)

Một phần của tài liệu LUẬN VĂN: TỰ ĐỘNG ĐÁNH GIÁ QUAN ĐIỂM NGƯỜI DÙNG doc (Trang 63 - 65)

Chúng tôi sử dụng bộ gán nhãn từ loại trong plugin Coltech.NLP.tokenizer với

độ chính xác chưa cao. Việc viết luật phụ thuộc khá nhiều vào công việc này chính vì vậy mà với một sai lầm trong công việc này cũng ảnh hưởng không nhỏđến độ chính xác của việc nhận dạng các từ, các câu đánh giá quan điểm.

Ví dụ như câu sau:

“Laptop này tha mãn được hu hết các nhu cu gii trí, làm vic, nhưng

vn rt thi trang, tin li và th hin được đẳng cp.”

Trong câu này chúng tôi chỉ nhận dạng được 3 từ PosWord là thời trang, tiện lợi và đẳng cấp. Trong khi đó từ “thỏa mãn” cũng mang ý nghĩa positive tuy nhiên do bộ gán nhãn từ loại không xác định được từ loại của từ đó (nhãn là X) [Hình 12] cho nên hệ thống của chúng tôi cũng không xác định được từ quan điểm này.

55

Hình 12 - Li do POS Tag nh hưởng đến nhn dng t

Một trường hợp nữa khá nguy hiểm khi nó làm ảnh hưởng đến việc tách câu như trong ví dụ:

“Kiu dáng máy đẹp, thi trang và thi lượng dùng Pin dài.”

Trong việc tách câu của chúng tôi, chúng tôi có một luật là:

<Entity><Word>*<Word!=N> <du câu, liên t> <Word==N> <Word>+

Thì chúng tôi sẽ tách ở vị trí dấu câu.

Tuy nhiên trong trường hợp này từ “thời trang” theo gán nhãn từ loại là “Na” tức là danh từ trong khi chính xác phải là tính từ. Chính vì vậy làm cho hệ thống tách câu như sau:

56

Hình 13 - Li do POS tag nh hưởng đến tách câu

Một phần của tài liệu LUẬN VĂN: TỰ ĐỘNG ĐÁNH GIÁ QUAN ĐIỂM NGƯỜI DÙNG doc (Trang 63 - 65)

Tải bản đầy đủ (PDF)

(75 trang)