Hệ thống đánh giá quan điểm của chúng tôi được chia thành 4 phần chính như
sau:
• Tiền xử lý: giải quyết những vấn đề cơ bản cho văn bản làm tiền đề cho bước xử lý sau.
• Xác định từ, cụm từ chỉ quan điểm và xu hướng quan điểm của nó.
• Xác định câu và phân lớp câu chỉ quan điểm.
• Đánh giá các đặc tính của sản phẩm (Features) dựa trên câu.
Sau đây chúng tôi đưa ra một ví dụđể chúng ta có thể hiểu rõ hơn công việc và nhiệm vụ của từng phần.
Ví dụ dữ liệu văn bản:
“HP dv 4 có thiết kế bắt mắt, ưa nhìn tuy nhiên giá quá cao.”
Sau khi tiền xử lý chúng tôi tách từ và POS tag cho văn bản:
“<X>HP dv 4</X> <Vts>có</Vts> <Vt>thiết kế</Vt> <V>bắt mắt</V>, <A>ưa
nhìn</A> <Cc>tuy nhiên</Cc> <Na>giá</Na> <Jd>quá</Jd> <An>cao</An>.”
Dựa trên tiền xử lý chúng tôi dùng luật để xác định các từ, cụm từ chỉ quan
điểm:
“HP dv 4 có <kieudang>thiết kế</kieudang> <PosWord>bắt mắt</PosWord>,
<PosWord>ưa nhìn</PosWord> tuy nhiên <gia>giá</gia> quá
<NegWord>cao</NegWord>.”
Sau khi đã nhận dạng được các từ, cụm từ (nếu có thêm ReverseOpinion) chỉ
36
“<PosSen>HP dv 4 có thiết kế bắt mắt, ưa nhìn</PosSen> tuy nhiên <NegSen>giá
quá cao.</NegSen>”
Cuối cùng chúng tôi tổng hợp các câu đánh giá về Feature và hiển thị ra kết quả:
Kieudang: 1/0 Gia: 0/1
Tính hiệu quả của khung làm việc GATE cho bài toán nhận dạng thực thể đã
được chứng minh qua nhiều nghiên cứu (Maynard 2001, Cao 2007), bởi vậy chúng tôi quyết định xây dựng hệ thống nhận dạng thực thể trong văn bản tiếng Việt như một thành phần tích hợp (Plugin) trên GATE nhằm tận dụng những ưu điểm mà GATE mang lại. Chúng tôi đưa ra mô hình xử lý trên GATE như sau [Hình 10]:
Hình 10 - Mô tả chi tiết hệ thống đánh giá quan điểm người dùng trên GATE
Hệ thống bao gồm 5 bộ phận chính: • Bộ tách từ • Bộ gán nhãn từ loại • Bộ từđiển • Bộ luật • Bộđánh giá Features
37
Để hiểu chi tiết hơn về hệ thống đánh giá quan điểm người dùng trên văn bản tiếng Việt xây dựng trên nền GATE, chúng ta sẽđi sâu hơn tìm hiểu về từng bộ phận của hệ thống.