2 Xác định sở thích của du khách về sản phẩm du lịch dựa trên
2.1 Quy trình phântích quan điểm theo khía cạnh
2.2.1 Tiền xử lí dữ liệu
Các câu đánh giá, nhận xét thường phi cấu trúc. Trước hết cần phải thực hiện các thao tác tiền xử lý.
Chuẩn hóa các từ viết tắt và sai chính tả (Ví dụ, dc → được, trg lành →
trong lành,khg gian → không gian).
Chuyển văn bản về chữ thường (Ví dụ, "NHÂN VIÊN THÂN THIỆN, NHIỆT TÌNH" → "nhân viên thân thiện, nhiệt tình").
Loại bỏ các kí tự đặc biệt biệt, các chữ số, phép tính toán số học (Ví dụ:[], @, %, 6=,...).
Loại bỏ các từ dừng 1 (stopword). Từ dừng là những từ xuất hiện hầu hết trong các văn bản, không có ý nghĩa khi tham gia vào phân lớp văn bản. Từ dừng thường là các liên từ, giới từ, trạng từ,. . . (Ví dụ: cứ, dù, nọ, này, kia, để ).
2.2.2 Rút trích khía cạnh
Rút trích khía cạnh là tìm ra một tập con các câu tương ứng với từng khía cạnh trong tập các nhận xét. Xác định khía cạnh cho trước tương ứng với mỗi loại sản phẩm. Giả sử, trong sản phẩm khách sạn gồm có 5 khía cạnh là giá phòng, vị trí, phòng, dịch vụ và nhân vên. Việc xác định khía cạnh dựa trên các thuộc tính nổi bật của sản phẩm. Tiếp theo xác định từ thể hiện khía cạnh được gọi là từ lõi (core term). Thuật toán rút trích khía cạnh được mô tả trong Thuật toán 1 (Algorithm 1).
Algorithm 1 Thuật toán rút trích khía cạnh
Đầu vào: D = {d1,d2, ...,dN} là tập các nhận xét về một sản phẩm; A =
{a1,a2, ...,aK} là tập các khía cạnh; C = {c1,c2, ...,cK} là tập các từ lõi của các khía cạnh tương ứng.
Đầu ra: Sk Tập các câu được gán nhãn tương ứng với mỗi ak (k = 1, K Khởi tạo: S =∅; Sk =∅; 1: For each di ∈D S ←segment(di); //Tách các nhận xét thành các câu 2: For each si ∈S Fork = 1 to K do ...For each v ∈si do
...If v ∈ck then {si ←label(ak);Sk←si}
Mỗi khía cạnh của sản phẩm mà người dùng đề cập đến, chúng ta có thể coi như một chủ đề. Các chủ đề này được biểu diễn bởi một tập các từ, khi các từ này xuất hiện sẽ gợi ý cho người đọc liên tưởng đến chủ đề đó, do đó tương ứng với mỗi khía cạnh tìm ra tập các từ chủ đề (stop word).
2.2.3 Phân lớp quan điểm dựa trên khía cạnh
Tương ứng với tập khía cạnh của một thực thể đã được xác định trước, cho trước một tập nhãn quan điểm (ví dụ bao gồm các nhãn: tích cực, trung lập, tiêu cực,
1https://github.com/stopwords/vietnamese-stopwords/blob/master/vietnamese- stopwords.txt
đối với một câu đầu vào đã được gán nhãn khía cạnh, bài toán cần dự đoán nhãn quan điểm tương ứng cho nó.
Tiến trình phân lớp quan điểm hay xác định hướng quan điểm của khía cạnh được mô tả như sau: