Phân lớp quan điểm dựa trên khía cạnh

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch (Trang 33 - 36)

2 Xác định sở thích của du khách về sản phẩm du lịch dựa trên

2.2.3 Phân lớp quan điểm dựa trên khía cạnh

Tương ứng với tập khía cạnh của một thực thể đã được xác định trước, cho trước một tập nhãn quan điểm (ví dụ bao gồm các nhãn: tích cực, trung lập, tiêu cực,

1https://github.com/stopwords/vietnamese-stopwords/blob/master/vietnamese- stopwords.txt

đối với một câu đầu vào đã được gán nhãn khía cạnh, bài toán cần dự đoán nhãn quan điểm tương ứng cho nó.

Tiến trình phân lớp quan điểm hay xác định hướng quan điểm của khía cạnh được mô tả như sau:

Hình 2.2: Quy trình phân lớp quan điểm dựa trên khía cạnh

Vector hóa văn bản là cách thể hiện văn bản dưới dạng mộtvector mà không gian của nó là tập các từ chủ đề đã xác định từ trước. Mỗi văn bản sẽ được biểu diễn bằng một vector n chiều, mỗi chiều là một từ chủ đề của khía cạnh.

Trong luận văn này, chúng tôi sử dụng thuật toán SVM để phân lớp quan điểm cho văn bản.

SVM là một phương pháp học có giám sát bao gồm phân tích dữ liệu và phát hiện mẫu, được sử dụng cho phân lớp và phân tích hồi quy. Thuật toán SVM lần đầu được Vladimir Vapnik đề xuất vào năm 1995 và Corina Cortes cùng với Vladimir Vapnik đã đề xuất hình thức chuẩn hiện nay.

Ý tưởng chính của thuật toán này là cho trước một tập huấn luyện được biểu diễn trong không gian vector, trong đó mỗi tài liệu là một điểm, phương pháp này tìm ra một siêu phẳngh quyết định tốt nhất có thể chia các điểm trên không gian này thành các lớp riêng biệt. Chất lượng của siêu phẳng này được quyết định bởi khoảng cách của điểm dữ liệu gần nhất của mỗi lớp đến mặt phẳng này. Khoảng cách biên càng lớn thì mặt phẳng quyết định càng tốt, đồng thời việc phân loại càng chính xác. Mục đích của thuật toán SVM là tìm được khoảng cách biên lớn nhất để tạo ra kết quả phân lớp tốt [6]. Hình 2.3 minh họa cho thuật toán SVM. Siêu phẳng tối ưu phân chia dữ liệu thành hai lớp hình tròn và hình vuông. Các điểm gầnhnhất là cácvector hỗ trợ được tô đậm. SVM thực chất là bài toán tối ưu, mục tiêu của thuật toán này là tìm được một không gian H và siêu phẳng

Hình 2.3: Mô tả thuật toán SVM

htrên H sao cho sai số phân loại là thấp nhất. Phương trình siêu mặt phẳng chứa vector −→

di trong không gian như sau:

− → di. ~w+b= 0 (2.1) h −→ di =sign −→ di. ~w+b = ( +1,−→ di. ~w+b >0 −1,−→ di. ~w+b <0 (2.2) Như thếh(−→

di)biểu diễn sự phân lớp của−→

di vào hai lớp như đã nói. Gọiyi =±1, nếu yi = +1 thì văn bản −→

di ∈ lớp +; ngược lại thì văn bản −→

di ∈ lớp -.Khi đó để có siêu mặt phẳngh ta sẽ phải giải bài toán sau:

Tìm min||−→w|| với −→w và b thõa điều kiện sau:

∀i∈1, n:yi(sign −→

di. ~w+b

≥1 (2.3)

Cho tập huấn luyện:(xi, yi), i= 1, n

Thuật toán SVM xem mỗi vector xi là một vector đặc trưng biểu diễn cho phản hồi của khách hàng và yi là nhãn phân loại đối với dữ liệu huấn luyện.Trong đó mẫu là cácvector đối tượng được phân lớp thành các mẫu tích cực và mẫu tiêu cực:

ˆ Các mẫu tích cực là các mẫu xithuộc lớp tích cực và được gán nhãn yi = 1. ˆ Các mẫu tiêu cực là các mẫuxithuộc lớp tiêu cực và được gán nhãnyi =−1.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch (Trang 33 - 36)

Tải bản đầy đủ (PDF)

(52 trang)