2 Xác định sở thích của du khách về sản phẩm du lịch dựa trên
3.1 Định dạng dữ liệu trong công cụ SVMlight
Bước 5. Với mỗi tập con chia ngẫu nhiên thành hai phần dữ liệu huấn luyện và kiểm tra theo tỉ lệ 7:3 (7 phần dữ liệu dùng để làm tập dữ liệu huấn luyện, 3 phần dữ liệu dùng để làm tập dữ liệu đánh giá). Với các tập huấn luyện tiến hành học bộ phân lớp quan điểm. Ta có được mô hình phân lớp.
Bước 6. Tiến hành phân lớp quan điểm trên tập dữ liệu kiểm tra. Bước 7: Tính điểm xếp hạng cho mỗi khía cạnh.
3.1.4 Độ đo
Chúng tôi sử dụng tập dữ liệu đánh giá (tập dữ liệu được gán nhãn thủ công) đưa vào bộ phân lớp được xây dựng trên tập huấn luyện. Sau đó tính toán các giá trị: độ chính xác(precision –P), độ bao phủ(recall – R) và độ đo F1(Tiêu chuẩn đánh giá) được dùng để đánh giá chất lượng của thuật toán phân lớp.
Trong đó các giá trị: P, R, F1 được tính như sau:
P = truepositive
truepositive+f alsepositive (3.1)
R = truepositive
truepositive+f alsenegative (3.2)
F1 = 2∗P ∗R
P +R (3.3)
Trong đó:
truepositive: Số câu được phân loại đúng vào lớp tích cực. f alsepositive: Số câu được phân loại sai vào lớp tích cực. f alsenegative: Số câu được phân loại sai vào lớp tiêu cực.
Ví dụ, bộ phân lớp nhận dạng được 10 câu là thuộc phân lớp tích cực trong một bộ dữ liệu đánh giá gồm 12 câu thuộc phân lớp tích cực và còn lại là các câu thuộc phân lớp tiêu cực. Nếu trong 10 câu bộ phân lớp đã nhận dạng là thuộc phân lớp tích cực có 9 câu đúng và 1 câu nhận dạng sai thì ta có:
P = 9/10 = 90% R= 9/12 = 75%
3.2 Kết quả thực nghiệm
Bảng 3.3 trình bày kết quả dự đoán xếp hạng cho mỗi khía cạnh được sắp xếp theo mức độ yêu thích của người dùng.
Bảng 3.3: Kết quả xếp hạng theo khía cạnh
Khía cạnh Xếp hạng theo dữ liệu đánh giá Xếp hạng theo dự đoán scorepositive scorenegative scorepositive scorenegative
Phòng 80% 20% 86% 14%
Nhân viên 72% 28% 76% 24%
Vị trí 72% 28% 74% 26%
Giá phòng 70% 30% 77% 23%
Dịch vụ 68% 32% 66% 34%
Các khía cạnh được sắp xếp giảm dần dựa trên điểm xếp hạng theo dự đoán. Khía cạnh về phòng được người dùng thích nhiều nhất có tỉ lệ 86%, tiếp đến là khía cạnh vềnhân viên có tỉ lệ 76%. Khía cạnh có mức độ yêu thích thấp nhất là dịch vụ với tỉ lệ 66%.
Hình 3.2 thể hiện sự so sánh mức độ yêu thích của người dùng theo khía cạnh dựa trên điểm xếp hạng theo dự đoán. Để so sánh điểm xếp hạng theo dự đoán và điểm xếp hạng theo dữ liệu đánh giá, chúng tôi thể hiện trong Hình 3.3.