Dữ liệu thực nghiệm là dữ liệu về đánh giá của người dùng về 1000 khách sạn ở Việt Nam. Kết quả của dữ liệu sau pha 2, sẽ là tập nhận xét của người dùng được phân lớp vào 5 lớp tương ứng ở phần 3.3.3.
Tập dữ liệu huấn luyện trong các kĩ thuật học máy giám sát luôn đòi hỏi phải được làm sạch trước khi đưa vào huấn luyện. Trên Internet có rất nhiều thông tin xuất hiện dưới nhiều dạng khác nhau. Để lọc nhiễu cho dữ liệu huấn luyện, chúng ta phải loại bỏ đi những thông tin dưới dạng hình ảnh, âm thanh, quảng cáo, thông tin không nằm trong nội dung của trang web, các thẻ html,…
Sau khi lọc nhiễu, dữ liệu sẽ được đưa qua module tách câu. Mỗi câu được biểu diễn trên một dòng. Module tách câu sẽ lọc dữ liệu, loại bỏ những câu cảm thán, những câu không có nghĩa.
Ví dụ, nội dung của một nhận xét của khách hàng trong lĩnh vực khách sạn sau khi đi qua bộ tách câu như sau:
Sau đó dữ liệu được loại bỏ những câu cảm thán, câu không có ý nghĩa như sau:
Dữ liệu sau khi lọc câu không có ý nghĩa được tiền xử lý và xây dựng vector đặc trưng giống như trong phần 3.3.1 và 3.3.2. Vector đặc trưng thu được sẽ được đưa vào bộ phân lớp thu được từ 3.3.3 và kết quả của bộ phân lớp sẽ là các lớp tương ứng mà dữ liệu được phân vào.
Tôi đã ở đây 3 đêm, đó là khoảng thời gian tuyệt vời, tiện nghi vàthoải mái.
Giá cả thì tuyệt vời, trên của sự mong đợi, mà chất lượng phòng thì không có gì để bàn cãi.
Cảm ơn!
Tôi đã ở đây 3 đêm, đó là khoảng thời gian tuyệt vời, tiện nghi và thoải mái.
Giá cả thì tuyệt vời, trên của sự mọng đơi, mà chất lượng phòng thì không có gì để bàn cãi.
22
Tổng kết chương ba
Chương ba của luận văn trình bày về việc áp dụng MIMLSVM trong phân lớp dữ liệu đa nhãn đa thể hiên Tiếng việt. Luận văn cũng đã giới thiệu chi tiết các pha cũng như các bước trong từng pha của phương pháp đề xuất.
Trong chương tiếp theo, luận văn tiến hành thực nghiệm trên phương pháp đã xây dựng và đánh giá kết quả đạt được của phương pháp đề xuất.
23
Chương 4. Thực nghiệm và đánh giá
Dựa vào mô hình đề xuất ở chương 3, luận văn tiến hành thực nghiệm việc đánh giá danh tiếng 1000 khách sạn ở Việt Nam dựa vào tập nhận xét của người dùng bằng Tiếng Việt. Để làm rõ kết quả của mô hình đề xuất trong chương 3, luận văn tiến hành 2 thực nghiệm nhỏ:
Thực nghiệm 1: Thực hiện việc phân lớp nhị phân thông thường cho dữ liệu đa nhãn đa thể hiện mà không qua pha chuyển đổi MIML thành SIML.
Thực nghiệm 2: Thực hiện việc phân lớp sử dụng MIMLSVM với đủ các pha chuyển đổi MIML thành SIML và sau đó SIML thành SISL.