Mơ hình thử nghiệm

Một phần của tài liệu Phân tích ý kiến chủ quan của người dùng từ dữ liệu web (Trang 47 - 48)

Hình 3.1 mơ tả quá trình phân tích ý kiến ở mức câu:

Hình 3. 1: Mơ hình phân tích ý kiến

Trước tiên, ta tiến hành việc thu thập các câu ý kiến nhận xét đánh giá của người sử dụng. Việc này được thực hiện bằng cách sử dụng một số cơ chế tìm kiếm để thu thập dữ liệu ý kiến của người dùng trên các diễn đàn.

Sau đĩ, tiến hành phân loại các nhận xét thành hai loại: chủ quan và khách quan. Nhận xét khách quan là những câu chỉ mang tính chất thơng báo, mơ tả, hoặc những câu hỏi. Nhận xét chủ quan mới là những câu mang ý kiến của người nĩi và là đối tượng được quan tâm phân tích trong luận văn. Ở đây cĩ thể áp dụng các kỹ thuật phân loại. Tuy nhiên, trong phạm vi của luận văn, bước này sẽ được thực hiện

42

thủ cơng. Tức là sau khi lấy dữ liệu các câu ý kiến trên web về, chúng sẽ được đọc và chọn ra những câu thể hiện ý kiến chủ quan.

Cuối cùng, đối với các câu chủ quan đã được lựa chọn, xác định xem mỗi câu mang ý kiến đĩ là tích cực hay tiêu cực. Luận văn sẽ tập trung kiểm nghiệm các phương pháp phân tích ý kiến cĩ giám sát và cả khơng giám sát cho bước này. Cụ thể, hai thuật tốn phân loại học máy Nạve Bayes và Support Vector Machine kết hợp với mơ mình ngơn ngữ ngram đã được nĩi đến ở chương 2 sẽ được sử dụng, và phương pháp dựa trên bộ từ vựng.

Đối với phƣơng pháp học máy cĩ giám sát, luận văn sử dụng WEKA [36] làm thư viện để giải quyết việc phân loại nhị phân ý kiến tích cực/ tiêu cực. WEKA đã cĩ tích hợp sẵn rất nhiều thuật tốn phân loại như Nạve Bayes, cây quyết định, SVM…Tuy nhiên, ngồi thuật tốn Nạve Bayes cĩ sẵn, để hiệu quả hơn, luận văn tích hợp thêm thư viện libSVM [5] vào WEKA để sử dụng cho thuật tốn phân loại SVM, với hàm nhân lựa chọn là Radial Basic Function.

Đối với phƣơng pháp dựa trên bộ từ vựng khơng giám sát, để xác định xu hướng ý kiến của mỗi câu, 3 nhiệm vụ nhỏ được thực hiện. Thứ nhất, một tập các từ (thường được dùng để thể hiện ý kiến, tình cảm) được xác định bằng cách sử dụng phương pháp xử lý ngơn ngữ tự nhiên. Những từ này sẽ được gọi là từ ý kiến. Thứ hai, với mỗi từ đĩ, ta xác định xu hướng ngữ nghĩa của nĩ, tích cực (thích) hay tiêu cực (khơng thích). Cuối cùng, dựa trên xu hướng ngữ nghĩa từng từ, xác định xu hướng ngữ nghĩa của cả câu. Chi tiết cụ thể các bước trong phương pháp này sẽ được trình bày ở phần 3.2.

Một phần của tài liệu Phân tích ý kiến chủ quan của người dùng từ dữ liệu web (Trang 47 - 48)

Tải bản đầy đủ (PDF)

(65 trang)