1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng máy vectơ hỗ trợ phân loại ý kiến của người xem trên các trang web phim trực tuyến

87 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 87
Dung lượng 6,94 MB

Nội dung

Quan điểm và phản hồi của cộng đồng luôn được chứng minh là nguồn dữ liệu cần thiết và có giá trị cho các công ty và tổ chức Với sự sẵn có của một khối lượng lớn dữ liệu đánh giá trực tuyến phân tích cảm xúc ngày càng trở nên quan trọng Đối với tiếng Anh có rất nhiều bộ dữ liệu và mô hình cho mục đích này nhưng vẫn còn tương đối mới đối với ngôn ngữ tiếng Việt Một phần là do thiếu một kho dữ liệu từ đã được chú thích dữ liệu huấn luyện có nhãn các mô hình phân lớp cảm xúc mã nguồn mở và các công cụ phục vụ cho xử lý ngôn ngữ tiếng Việt Trong luận văn này mục tiêu nghiên cứu là thiết kế khởi tạo và đánh giá mô hình phân lớp cảm xúc bình luận tiếng Việt bằng cách sử dụng Thuật toán Máy Vector SVM để phân lớp nhận xét bình luận phim tiếng Việt là tích cực hay tiêu cực Để đánh giá hiệu suất của SVM một số mô hình phân loại khác và nhiều phương pháp trích xuất tính năng được sử dụng và để phân tích so sánh ba biện pháp được sử dụng Precision Recall and F Measure Quan điểm và phản hồi của cộng đồng luôn được chứng minh là nguồn dữ liệu cần thiết và có giá trị cho các công ty và tổ chức Với sự sẵn có của một khối lượng lớn dữ liệu đánh giá trực tuyến phân tích cảm xúc ngày càng trở nên quan trọng Đối với tiếng Anh có rất nhiều bộ dữ liệu và mô hình cho mục đích này nhưng vẫn còn tương đối mới đối với ngôn ngữ tiếng Việt Một phần là do thiếu một kho dữ liệu từ đã được chú thích dữ liệu huấn luyện có nhãn các mô hình phân lớp cảm xúc mã nguồn mở và các công cụ phục vụ cho xử lý ngôn ngữ tiếng Việt Trong luận văn này mục tiêu nghiên cứu là thiết kế khởi tạo và đánh giá mô hình phân lớp cảm xúc bình luận tiếng Việt bằng cách sử dụng Thuật toán Máy Vector SVM để phân lớp nhận xét bình luận phim tiếng Việt là tích cực hay tiêu cực Để đánh giá hiệu suất của SVM một số mô hình phân loại khác và nhiều phương pháp trích xuất tính năng được sử dụng và để phân tích so sánh ba biện pháp được sử dụng Precision Recall and F Measure Quan điểm và phản hồi của cộng đồng luôn được chứng minh là nguồn dữ liệu cần thiết và có giá trị cho các công ty và tổ chức Với sự sẵn có của một khối lượng lớn dữ liệu đánh giá trực tuyến phân tích cảm xúc ngày càng trở nên quan trọng Đối với tiếng Anh có rất nhiều bộ dữ liệu và mô hình cho mục đích này nhưng vẫn còn tương đối mới đối với ngôn ngữ tiếng Việt Một phần là do thiếu một kho dữ liệu từ đã được chú thích dữ liệu huấn luyện có nhãn các mô hình phân lớp cảm xúc mã nguồn mở và các công cụ phục vụ cho xử lý ngôn ngữ tiếng Việt Trong luận văn này mục tiêu nghiên cứu là thiết kế khởi tạo và đánh giá mô hình phân lớp cảm xúc bình luận tiếng Việt bằng cách sử dụng Thuật toán Máy Vector SVM để phân lớp nhận xét bình luận phim tiếng Việt là tích cực hay tiêu cực Để đánh giá hiệu suất của SVM một số mô hình phân loại khác và nhiều phương pháp trích xuất tính năng được sử dụng và để phân tích so sánh ba biện pháp được sử dụng Precision Recall and F Measure Quan điểm và phản hồi của cộng đồng luôn được chứng minh là nguồn dữ liệu cần thiết và có giá trị cho các công ty và tổ chức Với sự sẵn có của một khối lượng lớn dữ liệu đánh giá trực tuyến phân tích cảm xúc ngày càng trở nên quan trọng Đối với tiếng Anh có rất nhiều bộ dữ liệu và mô hình cho mục đích này nhưng vẫn còn tương đối mới đối với ngôn ngữ tiếng Việt Một phần là do thiếu một kho dữ liệu từ đã được chú thích dữ liệu huấn luyện có nhãn các mô hình phân lớp cảm xúc mã nguồn mở và các công cụ phục vụ cho xử lý ngôn ngữ tiếng Việt Trong luận văn này mục tiêu nghiên cứu là thiết kế khởi tạo và đánh giá mô hình phân lớp cảm xúc bình luận tiếng Việt bằng cách sử dụng Thuật toán Máy Vector SVM để phân lớp nhận xét bình luận phim tiếng Việt là tích cực hay tiêu cực Để đánh giá hiệu suất của SVM một số mô hình phân loại khác và nhiều phương pháp trích xuất tính năng được sử dụng và để phân tích so sánh ba biện pháp được sử dụng Precision Recall and F Measure Quan điểm và phản hồi của cộng đồng luôn được chứng minh là nguồn dữ liệu cần thiết và có giá trị cho các công ty và tổ chức Với sự sẵn có của một khối lượng lớn dữ liệu đánh giá trực tuyến phân tích cảm xúc ngày càng trở nên quan trọng Đối với tiếng Anh có rất nhiều bộ dữ liệu và mô hình cho mục đích này nhưng vẫn còn tương đối mới đối với ngôn ngữ tiếng Việt Một phần là do thiếu một kho dữ liệu từ đã được chú thích dữ liệu huấn luyện có nhãn các mô hình phân lớp cảm xúc mã nguồn mở và các công cụ phục vụ cho xử lý ngôn ngữ tiếng Việt Trong luận văn này mục tiêu nghiên cứu là thiết kế khởi tạo và đánh giá mô hình phân lớp cảm xúc bình luận tiếng Việt bằng cách sử dụng Thuật toán Máy Vector SVM để phân lớp nhận xét bình luận phim tiếng Việt là tích cực hay tiêu cực Để đánh giá hiệu suất của SVM một số mô hình phân loại khác và nhiều phương pháp trích xuất tính năng được sử dụng và để phân tích so sánh ba biện pháp được sử dụng Precision Recall and F Measure

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA - PHÙNG VĂN HÒA ỨNG DỤNG MÁY VECTƠ HỖ TRỢ PHÂN LOẠI Ý KIẾN CỦA NGƯỜI XEM TRÊN CÁC TRANG WEB PHIM TRỰC TUYẾN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng – Năm 2018 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA - PHÙNG VĂN HÒA ỨNG DỤNG MÁY VECTƠ HỖ TRỢ PHÂN LOẠI Ý KIẾN CỦA NGƯỜI XEM TRÊN CÁC TRANG WEB PHIM TRỰC TUYẾN Chuyên ngành: Khoa học máy tính Mã ngành: 60.48.01.01 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Phạm Minh Tuấn Đà Nẵng – Năm 2018 i LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực hướng dẫn trực tiếp TS Phạm Minh Tuấn Những nội dung trình bày luận văn kiến thức riêng cá nhân tơi tích lũy q trình học tập, nghiên cứu, khơng chép lại cơng trình nghiên cứu hay luận văn tác giả khác Trong nội dung luận văn, phần nghiên cứu, trích dẫn nêu phần tài liệu tham khảo, có nguồn gốc, xuất xứ, tên tuổi tác giả, nhà xuất rõ ràng Những điều tơi cam kết hồn tồn thật, sai, tơi xin chịu hình thức xử lý kỷ luật theo quy định TÁC GIẢ LUẬN VĂN PHÙNG VĂN HÒA ii ỨNG DỤNG MÁY VECTƠ HỖ TRỢ PHÂN LOẠI Ý KIẾN BÌNH LUẬN NGƯỜI DÙNG XEM PHIM TRỰC TUYẾN Học viên:Phùng Văn Hịa Mã số: 60.48.01.01 Khóa: 32 Chuyên ngành: Khoa học máy tính Trường Đại học Bách khoa - ĐHĐN Tóm tắt - Quan điểm phản hồi cộng đồng chứng minh nguồn liệu cần thiết có giá trị cho cơng ty tổ chức Với sẵn có khối lượng lớn liệu đánh giá trực tuyến, phân tích cảm xúc ngày trở nên quan trọng Đối với tiếng Anh, có nhiều liệu mơ hình cho mục đích cịn tương đối ngôn ngữ tiếng Việt Một phần thiếu kho liệu từ thích, liệu huấn luyện có nhãn, mơ hình phân lớp cảm xúc mã nguồn mở công cụ phục vụ cho xử lý ngôn ngữ tiếng Việt Trong luận văn này, mục tiêu nghiên cứu thiết kế, khởi tạo đánh giá mơ hình phân lớp cảm xúc bình luận tiếng Việt cách sử dụng Thuật toán Máy Vector (SVM) để phân lớp nhận xét bình luận phim tiếng Việt tích cực hay tiêu cực Để đánh giá hiệu suất SVM, số mơ hình phân loại khác nhiều phương pháp trích xuất tính sử dụng để phân tích so sánh, ba biện pháp sử dụng: Precision, Recall and FMeasure Từ khóa – Máy vector hỗ trợ, Mơ hình phân lớp, phân tích cảm xúc, nlp, đánh giá phân lớp APPLICATION OF SVM IN SENTIMENT CLASSIFICATION OF USERS REVIEWS ON ONLINE MOVIE WEBSITES Abstract - Community's view and feedback have always proved to be the most essential and valuable resource for companies and organizations Giving the availability of a large volume of online review data, sentiment analysis becomes increasingly important For the English language, There are many datasets and models for this purpose but is still relatively new for Vietnamese It is partly due to the lack of a large annotated corpus, labelled training data, opensource sentiment classification models and tools for Vietnamese In this thesis, the research goal is to design, instantiate and evaluate a Vietnamese sentiment classification model using the Support Vector Machine algorithm (SVM) which evaluates the polarity of a piece of vietnamese film's comments being either positive or negative To benchmark the performance of SVM, several other classifier model and multiple feature extraction methods are used and for comparative analysis, three measures are used: Precision, Recall and F-Measure Key words - Support Vector Machine, classification model, sentiment analysis, nlp, classification evaluation iii LỜI CẢM ƠN Em xin bày tỏ lòng biết ơn chân thành sâu sắc đến thầy Phạm Minh Tuấn, thầy dành nhiều thời gian tận tình bảo, hướng dẫn em suốt trình tìm hiểu, triển khai nghiên cứu đề tài Thầy người định hướng đưa nhiều góp ý trình em thực luận văn Em xin gửi lời cảm ơn chân thành tới toàn thể thầy giáo, cô giáo khoa Công nghệ thông tin - Trường Đại học Bách Khoa Đà Nẵng dạy bảo tận tình, trang bị cho em kiến thức bổ ích tạo điều kiện thuận lợi suốt trình em học tập nghiên cứu trường Các kiến thức, kinh nghiệm quý báu thầy giáo khơng giúp cá nhân em hồn thiện hệ thống kiến thức học tập mà giúp em ứng dụng kiến thức cơng việc Do có nhiều hạn chế thời gian kiến thức nên luận văn không tránh khỏi thiếu sót, mong nhận ý kiến đóng góp q thầy bạn quan tâm Xin chân thành cảm ơn! HỌC VIÊN PHÙNG VĂN HÒA iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT vii DANH SÁCH BẢNG .viii DANH SÁCH HÌNH VẼ ix MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN BÀI TOÁN PHÂN LOẠI Ý KIẾN NGƯỜI DÙNG 1.1 Bài toán phân loại ý kiến bình luận người dùng xem phim trực tuyến 1.2 Các nghiên cứu liên quan toán phân lớp cảm xúc bình luận người dùng 1.2.1 Các kỹ thuật liên quan đến toán phân loại cảm xúc bình luận 1.2.2 Các nghiên cứu liên quan đến toán phân loại ý kiến người dùng 1.2.3 Hướng tiếp cận giải toán phân loại cảm xúc dựa vào kỹ thuật học máy 1.3 Xử lý ngôn ngữ tự nhiên 10 1.3.1 Khái niệm 10 1.3.2 Các bước xử lý 10 1.3.3 Ứng dụng 11 1.4 Các toán khái niệm liên quan 12 1.4.1 Biểu thức quy (regular expressions) 12 1.4.2 Corpus 16 1.4.3 Morphological Analysis (phân tích hình thái) 17 1.4.4 Tokenization (tách từ) 17 1.4.5 Ambiguous (nhập nhằng nghĩa) 19 1.4.6 Stopwords (từ dừng) 20 1.4.7 Named Entities Recognition (nhận dạng tên thực thể) 21 1.4.8 Lemmatization Stemming 21 1.4.9 Part of Speech (gán nhãn từ loại) 22 1.5 Khó khăn xử lý ngôn ngữ tự nhiên tiếng việt 23 1.6 Trích xuất đặc trưng 25 v 1.6.1 TF-IDF 25 1.6.2 Bag-of-Word (mơ hình túi từ) 27 1.6.3 Word2Vec 27 CHƯƠNG 2: MÁY HỌC VECTƠ HỖ TRỢ 30 2.1 Tổng quan toán phân lớp 30 2.1.1 Khái niệm 30 2.1.2 Một số thuật toán phân lớp phổ biến 32 2.1.2.1 Naive Bayes 32 2.1.2.2 K-Nearest Neighbors 33 2.1.2.3 Maximum Entropy 33 2.1.3 Đánh giá mơ hình phân loại 34 2.1.4 Phân tích giá trị đơn 37 2.2 Support Vector Machine (SVM) 38 2.2.1 Giới thiệu 38 2.2.2 Cơ sở toán học 40 2.2.2.1 Ý tưởng 40 2.2.2.2 Xây dựng toán tối ưu cho SVM 41 2.2.3 Biên mềm (Soft Margin) 43 2.2.4 Các hàm thiệt hại cho SVM 46 2.3 Hàm hạt nhân SVM (Kernel) 46 2.3.1 Giới thiệu 46 2.3.2 Cơ sở toán học 47 2.3.3 Tính chất hàm hạt nhân 49 2.4 Phân lớp cảm xúc bình luận phim SVM 50 2.4.1 Thu thập liệu 51 2.4.2 Tiền xử lý 51 2.4.2.1 Làm liệu 51 2.4.2.2 Tách từ 52 2.4.3 Trích xuất đặc trưng bình luận 53 2.4.3.1 Trích xuất đặc trưng TF-IDF 53 2.4.3.2 Giảm chiều liệu 54 2.4.4 Huấn luyện đánh giá mơ hình 55 vi CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 58 3.1 Dữ liệu, công cụ môi trường thực 58 3.2 Tiền xử lý liệu 58 3.3 Trích xuất đặc trưng bình luận 62 3.4 Huấn luyện mơ hình SVM đánh giá 64 KẾT LUẬN 69 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 71 PHỤ LỤC 73 vii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên SVM Support Vector Machine Máy vec-tơ hỗ trợ TF Term Frequency Tần suất từ IDF Inverse Document Frequency Tần số tài liệu nghịch đảo KNN K-Nearest Neighbors K-láng giềng gần MaxEnt Maximum Entropy Entropy cực đại RBF Radial Basis Function Hàm sở bán kính SVD Singular Value Decomposition Phân tích giá trị đơn NB Naive Bayes Precision Độ xác Recall Độ bao phủ Corpus Khối liệu văn BOW Bag of Words Túi đựng Từ ACC Accuracy Độ xác TF-IDF Term Frequency–Inverse Document Frequency Tần suất từ - tuần suất ngược văn viii DANH SÁCH BẢNG Bảng 1.1: Bảng ký tự đặc biệt dùng Regex 16 Bảng 2.1: Cấu trúc biểu diễn ma trận nhầm lẫn 34 Bảng 2.2: So sánh điểm tương đồng SVM, Mạng Nơron 39 Bảng 2.3: Một số hàm SVM kernel thông dụng 49 Bảng 2.4: Một số bình luận làm 52 Bảng 2.5: Một số bình luận tiến hành tách từ thông thường 53 Bảng 2.6: Một số bình luận tiến hành tách từ áp dụng regex nâng cao 53 Bảng 3.1: Môi trường, thư viện liệu thực nghiệm 58 Bảng 3.2: Kết phân lớp SVM tập liệu kiểm thử 67 Bảng 3.3: Kết phân lớp SVM tập liệu kiểm thử không áp dụng regex nâng cao bước tiền xử lý 67 Bảng 3.4: So sánh hiệu số phương pháp trích xuất đặc trưng giải thuật phân lớp phổ biến 68 61 - Độ dài bình luận tích cực có chiều dài trung bình lớn độ dài bình luận tiêu cực người dùng có khuynh hướng bày tỏ nhiều suy nghĩ cảm xúc cho phim hay nhiều phim dở - Số lượng token (các từ cách khoảng trắng) lớn so với so với số lượng liệu huấn luyện Vì để nâng cao độ xác mơ hình phân lớp cần giảm số chiều cách đáng kể - Số lượng bình luận tích cực nhiều số lượng bình luận tiêu cực (chiếm 62%) Sau hai trình làm liệu, loại bỏ từ dừng tách từ tổng số lượng từ tập huấn luyện giảm đáng kể 3075, giảm 1237 từ Số lượng token (từ) số tính (số chiều) liệu sử dụng mơ hình phân lớp Để biểu diễn mức độ phổ biến từ bình luận tiêu cực tích cực tập liệu huấn luyện mơ hình phân lớp sau qua trình làm tách từ tác giả sử dụng biểu đồ đám mây từ Các từ có tần suất xuất nhiều có kích thước lớn từ xuất Hình 3.4: WordCloud bình luận tích cực 62 Hình 3.5: WordCloud bình luận tiêu cực 3.3 Trích xuất đặc trưng bình luận Sau thực tiền xử lý, tác giả sử dụng lớp TfidfVectorizer thư viện scikit-learn để tiến hành trích xuất đặc trưng TF-IDF với tham số đầu vào danh sách bình luận tách từ tên phương thức chuẩn hóa vector sau trích xuất đặc trưng l2 63 Hình 3.6: 40 từ có điểm trung bình tf-idf cao bình luận thuộc lớp liệu huấn luyện Có thể thấy bảng xếp hạng điểm số trung bình tf-idf từ lớp liệu tiêu cực tích cực xác Ví dụ lớp tiêu cực từ điểm cao mang ý nghĩa chê rõ ràng ‘tệ’, ‘chán’, ‘dở’ Tuy nhiên số từ điểm cao nghĩa nhập nhằng mang ý nghĩa trái ngược với lớp bình luận ‘thời_gian’, ‘hay’, ‘khơng’ Vấn đề khó để cải thiện tính đa dạng nghữ nghĩa thay đổi trật tự từ thay đổi từ đứng trước Sau có vector đặc trưng TF-IDF ma trận kích thước 3742 x 3075, tác giả tiến hình giảm chiều liệu Để chọn số chiều rút gọn thích hợp tác giả vẽ biểu đồ để quan sát tương quan số chiều lượng thông tin giữ lại 64 Hình 3.7: Biểu đồ tương quan số chiều liệu lượng thông tin giữ lại Qua quan sát thấy với số chiều 750 việc tăng số chiều khơng làm tăng mạnh lượng thơng tin trước Qua nhiều lần thử nghiệm tác giả chọn số chiều rút gọn 250 với lượng thông tin giữ lại khoảng 60% so với liệu gốc ban đầu Tác giả tiến hành giảm chiều chiếu liệu sang chiều không gian rút gọn cách sử dụng lớp TruncatedSVD cung cấp thư viện Scikit-learn với giá trị khởi tạo lớp k = 250 3.4 Huấn luyện mơ hình SVM đánh giá Cross validation k folds thực việc sử dụng lớp GridSearchCV thư viện Scikit-learn Các tham số khởi tạo cho lớp bao gồm tên kernel, giá trị cho tham số tương ứng cho kernel giá trị trọng số lớp Sau tiến hành cài đặt mơ hình SVM tác giả thu kết Hình 3.8 Hình 3.9 sau 65 Hình 3.8: Biểu đồ nhiệt độ xác SVM sử dụng kernel linear với giá trị C class_weight khác 66 Hình 3.9: Biểu đồ nhiệt độ xác SVM sử dụng kernel rbf với giá trị C, class_weight, gamma khác Qua hai biểu đồ nhiệt thấy với kernel linear sử dụng tham số C = 0.8 class_weight = 1.15 tối ưu với độ xác trung bình 0.895 Nếu sử dụng kernel rbf sử dụng tham số {C = 3, class_weigh = 1.1 gamma = 1} {C= class_weigh = gamma = 1} cho kết tốt với độ xác trung bình 0.896 nhiên với class_weight = 1.1 kết phân lớp toàn tập thử nghiệm cao nhiều (gần 4%) so với class_weight = Qua thử nghiệm trên, tác giả đề xuất sử dụng kernel rbf với tham số {C= class_weigh = 1.1 gamma = 1} độ xác cao so với kernel linear Mơ hình phân lớp SVM đánh giá cuối dựa liệu kiểm thử bao gồm 322 bình luận tích cực 265 bình luận tiêu cực Dữ liệu không sử dụng trình tạo mơ hình phân lớp kết khách quan so với việc đánh giá mô hình qua liệu huấn luyện Dữ liệu kiểm thử trước cho vào mơ hình dự đốn phải trải qua trình tiền xử lý tự động tạo trước liệu huấn luyện bao gồm làm liệu, tách từ, giảm số chiều Mơ hình phân lớp SVM tập liệu kiểm thử có kết sau: 67 Độ xác (%) Độ bao phủ (%) F1 (%) Tích cực 93.6 95.3 94.4 Tiêu cực 94.2 92.1 93.1 Trung bình 93.9 93.9 93.8 Bảng 3.2: Kết phân lớp SVM tập liệu kiểm thử Để chứng minh việc áp dụng phương pháp regex nâng cao mà tác giả trình bày bước tiền xử lý liệu có hiệu quả, tác giả tiến hành thực nghiệm mơ hình phân lớp SVM cho trường hợp khơng áp dụng regex nâng cao Độ xác (%) Độ bao phủ (%) F1 (%) Tích cực 89.2 95.0 92.0 Tiêu cực 94.3 86.0 89.6 Trung bình 91.1 91.0 90.9 Bảng 3.3: Kết phân lớp SVM tập liệu kiểm thử không áp dụng regex nâng cao bước tiền xử lý Qua kết thấy kết việc áp dụng regex nâng cao bước tiền xử lý liệu giúp cho mơ hình phân lớp nâng cao kết trung bình số % Ngoài tác giả tiến hành so sánh phương pháp trích xuất đặc trưng khác ngồi thuật tốn TF-IDF phương pháp N-gram giải thuật phân lớp phổ biến khác K-Nearest Neighbors, Naïve Bayes Maximum Entropy để kiểm chứng việc sử dụng phân lớp SVM trích xuất đặc trưng TF-IDF hiệu cho toán phân lớp cảm xúc bình luận phim Việc cài đặt thuật tốn phân lớp trích xuất đặc trưng khác kể tiến hành thư viện Scikit-learn với liệu bình luận trình tiền xử lý mơ tả trước Kết thực nghiệm thể qua Bảng 3.4: Đặc trưng SVM MaxEnt Precision (%) Recall (%) F1 (%) TF-IDF 93.9 93.9 93.8 UniGram 93.2 93.2 93.3 BiGram 92.7 92.7 92.7 TriGram 91.5 91.1 91.1 TF-IDF 93.1 93.2 93.2 68 KNN NB UniGram 91.8 91.6 91.6 BiGram 91.6 92.7 92.6 TriGram 92.2 92.2 92.1 TF-IDF 83.0 82.7 82.7 UniGram 88.9 88.4 88.4 BiGram 87.4 87.0 87.0 TriGram 88.7 87.4 87.4 TF-IDF 83.2 81.6 81.6 UniGram 83.6 83.3 83.1 BiGram 83.5 81.9 81.5 TriGram 80.9 75.6 73.8 Bảng 3.4: So sánh hiệu số phương pháp trích xuất đặc trưng giải thuật phân lớp phổ biến Qua kết thấy mơ hình phân lớp SVM với trích xuất đặc trưng sửa dụng TF-IDF cho kết tốt Mặc dù thời gian huấn luyện phân lớp mơ hình SVM sử dụng kernel rbf lâu nhiều so với mơ hình khác Tuy nhiên độ xác mơ hình phân lớp SVM sử dụng kernel rbf có kết cao tập kiểm thử lẫn tập huấn luyện Đồng thời trích xuất đặt trưng TF-IDF cho độ xác tập huấn luyện cao nhiều so với phương pháp trích xuất đặc trưng n-gram 69 KẾT LUẬN Qua thực nghiệm thấy mơ hình phân lớp SVM phương pháp trích xuất đặc trưng văn TF-IDF kết hợp với áp dụng regex nâng cao tách từ tác giả đề xuất cho kết tốt phương pháp khác Tuy mơ hình phân lớp Maximum Entropy có kết gần với SVM tập liệu kiểm thử kết tập liệu huấn luyện lại SVM nhiều (gần 4%) Trong luận văn này, tác giả tiến hành nghiên cứu phương pháp nhằm cải thiện độ xác cho tốn phân loại văn bản, cụ thể cải thiện độ xác cho tốn phân loại cảm xúc bình luận người dùng trang xem phim trực tuyến Bài toán xác định tốn có độ phức tạp cao có nhiều ứng dụng thực tế, khơng dành riêng cho bình luận phim Phương pháp giải luận văn tập trung vào việc nâng cao độ xác việc phân loại cảm xúc người dùng thông qua đoạn bình luận Bằng việc sử dụng mơ hình phân lớp quen thuộc Support Vector Machine, K-Nearest Neighbors, Naïve Bayes Maximum Entropy với tập liệu thu từ trang phim trực tuyến phổ biến Việt Nam, luận văn đưa phương pháp hiệu để giải cho toán đề Quá trình thực nghiệm đạt kết khả quan, cho thấy tính đắn việc lựa chọn giải thuật phân lớp, tiền xử lý liệu phương pháp trích xuất đặc trưng, đồng thời hứa hẹn nhiều tiềm phát triển hồn thiện Nhìn chung, luận văn đạt số kết sau: - Trình bày cách khái quát, tổng quan nhất, ý nghĩa, vai trị quan trọng tốn phân loại cảm xúc bình luận người dùng trang xem phim trực tuyến Việt Nam - Nâng cao trình tiền xử lý liệu việc bổ sung thêm regex để giữ lại nghữ nghĩa bình luận thực tách từ - Nghiên cứu làm thực nghiệm loại trích xuất đặc trưng văn phổ biến - Nghiên cứu làm thực nghiệm với thuật toán học máy khác - So sánh phân tích kết thực nghiệm, từ chứng minh phương án tác giả đề xuất hiệu Luận văn số hạn chế sau: - Nghiên cứu dựa số lượng liệu hạn chế chưa phong phú - Kết thực nghiệm đạt chưa thật cao - Chỉ thử nghiệm tập liệu có dấu câu đầy đủ 70 Về hướng phát triển tương lai, tác giả tiến hành thu thập phát triển tập liệu lớn hơn, với nhiều bình luận dài đa dạng Và thực nghiệm với nhiều phương pháp trích xuất đặc trưng đặc trưng khác để góp phần cải thiện khả phân loại Bên cạnh tác giả nghiên cứu thử nghiệm với số mơ hình giải thuật khác khác để tìm mơ hình phân lớp phù hợp với toán phân loại cảm xúc bình luận tiếng Việt người dùng trang phim trực tuyến Giai đoạn tiền xử lý liệu cải tiến chuyên sâu bao gồm bổ sung trình tự động thêm dấu câu cho bình luận nâng cao độ xác cho trình tách từ để nâng cao kết thực nghiệm 71 DANH MỤC CÁC TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Linh Giang, Nguyễn Mạnh Hiền (2004), Phân loại văn tiếng Việt với phân loại vector hỗ trợ, Bài báo khoa học, Hà nội [2] Nguyễn Thị Kim Ngân (2004), Phân loại văn tiếng Việt phương pháp Support Vector Machines, Luận văn thạc sĩ khoa học Công nghệ thông tin, trường Đại học Bách Khoa Hà nội, Hà nội [3] Võ Tuyết Ngân, Đỗ Thanh Nghị, Phân loại ý kiến Twitter, Tạp chí khoa học ĐHCT, 11/2015, pp 32-38 [4] Ngơ Duy Chinh (2016), Xây dựng chương trình phát spam email phân lớp SVM, Luận văn thạc sĩ khoa học Công nghệ thông tin, trường Đại học Hàng Hải Việt Nam, Hải Phòng Tài liệu tiếng Anh [5] Mehmed Kantardzic, Data Mining: Concepts, Models, Methods and Algorithms, John Wiley & Sons, Inc., New York, NY, 2002 [6] Daniel Jurafsky , James H Martin, Speech and Language Processing (2nd Edition), Prentice-Hall, Inc., Upper Saddle River, NJ, 2009 [7] Joachims T Text categorization with Support Vector Machines: Learning with many relevant features In: Nédellec C., Rouveirol C (eds) Machine Learning: ECML-98 ECML 1998 Lecture Notes in Computer Science (Lecture Notes in Artificial Intelligence), vol 1398 Springer, Berlin, Heidelberg, 1988 [8] Ramasundaram, S., & Victor, S.P, Algorithms for Text Categorization : A Comparative Study, World Applied Sciences Journal, vol 22, 2013, pp 1232-1240 [9] Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly, Ho Tuong Vinh, "Hybrid Approach to Word Segmentation of Vietnamese Texts", 72 Language and Automata Theory and Applications: Second International Conference, 2008, pp 240-249 [10] Todd A Letsche and Michael W Berry, Large-scale information retrieval with latent semantic indexing Inf Sci 100, August 1997, 105-137 [11] Song, Ge & Ye, Yunming & Du, Xiaolin & Huang, Xiaohui & Bie, Shifu, “Short Text Classification: A Survey” Journal of Multimedia 10.4304/jmm.9.5.635-643, 2014 [12] K Fuka and R Hanka, “Feature set reduction for document classification problems” In: Proceedings of IJCAI-01 Workshop: Text Learning: Beyond Supervision, Seattle, 2001 [13] N Cristianini and J Shawe-Taylor, An Introduction to Support Vector Machines and Other Kernel-based Learning Methods Cambridge: Cambridge University Press, 2000 WEBSITE [14] http://www.nielsen.com/vn/vi/insights/2016/vietnam-cross-platform20161.html [15] https://techinsight.com.vn/xu-li-ngon-ngu-tu-nhien-nhung-dieu-can-biet [16] http://viet.jnlp.org/tai-nguyen-ngon-ngu-tieng-viet/dhac-trung-cua-tiengviet/thong-so-tieng-viet [17] https://en.wikipedia.org/wiki/F1_score [18] https://en.wikipedia.org/wiki/Singular-value_decomposition [19] https://en.wikipedia.org/wiki/Loss_functions_for_classification [20] https://machinelearningcoban.com/2017/04/13/softmarginsmv 73 PHỤ LỤC Địa cơng cụ lập trình thư viện mã nguồn mở sử dụng luận văn: - Pycharm: https://www.jetbrains.com/pycharm - Eclipse: https://www.eclipse.org/ide - Scikit-learn: http://scikit-learn.org - Seaborn: https://seaborn.pydata.org - Pandas: https://pandas.pydata.org - Matplotlib: https://matplotlib.org - Wordcloud: https://github.com/amueller/word_cloud - VnTokenizer: https://github.com/phuonglh/vn.vitk ... PHÙNG VĂN HÒA ỨNG DỤNG MÁY VECTƠ HỖ TRỢ PHÂN LOẠI Ý KIẾN CỦA NGƯỜI XEM TRÊN CÁC TRANG WEB PHIM TRỰC TUYẾN Chuyên ngành: Khoa học máy tính Mã ngành: 60.48.01.01 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN... xử lý ngôn ngữ tự nhiên b) Ý nghĩa thực tiễn Ứng dụng cho hệ thống phân tích người dùng trang phim trực tuyến cho người xem phim trực tuyến Góp phần giúp ban quản trị quan sát lấy ý kiến người. .. tơi xin chịu hình thức xử lý kỷ luật theo quy định TÁC GIẢ LUẬN VĂN PHÙNG VĂN HÒA ii ỨNG DỤNG MÁY VECTƠ HỖ TRỢ PHÂN LOẠI Ý KIẾN BÌNH LUẬN NGƯỜI DÙNG XEM PHIM TRỰC TUYẾN Học viên:Phùng Văn Hòa

Ngày đăng: 23/04/2021, 15:34

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w