Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 31 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
31
Dung lượng
1,51 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA PHÙNG VĂN HÒA ỨNG DỤNG MÁY VECTƠ HỖ TRỢ PHÂN LOẠI Ý KIẾN CỦA NGƯỜI XEM TRÊN CÁC TRANG WEB PHIM TRỰC TUYẾN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã ngành: 60.48.01.0 TĨM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng – Năm 2018 Cơng trình hồn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: TS Phạm Minh Tuấn Phản biện 1: TS Đặng Hoài Phương Phản biện 2: TS Nguyễn Thị Hoa Huệ Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ khoa học máy tính họp Trường Đại học Bách khoa vào ngày 13 tháng 10 năm 2018 Có thể tìm hiểu luận văn tại: - Trung tâm Học liệu, Đại học Đà Nẵng Trường Đại học Bách khoa - Thư viện Khoa Công nghệ thông tin Trường Đại học Bách khoa – ĐHĐ i LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực hướng dẫn trực tiếp TS Phạm Minh Tuấn Những nội dung trình bày luận văn kiến thức riêng cá nhân tơi tích lũy q trình học tập, nghiên cứu, khơng chép lại cơng trình nghiên cứu hay luận văn tác giả khác Trong nội dung luận văn, phần tơi nghiên cứu, trích dẫn nêu phần tài liệu tham khảo, có nguồn gốc, xuất xứ, tên tuổi tác giả, nhà xuất rõ ràng Những điều tơi cam kết hồn tồn thật, sai, tơi xin chịu hình thức xử lý kỷ luật theo quy định TÁC GIẢ LUẬN VĂN PHÙNG VĂN HÒA ii LỜI CẢM ƠN Em xin bày tỏ lòng biết ơn chân thành sâu sắc đến thầy Phạm Minh Tuấn, thầy dành nhiều thời gian tận tình bảo, hướng dẫn em suốt trình tìm hiểu, triển khai nghiên cứu đề tài Thầy người định hướng đưa nhiều góp ý q trình em thực luận văn Em xin gửi lời cảm ơn chân thành tới tồn thể thầy giáo, giáo khoa Công nghệ thông tin - Trường Đại học Bách Khoa Đà Nẵng dạy bảo tận tình, trang bị cho em kiến thức bổ ích tạo điều kiện thuận lợi suốt trình em học tập nghiên cứu trường Các kiến thức, kinh nghiệm quý báu thầy cô giáo không giúp cá nhân em hoàn thiện hệ thống kiến thức học tập mà giúp em ứng dụng kiến thức cơng việc Do có nhiều hạn chế thời gian kiến thức nên luận văn khơng tránh khỏi thiếu sót, mong nhận ý kiến đóng góp q thầy bạn quan tâm Xin chân thành cảm ơn! HỌC VIÊN PHÙNG VĂN HÒA iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH SÁCH BẢNG v DANH SÁCH HÌNH v MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI Ý KIẾN NGƯỜI DÙNG Bài toán phân loại ý kiến bình luận người dùng xem phim trực tuyến Các nghiên cứu liên quan tốn phân lớp cảm xúc bình luận người dùng Các kỹ thuật liên quan đến toán phân loại cảm xúc bình luận Các nghiên cứu liên quan đến toán phân loại ý kiến người dùng Hướng tiếp cận giải toán phân loại cảm xúc dựa vào kỹ thuật học máy Xử lý ngôn ngữ tự nhiên Khái niệm Các bước xử lý Ứng dụng Các toán khái niệm liên quan Biểu thức quy (regular expressions) Corpus Morphological Analysis (phân tích hình thái) iv Tokenization (tách từ) Ambiguous (nhập nhằng nghĩa) Stopwords (từ dừng) Named Entities Recognition (nhận dạng tên thực thể) Lemmatization Stemming 10 Part of Speech (gán nhãn từ loại) 10 Khó khăn xử lý ngơn ngữ tự nhiên tiếng Việt 10 Trích xuất đặc trưng 11 TF-IDF 11 Bag-of-Word (mơ hình túi từ) 11 Word2Vec 11 CHƯƠNG 2: MÁY HỌC VECTƠ HỖ TRỢ 11 2.1 Tổng quan toán phân lớp 11 Khái niệm 11 Một số thuật toán phân lớp phổ biến 12 2.1.2.1 Naive Bayes 12 2.1.2.2 K-Nearest Neighbors 12 2.1.2.3 Maximum Entropy 12 Đánh giá mơ hình phân loại 12 Phân tích giá trị đơn 12 2.2 Support Vector Machine (SVM) 12 Giới thiệu 12 Cơ sở toán học 13 2.2.2.1 Ý tưởng 13 2.2.2.2 Xây dựng toán tối ưu cho SVM 13 Biên mềm (Soft Margin) 14 Các hàm thiệt hại cho SVM 14 2.3 Hàm hạt nhân SVM (Kernel) 14 v Giới thiệu 14 Cơ sở toán học 15 Tính chất hàm hạt nhân 15 2.4 Phân lớp cảm xúc bình luận phim SVM 15 Thu thập liệu 15 Tiền xử lý 15 2.4.2.1 Làm liệu 15 2.4.2.2 Tách từ 15 Trích xuất đặc trưng bình luận 15 2.4.3.1 Trích xuất đặc trưng TF-IDF 15 2.4.3.2 Giảm chiều liệu 15 Huấn luyện đánh giá mơ hình 15 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 16 3.1 Dữ liệu, công cụ môi trường thực 16 3.2 Tiền xử lý liệu 16 3.3 Trích xuất đặc trưng bình luận 18 3.4 Huấn luyện mơ hình SVM đánh giá 19 KẾT LUẬN 22 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 24 PHỤ LỤC 24 DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT DANH SÁCH BẢNG DANH SÁCH HÌNH MỞ ĐẦU Lý chọn đề tài Ngày nay, ngành công nghiệp điện ảnh bùng nổ khiến cho người xem khó khăn việc chọn phim khó khăn Đa phần người xem thường có xu hướng dựa vào bình luận, nhận xét phim từ người xem trước để định việc xem phim cung cấp nhìn tổng qt phim nhanh chóng thực tế Do đó, lời bình luận phim đóng vai trò quan trọng việc định xem phim người xem Có nhiều lý khiến cho việc đọc bình luận phim khơng nên số lượng bình luận nhiều có số lượng lớn Do cần phải có cơng cụ khai thác liệu để khám phá thơng tin từ lời bình luận phim nhằm tiết kiệm thời gian công sức cho người xem việc lựa chọn phim để xem Hệ thống sử dụng mơ hình Support Vector Machines để phân loại bình luận phim đặc tính thuật toán phù hợp cho việc phân loại liệu có số lượng đặc trưng lớn văn chất SVM dùng cho phân lớp nhị phân Ngoài ra, qua thực tế kiểm chứng hệ thống phân loại văn sử dụng thuật tốn SVM có độ xác cao tốc độ xử lý nhanh Mục tiêu nhiệm vụ nghiên cứu a) Mục tiêu Nghiên cứu xây dựng chương trình có khả phân loại ý kiến bình luận phim người dùng theo cảm xúc tích cực tiêu cực cách tự động dựa việc phân tích nội dung bình luận thành từ cụm từ khóa áp dụng phân lớp nhị phân SVM b) Nhiệm vụ - Nghiên cứu toán phân lớp giải thuật phân lớp cho toán phân lớp văn - Nghiên cứu thuật toán phân lớp SVM hàm nhân sử dụng với SVM - Nghiên cứu đặc trưng tiếng Việt - Nghiên cứu tốn xử lý ngơn ngữ tự nhiên Trích xuất đặc trưng từ liệu văn qua biểu diễn văn dạng vector nhằm phục vụ cho mục đích huấn luyện phân loại - Tìm hiểu phương pháp đánh giá phân lớp - Chuẩn bị liệu bình luận gán nhãn cảm xúc cho việc huấn luyện đánh giá mơ hình phân lớp Đối tượng phạm vi nghiên cứu Trong khuôn khổ luận văn thuộc loại nghiên cứu ứng dụng, đề tải giới hạn nghiên cứu vấn đề sau: - Các mơ hình, thuật tốn phân lớp liệu Đặc biệt mơ hình phân lớp liệu SVM - Đặc trưng tiếng Việt - Các thuật toán xử lý ngôn ngữ tự nhiên - Các phương pháp đánh giá phân lớp Phương pháp nghiên cứu a) Phương pháp lý thuyết - Tiến hành thu thập nghiên cứu tài liệu có liên quan đến đề tài - Nghiên cứu mơ hình, thuật tốn phân lớp liệu Đặc biệt mơ hình SVM - Tìm hiểu thuật tốn xử lý văn - Tìm hiểu phương pháp trích xuất đặc trưng văn b) Phương pháp thực nghiệm - Xây dựng chương trình demo dựa giải pháp đề xuất - Thực nghiệm liệu đầu vào ý kiến thuộc liệu kiểm thử thu thập ban đầu - Kiểm tra, nhận xét đánh giá kết Ý nghĩa khoa học thực tiễn đề tài a) Ý nghĩa khoa học - Hiểu cách thức hoạt động số thuật toán phân loại phổ biến - Nắm vững mơ hình phân loại Support Vector Machines (SVM) - Nắm kiến thức xử lý ngôn ngữ tự nhiên, đặc biệt xử lý tiếng Việt Hiểu rõ đặc trưng Tiếng Việt - Tạo liệu phục vụ cho việc huấn luyện mơ hình phân loại văn tích cực tiêu cực tiếng Việt - Kết làm tài liệu tham khảo cho học viên – sinh viên việc nghiên cứu xử lý ngôn ngữ tự nhiên b) Ý nghĩa thực tiễn Ứng dụng cho hệ thống phân tích người dùng trang phim trực tuyến cho người xem phim trực tuyến Góp phần giúp ban quản trị quan sát lấy ý kiến người dùng tốt giảm sức lao động người Đồng thời giúp người dùng giảm thiểu thời gian cơng sức việc đọc bình luận để định xem phim Ngồi đề tài cịn có ý nghĩa thúc đẩy phát 10 chuyên gia, hướng tiếp cận sử dụng phương pháp học máy hướng tiếp cận lai hai phương pháp Lemmatization Stemming Lemmatization Stemming kỹ thuật thường dùng cho việc so sánh từ với Stemming kỹ thuật dùng để biến đổi từ dạng gốc cách đơn giản loại bỏ số ký tự nằm cuối từ mà nghĩ biến thể từ Lemmatization khác với Stemming xử lý cách loại bỏ ký tự cuối từ cách heuristic, Lemmatization xử lý thông minh phức tạp từ điển Ontology Part of Speech (gán nhãn từ loại) Part of Speech (POS) giải thích cách từ sử dụng câu Có tám phần lời nói danh từ, đại từ, tính từ, động từ, trạng từ, giới từ, liên từ thán từ Hầu hết POS chia thành lớp Gắn thẻ POS trình gắn nhãn từ với phần POS thích hợp chúng Việc phân loại từ góp phần giúp cho chương trình xử lý ngôn ngữ tự nhiên nắm thêm ý nghĩa câu thay xem tập hợp ký tự Khó khăn xử lý ngơn ngữ tự nhiên tiếng Việt Tiếng việt có số lượng từ phong phú dấu câu phức tạp khiến cho việc xử lý ngơn ngữ gặp nhiều khó khăn [16] Ngồi ngơn tiếng Việt khơng phải ngôn ngữ thịnh hành giới điều quan trọng hết người Việt Nam ngại chia sẻ, liên kết, hợp tác làm việc theo quy trình, khơng có tính kế thừa, khiến cho người gặp vấn đề 11 phải xử lý sao, hỏi để giải Điều khiến cho liệu chưa hồn chỉnh, khơng cơng hay thương mại hóa nên công cụ xử lý ngôn ngữ tự nhiên cho tiếng Việt hạn chế Trích xuất đặc trưng Trong toán thực tế, cần phải tìm phép biến đổi để loại liệu nhiễu (noise), để đưa liệu thô với số chiều khác chuẩn Dữ liệu chuẩn phải đảm bảo giữ thông tin đặc trưng (features) cho liệu thô ban đầu Về để biểu diễn đặc trưng câu ta cần phân tích được: ý nghĩa từ vựng sử dụng, cấu trúc cú pháp câu, ngữ cảnh câu xuất TF-IDF Bag-of-Word (mơ hình túi từ) Word2Vec CHƯƠNG 2: MÁY HỌC VECTƠ HỖ TRỢ 2.1 Tổng quan toán phân lớp Khái niệm Bài toán phân lớp tốn điển hình lĩnh vực học máy Mục đích tốn nhóm đối tượng giống tập hợp rời rạc vào lớp dựa việc quan sát đặc trưng liệu chúng Có hai cách tiếp cận toán phân lớp liệu học máy học giám sát học khơng giám sát Trong mơ hình học giám sát, tập liệu huấn luyện đưa vào mơ hình phân lớp để xây dựng hàm (function) từ liệu huấn luyện Mặt khác, mô hình học 12 khơng giám sát cung cấp tập liệu khơng gắn nhãn mơ hình phải tìm kiếm cụm điểm liệu Một số thuật toán phân lớp phổ biến 2.1.2.1 Naive Bayes 2.1.2.2 K-Nearest Neighbors 2.1.2.3 Maximum Entropy Đánh giá mơ hình phân loại [17] Hai độ đo độ xác phổ biến để tổng kết so sánh mơ hình phân lớp nhị phân độ xác (precision) độ bao phủ (recall) Precision Recall xem hữu ích việc đánh giá gợi ý Trong số trường hợp precision recall có giá trị tỉ lệ nghịch với Khi đó, vài số khác sử dụng Fscore, False Positive Rate, False Negative Rate, ROC - AUC sử dụng để đánh giá hiệu tổng thể mơ hình phân lớp Phân tích giá trị đơn Mục đích phương pháp SVD phân tích ma trận để giảm ma trận thành phận cấu thành để làm cho số phép tính ma trận đơn giản Ý tưởng giải thuật [16] sau: Cho ma trận A (kích thước mxn), ma trận A ln ln phân tích thành tích ba ma trận theo dạng: A = 𝑈∑𝑉 Việc xấp xỉ xem chuyển khơng gian xét (r chiều) không gian k chiều, với k nhỏ nhiều so với r giúp loại bỏ nhiễu tăng cường mối liên kết ngữ nghĩa tiềm ẩn từ tập văn 2.2 Support Vector Machine (SVM) Giới thiệu 13 Máy Vectơ Hỗ trợ (SVM) phương pháp phân loại xuất phát từ lý thuyết học thống kê, dựa nguyên tắc tối thiểu rủi ro cấu trúc (Structural Risk Minimisation) SVM thuộc nhóm thuật tốn học có giám sát lĩnh vực học máy Mục đích SVM cố gắng tìm siêu mặt phẳng phân cách loại liệu cho có lỗi xảy tập kiểm thử nhỏ dựa việc cực đại hóa dải biên phân lớp việc lựa chọn hàm nhân (kernel) phù hợp SVM có ưu điểm xử lý khơng gian có số chiều cao, dễ ứng dụng linh hoạt Đồng thời có nhược điểm khó phán đốn tối ưu khó khăn Cơ sở tốn học 2.2.2.1 Ý tưởng 2.2.2.2 Xây dựng toán tối ưu cho SVM Giả sử cặp liệu tập liệu huấn luyện (𝑥 , 𝑦 ), (𝑥 , 𝑦 ),…, (𝑥 , 𝑦 ) với vector 𝑥 ∈ 𝑅 thể đầu vào điểm liệu yi nhãn điểm liệu d số chiều liệu N số điểm liệu Giả sử nhãn điểm liệu xác định 𝑦 = (lớp 1) 𝑦 = −1 (lớp 2) Mục tiêu SVM phải tìm siêu phẳng (Optimal hyperplane) có lề lớn chia tách điểm liệu có ban đầu để huấn luyện điểm sau Mỗi siêu phẳng viết dạng tập điểm thỏa mãn w.x - b = Nếu liệu huấn luyện phân tách tuyến tính, chọn hai siêu phẳng song song tách riêng hai lớp liệu, cho khoảng cách chúng lớn Với liệu chuẩn hóa tiêu chuẩn hóa, siêu phẳng mơ tả phương trình sau: - w.x - b = (các điểm thuộc lớp 1) 14 - w.x - b = -1 (các điểm thuộc lớp 2) Về mặt hình học, khoảng cách hai siêu phẳng 𝟐 ‖𝒘‖ điểm liệu cho trước nằm siêu phẳng song song gọi vectơ hỗ trợ Để tối đa hóa khoảng cách mặt phẳng muốn giảm thiểu ‖𝒘‖ Biên mềm (Soft Margin) Có hai trường hợp dễ nhận thấy SVM làm việc không hiệu chí khơng làm việc liệu phân tách tuyến tính có số điểm liệu hai lớp gần trường hợp liệu phân tách tuyến tính Để chấp nhận điểm liệu nhiễu, cơng thức mục tiêu SVM ban đầu phải bổ sung thêm số hạng giúp tối thiểu hy sinh Từ ta có hàm mục tiêu sau: |𝑤| + 𝐶 ∑ ξ (2.10) , Các hàm thiệt hại cho SVM 2.3 Hàm hạt nhân SVM (Kernel) Giới thiệu Trong nhiều trường hợp, phân chia lớp liệu cách tuyến tính không gian ban đầu dùng để mô tả vấn đề Vì vậy, nhiều cần phải ánh xạ điểm liệu không gian ban đầu vào không gian nhiều chiều hơn, để việc phân tách chúng trở nên dễ dàng không gian [19] để liệu hai lớp phân biệt tuyến tính gần phần biệt tuyến tính 15 Hình 2.11: Hàm hạt nhân chuyển liệu từ không gian 𝑹𝟐 chiều sang 𝑹𝟑 Cơ sở tốn học Tính chất hàm hạt nhân 2.4 Phân lớp cảm xúc bình luận phim SVM Hình 2.12: Quy trình xây dựng phân lớp cảm xúc bình luận phim trực tuyến Thu thập liệu Tiền xử lý 2.4.2.1 Làm liệu 2.4.2.2 Tách từ Trích xuất đặc trưng bình luận 2.4.3.1 Trích xuất đặc trưng TF-IDF 2.4.3.2 Giảm chiều liệu Huấn luyện đánh giá mơ hình 16 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 Dữ liệu, công cụ môi trường thực Hệ điều hành Windows Ngơn ngữ lập trình Python, Java Cơng cụ lập trình Pycharm, Eclipse Photon Số lớp phân loại Miền liệu (Cảm xúc tích cực, cảm xúc tiêu cực) Cảm xúc tiêu cực tích cực bình luận phim trực tuyến Nguồn liệu Bình luận số website phim trực tuyến phổ biến phimmoi.net, phimbathu.com, movies.hdviet.com Thư viện sử dụng scikit-learn, seaborn, pandas, matplotlib, wordcloud, vnTokenizer Số lượng bình luận tích cực Số lượng bình luận tiêu cực 2657 1673 Bảng 3.1: Môi trường, thư viện liệu thực nghiệm 3.2 Tiền xử lý liệu Nhóm liệu huấn luyện bao gồm 3742 bình luận phim thuộc lớp tích cực tiêu cực Mục đích nhằm sử dụng để xây dựng mơ hình phân lớp SVM sở tạo q trình trích xuất đặc trưng huấn luyện mơ hình SVM để tìm tham số tối ưu cho mơ hình điển hình tham số C, gamma kernel 17 Đa số bình luận có độ dài ngắn độ dài trung bình bình luận tích cực dài độ dài trung bình bình luận tiêu cực Đồng thời liệu huấn luyện có số lượng bình luận tích cực nhiều số lượng bình luận tiêu cực (chiếm 62%) Hình 3.4: WordCloud bình luận tích cực 18 Hình 3.5: WordCloud bình luận tiêu cực 3.3 Trích xuất đặc trưng bình luận Sau thực tiền xử lý, tác giả sử dụng lớp TfidfVectorizer thư viện scikit-learn để tiến hành trích xuất đặc trưng TF-IDF với tham số đầu vào danh sách bình luận tách từ tên phương thức chuẩn hóa vector sau trích xuất đặc trưng l2 19 Hình 3.6: 40 từ có điểm trung bình tf-idf cao bình luận thuộc lớp liệu huấn luyện Sau có vector đặc trưng TF-IDF ma trận kích thước 3742 x 3075, tác giả tiến hình giảm chiều liệu với số chiều rút gọn cịn 250 với lượng thơng tin giữ lại khoảng 60% so với liệu gốc ban đầu Sau rút gọn ma trận vector đặc trưng có kích thước 3742 x 250 3.4 Huấn luyện mơ hình SVM đánh giá Để chọn tham số tối ưu cho mơ hình phân lớp Tác giả đề xuất phương pháp thử hỗn hợp nhiều tham số ngẫu nhiên kết hợp với phương pháp k-fold Cross-validation với giá trị k = 15 Tác giả tiến hành Cross-validation với kernel linear rbf Sau thử nghiệm kết thực nghiệm cho thấy kernel rbf cho kết tốt 20 Hình 3.8: Biểu đồ nhiệt độ xác SVM sử dụng kernel linear với giá trị C class_weight khác Hình 3.9: Biểu đồ nhiệt độ xác SVM sử dụng kernel rbf với giá trị C, class_weight, gamma khác 21 Qua thử nghiệm trên, tác giả đề xuất sử dụng kernel rbf với tham số {C= class_weigh = 1.1 gamma = 1} Mơ hình phân lớp SVM đánh giá cuối dựa liệu kiểm thử bao gồm 322 bình luận tích cực 265 bình luận tiêu cực Mơ hình phân lớp SVM tập liệu kiểm thử có kết sau: Tích cực Độ xác (%) 93.6 Độ bao phủ (%) 95.3 Tiêu cực 94.2 92.1 93.1 Trung bình 93.9 93.9 93.8 F1 (%) 94.4 Bảng 3.2: Kết phân lớp SVM tập liệu kiểm thử Để chứng minh việc áp dụng phương pháp regex nâng cao mà tác giả trình bày bước tiền xử lý liệu có hiệu quả, tác giả tiến hành thực nghiệm mơ hình phân lớp SVM cho trường hợp khơng áp dụng regex nâng cao Tích cực Độ xác (%) 89.2 Độ bao phủ (%) 95.0 Tiêu cực 94.3 86.0 89.6 Trung bình 91.1 91.0 90.9 F1 (%) 92.0 Bảng 3.3: Kết phân lớp SVM tập liệu kiểm thử không áp dụng regex nâng cao bước tiền xử lý Ngoài tác giả tiến hành so sánh phương pháp trích xuất đặc trưng khác ngồi thuật tốn TF-IDF phương pháp N-gram giải thuật phân lớp phổ biến khác K-Nearest Neighbors, Naive Bayes Maximum Entropy để kiểm chứng việc sử dụng phân 22 lớp SVM trích xuất đặc trưng TF-IDF hiệu cho tốn phân lớp cảm xúc bình luận phim Kết thực nghiệm thể qua Bảng 3.4: Đặc trưng SVM MaxEnt KNN NB TF-IDF UniGram BiGram TriGram TF-IDF UniGram BiGram TriGram TF-IDF UniGram BiGram TriGram TF-IDF UniGram BiGram TriGram Precision (%) 93.9 93.2 92.7 91.5 93.1 91.8 91.6 92.2 83.0 88.9 87.4 88.7 83.2 83.6 83.5 80.9 Recall (%) 93.9 93.2 92.7 91.1 93.2 91.6 92.7 92.2 82.7 88.4 87.0 87.4 81.6 83.3 81.9 75.6 F1 (%) 93.8 93.3 92.7 91.1 93.2 91.6 92.6 92.1 82.7 88.4 87.0 87.4 81.6 83.1 81.5 73.8 Bảng 3.4: So sánh hiệu số phương pháp trích xuất đặc trưng giải thuật phân lớp phổ biến KẾT LUẬN Qua thực nghiệm thấy mơ hình phân lớp SVM phương pháp trích xuất đặc trưng văn TF-IDF kết hợp với áp dụng regex nâng cao tách từ tác giả đề xuất cho kết tốt phương pháp khác Tuy mơ hình phân lớp Maximum Entropy có kết gần với SVM tập liệu kiểm thử 23 kết tập liệu huấn luyện lại SVM nhiều (gần 4%) Trong luận văn này, tác giả tiến hành nghiên cứu phương pháp nhằm cải thiện độ xác cho tốn phân loại văn bản, cụ thể cải thiện độ xác cho tốn phân loại cảm xúc bình luận người dùng trang xem phim trực tuyến Bài toán xác định tốn có độ phức tạp cao có nhiều ứng dụng thực tế, khơng dành riêng cho bình luận phim Phương pháp giải luận văn tập trung vào việc nâng cao độ xác việc phân loại cảm xúc người dùng thơng qua đoạn bình luận Bằng việc sử dụng mơ hình phân lớp quen thuộc Support Vector Machine, K-Nearest Neighbors, Naïve Bayes Maximum Entropy với tập liệu thu từ trang phim trực tuyến phổ biến Việt Nam, luận văn đưa phương pháp hiệu để giải cho toán đề Quá trình thực nghiệm đạt kết khả quan, cho thấy tính đắn việc lựa chọn giải thuật phân lớp, tiền xử lý liệu phương pháp trích xuất đặc trưng, đồng thời hứa hẹn nhiều tiềm phát triển hồn thiện Nhìn chung, luận văn đạt số kết sau: - Trình bày cách khái quát, tổng quan nhất, ý nghĩa, vai trị quan trọng tốn phân loại cảm xúc bình luận người dùng trang xem phim trực tuyến Việt Nam - Nâng cao trình tiền xử lý liệu việc bổ sung thêm regex để giữ lại nghữ nghĩa bình luận thực tách từ - Nghiên cứu làm thực nghiệm loại trích xuất đặc trưng văn phổ biến 24 - Nghiên cứu làm thực nghiệm với thuật toán học máy khác - So sánh phân tích kết thực nghiệm, từ chứng minh phương án tác giả đề xuất hiệu Luận văn số hạn chế sau: - Nghiên cứu dựa số lượng liệu hạn chế chưa phong phú - Kết thực nghiệm đạt chưa thật cao - Chỉ thử nghiệm tập liệu có dấu câu đầy đủ Về hướng phát triển tương lai, tác giả tiến hành thu thập phát triển tập liệu lớn hơn, với nhiều bình luận dài đa dạng Và thực nghiệm với nhiều phương pháp trích xuất đặc trưng đặc trưng khác để góp phần cải thiện khả phân loại Bên cạnh tác giả nghiên cứu thử nghiệm với số mơ hình giải thuật khác khác để tìm mơ hình phân lớp phù hợp với tốn phân loại cảm xúc bình luận tiếng Việt người dùng trang phim trực tuyến Giai đoạn tiền xử lý liệu cải tiến chuyên sâu bao gồm bổ sung trình tự động thêm dấu câu cho bình luận nâng cao độ xác cho q trình tách từ để nâng cao kết thực nghiệm DANH MỤC CÁC TÀI LIỆU THAM KHẢO PHỤ LỤC