Ứng dụng mô hình Maximum Entropy trong phân lớp quan điểm cho dữ liệu văn bản : Luận văn ThS. Máy tính: 60 48 01

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM NGUN BÌNH ỨNG DỤNG MƠ HÌNH MAXIMUM ENTROPY TRONG PHÂN LỚP QUAN ĐIỂM CHO DỮ LIỆU VĂN BẢN LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM Hà Nội – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ PHẠM NGUN BÌNH ỨNG DỤNG MƠ HÌNH MAXIMUM ENTROPY TRONG PHÂN LỚP QUAN ĐIỂM CHO DỮ LIỆU VĂN BẢN Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS PHẠM BẢO SƠN Hà Nội – 2016 Lời cam đoan Tơi xin cam đoan cơng trình nghiên cứu khoa học riêng hướng dẫn khoa học PGS.TS Phạm Bảo Sơn Các nội dung nghiên cứu, kết đề tài trung thực chưa cơng bố hình thức trước Những số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ nguồn khác có ghi rõ phần tài liệu tham khảo Ngồi ra, luận văn cịn sử dụng số nhận xét, đánh số liệu tác giả khác, quan tổ chức khác có trích dẫn thích nguồn gốc Nếu phát có gian lận tơi xin hồn toàn chịu trách nhiệm nội dung luận văn Học viên Cao học Phạm Nguyên Bình Lời cảm ơn Trước tiên, xin bày tỏ biết ơn chân thành sâu sắc tới PGS TS Phạm Bảo Sơn – Giáo viên hướng dẫn trực tiếp tơi, người hết lịng hỗ trợ giúp đỡ tơi q trình nghiên cứu hồn thiện luận văn thạc sĩ Tơi xin gửi lời cảm ơn chân thành tới thầy, cô giảng viên trường Đại học Công nghệ tận tình dạy dỗ hướng dẫn cho tơi suốt q trình học tập thạc sĩ trường Và tơi xin gửi lời cảm ơn tới bố mẹ, vợ người thân gia đình ni nấng, dạy dỗ, chăm lo cho tôi, động viên hồn thành thật tốt khóa học thạc sĩ Mặc dù cố gắng hoàn thành luận văn chắn khơng tránh khỏi sai sót Kính mong nhận cảm thơng, bảo tận tình q thầy bạn Tơi xin chân thành cảm ơn! Mục lục Lời cảm ơn Danh sách hình vẽ Danh sách bảng biểu MỞ ĐẦU 1 Tính cấp thiết đề tài luận văn Mục tiêu luận văn Cấu trúc luận văn Chƣơng Bài toán phân lớp quan điểm hƣớng tiếp cận 1.1 Bài tốn phân tích quan điểm 1.2 Các hướng tiếp cận giải toán 1.3 Mô hình phân lớp Nạve Bayes 1.4 Mơ hình phân lớp SVM 1.5 Mơ hình phân lớp Maximum Entropy 11 Chƣơng Tổng quan hệ thống VNU-SMM 13 2.1 Kiến trúc tổng thể hệ thống 13 2.1.1 Khối chức tự động thu thập liệu 14 2.1.2 Khối chức lõi với chức theo dõi giám sát thông tin trực tuyến14 2.1.3 Khối hiển thị, giao diện tương tác với người dùng cuối 15 2.2 Thu thập gán nhãn liệu 15 2.3 Phân lớp quan điểm 16 Chƣơng Bộ phân lớp Maximum Entropy 17 3.1 Tổng quan entropy cực đại 17 3.2 Entropy gì? 18 3.3 Mơ hình Maximum Entropy (ME) 20 3.3.1 Các ràng buộc đặc trưng 20 3.3.2 Nguyên lý Entropy cực đại 21 3.3.3 Dạng tham số 22 3.3.4 Tính tốn tham số 22 Chƣơng Kết thử nghiệm đánh giá 28 4.1 Tiến hành thử nghiệm 28 4.2 Tiền xử lý liệu 29 4.3 Xây dựng mơ hình 30 4.3.1 Lựa chọn đặc trưng 30 4.3.2 Cài đặt thuật toán học 30 4.4 Kết thử nghiệm 30 4.4.1 Các số đo kiểm chất lượng phân lớp 30 4.4.2 Kết thực nghiệm toán phân lớp mức độ câu 31 4.5 So sánh với phân lớp Naïve Bayes 32 4.6 Đánh giá kết 32 Chƣơng Tổng kết hƣớng phát triển 34 Chƣơng Tài liệu tham khảo 35 Danh sách hình vẽ Hình 1.1: Các kỹ thuật sử dụng giải toán phân lớp quan điểm Hình 1.2: Ví dụ siêu phẳng SVM Hình 1.3: Trường hợp phân chia tuyến tính nhị phân sử dụng SVM khơng có nhiễu 10 Hình 1.4: Trường hợp phân chia tuyến tính nhị phân sử dụng SVM có nhiễu 10 Hình 1.5: Trường hợp khơng thể phân chia tuyến tính nhị phân sử dụng SVM 11 Hình 2.1: Thiết kế tổng quan hệ thống VNU-SMM 13 Hình 3.1: Giải thuật lặp NewtonRapshon 25 Hình 3.2: QuasiNewton Update 26 Hình 3.3: BFGS Update 26 Hình 4.1: Thành phần nhãn tập huấn luyện 28 Hình 4.2: Thành phần nhãn tập kiểm tra 29 Danh sách bảng biểu Bảng 1.1: Các mức độ phân tích quan điểm Bảng 4.1: Bảng nhãn từ ý nghĩa 29 Bảng 4.2: Kết thực nghiệm toán phân lớp mức độ câu sử dụng ME 31 Bảng 4.3: Kết thực nghiệm tốn với phân lớp Nạve Bayes 32 MỞ ĐẦU Tính cấp thiết đề tài luận văn Ngày nay, xã hội chứng kiến bùng nổ Internet đặc biệt phát triển đến chóng mặt mạng xã hội Facebook, Twitter diễn đàn, trang thông tin mạng đa dạng lĩnh vực Chúng ta thường gọi chúng với tên chung kênh truyền thông xã hội trực tuyến (social media online) Trên kênh truyền thông lượng liệu quan điểm, ý kiến khổng lồ (big data) tới trực tiếp từ hàng trăm triệu người dùng nước quốc tế Vì lẽ đó, việc giám sát thương hiệu thơng qua thu thập, phân tích phản hồi, ý kiến, đóng góp người sử dụng kênh truyền thông vơ quan trọng hữu ích với cơng ty, doanh nghiệp tổ chức nói chung Việc thu thập xử lý kịp thời thông tin hỗ trợ tích cực cho cơng ty, doanh nghiệp tổ chức thực được: (I) nắm bắt mức độ phổ biến, lan tỏa tầm ảnh hưởng thương hiệu; (II) nắm bắt tâm tư, nguyện vọng phản hồi, góp ý trực tiếp từ cộng đồng, người sử dụng dịch vụ để từ đưa điều chỉnh phù hợp; (III) nắm bắt hiểu phản hồi bình luận diện rộng vấn đề, kiện quan trọng tổ chức; (IV) kịp thời bảo vệ thương hiệu đơn vị trước thơng tin dư luận thiếu xác sai lệch Chính lẽ đó, việc phát triển hệ thống tự động thu thập, phân tích tổng hợp liệu truyền thông vô cần thiết hữu ích phát triển công ty, doanh nghiệp hay tổ chức nào, có Đại học Quốc gia (ĐHQG) Hà Nội Mục tiêu nhóm đề tài xây dựng hệ thống tự động phân tích liệu truyền thông xã hội trực tuyến phục vụ quản lý hỗ trợ định, kinh tế, trị, giáo dục xã hội cho Đại học Quốc gia Hà Nội với tên gọi VNU-SMM (Vietnam National University-Social Media Monitoring) Mục tiêu luận văn Luận văn tập trung vào tìm hiểu mơ hình học máy có giám sát phổ biến, ứng dụng toán phân lớp quan điểm người dùng cho liệu văn thu từ kênh truyền thông xã hội Trong luận văn, lựa chọn phân lớp Maximum Entropy để cài đặt thử nghiệm, đồng thời ứng dụng vào hệ thống tự động phân tích liệu truyền thông xã hội trực tuyến phục vụ quản lý hỗ trợ định lĩnh vực đào tạo cho Đại học Quốc gia Hà Nội Cấu trúc luận văn Luận văn tổ chức thành năm chương Trong chương 1, giới thiệu toán phân lớp quan điểm người dùng, hướng tiếp cận giải pháp nghiên cứu, sử dụng giới Trong chương tiếp theo, mô tả tổng quan hệ thống tự động thu thập phân tích liệu truyền thơng xã hội trực tuyến cho Đại học Quốc gia Hà Nội - VNU-SMM vai trò thành phần phân lớp quan điểm người dùng hệ thống Nội dung chi tiết phân lớp Maximum entropy ứng dụng tốn phân tích quan điểm người dung chúng tơi trình bày chương Trong chương 4, chúng tơi tập trung trình bày kết thực nghiệm, sau đánh giá, phân tích kết quả, lỗi điểm yếu tồn Cuối cùng, tổng kết lại nội dung thực luận văn, từ đề xuất hướng nghiên cứu phát triển tương lai 22 3.3.3 Dạng tham số Bài toán đặt theo nguyên lý entropy cực đại có dạng: tìm p* thuộc C cho entropy lớn Bài tốn dễ dàng giải số ràng buộc đơn giản, nhiên, thực tế số ràng buộc tăng lên chồng chéo ví dụ mục 2.1 ta cần hướng giải hiệu Để giải vấn đề này, áp dụng phương pháp thừa số Lagrange sau [1]:  Với đặc trưng f i ta có tham số i (thừa số nhân Lagrange), hàm Lagrange định nghĩa sau: ( p,  )  H ( p)   i ( p( fi )  p( fi )) (3.9) i  Giữ λ cố định, ta tìm p cho hàm không ràng buộc ( p,  ) cực đại Ta định nghĩa hàm số  ( ) giá trị hàm Lagrange p  Ta có cơng thức tính p  ( ) sau:   exp   i f i ( x, y )   ( x)  i  (3.10)  ( )   p( x)log ( x)   i p( fi ) (3.11) p ( y | x)  x i Trong  ( x) số chuẩn hóa thỏa mãn:  p ( y | x)  x Ta có cơng y thức tính  ( x) :    ( x)   exp   i fi ( x, y )  y  i  Theo lý thuyết thừa số Lagrange, tìm *  arg max ( ) (3.12) p* phân phối cần tìm Hệ quan trọng kết ta kết luận: giải thuật tìm  * sử dụng để tìm p* H(p) với p thuộc C 3.3.4 Tính tốn tham số Đối với tất vấn đề, trừ vấn đề đơn giản nhất, giá trị  * làm cho  ( ) cực đại tính tốn phương pháp giải tích mà thay vào phương pháp số học Có nhiều phương pháp số học sử dụng, kể đến IIS (Improved Iterative Scaling), L-BFGS, GIS (Generalized Iterative Scaling) 23 Trong phần này, giới thiệu tổng quan hai phương pháp phổ biến tốt cho phân lớp dựa mơ hình entropy cực đại: IIS L-BFGS [6]  Phương pháp Improved Iterative Scaling Phương pháp hai nhà khoa học Darroch Ratcliff giới thiệu vào năm 1972 để tính tốn xấp xỉ cực đại likelihood cho tham số mơ hình hàm mũ (exponential model) Thuật toán áp dụng với điều kiện hàm đặc trưng fi ( x, y) không âm: fi ( x, y)   x, y,i Trong toán phân lớp giải quyết, điều kiện hiển nhiên thỏa mãn hàm đặc trưng hàm nhị phân Nội dung thuật tốn trình bày sau: Input: Các hàm đặc trưng fi ( x, y) phân phối thực nghiệm p( x, y) Output: Các tham số tối ưu i * mơ hình tối ưu p* Bước 1: Bắt đầu với i = với i ∈{1,2,…,n} Bước 2: Với i thực hiện:  Gọi i nghiệm phương trình:  p( x) p(y | x)f ( x, y)exp( f i i # ( x, y))  p( fi ) (3.13) x, y n Trong đó: f ( x, y )   fi ( x, y ) # i 1  Cập nhật lại giá trị i theo công thức: i = i + i Bước 3: Quay lại bước tất i chưa hội tụ Từ bước giải thuật ta thấy bước 2a bước then chốt để giải tốn Ta cần tìm giá trị i nghiệm phương trình Nếu f # ( x, y) số (giả sử M) ta tính giá trị : i i  p( fi ) log M p ( fi ) (3.14) Nếu f # ( x, y) khơng phải số giá trị i phải tính theo phương pháp số học Một phương pháp đơn giản hiệu phương pháp Newton Phương pháp tính giá trị ∝* phương trình g(∝*) = lặp lặp lại cách tính: 24  n1   n  g ( n ) g ' ( n ) (3.15)  Phương pháp L-BFGS (Limited-memory BFGS) L-BFGS thuật toán tối ưu họ phương pháp quasi-Newton cho phép xấp xỉ thuật toán BFGS gốc sử dụng nhớ giới hạn máy tính Để hiểu rõ phương pháp này, giới thiệu tổng quan phương pháp Newton phương pháp Quasi-Newton trước giới thiệu thuật toán L-BFGS  Phương pháp Newton Hầu hết phương pháp tối ưu số học giải thuật lặp ta thử dần giá trị biến cần tìm, hội tụ dần giá trị tối ưu hàm số cho Hay nói cách khác, với hàm số x*  arg max f ( x) , giả sử ta có giá trị xấp xỉ xn , ta mong muốn giá trị thử xn1 thỏa mãn: f ( xn )  f ( xn1 ) Phương pháp Newton tập trung vào xấp xỉ bậc hàm số cho điểm xung quanh xn Giả sử hàm số f khả vi hai lần (twice-differentiable), sử dụng xấp xỉ bậc hàm f cho điểm „gần‟ điểm cố định khai triển Taylor: f ( x  x)  f ( x)  xT f ( x)  xT (2 f ( x))x (3.16) Trong f ( x) 2 f ( x) gradient ma trận Hessian hàm số f điểm x Xấp xỉ với giá trị x tiến dần tới Khơng tính tổng qt, ta viết: xn1  xn  x viết lại phương trình sau: hn (x)  f ( xn )  xT g n  xT H n x (3.17) Trong gn H n gradient ma trận Hessian hàm số f xn Chúng ta cần chọn giá trị x để cực đại giá trị xấp xỉ địa phương hàm f xn Lấy đạo hàm riêng với x ta có: hn (x)  gn  H n x x (3.18) Để tìm giá trị x cho hàm số đạt cực đại địa phương ta cần giải phương trình hn (x)  hay ta có: x x  Hn1gn (3.19) 25 1 Trong thực tế, thường lấy giá trị xn1  xn  x  xn   H n gn với  số cho f ( xn ) vừa đủ nhỏ f ( xn1 ) Từ lý luận trên, ta có giải thuật lặp NewtonRapshon sau: Hình 3.1: Giải thuật lặp NewtonRapshon Giải thuật chứng minh hội tụ tới điểm tối ưu cho hàm f cực đại f hàm số lõm hay hội tụ tới f cực tiểu f hàm lồi với lựa chọn x0 Trong thực tế với toán học máy quan tâm, f thường hàm số nhiều chiều với số chiều tương ứng với số tham số mơ hình học Số tham số thường lớn, lên tới hàng trăm triệu chí hàng tỉ, điều khiến cho việc thực tính tốn theo phương pháp Newton khơng thể khơng thể tính ma trận Hessian hay nghịch đảo Chính vậy, thực tế, giải thuật NewtonRapshon sử dụng với toán lớn Tuy nhiên, thuật toán với ma trận Hessian xấp xỉ đủ tốt mà không cần xác tuyệt đối Phương pháp sử dụng để xấp xỉ ma trận Hessian Quasi-Newton  Quasi-Newton Phương pháp Quasi-Newton sử dụng hàm QuasiUpdate để sinh ma trận Hessian nghịch đảo xn1 dựa ma trận Hessian nghịch đảo xn : 26 Hình 3.2: QuasiNewton Update Ở đây, giả sử phương thức QuasiUpdate cần ma trận nghịch đảo điểm liền trước đó, độ lệch điểm độ lệch gradient chúng Bốn nhà nghiên cứu Broyden, Fletcher, Goldfarb Shanno tìm phương thức tính xấp xỉ ma trận Hessian nghịch đảo H n1 mà ta gọi phương thức BFGS Update: Hình 3.3: BFGS Update Ta cần sử dụng phương thức ứng dụng vào phương thức QuasiNewton để xấp xỉ tham số Xấp xỉ BFGS Quasi-Newton có ưu điểm khơng cần phải tính tốn ma trận Hessian hàm số f mà thay vào đó, ta liên tục cập nhật giá trị xấp xỉ Tuy nhiên, cần phải lưu lại lịch sử 27 vector sn yn vòng lặp Nếu vấn đề cốt lõi phương pháp NewtonRapshon nhớ cần thiết để tính tốn ma trận nghịch đảo Hessian q lớn phương pháp BFGS Quasi-Newton chưa giải vấn đề nhớ liên tục tăng giới hạn Chính lẽ đó, phương pháp L-BFGS đời với ý tưởng sử dụng m giá trị sk yk gần để tính tốn hàm update BFGS thay tồn số lượng vector Việc giúp cho nhớ hữu hạn 28 Chƣơng Kết thử nghiệm đánh giá 4.1 Tiến hành thử nghiệm  Bƣớc 1: Tự động thu thập liệu từ trang mạng trực tuyến: baomoi.com, vnexpress.net dantri.com.vn  Bƣớc 2: Tiền xử lý liệu thu thập được: làm chuẩn hóa liệu, gán nhãn loại từ cho câu bình luận  Bƣớc 3: Nhận dạng thủ công câu liệu mẫu phân vào lớp positive (tích cực), negative (tiêu cực) other (khác)  Bƣớc 4: Tách 1832 câu liệu gán nhãn thành test 7521 câu lại huấn luyện Thành phần nhãn tập liệu cụ thể sau: Tập huấn luyện 2257 3116 2148 Positive Negative Other Hình 4.1: Thành phần nhãn tập huấn luyện 29 Tập kiểm tra 555 763 514 Positive Negative Other Hình 4.2: Thành phần nhãn tập kiểm tra  Bƣớc 5: Chạy phân lớp so sánh kết phân lớp tự động so với kết phân lớp thủ công 4.2 Tiền xử lý liệu Dữ liệu sau crawl tự động đưa qua tiền xử lý liệu trước đưa vào nhận dạng thủ công Bộ tiền xử lý JvnTextPro tác giả trường Đại học Công nghệ phát triển Ta có ví dụ sau: Câu gốc thu từ kênh truyền thông sau: “Những ảnh hưởng xem chừng không rõ ràng lắm, thí nghiệm với vài bánh quy” Sau tiền xử lý, ta có câu sau, câu quan sát tập liệu (observation): “những/L ảnh_hưởng/N này/P xem/V chừng_như/C không/R rõ_ràng/A lắm/R nhất_là/X trong/E một/M thí_nghiệm/N với/E vài/L chiếc/Nc bánh_quy/N” Trong ví dụ này, dấu câu loại bỏ, từ tokenize gán nhãn loại từ Bảng loại từ chi tiết Bảng 4.1 [8] Bảng 4.1: Bảng nhãn từ ý nghĩa N: danh từ Np: danh từ riêng Nc: danh từ loại Nu: danh từ đơn vị V: động từ 10 11 12 13 14 R: phụ từ E: giới từ T: trợ từ, tiểu từ B: từ mượn Y: từ viết tắt 30 A: tính từ P: đại từ L: định từ M: số từ 15 16 17 18 X: từ không phân loại Mrk: dấu câu C: liên từ I: thán từ 4.3 Xây dựng mơ hình 4.3.1 Lựa chọn đặc trƣng Như ta biết từ nội dung chương 2, hàm đặc trưng f gồm hai tham số: ngữ cảnh nhãn phân lớp Các hàm đặc trưng xác định theo quy tắc sau:  Bƣớc 1: Tìm tất unigram, bigram câu hay quan sát (observation)  Bƣớc 2: Sắp xếp danh sách unigram bigram thu theo thứ tự giảm dần loại từ (ưu tiên tính từ, đến danh từ, đến động từ, đến loại từ khác)  Bƣớc 3: Lấy top 50 danh sách sau xếp làm đặc trưng cho câu hay quan sát 4.3.2 Cài đặt thuật tốn học Chúng cài đặt phân lớp sử dụng hệ điều hành windows 10 ngơn ngữ lập trình Java với cơng cụ lập trình Eclipse Hệ thống cài đặt thuật toán học ME sử dụng phương pháp L-BFGS để xấp xỉ tham số cho mơ hình 4.4 Kết thử nghiệm 4.4.1 Các số đo kiểm chất lƣợng phân lớp Hệ thống đánh giá dựa ba tiêu chí đánh giá sau:  Độ xác (precision) Độ xác phân lớp định nghĩa sau: ộ ố ự ố (4.1) ự  Độ bao phủ (recall) Độ bao phủ phân lớp định nghĩa sau: ộ  F1 ố ự ố ự ự (4.2) 31 Độ đo F1 phân lớp định nghĩa sau: ộ ộ ộ ộ (4.3) Độ đo F1 giá trị trung hịa hai giá trị độ xác độ bao phủ Chúng ta cần tính F1 lẽ vào giá trị độ xác độ bao phủ, ta so sánh đánh giá phân lớp với trường hợp phân lớp có độ xác cao, độ bao phủ thấp phân lớp cịn lại có độ xác thấp độ bao phủ cao Ta có ví dụ ba giá trị đo này: Bộ phân lớp nhận dạng 10 câu thuộc phân lớp tích cực test gồm 15 câu thuộc phân lớp tích cực cịn lại câu thuộc phân lớp khác Nếu 10 câu phân lớp nhận dạng thuộc phân lớp tích cực có câu câu nhận dạng sai ta có: Độ xác = 8/10 = 80% Độ bao phủ = 8/15 = 53,33% F1 = (0,8 0,53)/(0,8+0,53) = 63,76% 4.4.2 Kết thực nghiệm toán phân lớp mức độ câu Kết phân loại với tập kiểm tra thể Bảng 4.2: Bảng 4.2: Kết thực nghiệm toán phân lớp mức độ câu sử dụng ME Positive Negative Other All Số thực thể Số thực thể nhận dạng đƣợc Số thực thể nhận dạng Độ xác (%) Độ bao phủ (%) F1 (%) (1) (2) (3) (4)=(3)/(2) (5)=(3)/(1) (6)=2.(4)x(5)/ ((4)+(5)) 555 514 763 1832 543 530 759 1832 325 309 460 1094 59.85 58.30 60.61 59.72 58.56 60.12 60.29 59.72 59.20 59.20 60.45 59.72 Từ bảng kết thấy, kết phân lớp tính theo tiêu chí độ xác nhãn positive, negative, other 59.85%, 58.30% 60.61% Các giá trị xấp xỉ với kết tính theo độ bao phủ, 58.56%, 60.12% 60.29% Điều cho thấy, phân lớp tương đối ổn định đánh giá theo hai tiêu chí trên, kết giá trị F1 theo nhãn xấp xỉ Kết tính theo tiêu chí F1 đạt 59.72% tính theo tổng tồn nhãn chương trình 32 4.5 So sánh với phân lớp Naïve Bayes Để so sánh, cài đặt phân lớp Naïve Bayes đánh giá tập liệu huấn luyện kiểm tra Chúng sử dụng thư viện mã nguồn mở để cài đặt kiểm tra phân lớp Naïve Bayes1 Kết cụ thể Bảng 4.3 Bảng 4.3: Kết thực nghiệm toán với phân lớp Naïve Bayes Positive Negative Other All Số thực thể Số thực thể nhận dạng đƣợc Số thực thể nhận dạng Độ xác (%) Độ bao phủ (%) F1 (%) (1) (2) (3) (4)=(3)/(2) (5)=(3)/(1) (6)=2.(4)x(5)/ ((4)+(5)) 555 514 763 1832 348 463 1021 1832 214 262 543 1019 61.49 56.59 53.18 55.62 38.56 50.97 71.17 55.62 61.49 56.59 53.18 55.62 Từ bảng kết trên, có độ xác ba nhãn positive, negative other 61.49%, 56.59% 53.18% So sánh với độ bao phủ, ta thấy có chênh lệch lớn (38.56%, 50,97% 55.62%) đồng thời kết đo theo tiêu chí F1 đạt 55.62%, thấp so với phân lớp Maximum entropy Sự không ổn định phân loại phân lớp Nạve Bayes dẫn đến hiệu phân lớp khác liệu khác 4.6 Đánh giá kết Mặc dù phân lớp Maximum entropy cho kết cao so với phân lớp sử Naïve Bayes, kết đạt chưa cao (~60%) Kết số nguyên nhân sau: + Tập liệu sử dụng để huấn luyện kiểm tra gán nhãn cịn chưa xác: liệu sau crawl chạy qua tiền xử lý (lọc bỏ stopword, dấu câu, chữ số; đưa dạng chữ viết thường (lowercase); phân tách từ thực pos tagging) phân loại gán nhãn tay theo phương pháp crowdsourcing khối lượng câu cần phân loại lớn Điều dẫn đến bất thường khó kiểm sốt chất lượng nguồn liệu + Các đặc trưng lựa chọn chưa thực hiệu quả: thuật tốn học máy có giám sát, việc chọn lựa đặc trưng hiệu điểm mấu chốt định đến chất lượng phân lớp Trong hệ thống, sử dụng đặc trưng phổ biến cho phân lớp chủ đề truyền thống (unigram bigram), Part-of1 https://github.com/datumbox/NaiveBayesClassifier 33 speech (POS) từ, đồng thời kết hợp với sử dụng đặc trưng riêng toán phân lớp quan điểm sử dụng từ điển từ cụm từ mang quan điểm (sentiment words and phrases) để tăng độ xác cho phân lớp Tuy nhiên, đặc trưng lựa chọn cịn mang tính kinh nghiệm đánh giá qua thực tế nên kết chưa cao 34 Chƣơng Tổng kết hƣớng phát triển Luận văn nghiên cứu tìm hiểu tốn phân lớp quan điểm với liệu comment, phản hồi, góp ý từ kênh truyền thông xã hội phổ biến, đánh giá thuật toán học maximum entropy với liệu thực tế chủ đề giáo dục Các kết mà luận văn đạt sau:  Tìm hiểu, giới thiệu đánh giá sơ số thuật tốn học có giám sát ứng dụng xây dựng phân lớp văn nói chung phân lớp quan điểm người dùng nói riêng: thuật tốn Nạve Bayes, SVM Maximum Entropy  Giới thiệu sâu vào thuật toán Maximum Entropy cách ứng dụng hệ thống phân lớp quan điểm người dùng  Thử nghiệm với liệu thật thu từ kênh truyền thông xã hội Tuy cố gắng nâng cao chất lượng phân lớp, kết thử nghiệm với mức câu chưa cao (~60%) số nguyên nhân khách quan chủ quan, nguyên nhân chủ yếu chất lượng liệu huấn luyện kiểm tra thấp, chưa đồng bộ, đặc trưng lựa chọn chưa hiệu Trong tương lai, để cải tiến hiệu phân lớp, chúng tơi giảm số lượng câu tập huấn luyện để tập trung nâng cao chất lượng gán nhãn tập Bên cạnh đó, để nâng cao chất lượng đặc trưng, đề xuất sử dụng thêm kiến thức chuyên gia ngôn ngữ hiểu biết lĩnh vực cụ thể để tránh trường hợp phân lớp sai dựa vào việc đếm từ câu Ví dụ chúng tơi phân biệt câu điều kiện để xử lý riêng, câu ghép có so sánh, thay đổi quan điểm để xử lý riêng, v.v Ngồi ra, trình bày chương 1, cân nhắc hướng nghiên cứu khả thi có tiềm để tăng độ xác phân lớp nghiên cứu cài đặt phương pháp học máy deep learning cho phân lớp 35 Chƣơng Tài liệu tham khảo Berger, A.L., Pietra, V.J.D and Pietra, S.A.D (1996), “A Maximum Entropy Approach to Natural Language Processing.”, Computational linguistics, 22(1), pp 3971 Carter, T (2014), “An Introduction to Information Theory and Entropy.”, Complex systems summer school, Santa Fe Devi, G.D and Rasheed, A.A (2015), “A Survey on Sentiment Analysis and Opinion Mining.”, International journal for research in emerging science and technology 2(8), pp 26-31 Hu, M and Liu, B (2004), “Mining and Summarizing Customer Reviews.”, Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, pp 168-177 Liu, B (2012), Sentiment Analysis and Opinion Mining, Morgan & Claypool Malouf, R (2002), “A Comparison of Algorithms for Maximum Entropy Parameter Estimation.” Proceedings of the 6th conference on Natural language learning 20, pp 1-7 Medhat, W., Hassan, A and Korashy, H (2014), “Sentiment Analysis Algorithms and Applications: A Survey.”, Ain Shams Engineering Journal 5(4), pp 1093-1113 Nguyen Cam Tu, Phan Xuan Hieu and Nguyen Thu Trang (2010), “Manual for JvnTextPro” Pang, B., Lee, L and Vaithyanathan, S (2002), “Thumbs up?: Sentiment Classification Using Machine Learning Techniques.”, Proceedings of the ACL-02 conference on Empirical methods in natural language processing 10, pp 79-86 10 Rădulescu, C., Dinsoreanu, M and Potolea, R (2014), “Identification of Spam Comments Using Natural Language Processing Techniques”, Intelligent Computer Communication and Processing (ICCP), pp 29-35 11 Ratnaparkhi, A (1997), “A Simple Introduction to Maximum Entropy Models for Natural Language Processing”, IRCS Technical Reports Series 12 Severyn, A and Moschitti, A (2015), “Twitter Sentiment Analysis with Deep Convolutional Neural Networks.”, Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp 959962 36 13 Tang, D., Qin, B and Liu, T (2015), “Deep Learning for Sentiment Analysis: Successful Approaches and Future Challenges.”, Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 5(6), pp 292-303 14 Tsytsarau, M and Palpanas, T (2012), “Survey on Mining Subjective Data on the Web.”, Data Mining and Knowledge Discovery, 24(3), pp 478-514 15 Xia, R., Xu, F., Zong, C., Li, Q., Qi, Y and Li, T (2015), “Dual Sentiment Analysis: Considering Two Sides of One Review.”, IEEE transactions on knowledge and data engineering, 27(8), pp.2120-2133 16 Zhang, X., Li, S., Zhou, G and Zhao, H (2011), “Polarity Shifting: Corpus Construction and Analysis.”, Asian Language Processing (IALP), pp 272-275

Định dạng
Số trang	44
Dung lượng	1,57 MB