Tóm tắt luận văn thậc sĩ Kỹ thuật phần mềm: Ứng dụng mô hình Maximum Entropy trong phân lớp quan điểm cho dữ liệu văn bản

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	27
Dung lượng	457,27 KB

Nội dung

Luận văn tập trung vào tìm hiểu các mô hình học máy có giám sát phổ biến, được ứng dụng trong bài toán phân lớp quan điểm người dùng cho dữ liệu văn bản thu được từ các kênh truyền thông xã hội. Mời các bạn cùng tham khảo nội dung chi tiết.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM NGUN BÌNH ỨNG DỤNG MƠ HÌNH MAXIMUM ENTROPY TRONG PHÂN LỚP QUAN ĐIỂM CHO DỮ LIỆU VĂN BẢN Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM Hà Nội – 2016 Mục lục Danh sách hình vẽ Danh sách bảng biểu MỞ ĐẦU 1 Tính cấp thiết đề tài luận văn Mục tiêu luận văn Cấu trúc luận văn .2 Chương Bài toán phân lớp quan điểm hướng tiếp cận 1.1 Bài tốn phân tích quan điểm .3 1.2 Các hướng tiếp cận giải toán .3 1.3 Mơ hình phân lớp Nạve Bayes 1.4 Mơ hình phân lớp SVM 1.5 Mơ hình phân lớp Maximum Entropy Chương Tổng quan hệ thống VNU-SMM .8 2.1 Kiến trúc tổng thể hệ thống .8 2.1.1 Khối chức tự động thu thập liệu 2.1.2 Khối chức lõi với chức theo dõi giám sát thông tin trực tuyến 2.1.3 Khối hiển thị, giao diện tương tác với người dùng cuối 2.2 Thu thập gán nhãn liệu 10 2.3 Phân lớp quan điểm 10 Chương Bộ phân lớp Maximum Entropy .11 3.1 Tổng quan entropy cực đại .11 3.2 Entropy gì? 11 3.3.1 Các ràng buộc đặc trưng 11 3.3.2 Nguyên lý Entropy cực đại 12 3.3.3 Dạng tham số 12 3.3.4 Tính tốn tham số 13 Chương Kết thử nghiệm đánh giá .17 4.1 Tiến hành thử nghiệm 17 4.2 Tiền xử lý liệu 17 4.3 Xây dựng mơ hình .17 4.3.1 Lựa chọn đặc trưng .17 4.3.2 Cài đặt thuật toán học 18 4.4 Kết thử nghiệm .18 4.4.1 Các số đo kiểm chất lượng phân lớp 18 4.4.2 Kết thực nghiệm toán phân lớp mức độ câu 18 4.5 So sánh với phân lớp Naïve Bayes .19 4.6 Đánh giá kết 20 Chương Tổng kết hướng phát triển 21 Danh sách hình vẽ Hình 1.1: Các kỹ thuật sử dụng giải toán phân lớp quan điểm Hình 2.1: Thiết kế tổng quan hệ thống VNU-SMM Hình 3.1: Giải thuật lặp NewtonRapshon 15 Danh sách bảng biểu Bảng 4.2: Kết thực nghiệm toán phân lớp mức độ câu sử dụng ME 18 Bảng 4.3: Kết thực nghiệm toán với phân lớp Naïve Bayes 19 MỞ ĐẦU Tính cấp thiết đề tài luận văn Ngày nay, xã hội chứng kiến bùng nổ Internet đặc biệt phát triển đến chóng mặt mạng xã hội Facebook, Twitter diễn đàn, trang thông tin mạng đa dạng lĩnh vực Chúng ta thường gọi chúng với tên chung kênh truyền thông xã hội trực tuyến (social media online) Trên kênh truyền thông lượng liệu quan điểm, ý kiến khổng lồ (big data) tới trực tiếp từ hàng trăm triệu người dùng nước quốc tế Vì lẽ đó, việc giám sát thương hiệu thơng qua thu thập, phân tích phản hồi, ý kiến, đóng góp người sử dụng kênh truyền thông vô quan trọng hữu ích với cơng ty, doanh nghiệp tổ chức nói chung Việc thu thập xử lý kịp thời thơng tin hỗ trợ tích cực cho công ty, doanh nghiệp tổ chức thực được: (I) nắm bắt mức độ phổ biến, lan tỏa tầm ảnh hưởng thương hiệu; (II) nắm bắt tâm tư, nguyện vọng phản hồi, góp ý trực tiếp từ cộng đồng, người sử dụng dịch vụ để từ đưa điều chỉnh phù hợp; (III) nắm bắt hiểu phản hồi bình luận diện rộng vấn đề, kiện quan trọng tổ chức; (IV) kịp thời bảo vệ thương hiệu đơn vị trước thông tin dư luận thiếu xác sai lệch Chính lẽ đó, việc phát triển hệ thống tự động thu thập, phân tích tổng hợp liệu truyền thơng vơ cần thiết hữu ích phát triển công ty, doanh nghiệp hay tổ chức nào, có Đại học Quốc gia (ĐHQG) Hà Nội Mục tiêu nhóm đề tài xây dựng hệ thống tự động phân tích liệu truyền thơng xã hội trực tuyến phục vụ quản lý hỗ trợ định, kinh tế, trị, giáo dục xã hội cho Đại học Quốc gia Hà Nội với tên gọi VNU-SMM (Vietnam National University-Social Media Monitoring) Mục tiêu luận văn Luận văn tập trung vào tìm hiểu mơ hình học máy có giám sát phổ biến, ứng dụng toán phân lớp quan điểm người dùng cho liệu văn thu từ kênh truyền thông xã hội Trong luận văn, lựa chọn phân lớp Maximum Entropy để cài đặt thử nghiệm, đồng thời ứng dụng vào hệ thống tự động phân tích liệu truyền thơng xã hội trực tuyến phục vụ quản lý hỗ trợ định lĩnh vực đào tạo cho Đại học Quốc gia Hà Nội Cấu trúc luận văn Luận văn tổ chức thành năm chương Trong chương 1, chúng tơi giới thiệu tốn phân lớp quan điểm người dùng, hướng tiếp cận giải pháp nghiên cứu, sử dụng giới Trong chương tiếp theo, mô tả tổng quan hệ thống tự động thu thập phân tích liệu truyền thơng xã hội trực tuyến cho Đại học Quốc gia Hà Nội - VNU-SMM vai trò thành phần phân lớp quan điểm người dùng hệ thống Nội dung chi tiết phân lớp Maximum entropy ứng dụng tốn phân tích quan điểm người dung chúng tơi trình bày chương Trong chương 4, chúng tơi tập trung trình bày kết thực nghiệm, sau đánh giá, phân tích kết quả, lỗi điểm yếu cịn tồn Cuối cùng, tổng kết lại nội dung thực luận văn, từ đề xuất hướng nghiên cứu phát triển tương lai Bài toán phân lớp quan điểm hướng tiếp cận 1.1 Bài tốn phân tích quan điểm Phân tích quan điểm (opinion mining hay sentiment analysis) lĩnh vực nghiên cứu ý kiến, quan điểm, đánh giá, thái độ cảm xúc người đối tượng Hai thuật ngữ Opinion Mining (OM) Sentiment Analysis (SA) sử dụng thay cho ngữ cảnh sử dụng Tuy nhiên, số nhà nghiên cứu cho OM SA có điểm khác nhỏ [14] Phân tích quan điểm lĩnh vực thu hút quan tâm lớn cộng đồng nghiên cứu nói chung cộng đồng xử lý ngơn ngữ nói riêng ba yếu tố sau: Thứ nhất, đa dạng ứng dụng vào nhiều lĩnh vực Thứ hai, bùng nổ thông tin mạng xã hội Thứ ba, thách thức tốn Quan điểm chia làm hai loại: tích cực (positive) tiêu cực (negative) Ngoài hai trạng thái này, câu văn xếp vào dạng trung lập (neutral) Bài tốn phân tích quan điểm người dùng thường tiếp cận giải ba mức độ: Mức độ văn bản, tài liệu (Document level), Mức độ câu (Sentence level), Mức độ khía cạnh (Aspect level) 1.2 Các hướng tiếp cận giải toán Trong năm gần đây, có nhiều báo cơng trình nghiên cứu cải tiến thuật tốn phân tích quan điểm người dùng Các kỹ thuật phân loại Hình 1.1 [7] Trong ta thấy, có hai hướng tiếp cận kỹ thuật ứng dụng giải toán phân lớp quan điểm người dùng, là: sử dụng thuật toán học máy tiếp cận theo hướng sử dụng kiến thức từ vựng ngữ nghĩa Trong thuật tốn học máy lại chia thành thuật tốn học có giám sát hay học khơng giám sát Ngồi ra, một, hai năm trở lại bắt đầu xuất ứng dụng thành công deep learning vào tốn phân tích quan điểm [12,13] đạt kết cao Các thuật tốn học máy có giám sát phổ biến sử dụng giải toán phân lớp quan điểm là: Naïve Bayes, Maximum Entropy, Support Vector Machine (SVM) [9] Các thuật toán đánh giá cao tính xác hiệu giải toán phân lớp quan điểm người dùng Trong mục này, giới thiệu tổng quan giải thuật học có giám sát Hình 1.1: Các kỹ thuật sử dụng giải toán phân lớp quan điểm 1.3 Mơ hình phân lớp Nạve Bayes Bộ phân lớp quan điểm Naïve Bayes xây dựng dựa lý thuyết Bayes xác suất có điều kiện sử dụng mơ hình “bag of words” để phân loại văn bản: P(c | d) P(c) P( d | c) P (d ) (1.1) Mục tiêu tìm phân lớp c* cho P(c*|d) lớn hay xác suất tài liệu d thuộc lớp c* lớn Từ cơng thức ta nhận thấy P(d) khơng đóng vai trị việc định phân lớp c ‡ P(c|d) lớn ⟺ P(c).P(d|c) lớn Để xấp xỉ giá trị P(d|c), thuật tốn Nạve Bayes giả sử rằng: vector đặc trưng fi tài liệu biết phân lớp độc lập với Khi tiến hành huấn luyện, thuật toán sử dụng phương pháp xấp xỉ hợp lý cực đại MLE (Maximum Likelihood Estimation) để xấp xỉ P(c) P(fi|c) thuật toán làm mịn add-one (add-one smoothing) Đánh giá phân lớp sử dụng thuật toán học máy Naive Bayes, ta nhận thấy phương pháp ưu điểm như: đơn giản, dễ cài đặt, phân lớp chạy nhanh cần nhớ lưu trữ Bộ phân lớp không cần nhiều liệu huấn luyện để xấp xỉ tham số Tuy nhiên, phân lớp có nhược điểm thiếu xác giả thiết độc lập vector đặc trưng biết phân lớp khơng có thực thực tế 1.4 Mơ hình phân lớp SVM 1.4.1 Giới thiệu SVM Máy vector hỗ trợ (Support Vector Machine – SVM) phương pháp học máy tiếng sử dụng để giải toán Tổng quan hệ thống VNU-SMM 2.1 Kiến trúc tổng thể hệ thống Hệ thống VNU-SMM thiết kế với kiến trúc tổng quan hình 2.1: Hình 2.1: Thiết kế tổng quan hệ thống VNU-SMM Hệ thống cần thu thập, lưu trữ xử lý, phân tích lượng thơng tin khổng lồ từ kênh truyền thông xã hội với yêu cầu xử lý nhanh, kịp thời nên thiết kế hệ thống cần đảm bảo yêu cầu Về cơng nghệ, hệ thống tích hợp cài đặt nhiều cơng nghệ đại điện tốn đám mây xử lý liệu lớn Thêm vào đó, hệ thống thiết kế theo kiến trúc mở, phục vụ việc linh động mở rộng ứng dụng hệ thống nhiều lĩnh vực khác giáo dục y tế, sức khỏe hay tài chính, ngân hàng Từ Hình 2.1, ta thấy hệ thống VNU-SMM thiết kế với ba khối chức chính: khối chức tự động thu thập liệu, khối chức theo dõi giám sát thông tin trực tuyến khối hiển thị, giao diện tương tác với người sử dụng 2.1.1 Khối chức tự động thu thập liệu Khối chức tự động thu thập liệu có chức như: tự động thu thập liệu từ kênh truyền thông xã hội facebook, twitter, blog, forums Sau đó, tiền xử lý liệu (data preprocessing) để chuẩn hóa làm thông tin Dữ liệu sau chuẩn hóa làm hệ thống lưu vào sở liệu, đồng thời tự động đánh mục phục vụ việc truy xuất liệu nhanh chóng cần sử dụng Ngoài ra, khối chức cịn thực nhiệm vụ phân tích sơ liệu (data shallow analysis) 2.1.2 Khối chức lõi với chức theo dõi giám sát thông tin trực tuyến Khối chức tự động theo dõi giám sát thông tin trực tuyến khối chức lõi hệ thống Khối chức thực nhiệm vụ: phân loại, phân lớp, thống kê tổng hợp thơng tin, phân tích so sánh thương hiệu, phân tích khía cạnh, phân tích so sánh, phân tích bình luận/quan điểm, phân tích ý kiến góp ý phân tích xu hướng 2.1.3 Khối hiển thị, giao diện tương tác với người dùng cuối Khối giao diện hiển thị, tương tác có chức cung cấp cho người sử dụng cuối giao diện trực quan, sinh động cho nội 10 dung kết bước phân tích nói Người sử dụng theo dõi thông tin cập nhật theo thời gian thực, có liệu cập nhật, đồng thời thực thao tác tìm kiếm, so sánh, thống kê, v.v liệu thu thập 2.2 Thu thập gán nhãn liệu Dữ liệu thu hệ thống gồm 9353 câu, có 2812 câu positive, 2662 câu negative 3879 câu gán nhãn other 2.3 Phân lớp quan điểm Thành phần phân lớp quan điểm thuộc khối chức lõi với khả tự động phân lớp quan điểm theo thời gian có liệu thu thập Chi tiết cách cài đặt phân lớp theo mơ hình entropy cực đại chúng tơi trình bày chi tiết chương luận văn 11 Bộ phân lớp Maximum Entropy 3.1 Tổng quan entropy cực đại Trong mục này, giới thiệu khái niệm entropy cực đại thơng qua ví dụ đơn giản Giả sử cần mơ hình hóa lại định chuyên gia phân lớp chủ đề cho báo Mơ hình p gán cho phân lớp f giá trị xấp xỉ p(f) xác suất mà chuyên gia chọn f phân lớp báo Để xây dựng mơ hình p, trước tiên cần thu thập lượng lớn mẫu lựa chọn phân lớp chuyên gia Mục tiêu (1) trích xuất liệu thực q trình định từ tập mẫu thu thập (2) xây dựng mơ hình p cho q trình định 3.2 Entropy gì? Ta có định nghĩa Entropy Shannon đưa vào năm 1948: Với tập hợp xác suất P ={p1 , p2 , , pn } ta có entropy P định nghĩa sau: n H ( P) = -Â pi log pi (3.3) i 3.3.1 Các ràng buộc đặc trưng Trong mơ hình entropy cực đại, sử dụng tập mẫu huấn luyện (training data) để sinh ràng buộc cho phân phối điều kiện Mỗi ràng buộc thể đặc trưng tập mẫu mà phân phối học cần có Phân phối sau học xong phải thỏa mãn tất ràng buộc sinh từ tập mẫu, khơng cho thêm giả thiết khác 12 Các hàm đặc trưng f ( x, y ) (còn gọi tắt đặc trưng) hàm nhị phân với tham số: y ∈ tập lớp cần phân loại x ∈ tập ngữ cảnh: f = e Ỉ {0,1} Việc lựa chọn hàm đặc trưng tùy thuộc vào toán khác cách lựa chọn đặc trưng ảnh hưởng đến chất lượng phân lớp 3.3.2 Nguyên lý Entropy cực đại Nguyên lý Entropy cực đại cho rằng: Với tập liệu biết trước, phân phối xác suất tốt tập phân phối xác suất để biểu diễn trạng thái tri thức, phân phối xác suất có entropy cực đại phân phối Ta tóm tắt ý tưởng, chất nguyên lý entropy cực đại sau: Nguyên lý entropy cực đại không giả thiết điều phân phối xác suất ngồi quan sát từ tập liệu, đồng thời chọn phân phối xác suất đồng phù hợp với ràng buộc quan sát 3.3.3 Dạng tham số Bài toán đặt theo nguyên lý entropy cực đại có dạng: tìm p* thuộc C cho entropy lớn Bài tốn dễ dàng giải số ràng buộc đơn giản, nhiên, thực tế số ràng buộc tăng lên chồng chéo ví dụ mục 2.1 ta cần hướng giải hiệu Để giải vấn đề này, áp dụng phương pháp thừa số Lagrange 13 3.3.4 Tính tốn tham số Có nhiều phương pháp số học sử dụng, kể đến IIS (Improved Iterative Scaling), L-BFGS, GIS (Generalized Iterative Scaling) Trong phần này, giới thiệu tổng quan hai phương pháp phổ biến tốt cho phân lớp dựa mô hình entropy cực đại: IIS L-BFGS 1) Phương pháp Improved Iterative Scaling Phương pháp hai nhà khoa học Darroch Ratcliff giới thiệu vào năm 1972 để tính tốn xấp xỉ cực đại likelihood cho tham số mơ hình hàm mũ (exponential model) Thuật toán áp dụng với điều kiện hàm đặc trưng f i ( x, y ) không âm: fi ( x, y ) ≥ " x, y,i Trong toán phân lớp giải quyết, điều kiện hiển nhiên thỏa mãn hàm đặc trưng hàm nhị phân Nội dung thuật tốn trình bày sau: Input: Các hàm đặc trưng f i ( x, y ) phân phối thực Output: Các tham số tối ưu li * mơ hình tối ưu pl* nghiệm Bước 1:Bắt đầu với li = với i ∈{1,2,…,n} Bước 2:Với i thực hiện: a Gọi D li nghiệm phương trình: Â x, y (3.13) 14 Trong đó: f ( x, y ) # n Â f ( x, y ) i i b Cập nhật lại giá trị l i theo công thức: l i = l i + D li Bước 3: Quay lại bước tất l i chưa hội tụ 2) Phương pháp L-BFGS (Limited-memory BFGS) L-BFGS thuật toán tối ưu họ phương pháp quasi-Newton cho phép xấp xỉ thuật toán BFGS gốc sử dụng nhớ giới hạn máy tính Để hiểu rõ phương pháp này, chúng tơi giới thiệu tổng quan phương pháp Newton phương pháp QuasiNewton trước giới thiệu thuật toán L-BFGS a Phương pháp Newton Hầu hết phương pháp tối ưu số học giải thuật lặp ta thử dần giá trị biến cần tìm, hội tụ dần giá trị tối ưu hàm số cho Hay nói cách khác, với hàm số x* argmax f ( x) , giả sử ta có giá trị xấp xỉ x n , ta mong muốn giá trị thử xn +1 thỏa mãn: f ( xn ) < f ( xn+1 ) Phương pháp Newton tập trung vào xấp xỉ bậc hàm số cho điểm xung quanh x n Giả sử hàm số f khả vi hai lần (twice-differentiable), sử dụng xấp xỉ bậc hàm f cho điểm ‘gần’ điểm cố định khai triển Taylor Xấp xỉ với giá trị Dx tiến dần tới 15 Ta có giải thuật lặp NewtonRapshon sau: Hình 3.1: Giải thuật lặp NewtonRapshon Giải thuật chứng minh hội tụ tới điểm tối ưu cho hàm f cực đại f hàm số lõm hay hội tụ tới f cực tiểu f hàm lồi với lựa chọn x0 Trong thực tế với toán học máy quan tâm, f thường hàm số nhiều chiều với số chiều tương ứng với số tham số mơ hình học Số tham số thường lớn, lên tới hàng trăm triệu chí hàng tỉ, điều khiến cho việc thực tính tốn theo phương pháp Newton khơng thể khơng thể tính ma trận Hessian hay nghịch đảo Chính vậy, thực tế, giải thuật NewtonRapshon sử dụng với toán lớn Tuy nhiên, thuật toán với ma trận Hessian xấp xỉ đủ tốt mà khơng cần xác tuyệt đối Phương pháp sử dụng để xấp xỉ ma trận Hessian Quasi-Newton b Quasi-Newton Phương pháp Quasi-Newton sử dụng hàm QuasiUpdate để sinh ma trận Hessian nghịch đảo xn +1 dựa ma trận Hessian nghịch đảo x n 16 Ở đây, giả sử phương thức QuasiUpdate cần ma trận nghịch đảo điểm liền trước đó, độ lệch điểm độ lệch gradient chúng Bốn nhà nghiên cứu Broyden, Fletcher, Goldfarb Shanno tìm phương thức tính xấp xỉ ma trận Hessian nghịch đảo H n-1 mà ta gọi phương thức BFGS Update Ta cần sử dụng phương thức ứng dụng vào phương thức QuasiNewton để xấp xỉ tham số Xấp xỉ BFGS Quasi-Newton có ưu điểm khơng cần phải tính tốn ma trận Hessian hàm số f mà thay vào đó, ta liên tục cập nhật giá trị xấp xỉ Tuy nhiên, cần phải lưu lại lịch sử vector sn yn vòng lặp Nếu vấn đề cốt lõi phương pháp NewtonRapshon nhớ cần thiết để tính tốn ma trận nghịch đảo Hessian lớn phương pháp BFGS Quasi-Newton chưa giải vấn đề nhớ liên tục tăng khơng có giới hạn Chính lẽ đó, phương pháp LBFGS đời với ý tưởng sử dụng m giá trị sk yk gần để tính tốn hàm update BFGS thay toàn số lượng vector Việc giúp cho nhớ hữu hạn 17 Kết thử nghiệm đánh giá 4.1 Tiến hành thử nghiệm ÿ Bước 1: Tự động thu thập liệu từ trang mạng trực tuyến: baomoi.com, vnexpress.net dantri.com.vn ÿ Bước 2: Tiền xử lý liệu thu thập được: làm chuẩn hóa liệu, gán nhãn loại từ cho câu bình luận ÿ Bước 3: Nhận dạng thủ công câu liệu mẫu phân vào lớp positive (tích cực), negative (tiêu cực) other (khác) ÿ Bước 4: Tách 1832 câu liệu gán nhãn thành test 7521 câu lại huấn luyện ÿ Bước 5: Chạy phân lớp so sánh kết phân lớp tự động so với kết phân lớp thủ công 4.2 Tiền xử lý liệu Dữ liệu sau crawl tự động đưa qua tiền xử lý liệu trước đưa vào nhận dạng thủ công Bộ tiền xử lý JvnTextPro tác giả trường Đại học Công nghệ phát triển 4.3 Xây dựng mơ hình 4.3.1 Lựa chọn đặc trưng Như ta biết từ nội dung chương 2, hàm đặc trưng f gồm hai tham số: ngữ cảnh nhãn phân lớp Các hàm đặc trưng xác định theo quy tắc sau: ÿ Bước 1: Tìm tất unigram, bigram câu hay quan sát (observation) 18 ÿ Bước 2: Sắp xếp danh sách unigram bigram thu theo thứ tự giảm dần loại từ (ưu tiên tính từ, đến danh từ, đến động từ, đến loại từ khác) ÿ Bước 3: Lấy top 50 danh sách sau xếp làm đặc trưng cho câu hay quan sát 4.3.2 Cài đặt thuật tốn học Chúng tơi cài đặt phân lớp sử dụng hệ điều hành windows 10 ngôn ngữ lập trình Java với cơng cụ lập trình Eclipse Hệ thống cài đặt thuật toán học ME sử dụng phương pháp LBFGS để xấp xỉ tham số cho mô hình 4.4 Kết thử nghiệm 4.4.1 Các số đo kiểm chất lượng phân lớp Hệ thống đánh giá dựa ba tiêu chí đánh giá sau: Độ xác (precision), độ bao phủ (recall) F1 4.4.2 Kết thực nghiệm toán phân lớp mức độ câu Kết phân loại với tập kiểm tra thể Bảng 4.1: Bảng 4.1: Kết thực nghiệm toán phân lớp mức độ câu sử dụng ME Positive Negative Other All Số thực thể Nhận dạng Nhận dạng Độ xác (%) Độ bao phủ (%) F1 (%) (1) (2) (3) (4)=(3)/( 2) (5)=(3)/( 1) (6)=2.(4) x(5)/((4) +(5)) 555 514 763 1832 543 530 759 1832 325 309 460 1094 59.85 58.30 60.61 59.72 58.56 60.12 60.29 59.72 59.20 59.20 60.45 59.72 19 Từ bảng kết thấy, kết phân lớp tính theo tiêu chí độ xác nhãn positive, negative, other 59.85%, 58.30% 60.61% Các giá trị xấp xỉ với kết tính theo độ bao phủ, 58.56%, 60.12% 60.29% Điều cho thấy, phân lớp tương đối ổn định đánh giá theo hai tiêu chí trên, kết giá trị F1 theo nhãn xấp xỉ Kết tính theo tiêu chí F1 đạt 59.72% tính theo tổng tồn nhãn chương trình 4.5 So sánh với phân lớp Naïve Bayes Để so sánh, cài đặt phân lớp Naïve Bayes đánh giá tập liệu huấn luyện kiểm tra Chúng sử dụng thư viện mã nguồn mở để cài đặt kiểm tra phân lớp Naïve Bayes1 Kết cụ thể Bảng 4.2 Bảng 4.2: Kết thực nghiệm tốn với phân lớp Nạve Bayes Positive Negative Other All Số thực thể Nhận dạng Nhận dạng Độ xác (%) Độ bao phủ (%) F1 (%) (1) (2) (3) (4)=(3)/( 2) (5)=(3)/( 1) (6)=2.(4) x(5)/((4) +(5)) 555 514 763 1832 348 463 1021 1832 214 262 543 1019 61.49 56.59 53.18 55.62 38.56 50.97 71.17 55.62 61.49 56.59 53.18 55.62 Từ bảng kết trên, có độ xác ba nhãn positive, negative other 61.49%, 56.59% 53.18% So sánh với độ bao phủ, ta thấy có chênh lệch lớn (38.56%, 50,97% https://github.com/datumbox/NaiveBayesClassifier 20 55.62%) đồng thời kết đo theo tiêu chí F1 đạt 55.62%, thấp so với phân lớp Maximum entropy Sự không ổn định phân loại phân lớp Nạve Bayes dẫn đến hiệu phân lớp khác liệu khác 4.6 Đánh giá kết Mặc dù phân lớp Maximum entropy cho kết cao so với phân lớp sử Naïve Bayes, kết đạt chưa cao (~60%) Kết số nguyên nhân sau: + Tập liệu sử dụng để huấn luyện kiểm tra gán nhãn cịn chưa xác: liệu sau crawl chạy qua tiền xử lý (lọc bỏ stopword, dấu câu, chữ số; đưa dạng chữ viết thường (lowercase); phân tách từ thực pos tagging) phân loại gán nhãn tay theo phương pháp crowdsourcing khối lượng câu cần phân loại lớn Điều dẫn đến bất thường khó kiểm sốt chất lượng nguồn liệu + Các đặc trưng lựa chọn chưa thực hiệu quả: thuật toán học máy có giám sát, việc chọn lựa đặc trưng hiệu điểm mấu chốt định đến chất lượng phân lớp Trong hệ thống, sử dụng đặc trưng phổ biến cho phân lớp chủ đề truyền thống (unigram bigram), Part-of-speech (POS) từ, đồng thời kết hợp với sử dụng đặc trưng riêng toán phân lớp quan điểm sử dụng từ điển từ cụm từ mang quan điểm (sentiment words and phrases) để tăng độ xác cho phân lớp Tuy nhiên, đặc trưng lựa chọn mang tính kinh nghiệm đánh giá qua thực tế nên kết chưa cao 21 Tổng kết hướng phát triển Luận văn nghiên cứu tìm hiểu tốn phân lớp quan điểm với liệu comment, phản hồi, góp ý từ kênh truyền thơng xã hội phổ biến, đánh giá thuật toán học maximum entropy với liệu thực tế chủ đề giáo dục Các kết mà luận văn đạt sau: ÿ Tìm hiểu, giới thiệu đánh giá sơ số thuật tốn học có giám sát ứng dụng xây dựng phân lớp văn nói chung phân lớp quan điểm người dùng nói riêng: thuật tốn Naïve Bayes, SVM Maximum Entropy ÿ Giới thiệu sâu vào thuật toán Maximum Entropy cách ứng dụng hệ thống phân lớp quan điểm người dùng ÿ Thử nghiệm với liệu thật thu từ kênh truyền thông xã hội Tuy cố gắng nâng cao chất lượng phân lớp, kết thử nghiệm với mức câu chưa cao (~60%) số nguyên nhân khách quan chủ quan, nguyên nhân chủ yếu chất lượng liệu huấn luyện kiểm tra thấp, chưa đồng bộ, đặc trưng lựa chọn chưa hiệu Trong tương lai, để cải tiến hiệu phân lớp, chúng tơi giảm số lượng câu tập huấn luyện để tập trung nâng cao chất lượng gán nhãn tập Bên cạnh đó, để nâng cao chất lượng đặc trưng, đề xuất sử dụng thêm kiến thức chuyên gia ngôn ngữ hiểu biết lĩnh vực cụ thể để tránh trường hợp phân lớp sai dựa vào việc đếm từ câu Ví dụ chúng tơi phân biệt câu điều kiện để xử lý riêng, câu ghép có so 22 sánh, thay đổi quan điểm để xử lý riêng, v.v Ngoài ra, trình bày chương 1, chúng tơi cân nhắc hướng nghiên cứu khả thi có tiềm để tăng độ xác phân lớp nghiên cứu cài đặt phương pháp học máy deep learning cho phân lớp ... tiến thuật tốn phân tích quan điểm người dùng Các kỹ thuật phân loại Hình 1.1 [7] Trong ta thấy, có hai hướng tiếp cận kỹ thuật ứng dụng giải toán phân lớp quan điểm người dùng, là: sử dụng thuật. .. Mục tiêu luận văn Luận văn tập trung vào tìm hiểu mơ hình học máy có giám sát phổ biến, ứng dụng toán phân lớp quan điểm người dùng cho liệu văn thu từ kênh truyền thông xã hội Trong luận văn, lựa... cảm với nhiễu 1.5 Mô hình phân lớp Maximum Entropy Với nhược điểm hai phân lớp trên, phân lớp theo nguyên lý entropy cực đại đời, giải tương đối tốt toán phân lớp liệu dạng văn Trong chương 3,

Ngày đăng: 31/10/2020, 21:00