Tổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chí (Luận văn thạc sĩ)

57 100 0
Tổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chí (Luận văn thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chíTổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chíTổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chíTổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chíTổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chíTổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chíTổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chíTổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chíTổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chíTổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chíTổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chíTổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chí

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Trần Minh Hùng LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI – 2019 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Trần Minh Hùng TỔNG HỢP Ý KIẾN PHẢN HỒI CỦA ĐỘC GIẢ THEO SỰ KIỆN PHẢN ÁNH BỞI BÁO CHÍ Chuyên ngành: Hệ thống thông tin Mã số: 08.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN MẠNH HÙNG HÀ NỘI - 2019 i LỜI CAM ĐOAN Tôi cam đoan đề tài: “Tổng hợp ý kiến phản hồi độc giả theo kiện phản ánh báo chí” cơng trình nghiên cứu riêng tơi hướng dẫn TS Nguyễn Mạnh Hùng Các kết quả, phân tích, kết luận luận văn thạc sỹ (ngồi phần trích dẫn) kết làm việc tác giả, số liệu nêu luận văn trung thực chưa công bố cơng trình khác Nếu sai tơi xin hoàn toàn chịu trách nhiệm Hà Nội, ngày tháng năm 2019 Tác giả Trần Minh Hùng ii LỜI CẢM ƠN Lời cho em xin gửi lời cảm ơn chân thành đến thầy, cô giáo thuộc Khoa CNTT, Khoa QT&ĐT sau đại học thuộc Học viện Công nghệ Bưu viễn thơng tận tình giảng dạy, truyền đạt nội dung kiến thức, kinh nghiệm quý báu suốt trình em theo học Học viện Với học quý giá, kèm cặp, bảo truyền thụ tâm huyết thầy, cô giúp cá nhân em hoàn thiện hệ thống kiến thức chuyên ngành, phục vụ tốt yêu cầu công tác đơn vị đồng thời nâng cao vốn tri thức thân Đặc biệt, em xin gửi lời cảm ơn trân thành tới thầy hướng dẫn khoa học TS Nguyễn Mạnh Hùng, Khoa Công nghệ thơng tin tận tình bảo, hướng dẫn, cung cấp tài liệu nội dung kiến thức quý báu, đồng thời có định hướng đắn giúp em hoàn thành luận văn Em xin bày tỏ cảm ơn sâu sắc tới gia đình, đồng nghiệp tạo điều kiện, dành ủng hộ thân em để có nhiều thời gian cho khóa học, đạt kết khả quan trình học tập Đồng thời xin chân thành cảm ơn tập thể lớp Cao học Hệ thống thông tin – Đợt năm 2016 đồng hành, khích lệ chia sẻ suốt q trình học tập Em mong nhận dạy, đóng góp tận tình thầy, để luận văn em hồn thiện có tính ứng dụng cao thực tiễn Xin trân trọng cảm ơn! Hà Nội, ngày tháng năm 2019 Học viên Trần Minh Hùng iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC HÌNH v DANH MỤC CÁC BẢNG vi THUẬT NGỮ TIẾNG ANH vii MỞ ĐẦU Chương TỔNG QUAN VỀ PHÂN LOẠI NỘI DUNG VĂN BẢN 1.1 Tổng quan toán phân loại nội dung văn 1.1.1 Giới thiệu toán phân loại văn 1.1.2 Ứng dụng toán phân loại văn 1.2 Mơ hình cho tốn phân loại văn 1.2.1 Yêu cầu toán phân loại văn 1.2.2 Giai đoạn huấn luyện 1.2.3 Giai đoạn phân lớp 1.3 Tiền xử lý văn 1.3.1 Tách từ văn 1.3.2 Trọng số từ văn 13 1.3.3 Trích chọn đặc trưng văn .16 1.3.4 Các mơ hình biểu diễn văn 18 1.4 Đặc trưng văn Tiếng Việt 21 1.4.1 Đặc trưng tiếng Việt .21 iv 1.4.2 Đặc trưng văn tin tức 22 1.4.3 Xử lý tiếng Việt phân loại văn 22 1.5 Kết luận 23 Chương Thuật toán phân loại nội dung văn .24 2.1 Thuật toán Naive Bayes 24 2.2 Thuật toán Long Short Term Memory networks 26 2.2.1 Ý tưởng cốt lõi LSTM 27 2.2.2 Bên LSTM 28 2.3 Thuật toán phân loại văn dựa từ đại diện 30 2.3.1 Mơ tả thuật tốn chọn từ đại diện 30 2.3.2 Phân loại văn dựa độ tương đồng văn .32 2.4 Kết luận 35 Chương Cài Đặt Thuật Toán Đánh giá kết 36 3.1 Mơ tả cài đặt thuật tốn 36 3.1.1 Bộ liệu kiểm thử .37 3.1.2 Xây dựng kịch kiểm thử 38 3.2 Kết thực nghiệm đánh giá 40 3.2.1 Môi trường thực nghiệm 40 3.2.2 Kết thực nghiệm 41 3.2.3 Đánh giá kết thuật toán 44 3.3 Kết luận 45 KẾT LUẬN 46 TÀI LIỆU THAM KHẢO 47 v DANH MỤC CÁC HÌNH Hình 1 Mơ tả tốn phân loại nội dung văn .4 Hình Mơ hình thực toán phân loại văn Hình Chi tiết giai đoạn huấn luyện .7 Hình Biểu diễn văn theo mơ hình xác suất 19 Hình The repeating module in a standard RNN contains a single layer 26 Hình 2 The repeating module in an LSTM contains four interacting layers 27 Hình ký hiệu sử dụng mơ hình LSTM .27 Hình Mơ tả thuật tốn LSTM .28 Hình Mơ tả thuật tốn LSTM .29 Hình Mơ tả thuật toán LSTM .29 Hình Mơ tả thuật tốn LSTM .30 Hình Mơ hình xử lý cài đặt thuật toán 36 vi DANH MỤC CÁC BẢNG Bảng Tổng quan tập liệu training cho thuật toán .38 Bảng Contingency Table 42 Bảng 3 Kết thực nghiệm thu từ thuật toán phân loại 43 Bảng Kết thực nghiệm thu từ thuật toán Naive Bayes .43 Bảng Kết thực nghiệm thu từ thuật toán LSTM 44 Bảng Bảng tổng hợp kết thuật toán 44 vii THUẬT NGỮ TIẾNG ANH Từ viết tắt Tiếng Anh Tiếng Việt NB Nạve Bayes Thuật tốn Nạve Bayes WFST Weighted Finite State Transducer Máy chuyển đổi trạng thái hữu hạn có trọng số TBL Transformation-Based Learning Giải thuật học cải biến TF Term Frequency Tần suất xuất từ IDF Inverse Document Frequency Tần số nghịch từ tập văn LSTM Long Short Term Memory networks Mạng nhớ dài-ngắn RNN Recurrent Neural Network Mạng nơ-ron hồi quy MỞ ĐẦU Hiện với phát triển mạnh mẽ công nghệ thông tin, phổ biến mạng Internet môi trường phổ biến dùng để lưu trữ thông tin Một lượng lớn tri thức sản sinh chia sẻ mạng Internet Ngồi ra, hàng ngày có nhiều báo, sách chia sẻ hàng ngày mạng Internet để cập nhật thông tin sống quanh Cùng với nhu cầu tiếp thu kiến thức, lượng thông tin, tri thức mạng Internet người ngày tăng lên tiếp thu, chắt lọc nội dung phương pháp thông thường nhiều thời gian Ứng dụng phân loại nội dung văn tiếng Việt cung cấp thêm phương pháp tiếp cận thông tin dựa nội dung phân phân loại chủ đề giúp người đọc dễ dàng tiếp cận thơng tin mong muốn Phân loại nội dung của văn xử lý, phân tích , trích xuất tổng hợp nội dung văn tiếng Việt, từ phân loại nội dung văn theo chủ đề khác nhau, giúp người đọc dễ dàng nắm bắt văn có nội dung theo chủ đề mà người dùng quan tâm Đây đề tài có tính ứng dụng cao thực tiễn nên nghiên cứu giải nhiều phương pháp khác toàn giới Trong phạm vi luận văn làm việc văn tiếng Việt, cụ thể báo mạng Internet Vì vậy, Học viên xin chọn đề tài “Tổng hợp ý kiến phản hồi độc giả theo kiện phản ánh báo chí” nhằm phân loại nội báo mạng Internet theo thuật toán phân loại văn từ chọn thuật tốn phân loại nội dung báo tiếng Việt tốt khuôn khổ nghiên cứu Dựa vào việc cài đặt thuật toán kết thu báo để phân loại toán đưa kết đánh giá thuật toán thực phân loại văn Luận văn trình bày tổng quan tốn phân loại nội dung văn thuật toán xử lý phân loại nội dung văn Cài đặt thuật toán phân loại nội dung văn Tiếng việt mô tả luận văn với liệu đầu vào báo mạng Internet đưa kết đánh giá nhận 34 (2.16) b Tính độ tương đồng dựa vào độ đo khoảng cách Euclide Sử dụng khoảng cách Euclide phương pháp phổ biến để xác định mức độ tương đồng vector đặc trưng hai văn Cho hai vector ⃗⃗⃗⃗⃗ 𝑣𝑎 𝑣 ⃗⃗⃗⃗⃗𝑏 vector đặc trưng hai văn không gian Euclide n chiều: 𝑣𝑎 (wa1, wa2, , wan); 𝑣 ⃗⃗⃗⃗⃗= ⃗⃗⃗⃗⃗= 𝑏 (wb1, wb2, , wbn) Khoảng cách Euclide định nghĩa sau: 𝑛 𝑒𝑢𝑐_𝑑𝑖𝑠𝑡(𝑣 ⃗⃗⃗⃗⃗, ⃗⃗⃗⃗⃗) 𝑎 𝑣 𝑏 = √∑𝑖=1(𝑤𝑎𝑖 − 𝑤𝑏𝑖 ) (2.17) 𝑒𝑢𝑐_𝑑𝑖𝑠𝑡(𝑣 ⃗⃗⃗⃗⃗, ⃗⃗⃗⃗⃗) 𝑎 𝑣 𝑏 nằm khoảng 𝑛 Mức độ tương đồng hai vector xác định công thức: 𝑒𝑢𝑐_𝑠𝑖𝑚(⃗⃗⃗⃗⃗, 𝑣𝑎 𝑣 ⃗⃗⃗⃗⃗𝑏 ) = − ⃗⃗⃗⃗⃗,𝑣 𝑒𝑢𝑐_𝑑𝑖𝑠𝑡(𝑣 𝑎 ⃗⃗⃗⃗⃗) 𝑏 𝑛 = − √∑𝑛𝑖=1(𝑤𝑎𝑖 − 𝑤𝑏𝑖 )2 𝑛 (2.18) c Tính độ tương đồng dựa vào độ đo khoảng cách Manhattan Khoảng cách Manhattan phương pháp khác dùng để xác định mức độ tương đồng vector đặc trưng hai văn Cho hai vector ⃗⃗⃗⃗⃗ 𝑣𝑎 𝑣 ⃗⃗⃗⃗⃗: 𝑣𝑎 (wa1, wa2, , wan); 𝑣 ⃗⃗⃗⃗⃗= ⃗⃗⃗⃗⃗= (wb1, wb2, , wbn) 𝑏 𝑏 Khoảng cách Manhattan định nghĩa sau: 𝑛 𝑚𝑎𝑛_𝑑𝑖𝑠𝑡(𝑣 ⃗⃗⃗⃗⃗, ⃗⃗⃗⃗⃗) 𝑎 𝑣 𝑏 = ∑𝑖=1|𝑤𝑎𝑖 − 𝑤𝑏𝑖 | 𝑚𝑎𝑛_𝑑𝑖𝑠𝑡(𝑣 ⃗⃗⃗⃗⃗, ⃗⃗⃗⃗⃗) 𝑎 𝑣 𝑏 nằm khoảng 𝑛 Mức độ tương đồng hai vector xác định công thức: (2.19) 35 𝑚𝑎𝑛_𝑠𝑖𝑚(⃗⃗⃗⃗⃗, 𝑣𝑎 𝑣 ⃗⃗⃗⃗⃗𝑏 ) = − ⃗⃗⃗⃗⃗,𝑣 𝑚𝑎𝑛_𝑑𝑖𝑠𝑡(𝑣 𝑎 ⃗⃗⃗⃗⃗) 𝑏 𝑛 = − ∑𝑛𝑖=1|𝑤𝑎𝑖 − 𝑤𝑏𝑖 | 𝑛 (2.20) Nhận xét: Các phương pháp nêu cho kết tốt việc xác định mức độ tương đồng vector, nên tùy vào mục tiêu mà chọn phương pháp phù hợp 2.4 Kết luận Trong chương này, luận văn trình bày tốn phân loại văn tiếng Việt với thuật toán phân loại khái niệm liên quan như: kỹ thuật việc xử lý văn để phân loại tách từ, đánh trọng số từ văn bản, mơ hình biểu diễn văn bản, tính độ tương đồng văn Nội dung chương tập trung phân tích, làm rõ số giải pháp kỹ thuật liên quan, qua định hướng áp dụng việc giải toán phân loại văn phương pháp trích chọn đặc trưng, mơ hình biểu diễn văn bản, phương pháp đánh trọng số từ, thuật toán phân loại Kết nghiên cứu chương sở để giải toán phân loại văn tiếng Việt chương sau 36 CHƯƠNG CÀI ĐẶT THUẬT TOÁN VÀ ĐÁNH GIÁ KẾT QUẢ Trong chương này, luận văn trình bày bước cài đặt thuật tốn phân loại nội dung văn bản, kết thực nghiệm thu từ việc cài đặt sử dụng thuật toán Từ đưa kết luận đánh giá thuật toán sử dụng để phân loại nội dung văn 3.1 Mơ tả cài đặt thuật tốn Hình Mơ hình xử lý cài đặt thuật tốn Mơ hình mơ tả giai đoạn phân lớp văn bao gồm bước sau: Giai đoạn huấn luyện: - Tập văn bản: liệu đầu vào thuật toán, tập văn bao gồm tập báo mạng Internet tiếng Việt thu thập lại Toàn nguồn liệu dùng để kiểm thử xử lý thô tay Toàn liệu lưu lại định dạng txt để làm đầu vào cho chương trình - Tiền xử lý: giai đoạn xử lý liệu thơ đầu vào Văn trước Vector hố, tức trước sử dụng, cần phải tiền xử lý Quá trình tiền xử lý giúp nâng cao hiệu suất phân loại giảm độ phức tạp thuật tốn 37 - Trích trọng đặc trưng: giai đoạn tìm từ đặc trưng cho văn bản, văn lúc từ mang ý nghĩa loại bỏ từ khơng có ý nghĩa - Nhãn: tập liệu nhãn đầu vào thuật toán phân loại văn dựa từ đại diện, luận văn này, nhãn từ bao gồm nội dung báo, từ khóa liên quan đến chủ đề - Thuật tốn phân loại: Thuật tốn mô tả chi tiết chương luận văn Giai đoạn phân loại: - Văn bản: báo cần phân loại văn bản, người dùng phải đọc qua báo để xác địch từ khóa để gán cho nội dung báo thuật toán phân loại dựa từ đại diện Cịn với thuật tốn Naive Bayes thuật tốn LSTM nội dung văn đầu vào thuật tốn - Chọn N từ khóa: Đây bước mà người dùng cần phải nhập từ khóa liên quan đến nội dung báo cần phân loại (thuật toán phân loại văn dựa từ khóa) - Bộ phân loại: Đây bước áp dụng thuật tốn phân loại để tìm chủ đề văn Hai giai đoạn áp dụng tiến hành cài đặt thuật tốn mơ tả luận văn 3.1.1 Bộ liệu kiểm thử Sau cài đặt xong thuật toán thuật toán, phân loại thực huấn luyện qua tập liệu bao gồm 33850 báo tiếng Việt xử lý trước nội dung văn [15] Tập liệu sử dụng thuật toán phân loại để đảm bảo kết thực phân loại 38 Chi tiết sau: Bảng Tổng quan tập liệu training cho thuật toán Tên Chủ đề Số lượng Tổng dung lượng (MB) Chính trị xã hội 5219 21.4 Đời sống 3159 15.9 Kinh doanh 2552 10.3 Khoa học 1820 7.76 Pháp luật 3868 13.1 Sức khỏe 3384 13.0 Thế giới 2989 11.2 Thể thao 5298 25.9 Văn hóa 3080 14.1 Vi Tính 2481 8.63 33850 141.29 Tổng Tập liệu để phân loại thực nghiệm 500 báo ngẫu nhiên trang https://vnexpress.net/ , https://nld.com.vn/, https://thanhnien.vn/ Để đảm bảo tính khách quan thuật tốn, báo chọn làm thực nghiệm đảm bảo có nội dung với 10 chủ đề chọn Mỗi chủ đề có 50 báo Tập liệu nhãn bao gồm 10 chủ đề sau: Chính trị xã hội, Đời sống, Khoa học, Kinh doanh, Pháp luật, Sức khỏe, Thế giới, Thể thao, Văn hóa, Vi Tính 3.1.2 Xây dựng kịch kiểm thử Kiểm thử trình đánh giá hệ thống thành phần với mục đích xác định xem có thỏa mãn yêu cầu đưa hay 39 không Hiểu cách đơn giản, kiểm thử chạy chương trình để xác nhận lỗ hổng, lỗi sai hay yêu cầu bị bỏ quên, yêu cầu không so với yêu cầu thực tế đề Để thực kiểm thử thuật toán, luận văn xây dựng kịch kiểm thử thuật tốn cài đặt Mục đích để xác định mức độ xác thuật tốn Thuật toán Naive Bayes thuật toán LSTM Đầu vào thuật toán đơn giản nội dung báo mạng Bước 1: Chọn ngẫu nhiên 500 báo theo 10 chủ đề gán nhãn trang báo điện tử https://vnexpress.net/, https://thanhnien.vn/, https://nld.com.vn/ Bước 2: Lấy nội dung báo mạng làm đầu vào thuật toán, chạy thuật toán xác định chủ đề thuật tốn Bước 3: Tính độ xác thuật tốn dựa theo thơng số Accuracy, Recall, Precision, F1-score Thuật toán phân loại dựa từ đại diện Đầu vào thuật toán yêu cầu phải đưa danh sách N từ khóa, N từ khóa (N = 10) chọn từ đại diện nội dung cho báo, kịch kiểm thử xây dựng để thực phương pháp thủ công Các bước thực kiểm thử thuật toán bao gồm: Bước 1: Chọn ngẫu nhiên 500 báo theo 10 chủ đề gán nhãn trang báo điện tử https://vnexpress.net/, https://thanhnien.vn/, https://nld.com.vn/ Bước 2: Các từ khóa gán nhãn tag sau báo chọn để làm liệu đầu vào (N từ khóa) thuật tốn Bước 3: Nhập 10 từ khóa nhận từ bước 2, chạy thuật toán xác định chủ đề thuật tốn Bước 4: Tính độ xác thuật tốn dựa theo thơng số Accuracy, Recall, Precision, F1-score 40 Dựa vào kết thu sau kiểm thử, luận văn đánh giá thuật toán phân loại văn bản, cụ thể báo tiếng Việt mô tả luận văn 3.2 Kết thực nghiệm đánh giá 3.2.1 Môi trường thực nghiệm Các thuật toán phân loại văn trình bày luận văn cài đặt ngôn ngữ Python Python ngôn ngữ lập trình thơng dịch Guido van Rossum tạo năm 1990[3] Python hoàn toàn tạo kiểu động dùng chế cấp phát nhớ tự động, tương tự Perl, Ruby, Scheme, Smalltalk, Tcl Python phát triển dự án mã mở, tổ chức phi lợi nhuận Python Software Foundation quản lý # Python: Fibonacci series up to n >>> def fib(n): >>> a, b = 0, >>> while a < n: >>> print(a, end=‘ ‘) >>> a, b = b, a+b >>> print() >>> fib(1000) 1 13 21 34 55 89 144 233 377 610 987 Hình Mơ tả cú pháp, dòng lệnh Python  Sau đặc điểm Python: • Ngữ pháp đơn giản, dễ đọc • Vừa hướng thủ tục (procedural-oriented), vừa hướng đối tượng (objectoriented) • Hỗ trợ module hỗ trợ gói (package) • Xử lý lỗi ngoại lệ (Exception) • Kiểu liệu động mức cao 41 • Có thư viện chuẩn module ngoài, đáp ứng tất nhu cầu lập trình • Có khả tương tác với module khác viết C/C++ (Hoặc Java cho Jython, Net cho IronPython) • Có thể nhúng vào ứng dụng giao tiếp kịch (scripting interface) Hiện ngôn ngữ Python xếp hạng thứ Top 10 ngôn ngữ lập trình phổ biến giới sử dụng: Hình 3 Bảng xếp hạng ngơn ngữ lập trình năm 2016 3.2.2 Kết thực nghiệm Ma trận nhầm lẫn (Confusion Matrix): Contingency Table sử dụng toán phân loại [16] Trong đó: 𝑇𝑃𝑖 : Số lượng ví dụ thuộc lớp 𝐶𝑖 phân loại xác vào lớp 𝐶𝑖 𝐹𝑃𝑖 : Số lượng ví dụ khơng thuộc lớp 𝐶𝑖 bị phân loại nhầm vào lớp 𝐶𝑖 𝑇𝑁𝑖 : Số lượng ví dụ khơng thuộc lớp 𝐶𝑖 phân loại (chính xác) 42 𝐹𝑁𝑖 : Số lượng ví dụ thuộc lớp 𝐶𝑖 bị phân loại nhầm (vào lớp khác 𝐶𝑖 ) Bảng Contingency Table Lớp 𝐶𝑖 Được phân lớp thuật tốn Thuộc Khơng thuộc Phân lớp thực Thuộc 𝑇𝑃𝑖 𝐹𝑁𝑖 (đúng) 𝐹𝑃𝑖 𝑇𝑁𝑖 Khơng thuộc Trong thơng số Accuracy (độ xác) tính theo cơng thức [11]: Accuracy = 𝑇𝑃𝑖 + 𝑇𝑁𝑖 𝑇𝑃𝑖 + 𝑇𝑁𝑖 + 𝐹𝑃𝑖 +𝐹𝑁𝑖 (3.1) (Tổng số trường hợp phân loại chia cho tổng số trường hợp thực phân loại) Precision: tập tìm (phân loại) Precision = 𝑇𝑃𝑖 𝑇𝑃𝑖 + 𝐹𝑃𝑖 (3.2) (Tổng số ví dụ thuộc lớp 𝐶𝑖 phân loại xác chia cho tổng số ví dụ phân loại vào lớp 𝐶𝑖 ) Recall: số tồn tại, tìm (phân loại) Recall = 𝑇𝑃𝑖 𝑇𝑃𝑖 + 𝐹𝑁𝑖 (3.3) (Tổng số ví dụ thuộc lớp 𝐶𝑖 phân loại xác chia cho tổng số ví dụ thuộc lớp 𝐶𝑖 ) Tiêu chí đánh giá F1 kết hợp tiêu chí đánh giá Precision Recall F1 tính theo cơng thức: 𝐹 = 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛.𝑟𝑒𝑐𝑎𝑙𝑙 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛+𝑟𝑒𝑐𝑎𝑙𝑙 (3.4) Luận văn thực đánh giá độ xác thuật tốn dựa tham số Accuracy F1 Thực thực nghiệm thuật toán với 500 báo 10 chủ đề khác kịch kiểm thử mô tả phần 3.1.2 ta thu kết sau: 43 Bảng 3 Kết thực nghiệm thu từ thuật toán phân loại dựa từ đại diện Precision Recall Tên Chủ đề Accuracy Chính trị xã hội 0,76 0,838 0,62 0,712702 Đời sống 0,77 0,86 0,64 0,733867 Kinh doanh 0,91 0,96 0,86 0,907253 Khoa học 0,78 0,91 0,62 0,737516 Pháp luật 0,84 0,93 0,74 0,824192 Sức khỏe 0,84 0,95 0,76 0,844444 Thế giới 0,76 0,825 0,66 0,733333 Thể thao 0,99 0,98 0,989899 Văn hóa 0,91 0,82 0,901099 Vi Tính 0,86 0,88 0,84 0,859535 Trung bình 0,842 0,9133 0,756 0,824384 F1 - Score Bảng Kết thực nghiệm thu từ thuật toán Naive Bayes Tên Chủ đề Accuracy Precision Recall F1 - Score Chính trị xã hội 0,96 0,979 0,94 0,959104 Đời sống 0,95 0,959 0,94 0,949405 Kinh doanh 0,98 0,96 0,979592 Khoa học 0,97 0,98 0,96 0,969897 Pháp luật 0,99 0,98 0,989899 Sức khỏe 0,96 0,979 0,94 0,959104 Thế giới 0,95 0,959 0,94 0,949405 Thể thao 0,99 1 Văn hóa 0,99 0,98 0,989899 Vi Tính 0,99 0,98 0,98 0,98 Trung bình 0,973 0,9836 0,962 0,97263 44 Bảng Kết thực nghiệm thu từ thuật toán LSTM Tên Chủ đề Accuracy Precision Recall F1 - Score Chính trị xã hội 0,73 0,78 0,64 0,703099 Đời sống 0,71 0,733 0,66 0,694587 Kinh doanh 0,84 0,925 0,74 0,822222 Khoa học 0,83 0,946 0,7 0,804617 Pháp luật 0,84 0,925 0,74 0,822222 Sức khỏe 0,8 0,857 0,72 0,782549 Thế giới 0,8 0,875 0,7 0,777778 Thể thao 0,9 0,956 0,84 0,894254 Văn hóa 0,87 0,911 0,82 0,863108 Vi Tính 0,85 0,927 0,76 0,835234 Trung bình 0,817 0,8835 0,732 0,799967 3.2.3 Đánh giá kết thuật toán Dựa vào kết phân 3.2.2 ta thống kê độ xác thuật tốn theo bảng sau: Bảng Bảng tổng hợp kết thuật toán Thuật toán Accuracy F1 - Score Naive Bayes 0,973 0,97263 Thuật toán phân loại dựa từ đại diện 0,842 0,824384 LSTM 0,817 0,799967 Thuật tốn có độ xác cao thuật tốn Naive Bayes với độ xác 97,3% F1- score 0,97263 Thuật tốn có độ xác thấp thuật tốn LSTM với độ xác 81,7 F1-score 0,799967 45 Vậy thuật toán thực phân loại văn tiếng Việt, cụ thể báo mạng tiếng Việt, ta nên sử dụng thuật toán Naive Bayes để thực phân loại văn Chúng ta áp dụng thuật toán để giải toán phân loại văn cụ thể phân loại tin tức điện tử, báo mạng Internet với mơ hình sử dụng thuật tốn để tăng độ xác 3.3 Kết luận Trong chương này, luận văn trình bày việc cài đặt thuật toán phân loại nội dung báo mạng thực nghiệm báo thật để phân loại nội dung văn theo chủ đề báo Đánh giá kết nhận độ xác thuật tốn mơ tả luận văn.Kết thuật toán hữu ích cho việc tìm kiếm liệu đầu vào cho thuật toán học máy khác 46 KẾT LUẬN Những đóng góp luận văn Luận văn nghiên cứu trình bày chi tiết cơng thức, kiến thức liệu liên quan đến ba thuật toán phân loại văn phổ biến nhằm mục đích đánh giá độ xác thuật tốn, lựa chọn thuật toán phù hợp cho toán phân loại văn tiếng Việt Luận văn trình bày kết cài đặt thuật toán phân loại, thực xây dựng tập liệu kiểm thử , kịch kiểm thử cho thuật toán Thực nghiệm phân loại báo tiếng Việt dựa thuật toán cài đặt để đánh giá độ xác thuật tốn Những hạn chế cịn tồn Chưa xây dựng ứng dụng sử dụng thuật toán để phân loại văn thực tế Chưa xây dựng ứng dụng phân loại ý kiến bình luận báo Hướng phát triển luận văn Học viên tìm hiểu thêm cơng thức, thuật toán phân loại văn khác kết hợp thuật toán trình bày luận văn để tăng độ xác, hiệu phân loại gán nhãn nội dung văn Xây dựng ứng dụng hoàn chỉnh để phân loại văn bản, phân loại ý kiến bình luận báo mạng So sánh thuật tốn phân loại, nghiên cứu tìm thuật tốn phân loại văn hiệu Xây dựng máy tìm kiếm dựa theo thuật tốn mơ tả luận văn 47 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Nhật An, “Nghiên cứu, phát triển kĩ thuật tự động tóm tắt văn tiếng Việt” – Viện khoa học công nghệ quân [2] Nguyễn Thị Kim Anh, Trịnh Thị Ngọc Hương (2016), Nghiên cứu kỹ thuật đánh giá độ tương đồng văn ứng dụng so sánh văn tiếng Việt, Báo cáo nghiên cứu khoa học, Đại học Hàng hải Việt Nam, Hải Phòng [3] Nguyễn Thái Ân, “Ứng dụng deep learning cho phân tích cảm xúc với liệu twitter” – Học việc cơng nghệ bưu viễn thơng [4] Nguyễn Tạ, “Xây dựng hệ thống rút trích nội dung văn khoa học dựa cấu trúc” , - Trường đại học Lạc Hồng [5] Trần Thị Thu Thảo, Vũ Thị Chinh (2012), Xây dựng hệ thống phân loại tài liệu tiếng Việt, Báo cáo nghiên cứu khoa học, Đại học Lạc Hồng, Đồng Nai [6] Hà Quang Thụy (2009), Giáo trình khai phá liệu Web, NXB Giáo dục, Hà Nội [7] Ủy ban Khoa học Xã hội Việt Nam (1983), Ngữ pháp tiếng Việt, NXB Khoa học Xã hội, Hà Nội Tiếng Anh [8] Jey Han Lau, David Newman, Sarvnaz Karimi, Timothy Baldwin (2010) “Best Topic Word Selection for Topic Labelling” pp 605 – 613 [9] Steven Bird, Ewan Klein, Edward Loper (2009), Natural language processing with Python, O'Reilly Media, America 48 Link Tham Khảo [10] https://colah.github.io/posts/2015-08-Understanding-LSTMs/ [11] https://ongxuanhong.wordpress.com/2015/08/25/danh-gia-mo-hinh-model- evaluation/ [12] https://viblo.asia/p/phan-loai-van-ban-tieng-viet-tu-dong-phan-1- yMnKM3bal7P [13] https://viblo.asia/p/trich-chon-thuoc-tinh-trong-doan-van-ban-voi-tf-idf- Az45bAOqlxY [14] https://www.maxreading.com/sach-hay/dai-cuong-ve-tieng-viet/dac-diem- tieng-viet-29201.html [15] https://github.com/duyvuleo/VNTC [16] https://sites.google.com/site/diepnn80/datamininginfo/cacdodohaydungchobaito anphanloai ... BƯU CHÍNH VIỄN THƠNG Trần Minh Hùng TỔNG HỢP Ý KIẾN PHẢN HỒI CỦA ĐỘC GIẢ THEO SỰ KIỆN PHẢN ÁNH BỞI BÁO CHÍ Chuyên ngành: Hệ thống thông tin Mã số: 08.48.01.04 LUẬN VĂN THẠC... THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN MẠNH HÙNG HÀ NỘI - 2019 i LỜI CAM ĐOAN Tôi cam đoan đề tài: ? ?Tổng hợp ý kiến phản hồi độc giả theo kiện phản ánh báo chí? ?? cơng... cứu giải nhiều phương pháp khác toàn giới Trong phạm vi luận văn làm việc văn tiếng Việt, cụ thể báo mạng Internet Vì vậy, Học viên xin chọn đề tài ? ?Tổng hợp ý kiến phản hồi độc giả theo kiện phản

Ngày đăng: 14/03/2019, 23:24

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan