Tổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chí tt

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Trần Minh Hùng TỔNG HỢP Ý KIẾN PHẢN HỒI CỦA ĐỘC GIẢ THEO SỰ KIỆN PHẢN ÁNH BỞI BÁO CHÍ Chuyên ngành: Hệ thống thơng tin Mã số: 08.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2019 Luận văn hoàn thành tại: HỌC VIÊN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Nguyễn Mạnh Hùng Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: …… giờ…….ngày …… tháng…… năm …… Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng MỞ ĐẦU Hiện với phát triển mạnh mẽ công nghệ thông tin, phổ biến mạng Internet môi trường phổ biến dùng để lưu trữ thông tin Một lượng lớn tri thức sản sinh chia sẻ mạng Internet Ngồi ra, hàng ngày có nhiều báo, sách chia sẻ hàng ngày mạng Internet để cập nhật thông tin sống quanh Cùng với nhu cầu tiếp thu kiến thức, lượng thông tin, tri thức mạng Internet người ngày tăng lên tiếp thu, chắt lọc nội dung phương pháp thông thường nhiều thời gian Ứng dụng phân loại nội dung văn tiếng Việt cung cấp thêm phương pháp tiếp cận thông tin dựa nội dung phân phân loại chủ đề giúp người đọc dễ dàng tiếp cận thông tin mong muốn Phân loại nội dung của văn xử lý, phân tích , trích xuất tổng hợp nội dung văn tiếng Việt, từ phân loại nội dung văn theo chủ đề khác nhau, giúp người đọc dễ dàng nắm bắt văn có nội dung theo chủ đề mà người dùng quan tâm Đây đề tài có tính ứng dụng cao thực tiễn nên nghiên cứu giải nhiều phương pháp khác toàn giới Trong phạm vi luận văn làm việc văn tiếng Việt, cụ thể báo mạng Internet Vì vậy, Học viên xin chọn đề tài “Tổng hợp ý kiến phản hồi độc giả theo kiện phản ánh báo chí” nhằm phân loại nội báo mạng Internet theo thuật toán phân loại văn từ chọn thuật tốn phân loại nội dung báo tiếng Việt tốt khuôn khổ nghiên cứu Dựa vào việc cài đặt thuật toán kết thu báo để phân loại toán đưa kết đánh giá thuật toán thực phân loại văn Luận văn trình bày tổng quan tốn phân loại nội dung văn thuật toán xử lý phân loại nội dung văn Cài đặt thuật toán phân loại nội dung văn Tiếng việt mô tả luận văn với liệu đầu vào báo mạng Internet đưa kết đánh giá nhận Luận văn có bố cục gồm: Phần mở đầu, chương chính, phần kết luận, tài liệu tham khảo phụ lục Được bố trí theo thứ tự: - Mở đầu - Chương 1: Tổng quan phân loại nội dung văn Trong chương này, luận văn trình bày tổng quan xử lý phân loại nội dung, đặc trưng văn tiếng Việt , phương pháp tiếp cận toán phân loại văn bước giai đoạn tiền xử lý văn trước thực phân loại văn Các thuật toán sử dụng để phân loại văn giới thiệu chương - Chương 2: Thuật toán phân loại nội dung văn Trong chương này, luận văn trình bày số thuật toán hay dùng để phân loại văn Luận văn trình bày chi tiết thuật toán sử dụng để phân loại nội dung văn tiếng Việt Việc cài đặt thuật toán đánh giá kết nhận thực chương - Chương 3: Cài đặt thuật toán đánh giá kết Trong chương này, luận văn trình bày bước cài đặt thuật tốn phân loại nội dung văn bản, kết thực nghiệm thu từ việc cài đặt sử dụng thuật toán Từ đưa kết luận đánh giá thuật toán sử dụng để phân loại nội dung văn - Kết luận luận văn - Tài liệu tham khảo CHƯƠNG TỔNG QUAN VỀ PHÂN LOẠI NỘI DUNG VĂN BẢN Trong chương này, luận văn trình bày tổng quan xử lý phân loại nội dung văn tiếng Việt, phương pháp tiếp cận toán phân loại văn bước hay dùng giai đoạn tiền xử lý văn 1.1 Tổng quan toán phân loại nội dung văn 1.1.1 Giới thiệu toán phân loại văn Nhiệm vụ xác định mơ hình phân loại mà gán lớp để tài liệu phân loại xác vào chủ đề tập chủ đề Hình 1 Mơ tả toán phân loại nội dung văn [12] Vậy phân loại văn trình phân loại, gán nhãn (lớp) cho tài liệu văn bao gồm văn có cấu trúc khơng cấu trúc vào tập hợp hay nhiều chủ đề định nghĩa trước 1.1.2 Ứng dụng toán phân loại văn Lọc thư rác Phân loại tin tức điện tử Xây dựng cỗ máy tìm kiếm 1.2 Mơ hình cho tốn phân loại văn Trong phần này, luận văn giới thiệu mơ hình để thực phân loại văn vào lớp Hình Mơ hình thực toán phân loại văn [9] 1.2.1 Yêu cầu toán phân loại văn Vậy để giải toán phân loại văn cần phải nắm được: - Dữ liệu đầu vào cho việc phân loại (tin tức điện tử, báo khoa học, nghị luận trị ) - Mơ hình thực phân loại văn - Thuật toán sử dụng để phân loại văn - Kết đánh giá Trong luận văn này, liệu đầu vào báo mạng Internet 1.2.2 Giai đoạn huấn luyện Các văn đầu vào gán nhãn trích chọn đặc trưng để nhận dạng sử dụng thuật toán học để lưu trữ lại giá trị đặc trưng theo mô hình chuẩn Hình Chi tiết giai đoạn huấn luyện [5] 1.2.3 Giai đoạn phân lớp Đây giai đoạn thực phân loại cho văn chưa có nhãn dựa mơ hình mẫu xây dựng từ giai đoạn huấn luyện 1.3 Tiền xử lý văn Trong phần này, luận văn trình bày bước thực giai đoạn tiền xử lý văn số mơ hình phương pháp áp dụng để thực giai đoạn 1.3.1 Tách từ văn Phương pháp khớp tối đa Mơ hình tách từ WFST mạng Neural Tầng WFST: Gồm có ba bước Bước 1: Xây dựng từ điển trọng số Bước 2: Xây dựng khả tách từ Bước 3: Lựa chọn khả tách tối ưu Tầng mạng Neural Phương pháp học dựa vào biến đổi trạng thái 1.3.2 Trọng số từ văn Mơ hình Boolean Phương pháp dựa tần số từ khố 1.3.3 Trích chọn đặc trưng văn a Phương pháp rút trích đặc trưng b Phương pháp đặc trưng đề nghị sử dụng luận văn 1.3.4 Các mơ hình biểu diễn văn Mơ hình xác suất Hình Biểu diễn văn theo mơ hình xác suất [1] Mơ hình xác suất mơ hình tốn học làm việc với biến ngẫu nhiên phân bố xác suất Theo thuật ngữ tốn học, mơ hình xác suất coi cặp (Y, P), Y tập quan sát (biến ngẫu nhiên) P tập phân bố xác suất Y Khi đó, sử dụng suy diễn xác suất cho ta kết luận phần tử tập Y Các phương pháp suy diễn phương pháp hồi quy suy diễn Bayes Mơ hình khơng gian vector  Các đặc trưng văn biểu diễn dạng vector - Không gian đặc trưng thường lớn Các văn dài, lượng thơng tin đề cập đến nhiều vấn đề khơng gian đặc trưng lớn - Các đặc trưng độc lập Sự kết hợp đặc trưng thường khơng có ý nghĩa phân lớp - Các đặc trưng rời rạc: Vector đặc trưng di có nhiều thành phần mang giá trị có nhiều đặc trưng khơng xuất văn d i (nếu tiếp cận theo cách sử dụng giá trị nhị phân 0,1 để biểu diễn cho việc có xuất hay khơng đặc trưng văn biểu diễn thành vector) 1.4 Đặc trưng văn Tiếng Việt 1.4.1 Đặc trưng tiếng Việt 1.4.2 Đặc trưng văn tin tức 1.4.3 Xử lý tiếng Việt phân loại văn 1.5 Kết luận Trong chương này, luận văn trình bày tổng quan xử lý phân loại nội dung, đặc trưng văn tiếng Việt , phương pháp tiếp cận toán phân loại văn bước giai đoạn tiền xử lý văn trước thực phân loại văn Các thuật toán sử dụng để phân loại văn giới thiệu chương CHƯƠNG THUẬT TOÁN PHÂN LOẠI NỘI DUNG VĂN BẢN Trong chương này, luận văn trình bày số thuật tốn hay dùng để phân loại văn Nội dung đầu vào thuật toán văn tiếng Việt Việc cài đặt thuật toán đánh giá kết nhận thực chương 2.1 Thuật tốn Naive Bayes Nạve Bayes (NB) [6] phương pháp phân loại dựa vào xác suất, coi thuật tốn phân lớp điển hình học máy khai phá liệu, đặc biệt sử dụng rộng rãi phân lớp văn Thuật tốn Nạve Bayes dựa định lý Bayes phát biểu sau: 𝑃 (𝑌 | 𝑋 ) = 𝑃(𝑋𝑌) 𝑃(𝑋) = 𝑃(𝑋|𝑌)𝑃(𝑌) 𝑃(𝑋) (2.1) Áp dụng tốn phân loại, kiện gồm có:  D: tập liệu huấn luyện vector hóa dạng 𝑥⃗ = (𝑥1 , 𝑥2 , … , 𝑥𝑛 )  Ci: phân lớp i, với i = {1,2,…,m}  Các thuộc tính độc lập điều kiện đơi với Theo định lý Bayes: 𝑃(𝐶𝑖 |𝑋) = 𝑃(𝑋|𝐶𝑖 )𝑃(𝐶𝑖 ) 𝑃(𝑋) (2.2) Theo tính chất độc lập điều kiện: 𝑃(𝑋 |𝐶𝑖 ) = ∏𝑛𝑘=1 𝑃(𝑥𝑘 |𝐶𝑖 ) Trong đó:  𝑃(𝐶𝑖 |𝑋) xác suất thuộc phân lớp i biết trước mẫu X  𝑃(𝐶𝑖 ) xác suất phân lớp i (2.3) 16 𝑊ị = 𝑡𝑓ị (2.15) √∑𝑗 𝑡𝑓2 𝑖𝑗 Với tfi,j tần số xuất mục từ i câu j Với không gian biểu diễn tài liệu chọn không gian vector trọng số TF Giả sử vector biểu diễn cho hai văn có dạng: Di = , với wti trọng số từ thứ t không gian i Dj = , với wtj trọng số từ thứ t khơng gian j Độ đo tương đồng tính Cosine góc vector biểu diễn cho hai văn Di Dj Độ tương tự chúng tính theo cơng thức: (2.16) b Tính độ tương đồng dựa vào độ đo khoảng cách Euclide Sử dụng khoảng cách Euclide phương pháp phổ biến để xác định mức độ tương đồng vector đặc trưng hai văn Cho hai vector ⃗⃗⃗⃗⃗ 𝑣𝑎 𝑣 ⃗⃗⃗⃗⃗𝑏 vector đặc trưng hai văn không gian Euclide n chiều: 𝑣𝑎 (wa1, wa2, , wan); 𝑣 ⃗⃗⃗⃗⃗= ⃗⃗⃗⃗⃗= 𝑏 (wb1, wb2, , wbn) Khoảng cách Euclide định nghĩa sau: 𝑛 𝑒𝑢𝑐_𝑑𝑖𝑠𝑡(𝑣 ⃗⃗⃗⃗⃗, ⃗⃗⃗⃗⃗) 𝑎 𝑣 𝑏 = √∑𝑖=1(𝑤𝑎𝑖 − 𝑤𝑏𝑖 ) (2.17) 𝑒𝑢𝑐_𝑑𝑖𝑠𝑡(𝑣 ⃗⃗⃗⃗⃗, ⃗⃗⃗⃗⃗) 𝑎 𝑣 𝑏 nằm khoảng 𝑛 Mức độ tương đồng hai vector xác định công thức: 17 𝑒𝑢𝑐_𝑠𝑖𝑚(⃗⃗⃗⃗⃗, 𝑣𝑎 𝑣 ⃗⃗⃗⃗⃗𝑏 ) = − ⃗⃗⃗⃗⃗,𝑣 𝑒𝑢𝑐_𝑑𝑖𝑠𝑡(𝑣 𝑎 ⃗⃗⃗⃗⃗) 𝑏 𝑛 = − √∑𝑛𝑖=1(𝑤𝑎𝑖 − 𝑤𝑏𝑖 )2 𝑛 (2.18) c Tính độ tương đồng dựa vào độ đo khoảng cách Manhattan Khoảng cách Manhattan phương pháp khác dùng để xác định mức độ tương đồng vector đặc trưng hai văn Cho hai vector ⃗⃗⃗⃗⃗ 𝑣𝑎 𝑣 ⃗⃗⃗⃗⃗: 𝑣𝑎 (wa1, wa2, , wan); 𝑣 ⃗⃗⃗⃗⃗= ⃗⃗⃗⃗⃗= (wb1, wb2, , wbn) 𝑏 𝑏 Khoảng cách Manhattan định nghĩa sau: 𝑛 𝑚𝑎𝑛_𝑑𝑖𝑠𝑡(𝑣 ⃗⃗⃗⃗⃗, ⃗⃗⃗⃗⃗) 𝑎 𝑣 𝑏 = ∑𝑖=1|𝑤𝑎𝑖 − 𝑤𝑏𝑖 | (2.19) 𝑚𝑎𝑛_𝑑𝑖𝑠𝑡(𝑣 ⃗⃗⃗⃗⃗, ⃗⃗⃗⃗⃗) 𝑎 𝑣 𝑏 nằm khoảng 𝑛 Mức độ tương đồng hai vector xác định công thức: 𝑚𝑎𝑛_𝑠𝑖𝑚(⃗⃗⃗⃗⃗, 𝑣𝑎 𝑣 ⃗⃗⃗⃗⃗𝑏 ) = − ⃗⃗⃗⃗⃗,𝑣 𝑚𝑎𝑛_𝑑𝑖𝑠𝑡(𝑣 𝑎 ⃗⃗⃗⃗⃗) 𝑏 𝑛 = − ∑𝑛𝑖=1|𝑤𝑎𝑖 − 𝑤𝑏𝑖 | 𝑛 (2.20) Nhận xét: Các phương pháp nêu cho kết tốt việc xác định mức độ tương đồng vector, nên tùy vào mục tiêu mà chọn phương pháp phù hợp 2.4 Kết luận Trong chương này, luận văn trình bày tốn phân loại văn tiếng Việt với thuật toán phân loại khái niệm liên quan như: kỹ thuật việc xử lý văn để phân loại tách từ, đánh trọng số từ văn bản, mơ hình biểu diễn văn bản, tính độ tương đồng văn Nội dung chương tập trung phân tích, làm rõ số giải pháp kỹ thuật liên quan, qua định hướng áp dụng việc giải toán phân loại văn phương pháp trích chọn đặc trưng, mơ hình biểu diễn văn bản, phương pháp đánh trọng số từ, thuật toán phân loại Kết nghiên cứu chương sở để giải toán phân loại văn tiếng Việt chương sau 18 CHƯƠNG CÀI ĐẶT THUẬT TOÁN VÀ ĐÁNH GIÁ KẾT QUẢ Trong chương này, luận văn trình bày bước cài đặt thuật tốn phân loại nội dung văn bản, kết thực nghiệm thu từ việc cài đặt sử dụng thuật toán Từ đưa kết luận đánh giá thuật toán sử dụng để phân loại nội dung văn 3.1 Mơ tả cài đặt thuật tốn Hình Mơ hình xử lý cài đặt thuật tốn Mơ hình mơ tả giai đoạn phân lớp văn bao gồm bước sau: Giai đoạn huấn luyện: - Tập văn bản: liệu đầu vào thuật toán, tập văn bao gồm tập báo mạng Internet tiếng Việt thu thập lại Toàn nguồn liệu dùng để kiểm thử xử lý thô tay Toàn liệu lưu lại định dạng txt để làm đầu vào cho chương trình - Tiền xử lý: giai đoạn xử lý liệu thơ đầu vào Văn trước Vector hố, tức trước sử dụng, cần phải tiền xử lý Quá trình tiền xử lý giúp nâng cao hiệu suất phân loại giảm độ phức tạp thuật tốn 19 - Trích trọng đặc trưng: giai đoạn tìm từ đặc trưng cho văn bản, văn lúc từ mang ý nghĩa loại bỏ từ khơng có ý nghĩa - Nhãn: tập liệu nhãn đầu vào thuật toán phân loại văn dựa từ đại diện, luận văn này, nhãn từ bao gồm nội dung báo, từ khóa liên quan đến chủ đề - Thuật tốn phân loại: Thuật tốn mô tả chi tiết chương luận văn Giai đoạn phân loại: - Văn bản: báo cần phân loại văn bản, người dùng phải đọc qua báo để xác địch từ khóa để gán cho nội dung báo thuật toán phân loại dựa từ đại diện Cịn với thuật tốn Naive Bayes thuật tốn LSTM nội dung văn đầu vào thuật tốn - Chọn N từ khóa: Đây bước mà người dùng cần phải nhập từ khóa liên quan đến nội dung báo cần phân loại (thuật toán phân loại văn dựa từ khóa) - Bộ phân loại: Đây bước áp dụng thuật tốn phân loại để tìm chủ đề văn Hai giai đoạn áp dụng tiến hành cài đặt thuật tốn mơ tả luận văn 3.1.1 Bộ liệu kiểm thử Tập liệu sử dụng thuật toán phân loại để đảm bảo kết thực phân loại 20 Chi tiết sau: Bảng Tổng quan tập liệu training cho thuật toán Tên Chủ đề Số lượng Tổng dung lượng (MB) Chính trị xã hội 5219 21.4 Đời sống 3159 15.9 Kinh doanh 2552 10.3 Khoa học 1820 7.76 Pháp luật 3868 13.1 Sức khỏe 3384 13.0 Thế giới 2989 11.2 Thể thao 5298 25.9 Văn hóa 3080 14.1 Vi Tính 2481 8.63 33850 141.29 Tổng Tập liệu để phân loại thực nghiệm 500 báo ngẫu nhiên trang https://vnexpress.net/ , https://nld.com.vn/, https://thanhnien.vn/ Để đảm bảo tính khách quan thuật tốn, báo chọn làm thực nghiệm đảm bảo có nội dung với 10 chủ đề chọn Tập liệu nhãn bao gồm 10 chủ đề sau: Chính trị xã hội, Đời sống, Khoa học, Kinh doanh, Pháp luật, Sức khỏe, Thế giới, Thể thao, Văn hóa, Vi Tính 3.1.2 Xây dựng kịch kiểm thử Kiểm thử trình đánh giá hệ thống thành phần với mục đích xác định xem có thỏa mãn yêu cầu đưa hay không Hiểu cách đơn giản, kiểm thử chạy chương trình để xác nhận lỗ hổng, lỗi sai hay yêu cầu bị bỏ quên, yêu cầu không so với 21 yêu cầu thực tế đề Để thực kiểm thử thuật toán, luận văn xây dựng kịch kiểm thử thuật tốn cài đặt Mục đích để xác định mức độ xác thuật toán Thuật toán Naive Bayes thuật toán LSTM Đầu vào thuật toán đơn giản nội dung báo mạng Bước 1: Chọn ngẫu nhiên 500 báo theo 10 chủ đề gán nhãn trang báo điện tử https://vnexpress.net/, https://thanhnien.vn/, https://nld.com.vn/ Bước 2: Lấy nội dung báo mạng làm đầu vào thuật toán, chạy thuật toán xác định chủ đề thuật tốn Bước 3: Tính độ xác thuật tốn dựa theo thơng số Accuracy, Recall, Precision, F1-score Thuật toán phân loại dựa từ đại diện Đầu vào thuật toán yêu cầu phải đưa danh sách N từ khóa, N từ khóa (N = 10) chọn từ đại diện nội dung cho báo, kịch kiểm thử xây dựng để thực phương pháp thủ công Các bước thực kiểm thử thuật toán bao gồm: Bước 1: Chọn ngẫu nhiên 500 báo theo 10 chủ đề gán nhãn trang báo điện tử https://vnexpress.net/, https://thanhnien.vn/, https://nld.com.vn/ Bước 2: Các từ khóa gán nhãn tag sau báo chọn để làm liệu đầu vào (N từ khóa) thuật tốn Bước 3: Nhập 10 từ khóa nhận từ bước 2, chạy thuật toán xác định chủ đề thuật tốn Bước 4: Tính độ xác thuật tốn dựa theo thơng số Accuracy, Recall, Precision, F1-score Dựa vào kết thu sau kiểm thử, luận văn đánh giá thuật toán phân loại văn bản, cụ thể báo tiếng Việt mô tả luận văn 22 3.2 Kết thực nghiệm đánh giá 3.2.1 Môi trường thực nghiệm Python ngôn ngữ lập trình thơng dịch Guido van Rossum tạo năm 1990[3] Python hoàn toàn tạo kiểu động dùng chế cấp phát nhớ tự động, tương tự Perl, Ruby, Scheme, Smalltalk, Tcl Python phát triển dự án mã mở, tổ chức phi lợi nhuận Python Software Foundation quản lý # Python: Fibonacci series up to n >>> def fib(n): >>> a, b = 0, >>> while a < n: >>> print(a, end=‘ ‘) >>> a, b = b, a+b >>> print() >>> fib(1000) 1 13 21 34 55 89 144 233 377 610 987 Hình Mơ tả cú pháp, dòng lệnh Python  Sau đặc điểm Python: • Ngữ pháp đơn giản, dễ đọc • Vừa hướng thủ tục (procedural-oriented), vừa hướng đối tượng (objectoriented) • Hỗ trợ module hỗ trợ gói (package) • Xử lý lỗi ngoại lệ (Exception) • Kiểu liệu động mức cao • Có thư viện chuẩn module ngoài, đáp ứng tất nhu cầu lập trình • Có khả tương tác với module khác viết C/C++ (Hoặc Java cho Jython, Net cho IronPython) 23 • Có thể nhúng vào ứng dụng giao tiếp kịch (scripting interface) Hình 3 Bảng xếp hạng ngơn ngữ lập trình năm 2016 3.2.2 Kết thực nghiệm Ma trận nhầm lẫn (Confusion Matrix): Contingency Table sử dụng toán phân loại [16] Trong đó: 𝑇𝑃𝑖 : Số lượng ví dụ thuộc lớp 𝐶𝑖 phân loại xác vào lớp 𝐶𝑖 𝐹𝑃𝑖 : Số lượng ví dụ không thuộc lớp 𝐶𝑖 bị phân loại nhầm vào lớp 𝐶𝑖 𝑇𝑁𝑖 : Số lượng ví dụ khơng thuộc lớp 𝐶𝑖 phân loại (chính xác) 𝐹𝑁𝑖 : Số lượng ví dụ thuộc lớp 𝐶𝑖 bị phân loại nhầm (vào lớp khác 𝐶𝑖 ) Bảng Contingency Table Lớp 𝐶𝑖 Được phân lớp thuật toán Thuộc Không thuộc Phân lớp thực Thuộc 𝑇𝑃𝑖 𝐹𝑁𝑖 (đúng) 𝐹𝑃𝑖 𝑇𝑁𝑖 Khơng thuộc 24 Trong thơng số Accuracy (độ xác) tính theo cơng thức [11]: Accuracy = 𝑇𝑃𝑖 + 𝑇𝑁𝑖 𝑇𝑃𝑖 + 𝑇𝑁𝑖 + 𝐹𝑃𝑖 +𝐹𝑁𝑖 (3.1) (Tổng số trường hợp phân loại chia cho tổng số trường hợp thực phân loại) Precision: tập tìm (phân loại) Precision = 𝑇𝑃𝑖 𝑇𝑃𝑖 + 𝐹𝑃𝑖 (3.2) (Tổng số ví dụ thuộc lớp 𝐶𝑖 phân loại xác chia cho tổng số ví dụ phân loại vào lớp 𝐶𝑖 ) Recall: số tồn tại, tìm (phân loại) Recall = 𝑇𝑃𝑖 𝑇𝑃𝑖 + 𝐹𝑁𝑖 (3.3) (Tổng số ví dụ thuộc lớp 𝐶𝑖 phân loại xác chia cho tổng số ví dụ thuộc lớp 𝐶𝑖 ) Tiêu chí đánh giá F1 kết hợp tiêu chí đánh giá Precision Recall F1 tính theo cơng thức: 𝐹 = 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛.𝑟𝑒𝑐𝑎𝑙𝑙 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛+𝑟𝑒𝑐𝑎𝑙𝑙 (3.4) Luận văn thực đánh giá độ xác thuật tốn dựa tham số Accuracy F1 Thực thực nghiệm thuật toán với 500 báo 10 chủ đề khác kịch kiểm thử mô tả phần 3.1.2 ta thu kết sau: 25 Bảng 3 Kết thực nghiệm thu thuật toán phân loại dựa từ đại diện Precision Recall Tên Chủ đề Accuracy Chính trị xã hội 0,76 0,838 0,62 0,712702 Đời sống 0,77 0,86 0,64 0,733867 Kinh doanh 0,91 0,96 0,86 0,907253 Khoa học 0,78 0,91 0,62 0,737516 Pháp luật 0,84 0,93 0,74 0,824192 Sức khỏe 0,84 0,95 0,76 0,844444 Thế giới 0,76 0,825 0,66 0,733333 Thể thao 0,99 0,98 0,989899 Văn hóa 0,91 0,82 0,901099 Vi Tính 0,86 0,88 0,84 0,859535 Trung bình 0,842 0,9133 0,756 0,824384 F1 - Score Bảng Kết thực nghiệm thu thuật toán Naive Bayes Tên Chủ đề Accuracy Precision Recall F1 - Score Chính trị xã hội 0,96 0,979 0,94 0,959104 Đời sống 0,95 0,959 0,94 0,949405 Kinh doanh 0,98 0,96 0,979592 Khoa học 0,97 0,98 0,96 0,969897 Pháp luật 0,99 0,98 0,989899 Sức khỏe 0,96 0,979 0,94 0,959104 Thế giới 0,95 0,959 0,94 0,949405 Thể thao 0,99 1 Văn hóa 0,99 0,98 0,989899 Vi Tính 0,99 0,98 0,98 0,98 Trung bình 0,973 0,9836 0,962 0,97263 26 Bảng Kết thực nghiệm thu thuật toán LSTM Tên Chủ đề Accuracy Precision Recall F1 - Score Chính trị xã hội 0,73 0,78 0,64 0,703099 Đời sống 0,71 0,733 0,66 0,694587 Kinh doanh 0,84 0,925 0,74 0,822222 Khoa học 0,83 0,946 0,7 0,804617 Pháp luật 0,84 0,925 0,74 0,822222 Sức khỏe 0,8 0,857 0,72 0,782549 Thế giới 0,8 0,875 0,7 0,777778 Thể thao 0,9 0,956 0,84 0,894254 Văn hóa 0,87 0,911 0,82 0,863108 Vi Tính 0,85 0,927 0,76 0,835234 Trung bình 0,817 0,8835 0,732 0,799967 3.2.3 Đánh giá kết thuật toán Dựa vào kết phân 3.2.2 ta thống kê độ xác thuật tốn theo bảng sau: Bảng Bảng tổng hợp kết thuật toán Thuật toán Accuracy F1 - Score Naive Bayes 0,973 0,97263 Thuật toán phân loại dựa từ đại diện 0,842 0,824384 LSTM 0,817 0,799967 Thuật tốn có độ xác cao thuật tốn Naive Bayes với độ xác 97,3% F1- score 0,97263 Thuật tốn có độ xác thấp thuật tốn LSTM với độ xác 81,7 F1-score 0,799967 27 3.3 Kết luận Trong chương này, luận văn trình bày việc cài đặt thuật toán phân loại nội dung báo mạng thực nghiệm báo thật để phân loại nội dung văn theo chủ đề báo Đánh giá kết nhận độ xác thuật tốn mơ tả luận văn.Kết thuật tốn hữu ích cho việc tìm kiếm liệu đầu vào cho thuật toán học máy khác 28 KẾT LUẬN Những đóng góp luận văn Luận văn nghiên cứu trình bày chi tiết cơng thức, kiến thức liệu liên quan đến ba thuật toán phân loại văn phổ biến nhằm mục đích đánh giá độ xác thuật tốn, lựa chọn thuật toán phù hợp cho toán phân loại văn tiếng Việt Luận văn trình bày kết cài đặt thuật toán phân loại, thực xây dựng tập liệu kiểm thử , kịch kiểm thử cho thuật toán Thực nghiệm phân loại báo tiếng Việt dựa thuật toán cài đặt để đánh giá độ xác thuật tốn Những hạn chế tồn Chưa xây dựng ứng dụng sử dụng thuật toán để phân loại văn thực tế Chưa xây dựng ứng dụng phân loại ý kiến bình luận báo Hướng phát triển luận văn Học viên tìm hiểu thêm cơng thức, thuật tốn phân loại văn khác kết hợp thuật tốn trình bày luận văn để tăng độ xác, hiệu phân loại gán nhãn nội dung văn Xây dựng ứng dụng hoàn chỉnh để phân loại văn bản, phân loại ý kiến bình luận báo mạng So sánh thuật toán phân loại, nghiên cứu tìm thuật tốn phân loại văn hiệu Xây dựng máy tìm kiếm dựa theo thuật tốn mơ tả luận văn 29 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Nhật An, “Nghiên cứu, phát triển kĩ thuật tự động tóm tắt văn tiếng Việt” – Viện khoa học công nghệ quân [2] Nguyễn Thị Kim Anh, Trịnh Thị Ngọc Hương (2016), Nghiên cứu kỹ thuật đánh giá độ tương đồng văn ứng dụng so sánh văn tiếng Việt, Báo cáo nghiên cứu khoa học, Đại học Hàng hải Việt Nam, Hải Phòng [3] Nguyễn Thái Ân, “Ứng dụng deep learning cho phân tích cảm xúc với liệu twitter” – Học việc công nghệ bưu viễn thơng [4] Nguyễn Tạ, “Xây dựng hệ thống rút trích nội dung văn khoa học dựa cấu trúc” , - Trường đại học Lạc Hồng [5] Trần Thị Thu Thảo, Vũ Thị Chinh (2012), Xây dựng hệ thống phân loại tài liệu tiếng Việt, Báo cáo nghiên cứu khoa học, Đại học Lạc Hồng, Đồng Nai [6] Hà Quang Thụy (2009), Giáo trình khai phá liệu Web, NXB Giáo dục, Hà Nội [7] Ủy ban Khoa học Xã hội Việt Nam (1983), Ngữ pháp tiếng Việt, NXB Khoa học Xã hội, Hà Nội Tiếng Anh [8] Jey Han Lau, David Newman, Sarvnaz Karimi, Timothy Baldwin (2010) “Best Topic Word Selection for Topic Labelling” pp 605 – 613 [9] Steven Bird, Ewan Klein, Edward Loper (2009), Natural language processing with Python, O'Reilly Media, America 30 Link Tham Khảo [10] https://colah.github.io/posts/2015-08-Understanding-LSTMs/ [11] https://ongxuanhong.wordpress.com/2015/08/25/danh-gia-mo-hinh-model- evaluation/ [12] https://viblo.asia/p/phan-loai-van-ban-tieng-viet-tu-dong-phan-1- yMnKM3bal7P [13] https://viblo.asia/p/trich-chon-thuoc-tinh-trong-doan-van-ban-voi-tf-idf- Az45bAOqlxY [14] https://www.maxreading.com/sach-hay/dai-cuong-ve-tieng-viet/dac-diem- tieng-viet-29201.html [15] https://github.com/duyvuleo/VNTC [16] https://sites.google.com/site/diepnn80/datamininginfo/cacdodohaydungchobaito anphanloai ... cứu giải nhiều phương pháp khác toàn giới Trong phạm vi luận văn làm việc văn tiếng Việt, cụ thể báo mạng Internet Vì vậy, Học viên xin chọn đề tài ? ?Tổng hợp ý kiến phản hồi độc giả theo kiện phản. .. đơn giản nội dung báo mạng Bước 1: Chọn ngẫu nhiên 500 báo theo 10 chủ đề gán nhãn trang báo điện tử https://vnexpress.net/, https://thanhnien.vn/, https://nld.com.vn/ Bước 2: Lấy nội dung báo. .. chia cho tổng số ví dụ thuộc lớp

Định dạng
Số trang	32
Dung lượng	1,1 MB