Nghiên cứu lý thuyết naive bayes và ứng dụng trong phân loại văn bản tiếng việt

83 398 3
Nghiên cứu lý thuyết naive bayes và ứng dụng trong phân loại văn bản tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

-i - ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG - - NGUYỄN THỊ THÙY DƯƠNG NGHIÊN CỨU LÝ THUYẾT NAIVE BAYES VÀ ỨNG DỤNG TRONG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.0101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS NGUYỄN THỊ THU HÀ THÁI NGUYÊN, NĂM 2015 -ii - LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực trực tiếp hướng dẫn cô giáo TS Nguyễn Thị Thu Hà Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian, địa điểm cơng bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm Tác giả luận văn Nguyễn Thị Thùy Dương -3 - LỜI CẢM ƠN Lời xin bày tỏ lòng biết ơn chân thành đến Ban Giám Hiệu, thầy giáo, giáo phòng Sau đại học trường Đại học Công Nghệ Thông Tin & Truyền Thông, thầy giáo Viện Công Nghệ Thông Tin giảng dạy tạo điều kiện cho học tập, nghiên cứu hoàn thành luận văn Đặc biệt, tơi xin bày tỏ kính trọng lòng biết ơn sâu sắc đến TS Nguyễn Thị Thu Hà, người tận tình hướng dẫn giúp đỡ tơi suốt q trình học tập, nghiên cứu hồn thành luận văn Tôi chân thành cảm ơn thầy cô Khoa Công nghệ thông tin, Trường Trung cấp nghề Phát Thanh Truyền Hình Thanh Hóa nơi tơi cơng tác tạo điều kiện hỗ trợ suốt thời gian qua Tôi xin chân thành cảm ơn người thân, bạn bè giúp đỡ động viên suốt thời gian học tập thời gian thực luận văn Xin chân thành cảm ơn! Thái Nguyên, ngày 20 tháng 08 năm 2015 MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iii DANH SÁCH CÁC BẢNG vi Chương 1: TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN 1.1 Giới thiệu toán phân loại văn tiếng Việt 1.1.1 Tổng quan toán phân loại văn 1.1.2 Mơ hình hệ thống phân loại văn 1.1.3 Các khái niệm phân loại văn 1.2 Các nghiên cứu liên quan 1.2.1 Đánh giá phân loại văn 11 1.2.2 Lý thuyết Naive Bayes 11 1.2.3 Khái niệm 12 1.3 Kết luận chương 17 Chương 2: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN PHƯƠNG PHÁP NAIVE BAYES 18 2.1 Bộ phân loại Naive Bayes 18 2.2 Phân loại văn tiếng Việt 22 2.2.1 Ứng dụng Naive Bayes phân loại văn tiếng Việt 22 2.2.2 Rút trích đặc trưng 25 2.2.3 Phân loại văn tiếng Việt dựa Naive Bayes 39 2.3 Kết luận chương 42 Chương 3: PHÁT TRIỂN HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN NAIVE BAYES 43 3.1 Mơ hình tổng qt hệ thống 43 3.2 Xây dựng tập ngữ liệu 44 3.2.1 Xây dựng tập liệu 44 3.2.2 Tiền xử lý chuẩn hóa liệu 47 3.2.3 Xây dựng từ điển danh từ 48 3.3 Môi trường cài đặt 50 3.3.1 Môi trường cài đặt hệ thống 50 3.3.2 Cấu trúc chương trình 50 3.3.3 Giao diện chương trình 51 3.4 Kết thực nghiệm 56 3.5 Kết luận chương 57 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 59 TÀI LIỆU THAM KHẢO 60 DANH SÁCH CÁC BẢNG Bảng1.2 Đánh giá phân loại văn 11 Bảng 2.1 Các từ chủ đề tập mô tả Andrews năm 2009 30 Bảng 2.2 Danh sách số chủ đề xây dựng 41 Bảng 3.1 Các chức chương trình 45 Bảng 3.2 Danh sách số từ tập từ chủ đề 49 Bảng 3.3 Độ triệu hồi thực truy vấn 57 DANH SÁCH HÌNH VẼ Hình 1.1 Q trình học phân loại văn Hình 1.2 Mơ hình SVM Hình 2.1 Mơ tả bước xây dựng phân lớp 21 Hình 2.2 Trực quan hóa liệu giảm chiều 26 Hình 2.3 Danh sách số từ dừng 27 Hình 2.4 Chỉ số ngữ nghĩa ẩn 28 Hình 2.5 Mô tả việc xếp văn vào chủ đề phù hợp 29 Hình 2.6 Mơ tả cách suy diễn chủ đề dựa thuật ngữ 30 Hình 2.7 Mơ hình chủ đề dựa mạng Bayesian 33 Hình 2.8 Mơ hình chủ đề dựa HMM 34 Hình 2.9 Quy trình phân loại văn tiếng Việt 36 Hình 2.10 Mơ hình chủ đề dựa xác suất 37 Hình 2.11 Thuật tốn xây dựng mơ hình chủ đề 39 Hình 3.1 Sơ đồ chức hệ thống xử lý văn tiếng Việt 43 Hình 3.2 Biểu đồ Use case tổng quát 44 Hình 3.2 Văn chuẩn hóa 48 Hình 3.3 Hệ thống VLSP 49 Hình 3.4 Giao diệntrang chủ 51 Hình 3.5 Giao diện thể loại tin 52 Hình 3.6 Giao diện tin huấn luyện 52 Hình 3.7 Giao diện danh sách từ khóa 53 Hình 3.8 Giao diện cài đặt huấn luyện 54 Hình 3.9 Giao diện huấn luyện phân loại 55 Hình 3.10 Giao diện danh sách tin tức 55 Hình 3.11 Giao diện người dùng 56 -ix - DANH SÁCH CÁC CHỮ VIẾT TẮT Viết tắt k- NN Tiếng Anh k- Nearest Neighbor Tiếng Việt k-Láng giềng gần SVM Support Vector Machine Máy véc tơ hỗ trợ RSS Really Simple Syndication Định dạng tập tin ML Machine Languages Ngôn ngữ máy LSI Latent Sematic Indexing Chỉ số ngữ nghĩa ẩn SVD Singular Value Decomposition Phân tích giá trị đơn -48 - Khi có >1 dấu cách đứng kề nhau, loại bớt đi, để lại dấu cách loại bỏ dấu cách đầu cuối câu Hình 3.2 mơ tả văn tiền xử lý chuẩn hóa lưu trữ sở liệu hệ thống Hình 3.2 Văn chuẩn hóa 3.2.3 Xây dựng từ điển danh từ Từ tập liệu huấn luyện ban đầu sau q trình chuẩn hóa văn ta xây dựng từ điển bao gồm danh từ Để xây dựng từ điển danh từ này, phải xây dựng cách thủ công dựa hệ thống gán nhãn từ loại lưu vào sở liệu hệ thống Hình 3.3 hệ thống gán nhãn từ loại mà luận văn sử dụng trình xây dựng từ điển danh từ thủ cơng Số hóa Trung tâm Học liệu ĐHTN tnu.edu.vn/ -49 - Hình 3.3 Hệ thống VLSP Bảng mô tả cấu trúc bảng bao gồm danh từ tập chủ đề tách từ tập liệu văn bảncủa kho ngữ liệu giá trị trọng số tương ứng Bảng 3.2 Danh sách số từ tập từ chủ đề STT Từ chủ đề Giá trị thông tin nhớ 0.057 xử lý 0.032 cấu hình 0.077 chat 0.045 internet 0.340 Lan 0.114 Đĩa cứng 0.008 hệ điều hành 0.176 Hacker 0.045 10 trình duyệt 0.032 Số hóa Trung tâm Học liệu ĐHTN tnu.edu.vn/ -50 - 11 wifi 0.016 12 Tín hiệu 0.036 13 windows 0.012 14 bo mạch chủ 0.012 15 vista 0.053 16 giao diện 0.081 17 Mã nguồn mở 0.024 18 Tín hiệu 0.036 19 điện thoại 0.303 20 hiệu 0.036 3.3 Môi trường cài đặt 3.3.1 Môi trường cài đặt hệ thống Hệ thống xây dựng web để thuận tiện cho việc tra cứu trực tuyến Ngôn ngữ lập trình sử dụng để xây dựng hệ thống ngôn ngữ C#.net Visual Studio 2013, với hệ quản trị sở liệu SQL Server 2008 Chương trình dễ dàng cài đặt chạy ổn định tảng hệ điều hành Windows XP Windows 3.3.2 Cấu trúc chương trình Trang quản trị Trang quản trị trang quản lý liệu chương trình Trong trang quản trị, người dùng quản lý thể loại, quản lý tin tức, quản lý văn huấn luyện,… Trong quản lý tin tức, người dùng lựa chọn chức hiển thị tin thu thập tự động Các tin này, phân loại hiển thị trực tiếp lên trang chủ phân loại chưa xác Số hóa Trung tâm Học liệu ĐHTN tnu.edu.vn/ -51 - tin đưa vào hàng chờ để người quản trị thực phân loại tay Trang chủ Trang chủ website trang hiển thị thông tin mục tin tức, thể loại tin chứa viết theo chủ đề Trang chủ trang mà người đọc tin thao tác chủ yếu với hệ thống Trên trang chủ hiển thị tin tức phân loại tự động, người quản trị phân loại cập nhật tay Người đọc tin chọn tin cần đọc để xem tồn chi tiết tin Trang chi tiết Trang chi tiết trang hiển thị nội dung chi tiết tin tức mà người dùng lựa chọn đọc tin Nội dung hiển thị trang chi tiết hiển thị theo nội dung viết trang báo điện tử mà tin lấy 3.3.3 Giao diện chương trình Giao diện trang chủ Hình 3.4 Giao diệntrang chủ Số hóa Trung tâm Học liệu ĐHTN tnu.edu.vn/ -52 - Giao diện thể loại tin Hình 3.5 Giao diện thể loại tin Giao diện Tin huấn luyện Hình 3.6 Giao diện tin huấn luyện Để huấn luyện tin trước hết người dùng cần chọn thể loại huấn luyện (những thể loại định nghĩa sẵn), sau chọn đường dẫn trang web Số hóa Trung tâm Học liệu ĐHTN tnu.edu.vn/ -53 - để lấy tin huấn luyện, nhấn nút Lấy tin để có tin huấn luyện, muốn hủy thao tác trước nhấn nút Hủy Để chỉnh sửa nội dung tin huấn luyện mục Chi tiết kích chọn để hiển thị chi tiết tin tức, người dùng chỉnh sửa nội dung, hình ảnh, Giao diện danh sách từ khóa Hình 3.7 Giao diện danh sách từ khóa Số hóa Trung tâm Học liệu ĐHTN tnu.edu.vn/ -54 - Ngồi từ khóa định nghĩa sẵn, người dùng định nghĩa thêm từ khóa khác , cách nhấn nút Thêm từ khóa để thêm từ khóa mới,bên cạnh người dung thực thao tác như: Thêm từ tệp tin, Xóa liệu HL, Xóa hết từ khóa Giao diện cài đặt huấn luyện Hình 3.8 Giao diện cài đặt huấn luyện Số hóa Trung tâm Học liệu ĐHTN tnu.edu.vn/ -55 - Giao diện huấn luyện phân loại Hình 3.9 Giao diện huấn luyện phân loại Giao diện danh sách tin tức Hình 3.10 Giao diện danh sách tin tức Số hóa Trung tâm Học liệu ĐHTN tnu.edu.vn/ -56 - Giao diện người dùng Hình 3.11 Giao diện người dùng 3.4 Kết thực nghiệm Chương trình xây dựng phân loại cho chủ đề: Xã hội , CNTT, Thể thao, Giáo dục.Số lượng 220 văn dùng cho đánh giá Luận văn sử dụng độ đo xác để đánh giá phương pháp phân loại văn sử dụng mô hình chủ đề NaiveBayes �= Trong đó: |� � =1 | �|�=1 | � �� ����� + �� - TP: văn phân loại - FP: văn phân loại bị sai Để tính số lượng đặc trưng trung bình giảm so với số đặc trưng ban đầu phân loại, luận văn sử dụng cơng thức sau: Số hóa Trung tâm Học liệu ĐHTN http://www.lrctnu.edu.vn/ -57 � ��� = ��� =1 � Số hóa Trung tâm Học liệu ĐHTN tnu.edu.vn/ Trong đó: - fi số đặc trưng tập test - N số văn tập test Kết đánh giá thực nghiệm Bảng 3.3 Độ triệu hồi thực truy vấn Số Phương pháp lượng Chủ đề truyền thống văn Số đặc trưng TB Độ xác Phương pháp áp dụng giảm chiều đặc trưng với topic modeling Số đặc trưng Độ TB xác Nghệ thuật 50 1120 0.86 435 0.916 Thể thao 30 835 0.88 251 0.96 Công nghệ 40 456 0.85,4 216 0.97 Thị trường 25 727 0.78 304 0.93 Tài 30 883 0.80,33 378 0.948 Bất động sản 45 954 0.82 452 0.92 Kết đánh giá bảng 3.3 cho thấy rằng, phương pháp luận văn đưa so với phương pháp truyền thống có số lượng đặc trưng giảm 60%, độ xác cao so với phương pháp truyền thống chủ đề phân loại Do số lượng đặc trưng giảm, đặc trưng nhiễu với chủ đề hơn, tốc độ tính tốn nhanh độ xác cao 3.5 Kết luận chương Trong chương này, trình bày chi tiết từ phân tích thiết kế hệ thống giao diện hệ thống Các chức hệ thống mơ tả rõ ràng, đầy đủ Đánh giá kết phương pháp luận văn thực cài đặt cho kết tốt phương pháp truyền thống số đặc trưng giảm 60% so với cách trích rút đặc trưng truyền thống, cho thấy phương pháp thực có ý nghĩa Trong luận văn sử dụng cách đánh giá chuyên gia người cho kết chấp nhận KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Với yêu cầu đặt việc nắm bắt thuật toán Naive Bayes để hiểu cách thức phân loại văn tiếng Việt từ áp dụng vào phân loại báo lĩnh vực Công nghệ thông tin theo chuyên ngành khác dựa việc khảo sát số hội thảo chuyên ngành CNTT nước, chương trình đáp ứng yêu cầu Cùng với chương trình đáp ứng thêm số chức năng: thêm, xóa, sửa, quản lý báo cách dễ dàng, thuận tiện Sau thời gian thực nghiên cứu luận văn thành công số công việc cụ thể sau: - Khảo sát tài liệu thuộc chuyên ngành Cơng nghệ thơng tin để tìm hiểu đặc trưng riêng - Nghiên cứu thuật tốn theo cơng trình số [8] thực việc đánh giá thử nghiệm - Xây dựng phần mềm phân loại theo phương pháp luận văn nghiên cứu Hướng phát triển đề tài: - Xây dựng danh sách hoàn thiện từ phổ thông, ký tự đặc biệt nhằm loại bỏ yếu tố gây nhiễu trình huấn luyện phân loại văn - Tiếp tục huấn luyện thêm liệu để đặc trưng chuyên ngành xác - Thực thử nghiệm số lượng lớn báo chưa phân loại TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Linh Giang, Nguyễn Mạnh Hiển,Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM [2] Nguyễn Hữu Quỳnh, Ngữ pháp Tiếng Việt, NXB Từ điển Bách Khoa, 2001 Tài liệu tiếng Anh [3].Ha Nguyen Thi Thu, Quynh Nguyen Huu, Khanh Nguyen Thi Hong, Hung Le Manh, Optimization for Vietnamese Text Classification Problem by Reducing Feature Set, 2012 6th International Conference on New Trends in Information Science, Service Science and Data Mining, pp 209-214, 2012 [4] C Apte, F Damerau, S Weiss,Automated Learning of Decision Rules for Text Categorization,ACM Transactions on Information Systems, 12(3), pp 233–251, 1994 [5] Novovicova J., Malik A., and Pudil P., “Feature Selection Using Improved Mutual Information for Text Classification”, SSPR&SPR 2004, LNCS 3138, pp 1010–1017, 2004 [6] Eui-Hong Han, Text Categorization Using Weight Adjusted k- Nearest Neighbor Classification PhD thesis, University of Minnesota, October 1999 [7] A Basu, C Watters, and M Shepherd, Support Vector Machines for Text Categorization, Proceedings of the 36th Hawaii International Conference on SystemSciences (HICSS’03), 0-7695-1874-5/03, 2003 [8] Aigars Mahinovs and Ashutosh Tiwari, Text Classification Review, Cranfield University, April 2007 Method [9] Hiroshi Shimodaira, Text Classification using Naive Bayes, Learning and Data Note, 10 February 2015 [10] Mark Steyvers, Tom Griffiths, Probabilistic Topic Models, In: In T Landauer, D McNamara, S Dennis, and W Kintsch (eds),Latent Semantic Analysis: A Road to Meaning Laurence Erlbaum, 2014 [11] Ha Nguyen Thi Thu, Tinh Thanh Dao, Vinh Ho Ngoc, Thanh Nguyen Hai, Building Vietnamese Topic Modeling Based on Core Terms and Applying in Text Classification, 2015 Fifth International Conference on Communication Systems and Network Technologies, pp 1284-1288, @2015 IEEEDOI 10.1109/CSNT.2015.22 [12].http://vlsp.vietlp.org:8080/ ... toán phân loại Đối tượng phạm vi nghiên cứu: Tìm hiểu lý thuyết Naive Bayes ứng dụng phân loại văn tiếng Việt Những nội dung nghiên cứu Chương 1: Tổng quan phân loại văn Tổng quan phân loại văn. .. niệm lý thuyết Naive Bayes, phân loại Naive Bayes mơ hình xác suất Chương 2: Phân loại văn tiếng Việt dựa phương pháp Naive Bayes Trình bày phương pháp phân loại văn tiếng Việt dựa phân loại Naive. .. 2: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN PHƯƠNG PHÁP NAIVE BAYES 18 2.1 Bộ phân loại Naive Bayes 18 2.2 Phân loại văn tiếng Việt 22 2.2.1 Ứng dụng Naive Bayes phân

Ngày đăng: 09/01/2019, 21:09

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan