1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu lý thuyết naive bayes và ứng dụng trong phân loại văn bản tiếng việt

70 28 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 70
Dung lượng 2,92 MB

Nội dung

-i - ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG - - NGUYỄN THỊ THÙY DƢƠNG NGHIÊN CỨU LÝ THUYẾT NAIVE BAYES VÀ ỨNG DỤNG TRONG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.0101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: TS NGUYỄN THỊ THU HÀ THÁI NGUYÊN, NĂM 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -ii - LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực dƣới trực tiếp hƣớng dẫn cô giáo TS Nguyễn Thị Thu Hà Mọi tham khảo dùng luận văn đƣợc trích dẫn rõ ràng tên tác giả, tên cơng trình, thời gian, địa điểm cơng bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm Tác giả luận văn Nguyễn Thị Thùy Dƣơng Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -iii - LỜI CẢM ƠN Lời xin đƣợc bày tỏ lòng biết ơn chân thành đến Ban Giám Hiệu, thầy giáo, giáo phịng Sau đại học trƣờng Đại học Công Nghệ Thông Tin & Truyền Thông, thầy giáo Viện Công Nghệ Thông Tin giảng dạy tạo điều kiện cho học tập, nghiên cứu hoàn thành luận văn Đặc biệt, tơi xin bày tỏ kính trọng lòng biết ơn sâu sắc đến TS Nguyễn Thị Thu Hà, ngƣời tận tình hƣớng dẫn giúp đỡ tơi suốt q trình học tập, nghiên cứu hồn thành luận văn Tơi chân thành cảm ơn thầy cô Khoa Công nghệ thông tin, Trƣờng Trung cấp nghề Phát Thanh Truyền Hình Thanh Hóa nơi tơi cơng tác tạo điều kiện hỗ trợ suốt thời gian qua Tôi xin chân thành cảm ơn ngƣời thân, bạn bè giúp đỡ động viên suốt thời gian học tập nhƣ thời gian thực luận văn Xin chân thành cảm ơn! Thái Nguyên, ngày 20 tháng 08 năm 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -iv - MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iii DANH SÁCH CÁC BẢNG vi Chƣơng 1: TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN 1.1 Giới thiệu toán phân loại văn tiếng Việt 1.1.1 Tổng quan toán phân loại văn 1.1.2 Mơ hình hệ thống phân loại văn 1.1.3 Các khái niệm phân loại văn 1.2 Các nghiên cứu liên quan 1.2.1 Đánh giá phân loại văn 11 1.2.2 Lý thuyết Naive Bayes 11 1.2.3 Khái niệm 12 1.3 Kết luận chƣơng 17 Chƣơng 2: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN PHƢƠNG PHÁP NAIVE BAYES 18 2.1 Bộ phân loại Naive Bayes 18 2.2 Phân loại văn tiếng Việt 22 2.2.1 Ứng dụng Naive Bayes phân loại văn tiếng Việt 22 2.2.2 Rút trích đặc trƣng 25 2.2.3 Phân loại văn tiếng Việt dựa Naive Bayes 39 2.3 Kết luận chƣơng 42 Chƣơng 3: PHÁT TRIỂN HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN NAIVE BAYES 43 3.1 Mơ hình tổng qt hệ thống 43 3.2 Xây dựng tập ngữ liệu 44 3.2.1 Xây dựng tập liệu 44 3.2.2 Tiền xử lý chuẩn hóa liệu 47 3.2.3 Xây dựng từ điển danh từ 48 3.3 Môi trƣờng cài đặt 50 3.3.1 Môi trƣờng cài đặt hệ thống 50 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -v - 3.3.2 Cấu trúc chƣơng trình 50 3.3.3 Giao diện chƣơng trình 51 3.4 Kết thực nghiệm 56 3.5 Kết luận chƣơng 57 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 59 TÀI LIỆU THAM KHẢO 60 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -vi - DANH SÁCH CÁC BẢNG Bảng1.2 Đánh giá phân loại văn 11 Bảng 2.1 Các từ chủ đề tập mô tả Andrews năm 2009 30 Bảng 2.2 Danh sách số chủ đề đƣợc xây dựng 41 Bảng 3.1 Các chức chƣơng trình 45 Bảng 3.2 Danh sách số từ tập từ chủ đề 49 Bảng 3.3 Độ triệu hồi thực truy vấn 57 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -vii - DANH SÁCH HÌNH VẼ Hình 1.1 Q trình học phân loại văn Hình 1.2 Mơ hình SVM Hình 2.1 Mơ tả bƣớc xây dựng phân lớp 21 Hình 2.2 Trực quan hóa liệu giảm chiều 26 Hình 2.3 Danh sách số từ dừng 27 Hình 2.4 Chỉ số ngữ nghĩa ẩn 28 Hình 2.5 Mô tả việc xếp văn vào chủ đề phù hợp 29 Hình 2.6 Mơ tả cách suy diễn chủ đề dựa thuật ngữ 30 Hình 2.7 Mơ hình chủ đề dựa mạng Bayesian 33 Hình 2.8 Mơ hình chủ đề dựa HMM 34 Hình 2.9 Quy trình phân loại văn tiếng Việt 36 Hình 2.10 Mơ hình chủ đề dựa xác suất 37 Hình 2.11 Thuật tốn xây dựng mơ hình chủ đề 39 Hình 3.1 Sơ đồ chức hệ thống xử lý văn tiếng Việt 43 Hình 3.2 Biểu đồ Use case tổng quát 44 Hình 3.2 Văn chuẩn hóa 48 Hình 3.3 Hệ thống VLSP 49 Hình 3.4 Giao diệntrang chủ 51 Hình 3.5 Giao diện thể loại tin 52 Hình 3.6 Giao diện tin huấn luyện 52 Hình 3.7 Giao diện danh sách từ khóa 53 Hình 3.8 Giao diện cài đặt huấn luyện 54 Hình 3.9 Giao diện huấn luyện phân loại 55 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -viii - Hình 3.10 Giao diện danh sách tin tức 55 Hình 3.11 Giao diện ngƣời dùng 56 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -ix - DANH SÁCH CÁC CHỮ VIẾT TẮT Viết tắt k- NN Tiếng Anh k- Nearest Neighbor Tiếng Việt k-Láng giềng gần SVM Support Vector Machine Máy véc tơ hỗ trợ RSS Really Simple Syndication Định dạng tập tin ML Machine Languages Ngôn ngữ máy LSI Latent Sematic Indexing Chỉ số ngữ nghĩa ẩn SVD Singular Value Decomposition Phân tích giá trị đơn sffDđsadfsdầdsafdsaDecomposD ecompositio Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -1 - MỞ ĐẦU Lý chọn đề tài Với lƣợng thông tin đồ sộ, yêu cầu lớn đặt tổ chức tìm kiếm thơng tin có hiệu Phân loại thông tin giải pháp hợp lý cho yêu cầu Nhƣng thực tế khối lƣợng thông tin lớn, việc phân loại liệu thủ công điều không tƣởng Hƣớng giải chƣơng trình máy tính tự động phân loại thông tin Đề tài “Nghiên cứu lý thuyết Naive Bayes ứng dụng phân loại văn Tiếng Việt” nhằm tìm hiểu thử nghiệm phƣơng pháp phân loại văn áp dụng tiếng Việt Phân loại văn (Text classification) công cụ khai phá liệu dạng văn cách hữu hiệu, làm nhiệm vụ đƣa văn có nội dung chủ đề giống lớp có sẵn Phân loại văn giúp ngƣời dùng dễ dàng việc tìm kiếm thơng tin cần thiết đồng thời lƣu trữ thông tin theo chủ đề (topic) hay lớp (class) dựa thuật toán phân loại Đối tƣợng phạm vi nghiên cứu: Tìm hiểu lý thuyết Naive Bayes ứng dụng phân loại văn tiếng Việt Những nội dung nghiên cứu  Chƣơng 1: Tổng quan phân loại văn Tổng quan phân loại văn khái niệm lý thuyết Naive Bayes, phân loại Naive Bayes mơ hình xác suất  Chƣơng 2: Phân loại văn tiếng Việt dựa phƣơng pháp Naive Bayes Trình bày phương pháp phân loại văn tiếng Việt dựa phân loại Naive Bayes cách giảm chiều đặc trưng nhằm tăng tốc q trình tính tốn xử lý cách sử dụng mơ hình chủ đề dùng cho tiếng Việt Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -47 - văn văn huấn luyện Các văn huấn luyện huấn luyện đƣợc lƣu trữ thƣ mục Trainning Data, file huấn luyện thể loại chứa thơng tin thể loại Chức cho phép thêm, sửa, xóa từ chuyên Quản lý từ điển, từ dừng ngành cho từ thể loại Mỗi thể loại có từ điển để phục vụ cho việc phân loại văn Ngoài từ từ điển, cịn có từ từ dừng Đây từ bỏ qua q trình phân loại nhằm tăng tốc độ phân loại thuật toán Chức có phép thêm, sửa, xóa tin tức mà thu thập đƣợc Tại đây, ta thay đổi nội Quản lý tin tức dung, tiêu đề, tóm tắt, thể loại tin tức Ta kiểm tra số lƣợt xem viết để xem viết đƣợc quan tâm 3.2.2 Tiền xử lý chuẩn hóa liệu Tập văn đầu vào văn dạng thô, để đơn giản cho việc xử lý liệu, với văn đầu vào, ta thực hiệc qua bƣớc tiền xử lý ký tự để đƣa văn dạng xâu chuẩn Ở xâu chuẩn xâu mà khơng có dấu cách liền nhau, có dấu câu kết thúc xâu, trƣớc dấu câu khơng có dấu cách Để có đƣợc xâu chuẩn, chuẩn bị cho việc tách từ, ta thực qua bƣớc sau: Chuyển hết ký tự chữ hoa thành chữ thƣờng Dùng dấu câu (bao gồm dấu “.” “,” “:”…) để tách văn thành tập hợp câu Ta tách nhƣ âm tiết cách dấu câu không thuộc từ Tiến hành chuẩn hố với câu: Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -48 - Khi có >1 dấu cách đứng kề nhau, loại bớt đi, để lại dấu cách loại bỏ dấu cách đầu cuối câu Hình 3.2 dƣới mô tả văn đƣợc tiền xử lý chuẩn hóa lƣu trữ sở liệu hệ thống Hình 3.2 Văn chuẩn hóa 3.2.3 Xây dựng từ điển danh từ Từ tập liệu huấn luyện ban đầu sau trình chuẩn hóa văn ta xây dựng từ điển bao gồm danh từ Để xây dựng đƣợc từ điển danh từ này, phải xây dựng cách thủ công dựa hệ thống gán nhãn từ loại lƣu vào sở liệu hệ thống Hình 3.3 dƣới hệ thống gán nhãn từ loại mà luận văn sử dụng trình xây dựng từ điển danh từ thủ cơng Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -49 - Hình 3.3 Hệ thống VLSP Bảng dƣới mơ tả cấu trúc bảng bao gồm danh từ tập chủ đề đƣợc tách từ tập liệu văn bảncủa kho ngữ liệu giá trị trọng số tƣơng ứng Bảng 3.2 Danh sách số từ tập từ chủ đề Từ chủ đề Giá trị thông tin nhớ 0.057 xử lý 0.032 cấu hình 0.077 chat 0.045 internet 0.340 Lan 0.114 Đĩa cứng 0.008 hệ điều hành 0.176 Hacker 0.045 10 trình duyệt 0.032 STT Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -50 - 11 wifi 0.016 12 Tín hiệu 0.036 13 windows 0.012 14 bo mạch chủ 0.012 15 vista 0.053 16 giao diện 0.081 17 Mã nguồn mở 0.024 18 Tín hiệu 0.036 19 điện thoại 0.303 20 hiệu 0.036 3.3 Môi trƣờng cài đặt 3.3.1 Môi trường cài đặt hệ thống Hệ thống đƣợc xây dựng web để thuận tiện cho việc tra cứu trực tuyến Ngơn ngữ lập trình đƣợc sử dụng để xây dựng hệ thống ngôn ngữ C#.net Visual Studio 2013, với hệ quản trị sở liệu SQL Server 2008 Chƣơng trình dễ dàng cài đặt chạy ổn định tảng hệ điều hành Windows XP Windows 3.3.2 Cấu trúc chương trình Trang quản trị Trang quản trị trang quản lý liệu chƣơng trình Trong trang quản trị, ngƣời dùng quản lý thể loại, quản lý tin tức, quản lý văn huấn luyện,… Trong quản lý tin tức, ngƣời dùng lựa chọn chức hiển thị tin đƣợc thu thập tự động Các tin này, đƣợc phân loại đƣợc hiển thị trực tiếp lên trang chủ đƣợc phân loại nhƣng chƣa xác Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -51 - tin đƣợc đƣa vào hàng chờ để ngƣời quản trị thực phân loại tay Trang chủ Trang chủ website trang hiển thị thông tin mục tin tức, thể loại tin chứa viết theo chủ đề Trang chủ trang mà ngƣời đọc tin thao tác chủ yếu với hệ thống Trên trang chủ hiển thị tin tức đƣợc phân loại tự động, ngƣời quản trị phân loại cập nhật tay Ngƣời đọc tin chọn tin cần đọc để xem toàn chi tiết tin Trang chi tiết Trang chi tiết trang hiển thị nội dung chi tiết tin tức mà ngƣời dùng lựa chọn đọc tin Nội dung hiển thị trang chi tiết đƣợc hiển thị theo nội dung viết trang báo điện tử mà tin đƣợc lấy 3.3.3 Giao diện chương trình Giao diện trang chủ Hình 3.4 Giao diệntrang chủ Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -52 - Giao diện thể loại tin Hình 3.5 Giao diện thể loại tin Giao diện Tin huấn luyện Hình 3.6 Giao diện tin huấn luyện Để huấn luyện tin trƣớc hết ngƣời dùng cần chọn thể loại huấn luyện (những thể loại định nghĩa sẵn), sau chọn đƣờng dẫn trang web Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -53 - để lấy tin huấn luyện, nhấn nút Lấy tin để có tin huấn luyện, muốn hủy thao tác trƣớc nhấn nút Hủy Để chỉnh sửa nội dung tin huấn luyện mục Chi tiết kích chọn để hiển thị chi tiết tin tức, ngƣời dùng chỉnh sửa nội dung, hình ảnh, Giao diện danh sách từ khóa Hình 3.7 Giao diện danh sách từ khóa Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -54 - Ngoài từ khóa định nghĩa sẵn, ngƣời dùng định nghĩa thêm từ khóa khác , cách nhấn nút Thêm từ khóa để thêm từ khóa mới,bên cạnh ngƣời dung thực thao tác nhƣ: Thêm từ tệp tin, Xóa liệu HL, Xóa hết từ khóa Giao diện cài đặt huấn luyện Hình 3.8 Giao diện cài đặt huấn luyện Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -55 - Giao diện huấn luyện phân loại Hình 3.9 Giao diện huấn luyện phân loại Giao diện danh sách tin tức Hình 3.10 Giao diện danh sách tin tức Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -56 - Giao diện ngƣời dùng Hình 3.11 Giao diện người dùng 3.4 Kết thực nghiệm Chƣơng trình xây dựng phân loại cho chủ đề: Xã hội , CNTT, Thể thao, Giáo dục.Số lƣợng 220 văn dùng cho đánh giá Luận văn sử dụng độ đo xác để đánh giá phƣơng pháp phân loại văn sử dụng mô hình chủ đề NaiveBayes 𝜋= |𝑐| 𝑖=1 𝑇𝑃𝑖 |𝑐| 𝑖=1 𝑇𝑃𝑖 + 𝐹𝑃𝑖 Trong đó: - TP: văn đƣợc phân loại - FP: văn phân loại bị sai Để tính số lƣợng đặc trƣng trung bình đƣợc giảm so với số đặc trƣng ban đầu phân loại, luận văn sử dụng công thức sau: 𝐴𝐹 = Số hóa Trung tâm Học liệu - ĐHTN 𝑚 𝑖=1 𝑓𝑖 𝑁 http://www.lrc-tnu.edu.vn/ -57 - Trong đó: - fi số đặc trƣng tập test - N số văn tập test Kết đánh giá thực nghiệm Bảng 3.3 Độ triệu hồi thực truy vấn Số Phƣơng pháp lƣợng Chủ đề truyền thống văn Số đặc trƣng TB Độ xác Phƣơng pháp áp dụng giảm chiều đặc trƣng với topic modeling Số đặc trƣng Độ TB xác Nghệ thuật 50 1120 0.86 435 0.916 Thể thao 30 835 0.88 251 0.96 Công nghệ 40 456 0.85,4 216 0.97 Thị trƣờng 25 727 0.78 304 0.93 Tài 30 883 0.80,33 378 0.948 Bất động sản 45 954 0.82 452 0.92 Kết đánh giá bảng 3.3 cho thấy rằng, phƣơng pháp luận văn đƣa so với phƣơng pháp truyền thống có số lƣợng đặc trƣng giảm 60%, độ xác cao so với phƣơng pháp truyền thống chủ đề phân loại Do số lƣợng đặc trƣng giảm, đặc trƣng nhiễu với chủ đề hơn, tốc độ tính tốn nhanh độ xác cao 3.5 Kết luận chƣơng Trong chƣơng này, trình bày chi tiết từ phân tích thiết kế hệ thống giao diện hệ thống Các chức hệ thống đƣợc mơ tả rõ ràng, đầy đủ Đánh giá kết phƣơng pháp luận văn thực cài đặt cho kết tốt phƣơng pháp truyền thống số đặc trƣng giảm 60% so Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -58 - với cách trích rút đặc trƣng truyền thống, cho thấy phƣơng pháp thực có ý nghĩa Trong luận văn sử dụng cách đánh giá chuyên gia ngƣời cho kết chấp nhận đƣợc Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -59 - KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Với yêu cầu đặt việc nắm bắt thuật toán Naive Bayes để hiểu cách thức phân loại văn tiếng Việt từ áp dụng vào phân loại báo lĩnh vực Công nghệ thông tin theo chuyên ngành khác dựa việc khảo sát số hội thảo chuyên ngành CNTT nƣớc, chƣơng trình đáp ứng đƣợc yêu cầu Cùng với chƣơng trình đáp ứng thêm số chức năng: thêm, xóa, sửa, quản lý báo cách dễ dàng, thuận tiện Sau thời gian thực nghiên cứu luận văn thành công số công việc cụ thể sau: - Khảo sát tài liệu thuộc chun ngành Cơng nghệ thơng tin để tìm hiểu đặc trƣng riêng - Nghiên cứu thuật toán theo cơng trình số [8] thực việc đánh giá thử nghiệm - Xây dựng phần mềm phân loại theo phƣơng pháp luận văn nghiên cứu Hƣớng phát triển đề tài: - Xây dựng danh sách hoàn thiện từ phổ thông, ký tự đặc biệt nhằm loại bỏ yếu tố gây nhiễu trình huấn luyện nhƣ phân loại văn - Tiếp tục huấn luyện thêm liệu để đặc trƣng chuyên ngành đƣợc xác - Thực thử nghiệm số lƣợng lớn báo chƣa đƣợc phân loại Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -60 - TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Linh Giang, Nguyễn Mạnh Hiển,Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM [2] Nguyễn Hữu Quỳnh, Ngữ pháp Tiếng Việt, NXB Từ điển Bách Khoa, 2001 Tài liệu tiếng Anh [3].Ha Nguyen Thi Thu, Quynh Nguyen Huu, Khanh Nguyen Thi Hong, Hung Le Manh, Optimization for Vietnamese Text Classification Problem by Reducing Feature Set, 2012 6th International Conference on New Trends in Information Science, Service Science and Data Mining, pp 209-214, 2012 [4] C Apte, F Damerau, S Weiss,Automated Learning of Decision Rules for Text Categorization,ACM Transactions on Information Systems, 12(3), pp 233–251, 1994 [5] Novovicova J., Malik A., and Pudil P., “Feature Selection Using Improved Mutual Information for Text Classification”, SSPR&SPR 2004, LNCS 3138, pp 1010–1017, 2004 [6] Eui-Hong Han, Text Categorization Using Weight Adjusted k- Nearest Neighbor Classification PhD thesis, University of Minnesota, October 1999 [7] A Basu, C Watters, and M Shepherd, Support Vector Machines for Text Categorization, Proceedings of the 36th Hawaii International Conference on SystemSciences (HICSS’03), 0-7695-1874-5/03, 2003 [8] Aigars Mahinovs and Ashutosh Tiwari, Text Classification Method Review, Cranfield University, April 2007 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -61 - [9] Hiroshi Shimodaira, Text Classification using Naive Bayes, Learning and Data Note, 10 February 2015 [10] Mark Steyvers, Tom Griffiths, Probabilistic Topic Models, In: In T Landauer, D McNamara, S Dennis, and W Kintsch (eds),Latent Semantic Analysis: A Road to Meaning Laurence Erlbaum, 2014 [11] Ha Nguyen Thi Thu, Tinh Thanh Dao, Vinh Ho Ngoc, Thanh Nguyen Hai, Building Vietnamese Topic Modeling Based on Core Terms and Applying in Text Classification, 2015 Fifth International Conference on Communication Systems and Network Technologies, pp 1284-1288, @2015 IEEEDOI 10.1109/CSNT.2015.22 [12].http://vlsp.vietlp.org:8080/ Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ ... toán phân loại Đối tƣợng phạm vi nghiên cứu: Tìm hiểu lý thuyết Naive Bayes ứng dụng phân loại văn tiếng Việt Những nội dung nghiên cứu  Chƣơng 1: Tổng quan phân loại văn Tổng quan phân loại văn. .. niệm lý thuyết Naive Bayes, phân loại Naive Bayes mơ hình xác suất  Chƣơng 2: Phân loại văn tiếng Việt dựa phƣơng pháp Naive Bayes Trình bày phương pháp phân loại văn tiếng Việt dựa phân loại Naive. .. 2: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN PHƢƠNG PHÁP NAIVE BAYES 18 2.1 Bộ phân loại Naive Bayes 18 2.2 Phân loại văn tiếng Việt 22 2.2.1 Ứng dụng Naive Bayes phân

Ngày đăng: 25/02/2021, 08:59

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2]. Nguyễn Hữu Quỳnh, Ngữ pháp Tiếng Việt, NXB Từ điển Bách Khoa, 2001.Tài liệu tiếng Anh Sách, tạp chí
Tiêu đề: Ngữ pháp Tiếng Việt
Nhà XB: NXB Từ điển Bách Khoa
[3].Ha Nguyen Thi Thu, Quynh Nguyen Huu, Khanh Nguyen Thi Hong, Hung Le Manh, Optimization for Vietnamese Text Classification Problem by Reducing Feature Set, 2012 6th International Conference on New Trends in Information Science, Service Science and Data Mining, pp.209-214, 2012 Sách, tạp chí
Tiêu đề: Optimization for Vietnamese Text Classification Problem by Reducing Feature Set
[4]. C. Apte, F. Damerau, S. Weiss,Automated Learning of Decision Rules for Text Categorization,ACM Transactions on Information Systems, 12(3), pp. 233–251, 1994 Sách, tạp chí
Tiêu đề: Automated Learning of Decision Rules for Text Categorization
[5]. Novovicova J., Malik A., and Pudil P., “Feature Selection Using Improved Mutual Information for Text Classification”, SSPR&SPR 2004, LNCS 3138, pp. 1010–1017, 2004 Sách, tạp chí
Tiêu đề: “Feature Selection Using Improved Mutual Information for Text Classification”
[6]. Eui-Hong Han, Text Categorization Using Weight Adjusted k- Nearest Neighbor Classification. PhD thesis, University of Minnesota, October 1999 Sách, tạp chí
Tiêu đề: Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification
[7]. A. Basu, C. Watters, and M. Shepherd, Support Vector Machines for Text Categorization, Proceedings of the 36th Hawaii International Conference on SystemSciences (HICSS’03), 0-7695-1874-5/03, 2003 Sách, tạp chí
Tiêu đề: Support Vector Machines for Text Categorization
[8]. Aigars Mahinovs and Ashutosh Tiwari, Text Classification Method Review, Cranfield University, April 2007 Sách, tạp chí
Tiêu đề: Text Classification Method Review
[9]. Hiroshi Shimodaira, Text Classification using Naive Bayes, Learning and Data Note, 10 February 2015 Sách, tạp chí
Tiêu đề: Text Classification using Naive Bayes
[10]. Mark Steyvers, Tom Griffiths, Probabilistic Topic Models, In: In T. Landauer, D McNamara, S. Dennis, and W. Kintsch (eds),Latent Semantic Analysis: A Road to Meaning. Laurence Erlbaum, 2014 Sách, tạp chí
Tiêu đề: Probabilistic Topic Models
[11]. Ha Nguyen Thi Thu, Tinh Thanh Dao, Vinh Ho Ngoc, Thanh Nguyen Hai, Building Vietnamese Topic Modeling Based on Core Terms and Applying in Text Classification, 2015 Fifth International Conference on Communication Systems and Network Technologies, pp 1284-1288,@2015 IEEEDOI 10.1109/CSNT.2015.22 Sách, tạp chí
Tiêu đề: Building Vietnamese Topic Modeling Based on Core Terms and Applying in Text Classification
[1]. Nguyễn Linh Giang, Nguyễn Mạnh Hiển,Phân loại văn bản tiếng Việt với bộ phân loại vectơ hỗ trợ SVM Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w