Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
2,76 MB
Nội dung
-i - ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG - - NGUYỄN THỊ THÙY DƢƠNG NGHIÊN CỨU LÝ THUYẾT NAIVE BAYES VÀ ỨNG DỤNG TRONG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.0101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Ngƣời hƣớng dẫn khoa học: TS NGUYỄN THỊ THU HÀ THÁI NGUYÊN, NĂM 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -ii - LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực dƣới trực tiếp hƣớng dẫn cô giáo TS Nguyễn Thị Thu Hà Mọi tham khảo dùng luận văn đƣợc trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, xin chịu hoàn toàn trách nhiệm Tác giả luận văn Nguyễn Thị Thùy Dƣơng Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -iii - LỜI CẢM ƠN Lời xin đƣợc bày tỏ lòng biết ơn chân thành đến Ban Giám Hiệu, thầy giáo, cô giáo phòng Sau đại học trƣờng Đại học Công Nghệ Thông Tin & Truyền Thông, thầy giáo Viện Công Nghệ Thông Tin giảng dạy tạo điều kiện cho học tập, nghiên cứu hoàn thành luận văn Đặc biệt, xin bày tỏ kính trọng lòng biết ơn sâu sắc đến TS Nguyễn Thị Thu Hà, ngƣời tận tình hƣớng dẫn giúp đỡ suốt trình học tập, nghiên cứu hoàn thành luận văn Tôi chân thành cảm ơn thầy cô Khoa Công nghệ thông tin, Trƣờng Trung cấp nghề Phát Thanh Truyền Hình Thanh Hóa nơi công tác tạo điều kiện hỗ trợ suốt thời gian qua Tôi xin chân thành cảm ơn ngƣời thân, bạn bè giúp đỡ động viên suốt thời gian học tập nhƣ thời gian thực luận văn Xin chân thành cảm ơn! Thái Nguyên, ngày 20 tháng 08 năm 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -iv - MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iii DANH SÁCH CÁC BẢNG vi Chƣơng 1: TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN 1.1 Giới thiệu toán phân loại văn tiếng Việt 1.1.1 Tổng quan toán phân loại văn 1.1.2 Mô hình hệ thống phân loại văn 1.1.3 Các khái niệm phân loại văn 1.2 Các nghiên cứu liên quan 1.2.1 Đánh giá phân loại văn 11 1.2.2 Lý thuyết Naive Bayes 11 1.2.3 Khái niệm 12 1.3 Kết luận chƣơng 17 Chƣơng 2: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN PHƢƠNG PHÁP NAIVE BAYES 18 2.1 Bộ phân loại Naive Bayes 18 2.2 Phân loại văn tiếng Việt 22 2.2.1 Ứng dụng Naive Bayes phân loại văn tiếng Việt 22 2.2.2 Rút trích đặc trƣng 25 2.2.3 Phân loại văn tiếng Việt dựa Naive Bayes 39 2.3 Kết luận chƣơng 42 Chƣơng 3: PHÁT TRIỂN HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN NAIVE BAYES 43 3.1 Mô hình tổng quát hệ thống 43 3.2 Xây dựng tập ngữ liệu 44 3.2.1 Xây dựng tập liệu 44 3.2.2 Tiền xử lý chuẩn hóa liệu 47 3.2.3 Xây dựng từ điển danh từ 48 3.3 Môi trƣờng cài đặt 50 3.3.1 Môi trƣờng cài đặt hệ thống 50 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -v - 3.3.2 Cấu trúc chƣơng trình 50 3.3.3 Giao diện chƣơng trình 51 3.4 Kết thực nghiệm 56 3.5 Kết luận chƣơng 57 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 59 TÀI LIỆU THAM KHẢO 60 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -vi - DANH SÁCH CÁC BẢNG Bảng1.2 Đánh giá phân loại văn 11 Bảng 2.1 Các từ chủ đề tập mô tả Andrews năm 2009 30 Bảng 2.2 Danh sách số chủ đề đƣợc xây dựng 41 Bảng 3.1 Các chức chƣơng trình 45 Bảng 3.2 Danh sách số từ tập từ chủ đề 49 Bảng 3.3 Độ triệu hồi thực truy vấn 57 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -vii - DANH SÁCH HÌNH VẼ Hình 1.1 Quá trình học phân loại văn Hình 1.2 Mô hình SVM Hình 2.1 Mô tả bƣớc xây dựng phân lớp 21 Hình 2.2 Trực quan hóa liệu giảm chiều 26 Hình 2.3 Danh sách số từ dừng 27 Hình 2.4 Chỉ số ngữ nghĩa ẩn 28 Hình 2.5 Mô tả việc xếp văn vào chủ đề phù hợp 29 Hình 2.6 Mô tả cách suy diễn chủ đề dựa thuật ngữ 30 Hình 2.7 Mô hình chủ đề dựa mạng Bayesian 33 Hình 2.8 Mô hình chủ đề dựa HMM 34 Hình 2.9 Quy trình phân loại văn tiếng Việt 36 Hình 2.10 Mô hình chủ đề dựa xác suất 37 Hình 2.11 Thuật toán xây dựng mô hình chủ đề 39 Hình 3.1 Sơ đồ chức hệ thống xử lý văn tiếng Việt 43 Hình 3.2 Biểu đồ Use case tổng quát 44 Hình 3.2 Văn chuẩn hóa 48 Hình 3.3 Hệ thống VLSP 49 Hình 3.4 Giao diệntrang chủ 51 Hình 3.5 Giao diện thể loại tin 52 Hình 3.6 Giao diện tin huấn luyện 52 Hình 3.7 Giao diện danh sách từ khóa 53 Hình 3.8 Giao diện cài đặt huấn luyện 54 Hình 3.9 Giao diện huấn luyện phân loại 55 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -viii - Hình 3.10 Giao diện danh sách tin tức 55 Hình 3.11 Giao diện ngƣời dùng 56 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -ix - DANH SÁCH CÁC CHỮ VIẾT TẮT Viết tắt k- NN Tiếng Anh k- Nearest Neighbor Tiếng Việt k-Láng giềng gần SVM Support Vector Machine Máy véc tơ hỗ trợ RSS Really Simple Syndication Định dạng tập tin ML Machine Languages Ngôn ngữ máy LSI Latent Sematic Indexing Chỉ số ngữ nghĩa ẩn SVD Singular Value Decomposition Phân tích giá trị đơn sffDđsadfsdầdsafdsaDecomposD ecompositio Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -1 - MỞ ĐẦU Lý chọn đề tài Với lƣợng thông tin đồ sộ, yêu cầu lớn đặt tổ chức tìm kiếm thông tin có hiệu Phân loại thông tin giải pháp hợp lý cho yêu cầu Nhƣng thực tế khối lƣợng thông tin lớn, việc phân loại liệu thủ công điều không tƣởng Hƣớng giải chƣơng trình máy tính tự động phân loại thông tin Đề tài “Nghiên cứu lý thuyết Naive Bayes ứng dụng phân loại văn Tiếng Việt” nhằm tìm hiểu thử nghiệm phƣơng pháp phân loại văn áp dụng tiếng Việt Phân loại văn (Text classification) công cụ khai phá liệu dạng văn cách hữu hiệu, làm nhiệm vụ đƣa văn có nội dung chủ đề giống lớp có sẵn Phân loại văn giúp ngƣời dùng dễ dàng việc tìm kiếm thông tin cần thiết đồng thời lƣu trữ thông tin theo chủ đề (topic) hay lớp (class) dựa thuật toán phân loại Đối tƣợng phạm vi nghiên cứu: Tìm hiểu lý thuyết Naive Bayes ứng dụng phân loại văn tiếng Việt Những nội dung nghiên cứu Chƣơng 1: Tổng quan phân loại văn Tổng quan phân loại văn khái niệm lý thuyết Naive Bayes, phân loại Naive Bayes mô hình xác suất Chƣơng 2: Phân loại văn tiếng Việt dựa phƣơng pháp Naive Bayes Trình bày phương pháp phân loại văn tiếng Việt dựa phân loại Naive Bayes cách giảm chiều đặc trưng nhằm tăng tốc trình tính toán xử lý cách sử dụng mô hình chủ đề dùng cho tiếng Việt Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -47 - văn văn huấn luyện Các văn huấn luyện huấn luyện đƣợc lƣu trữ thƣ mục Trainning Data, file huấn luyện thể loại chứa thông tin thể loại Chức cho phép thêm, sửa, xóa từ chuyên Quản lý từ điển, từ dừng ngành cho từ thể loại Mỗi thể loại có từ điển để phục vụ cho việc phân loại văn Ngoài từ từ điển, có từ từ dừng Đây từ bỏ qua trình phân loại nhằm tăng tốc độ phân loại thuật toán Chức có phép thêm, sửa, xóa tin tức mà thu thập đƣợc Tại đây, ta thay đổi nội Quản lý tin tức dung, tiêu đề, tóm tắt, thể loại tin tức Ta kiểm tra số lƣợt xem viết để xem viết đƣợc quan tâm 3.2.2 Tiền xử lý chuẩn hóa liệu Tập văn đầu vào văn dạng thô, để đơn giản cho việc xử lý liệu, với văn đầu vào, ta thực hiệc qua bƣớc tiền xử lý ký tự để đƣa văn dạng xâu chuẩn Ở xâu chuẩn xâu mà dấu cách liền nhau, có dấu câu kết thúc xâu, trƣớc dấu câu dấu cách Để có đƣợc xâu chuẩn, chuẩn bị cho việc tách từ, ta thực qua bƣớc sau: Chuyển hết ký tự chữ hoa thành chữ thƣờng Dùng dấu câu (bao gồm dấu “.” “,” “:”…) để tách văn thành tập hợp câu Ta tách nhƣ âm tiết cách dấu câu không thuộc từ Tiến hành chuẩn hoá với câu: Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -48 - Khi có >1 dấu cách đứng kề nhau, loại bớt đi, để lại dấu cách loại bỏ dấu cách đầu cuối câu Hình 3.2 dƣới mô tả văn đƣợc tiền xử lý chuẩn hóa lƣu trữ sở liệu hệ thống Hình 3.2 Văn chuẩn hóa 3.2.3 Xây dựng từ điển danh từ Từ tập liệu huấn luyện ban đầu sau trình chuẩn hóa văn ta xây dựng từ điển bao gồm danh từ Để xây dựng đƣợc từ điển danh từ này, phải xây dựng cách thủ công dựa hệ thống gán nhãn từ loại lƣu vào sở liệu hệ thống Hình 3.3 dƣới hệ thống gán nhãn từ loại mà luận văn sử dụng trình xây dựng từ điển danh từ thủ công Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -49 - Hình 3.3 Hệ thống VLSP Bảng dƣới mô tả cấu trúc bảng bao gồm danh từ tập chủ đề đƣợc tách từ tập liệu văn bảncủa kho ngữ liệu giá trị trọng số tƣơng ứng Bảng 3.2 Danh sách số từ tập từ chủ đề Từ chủ đề Giá trị thông tin nhớ 0.057 xử lý 0.032 cấu hình 0.077 chat 0.045 internet 0.340 Lan 0.114 Đĩa cứng 0.008 hệ điều hành 0.176 Hacker 0.045 10 trình duyệt 0.032 STT Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -50 - 11 wifi 0.016 12 Tín hiệu 0.036 13 windows 0.012 14 bo mạch chủ 0.012 15 vista 0.053 16 giao diện 0.081 17 Mã nguồn mở 0.024 18 Tín hiệu 0.036 19 điện thoại 0.303 20 hiệu 0.036 3.3 Môi trƣờng cài đặt 3.3.1 Môi trường cài đặt hệ thống Hệ thống đƣợc xây dựng web để thuận tiện cho việc tra cứu trực tuyến Ngôn ngữ lập trình đƣợc sử dụng để xây dựng hệ thống ngôn ngữ C#.net Visual Studio 2013, với hệ quản trị sở liệu SQL Server 2008 Chƣơng trình dễ dàng cài đặt chạy ổn định tảng hệ điều hành Windows XP Windows 3.3.2 Cấu trúc chương trình Trang quản trị Trang quản trị trang quản lý liệu chƣơng trình Trong trang quản trị, ngƣời dùng quản lý thể loại, quản lý tin tức, quản lý văn huấn luyện,… Trong quản lý tin tức, ngƣời dùng lựa chọn chức hiển thị tin đƣợc thu thập tự động Các tin này, đƣợc phân loại đƣợc hiển thị trực tiếp lên trang chủ đƣợc phân loại nhƣng chƣa xác Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -51 - tin đƣợc đƣa vào hàng chờ để ngƣời quản trị thực phân loại tay Trang chủ Trang chủ website trang hiển thị thông tin mục tin tức, thể loại tin chứa viết theo chủ đề Trang chủ trang mà ngƣời đọc tin thao tác chủ yếu với hệ thống Trên trang chủ hiển thị tin tức đƣợc phân loại tự động, ngƣời quản trị phân loại cập nhật tay Ngƣời đọc tin chọn tin cần đọc để xem toàn chi tiết tin Trang chi tiết Trang chi tiết trang hiển thị nội dung chi tiết tin tức mà ngƣời dùng lựa chọn đọc tin Nội dung hiển thị trang chi tiết đƣợc hiển thị theo nội dung viết trang báo điện tử mà tin đƣợc lấy 3.3.3 Giao diện chương trình Giao diện trang chủ Hình 3.4 Giao diệntrang chủ Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -52 - Giao diện thể loại tin Hình 3.5 Giao diện thể loại tin Giao diện Tin huấn luyện Hình 3.6 Giao diện tin huấn luyện Để huấn luyện tin trƣớc hết ngƣời dùng cần chọn thể loại huấn luyện (những thể loại định nghĩa sẵn), sau chọn đƣờng dẫn trang web Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -53 - để lấy tin huấn luyện, nhấn nút Lấy tin để có tin huấn luyện, muốn hủy thao tác trƣớc nhấn nút Hủy Để chỉnh sửa nội dung tin huấn luyện mục Chi tiết kích chọn để hiển thị chi tiết tin tức, ngƣời dùng chỉnh sửa nội dung, hình ảnh, Giao diện danh sách từ khóa Hình 3.7 Giao diện danh sách từ khóa Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -54 - Ngoài từ khóa định nghĩa sẵn, ngƣời dùng định nghĩa thêm từ khóa khác , cách nhấn nút Thêm từ khóa để thêm từ khóa mới,bên cạnh ngƣời dung thực thao tác nhƣ: Thêm từ tệp tin, Xóa liệu HL, Xóa hết từ khóa Giao diện cài đặt huấn luyện Hình 3.8 Giao diện cài đặt huấn luyện Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -55 - Giao diện huấn luyện phân loại Hình 3.9 Giao diện huấn luyện phân loại Giao diện danh sách tin tức Hình 3.10 Giao diện danh sách tin tức Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -56 - Giao diện ngƣời dùng Hình 3.11 Giao diện người dùng 3.4 Kết thực nghiệm Chƣơng trình xây dựng phân loại cho chủ đề: Xã hội , CNTT, Thể thao, Giáo dục.Số lƣợng 220 văn dùng cho đánh giá Luận văn sử dụng độ đo xác để đánh giá phƣơng pháp phân loại văn sử dụng mô hình chủ đề NaiveBayes 𝜋= |𝑐| 𝑖=1 𝑇𝑃𝑖 |𝑐| 𝑖=1 𝑇𝑃𝑖 + 𝐹𝑃𝑖 Trong đó: - TP: văn đƣợc phân loại - FP: văn phân loại bị sai Để tính số lƣợng đặc trƣng trung bình đƣợc giảm so với số đặc trƣng ban đầu phân loại, luận văn sử dụng công thức sau: 𝐴𝐹 = Số hóa Trung tâm Học liệu - ĐHTN 𝑚 𝑖=1 𝑓𝑖 𝑁 http://www.lrc-tnu.edu.vn/ -57 - Trong đó: - fi số đặc trƣng tập test - N số văn tập test Kết đánh giá thực nghiệm Bảng 3.3 Độ triệu hồi thực truy vấn Số Phƣơng pháp lƣợng Chủ đề truyền thống văn Số đặc trƣng TB Độ xác Phƣơng pháp áp dụng giảm chiều đặc trƣng với topic modeling Số đặc trƣng Độ TB xác Nghệ thuật 50 1120 0.86 435 0.916 Thể thao 30 835 0.88 251 0.96 Công nghệ 40 456 0.85,4 216 0.97 Thị trƣờng 25 727 0.78 304 0.93 Tài 30 883 0.80,33 378 0.948 Bất động sản 45 954 0.82 452 0.92 Kết đánh giá bảng 3.3 cho thấy rằng, phƣơng pháp luận văn đƣa so với phƣơng pháp truyền thống có số lƣợng đặc trƣng giảm 60%, độ xác cao so với phƣơng pháp truyền thống chủ đề phân loại Do số lƣợng đặc trƣng giảm, đặc trƣng nhiễu với chủ đề hơn, tốc độ tính toán nhanh độ xác cao 3.5 Kết luận chƣơng Trong chƣơng này, trình bày chi tiết từ phân tích thiết kế hệ thống giao diện hệ thống Các chức hệ thống đƣợc mô tả rõ ràng, đầy đủ Đánh giá kết phƣơng pháp luận văn thực cài đặt cho kết tốt phƣơng pháp truyền thống số đặc trƣng giảm 60% so Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -58 - với cách trích rút đặc trƣng truyền thống, cho thấy phƣơng pháp thực có ý nghĩa Trong luận văn sử dụng cách đánh giá chuyên gia ngƣời cho kết chấp nhận đƣợc Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -59 - KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Với yêu cầu đặt việc nắm bắt thuật toán Naive Bayes để hiểu cách thức phân loại văn tiếng Việt từ áp dụng vào phân loại báo lĩnh vực Công nghệ thông tin theo chuyên ngành khác dựa việc khảo sát số hội thảo chuyên ngành CNTT nƣớc, chƣơng trình đáp ứng đƣợc yêu cầu Cùng với chƣơng trình đáp ứng thêm số chức năng: thêm, xóa, sửa, quản lý báo cách dễ dàng, thuận tiện Sau thời gian thực nghiên cứu luận văn thành công số công việc cụ thể sau: - Khảo sát tài liệu thuộc chuyên ngành Công nghệ thông tin để tìm hiểu đặc trƣng riêng - Nghiên cứu thuật toán theo công trình số [8] thực việc đánh giá thử nghiệm - Xây dựng phần mềm phân loại theo phƣơng pháp luận văn nghiên cứu Hƣớng phát triển đề tài: - Xây dựng danh sách hoàn thiện từ phổ thông, ký tự đặc biệt nhằm loại bỏ yếu tố gây nhiễu trình huấn luyện nhƣ phân loại văn - Tiếp tục huấn luyện thêm liệu để đặc trƣng chuyên ngành đƣợc xác - Thực thử nghiệm số lƣợng lớn báo chƣa đƣợc phân loại Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -60 - TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Linh Giang, Nguyễn Mạnh Hiển,Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM [2] Nguyễn Hữu Quỳnh, Ngữ pháp Tiếng Việt, NXB Từ điển Bách Khoa, 2001 Tài liệu tiếng Anh [3].Ha Nguyen Thi Thu, Quynh Nguyen Huu, Khanh Nguyen Thi Hong, Hung Le Manh, Optimization for Vietnamese Text Classification Problem by Reducing Feature Set, 2012 6th International Conference on New Trends in Information Science, Service Science and Data Mining, pp 209-214, 2012 [4] C Apte, F Damerau, S Weiss,Automated Learning of Decision Rules for Text Categorization,ACM Transactions on Information Systems, 12(3), pp 233–251, 1994 [5] Novovicova J., Malik A., and Pudil P., “Feature Selection Using Improved Mutual Information for Text Classification”, SSPR&SPR 2004, LNCS 3138, pp 1010–1017, 2004 [6] Eui-Hong Han, Text Categorization Using Weight Adjusted k- Nearest Neighbor Classification PhD thesis, University of Minnesota, October 1999 [7] A Basu, C Watters, and M Shepherd, Support Vector Machines for Text Categorization, Proceedings of the 36th Hawaii International Conference on SystemSciences (HICSS’03), 0-7695-1874-5/03, 2003 [8] Aigars Mahinovs and Ashutosh Tiwari, Text Classification Method Review, Cranfield University, April 2007 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -61 - [9] Hiroshi Shimodaira, Text Classification using Naive Bayes, Learning and Data Note, 10 February 2015 [10] Mark Steyvers, Tom Griffiths, Probabilistic Topic Models, In: In T Landauer, D McNamara, S Dennis, and W Kintsch (eds),Latent Semantic Analysis: A Road to Meaning Laurence Erlbaum, 2014 [11] Ha Nguyen Thi Thu, Tinh Thanh Dao, Vinh Ho Ngoc, Thanh Nguyen Hai, Building Vietnamese Topic Modeling Based on Core Terms and Applying in Text Classification, 2015 Fifth International Conference on Communication Systems and Network Technologies, pp 1284-1288, @2015 IEEEDOI 10.1109/CSNT.2015.22 [12].http://vlsp.vietlp.org:8080/ Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ [...]... PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN PHƢƠNG PHÁP NAIVE BAYES Trong chƣơng này, luận văn trình bày phƣơng pháp phân loại văn bản tiếng Việt dựa trên phƣơng pháp Naive Bayes, từ cách thức mô hình hóa văn bản, trích chọn các đặc trƣng, phƣơng pháp tính toán xác suất để xây dựng bộ phân loại văn bản Naive Bayes, từ đó xây dựng phƣơng pháp phân loại tiếng Việt dựa trên bộ phân loại Naive Bayes 2.1 Bộ phân. .. là fermale 1.3 Kết luận chƣơng 1 Luận văn đã trình bày khái niệm tổng quan về phân loại văn bản và khái niệm cơ bản về lý thuyết Naive Bayes, bộ phân loại Naive Bayes trên mô hình xác suất Trong chƣơng tiếp theo, luận văn dựa trên những khái niệm tổng quan đã trình bày tại chƣơng 1 để đƣa ra phƣơng pháp phân loại văn bản tiếng Việt dựa trên bộ phân loại Naive Bayes Số hóa bởi Trung tâm Học liệu - ĐHTN... hình sau: Huấn luyện Nhãn Thuật toán học Tập văn bản Trích chọn đặc trưng Văn bản Trích chọn đặc trưng Bộ phân loại Nhãn Phân loại Hình 1.1 Quá trình học phân loại văn bản Một quy trình xử lý phân loại văn bản bao gồm 2 pha chính: Pha huấn luyện và pha phân loại - Pha huấn luyện: Các văn bản đầu vào đƣợc gán nhãn và đƣợc trích chọn đặc trƣng để nhận dạng và sử dụng thuật toán học để lƣu trữ lại các giá... 𝑖=1𝑇𝑃 + 𝐹𝑃 𝑖 𝑖 |𝑐| Bảng1.2 Đánh giá phân loại văn bản Trong đó: Trung bình hóa có độ chính xác và thu hồi trên các loại khác nhau; TPi, TNi, FPi và FNitham khảo các bộ tích cực đúng, âm đúng, sai tích cực, sai tiêu cực và wrt ci, tƣơng ứng 1.2.2 Lý thuyết Naive Bayes Trong học máy, phân loại Naive Bayes là một thành viên trong nhóm các phân loại có xác suất dựa trên việc áp dụng định lý Bayes khai thác... kỳ có thể phân loại chính xác vào một trong những chủ đề của tập chủ đề C [4] Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ -4 - Khái niệm [Phân loại văn bản] : Phân loại văn bản là nhiệm vụ gán một văn bản dj vào một chủ đề ck thích hợp thuộc tập chủ đề C = {c1,c2, ,cm}theo đúng nội dung của văn bản đó 1.1.2 Mô hình hệ thống phân loại văn bản Mô hình bài toán phân loại văn bản đƣợc... chỉnh Các kho dữ liệu chƣa thống nhất và tự do các nhóm nghiên cứu tự xây dựng phục vụ cho nghiên cứu của mình Chƣa thành lập đƣợc các chuẩn đánh giá hiệu năng cho các hệ thống phân loại văn bản Một số các nghiên cứu phân loại tiếng Việt tập trung vào ứng dụng các phƣơng pháp máy học hoặc áp dụng các phƣơng pháp đã đƣợc đề xuất hiệu quả cho tiếng Anh nhƣ Phân loại văn bản do nhóm tác giả Phạm Nguyên Khang,... năng của hệ thống phân loại văn bản tự động 1.1 Giới thiệu bài toán phân loại văn bản tiếng Việt 1.1.1 Tổng quan bài toán phân loại văn bản Các nghiên cứu về khai phá dữ liệu dạng văn bản đang đƣợc quan tâm hơn trong thời gian gần đây vì số lƣợng các tài liệu điện tử tăng nhanh chóng từ nhiều nguồn khác nhau Không kể tới những văn bản có cấu trúc, số lƣợng các văn bản không cấu trúc và cấu trúc cũng... Phân loại văn bản tiếng Việt 2.2.1 Ứng dụng Naive Bayes trong phân loại văn bản tiếng Việt 2.2.1.1 Đặc điểm Trong tất cả các ngôn ngữ, ngƣời ta thƣờng phân chia dòng ngữ lƣu thành các âm tiết Âm tiết là đơn vị phát âm tối thiểu của lời nói Nghiên cứu âm tiết tức là nghiên cứu sự tổ hợp các âm vị (phômen) trong dòng lƣu ngữ, ví dụ nhƣ các thực từ Một điểm cơ bản nhất của các âm tiết tiếng Việt là ranh... lớn Mục đích chính của việc khai phá dữ liệu văn bản là cho phép ngƣời dùng trích xuất thông tin của các nguồn văn bản và sử dụng chúng thông qua các công cụ nhƣ: tra cứu, hỏi đáp, phân loại và tóm tắt sử dụng ngôn ngữ tự nhiên Phân loại văn bản là một trong những phần quan trọng của việc khai phá dữ liệu văn bản, khá nhiều các hệ thống phân loại văn bản sử dụng kỹ thuật dựa trên tri thức (knowledge... nhóm tác giả Phạm Nguyên Khang, Đỗ Thanh Nghị, Francois Poulet đề xuất Phân loại văn bản tiếng Việt dựa trên tập thô do nhóm tác giả Đỗ Phúc và các cộng sự đề xuất (2004) Phân loại văn bản Tiếng Việt bằng phƣơng pháp Support véc tơ Machines (Nguyễn Kim Ngân) Phân loại văn bản dựa trên mô hình xác suất Bayes và áp dụng cho tiếng Việt (Nguyễn Tuấn, Anh, 2003), Phƣơng pháp “A comparative study for Vietnamese ... toán phân loại Đối tƣợng phạm vi nghiên cứu: Tìm hiểu lý thuyết Naive Bayes ứng dụng phân loại văn tiếng Việt Những nội dung nghiên cứu Chƣơng 1: Tổng quan phân loại văn Tổng quan phân loại văn. .. niệm lý thuyết Naive Bayes, phân loại Naive Bayes mô hình xác suất Chƣơng 2: Phân loại văn tiếng Việt dựa phƣơng pháp Naive Bayes Trình bày phương pháp phân loại văn tiếng Việt dựa phân loại Naive. .. 2: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN PHƢƠNG PHÁP NAIVE BAYES 18 2.1 Bộ phân loại Naive Bayes 18 2.2 Phân loại văn tiếng Việt 22 2.2.1 Ứng dụng Naive Bayes phân