Nghiên cứu lý thuyết naive bayes và ứng dụng trong phân loại văn bản tiếng việt

-i- LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực trực tiếp hướng dẫn cô giáo TS Nguyễn Thị Thu Hà Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, xin chịu hoàn toàn trách nhiệm Tác giả luận văn Nguyễn Thị Thùy Dương - ii - LỜI CẢM ƠN Lời xin bày tỏ lòng biết ơn chân thành đến Ban Giám Hiệu, thầy giáo, cô giáo phòng Sau đại học trường Đại học Công Nghệ Thông Tin & Truyền Thông, thầy giáo Viện Công Nghệ Thông Tin giảng dạy tạo điều kiện cho học tập, nghiên cứu hoàn thành luận văn Đặc biệt, xin bày tỏ kính trọng lòng biết ơn sâu sắc đến TS Nguyễn Thị Thu Hà, người tận tình hướng dẫn giúp đỡ suốt trình học tập, nghiên cứu hoàn thành luận văn Tôi chân thành cảm ơn thầy cô Khoa Công nghệ thông tin, Trường Trung cấp nghề Phát Thanh Truyền Hình Thanh Hóa nơi công tác tạo điều kiện hỗ trợ suốt thời gian qua Tôi xin chân thành cảm ơn người thân, bạn bè giúp đỡ động viên suốt thời gian học tập thời gian thực luận văn Xin chân thành cảm ơn! Thái Nguyên, ngày 20 tháng 08 năm 2015 - iii - MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH SÁCH CÁC BẢNG v Chương 1: TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN 1.1 Giới thiệu toán phân loại văn tiếng Việt 1.1.1 Tổng quan toán phân loại văn 1.1.2 Mô hình hệ thống phân loại văn 1.1.3 Các khái niệm phân loại văn 1.2 Các nghiên cứu liên quan 1.2.1 Đánh giá phân loại văn 11 1.2.2 Lý thuyết Naive Bayes 11 1.2.3 Khái niệm 12 1.3 Kết luận chương 17 Chương 2: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN PHƯƠNG PHÁP NAIVE BAYES 18 2.1 Bộ phân loại Naive Bayes 18 2.2 Phân loại văn tiếng Việt 22 2.2.1 Ứng dụng Naive Bayes phân loại văn tiếng Việt 22 2.2.2 Rút trích đặc trưng 25 2.2.3 Phân loại văn tiếng Việt dựa Naive Bayes 39 2.3 Kết luận chương 42 Chương 3: PHÁT TRIỂN HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN NAIVE BAYES 43 3.1 Mô hình tổng quát hệ thống 43 3.2 Xây dựng tập ngữ liệu 44 3.2.1 Xây dựng tập liệu 44 3.2.2 Tiền xử lý chuẩn hóa liệu 47 3.2.3 Xây dựng từ điển danh từ 48 3.3 Môi trường cài đặt 50 3.3.1 Môi trường cài đặt hệ thống 50 - iv - 3.3.2 Cấu trúc chương trình 50 3.3.3 Giao diện chương trình 51 3.4 Kết thực nghiệm 56 3.5 Kết luận chương 57 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 59 TÀI LIỆU THAM KHẢO 60 -v- DANH SÁCH CÁC BẢNG Bảng1.2 Đánh giá phân loại văn 11 Bảng 2.1 Các từ chủ đề tập mô tả Andrews năm 2009 30 Bảng 2.2 Danh sách số chủ đề xây dựng 41 Bảng 3.1 Các chức chương trình 45 Bảng 3.2 Danh sách số từ tập từ chủ đề 49 Bảng 3.3 Độ triệu hồi thực truy vấn 57 - vi - DANH SÁCH HÌNH VẼ Hình 1.1 Quá trình học phân loại văn Hình 1.2 Mô hình SVM Hình 2.1 Mô tả bước xây dựng phân lớp 21 Hình 2.2 Trực quan hóa liệu giảm chiều 26 Hình 2.3 Danh sách số từ dừng 27 Hình 2.4 Chỉ số ngữ nghĩa ẩn 28 Hình 2.5 Mô tả việc xếp văn vào chủ đề phù hợp 29 Hình 2.6 Mô tả cách suy diễn chủ đề dựa thuật ngữ 30 Hình 2.7 Mô hình chủ đề dựa mạng Bayesian 33 Hình 2.8 Mô hình chủ đề dựa HMM 34 Hình 2.9 Quy trình phân loại văn tiếng Việt 36 Hình 2.10 Mô hình chủ đề dựa xác suất 37 Hình 2.11 Thuật toán xây dựng mô hình chủ đề 39 Hình 3.1 Sơ đồ chức hệ thống xử lý văn tiếng Việt 43 Hình 3.2 Biểu đồ Use case tổng quát 44 Hình 3.2 Văn chuẩn hóa 48 Hình 3.3 Hệ thống VLSP 49 Hình 3.4 Giao diệntrang chủ 51 Hình 3.5 Giao diện thể loại tin 52 Hình 3.6 Giao diện tin huấn luyện 52 Hình 3.7 Giao diện danh sách từ khóa 53 Hình 3.8 Giao diện cài đặt huấn luyện 54 Hình 3.9 Giao diện huấn luyện phân loại 55 - vii - Hình 3.10 Giao diện danh sách tin tức 55 Hình 3.11 Giao diện người dùng 56 - viii - DANH SÁCH CÁC CHỮ VIẾT TẮT Viết tắt k- NN Tiếng Anh k- Nearest Neighbor Tiếng Việt k-Láng giềng gần SVM Support Vector Machine Máy véc tơ hỗ trợ RSS Really Simple Syndication Định dạng tập tin ML Machine Languages Ngôn ngữ máy LSI Latent Sematic Indexing Chỉ số ngữ nghĩa ẩn SVD Singular Value Decomposition Phân tích giá trị đơn -1- MỞ ĐẦU Lý chọn đề tài Với lượng thông tin đồ sộ, yêu cầu lớn đặt tổ chức tìm kiếm thông tin có hiệu Phân loại thông tin giải pháp hợp lý cho yêu cầu Nhưng thực tế khối lượng thông tin lớn, việc phân loại liệu thủ công điều không tưởng Hướng giải chương trình máy tính tự động phân loại thông tin Đề tài “Nghiên cứu lý thuyết Naive Bayes ứng dụng phân loại văn Tiếng Việt” nhằm tìm hiểu thử nghiệm phương pháp phân loại văn áp dụng tiếng Việt Phân loại văn (Text classification) công cụ khai phá liệu dạng văn cách hữu hiệu, làm nhiệm vụ đưa văn có nội dung chủ đề giống lớp có sẵn Phân loại văn giúp người dùng dễ dàng việc tìm kiếm thông tin cần thiết đồng thời lưu trữ thông tin theo chủ đề (topic) hay lớp (class) dựa thuật toán phân loại Đối tượng phạm vi nghiên cứu: Tìm hiểu lý thuyết Naive Bayes ứng dụng phân loại văn tiếng Việt Những nội dung nghiên cứu  Chương 1: Tổng quan phân loại văn Tổng quan phân loại văn khái niệm lý thuyết Naive Bayes, phân loại Naive Bayes mô hình xác suất  Chương 2: Phân loại văn tiếng Việt dựa phương pháp Naive Bayes Trình bày phương pháp phân loại văn tiếng Việt dựa phân loại Naive Bayes cách giảm chiều đặc trưng nhằm tăng tốc trình tính toán xử lý cách sử dụng mô hình chủ đề dùng cho tiếng Việt -2-  Chương 3: Phát triển hệ thống phân loại văn Tiếng Việt Trình bày chi tiết từ phân tích thiết kế hệ thống giao diện hệ thống Phương pháp nghiên cứu - Tổng hợp thông tin liên quan, lựa chọn cách tiếp cận áp dụng thành công, tiến hành cài đặt thử nghiệm, đánh giá kết - Các tư liệu thông tin liên quan chủ yếu thu thập, tổng hợp từ nguồn: Các tạp chí khoa học chuyên ngành nước, Internet, Trao đổi với thầy hướng dẫn đồng nghiệp lĩnh vực nghiên cứu Ý nghĩa khoa học đề tài Ý nghĩa luận văn nhằm giải số vấn đề nhằm nâng cao hiệu hệ thống phân loại văn tiếng Việt tự động: - Phương pháp phân loại văn tiếng Việt tự động có kết hợp với giảm chiều nhằm giảm độ phức tạp tính toán đồng thời tăng độ xác phương pháp đề xuất - Có ý nghĩa thực tiễn cao sống, hệ thống thực nghiệm xây dựng dựa phương pháp đề xuất mang lại tính ứng dụng hỗ trợ ngày tốt cho người dùng Internet - 47 - văn văn huấn luyện Các văn huấn luyện huấn luyện lưu trữ thư mục Trainning Data, file huấn luyện thể loại chứa thông tin thể loại Chức cho phép thêm, sửa, xóa từ chuyên Quản lý từ điển, từ dừng ngành cho từ thể loại Mỗi thể loại có từ điển để phục vụ cho việc phân loại văn Ngoài từ từ điển, có từ từ dừng Đây từ bỏ qua trình phân loại nhằm tăng tốc độ phân loại thuật toán Chức có phép thêm, sửa, xóa tin tức mà thu thập Tại đây, ta thay đổi nội Quản lý tin tức dung, tiêu đề, tóm tắt, thể loại tin tức Ta kiểm tra số lượt xem viết để xem viết quan tâm 3.2.2 Tiền xử lý chuẩn hóa liệu Tập văn đầu vào văn dạng thô, để đơn giản cho việc xử lý liệu, với văn đầu vào, ta thực hiệc qua bước tiền xử lý ký tự để đưa văn dạng xâu chuẩn Ở xâu chuẩn xâu mà dấu cách liền nhau, có dấu câu kết thúc xâu, trước dấu câu dấu cách Để có xâu chuẩn, chuẩn bị cho việc tách từ, ta thực qua bước sau: Chuyển hết ký tự chữ hoa thành chữ thường Dùng dấu câu (bao gồm dấu “.” “,” “:”…) để tách văn thành tập hợp câu Ta tách âm tiết cách dấu câu không thuộc từ Tiến hành chuẩn hoá với câu: - 48 - Khi có >1 dấu cách đứng kề nhau, loại bớt đi, để lại dấu cách loại bỏ dấu cách đầu cuối câu Hình 3.2 mô tả văn tiền xử lý chuẩn hóa lưu trữ sở liệu hệ thống Hình 3.2 Văn chuẩn hóa 3.2.3 Xây dựng từ điển danh từ Từ tập liệu huấn luyện ban đầu sau trình chuẩn hóa văn ta xây dựng từ điển bao gồm danh từ Để xây dựng từ điển danh từ này, phải xây dựng cách thủ công dựa hệ thống gán nhãn từ loại lưu vào sở liệu hệ thống Hình 3.3 hệ thống gán nhãn từ loại mà luận văn sử dụng trình xây dựng từ điển danh từ thủ công - 49 - Hình 3.3 Hệ thống VLSP Bảng mô tả cấu trúc bảng bao gồm danh từ tập chủ đề tách từ tập liệu văn bảncủa kho ngữ liệu giá trị trọng số tương ứng Bảng 3.2 Danh sách số từ tập từ chủ đề STT Từ chủ đề Giá trị thông tin nhớ 0.057 xử lý 0.032 cấu hình 0.077 chat 0.045 internet 0.340 Lan 0.114 Đĩa cứng 0.008 hệ điều hành 0.176 Hacker 0.045 10 trình duyệt 0.032 - 50 - 11 wifi 0.016 12 Tín hiệu 0.036 13 windows 0.012 14 bo mạch chủ 0.012 15 vista 0.053 16 giao diện 0.081 17 Mã nguồn mở 0.024 18 Tín hiệu 0.036 19 điện thoại 0.303 20 hiệu 0.036 3.3 Môi trường cài đặt 3.3.1 Môi trường cài đặt hệ thống Hệ thống xây dựng web để thuận tiện cho việc tra cứu trực tuyến Ngôn ngữ lập trình sử dụng để xây dựng hệ thống ngôn ngữ C#.net Visual Studio 2013, với hệ quản trị sở liệu SQL Server 2008 Chương trình dễ dàng cài đặt chạy ổn định tảng hệ điều hành Windows XP Windows 3.3.2 Cấu trúc chương trình Trang quản trị Trang quản trị trang quản lý liệu chương trình Trong trang quản trị, người dùng quản lý thể loại, quản lý tin tức, quản lý văn huấn luyện,… Trong quản lý tin tức, người dùng lựa chọn chức hiển thị tin thu thập tự động Các tin này, phân loại hiển thị trực tiếp lên trang chủ phân loại chưa xác - 51 - tin đưa vào hàng chờ để người quản trị thực phân loại tay Trang chủ Trang chủ website trang hiển thị thông tin mục tin tức, thể loại tin chứa viết theo chủ đề Trang chủ trang mà người đọc tin thao tác chủ yếu với hệ thống Trên trang chủ hiển thị tin tức phân loại tự động, người quản trị phân loại cập nhật tay Người đọc tin chọn tin cần đọc để xem toàn chi tiết tin Trang chi tiết Trang chi tiết trang hiển thị nội dung chi tiết tin tức mà người dùng lựa chọn đọc tin Nội dung hiển thị trang chi tiết hiển thị theo nội dung viết trang báo điện tử mà tin lấy 3.3.3 Giao diện chương trình Giao diện trang chủ Hình 3.4 Giao diệntrang chủ - 52 - Giao diện thể loại tin Hình 3.5 Giao diện thể loại tin Giao diện Tin huấn luyện Hình 3.6 Giao diện tin huấn luyện Để huấn luyện tin trước hết người dùng cần chọn thể loại huấn luyện (những thể loại định nghĩa sẵn), sau chọn đường dẫn trang web - 53 - để lấy tin huấn luyện, nhấn nút Lấy tin để có tin huấn luyện, muốn hủy thao tác trước nhấn nút Hủy Để chỉnh sửa nội dung tin huấn luyện mục Chi tiết kích chọn để hiển thị chi tiết tin tức, người dùng chỉnh sửa nội dung, hình ảnh, Giao diện danh sách từ khóa Hình 3.7 Giao diện danh sách từ khóa - 54 - Ngoài từ khóa định nghĩa sẵn, người dùng định nghĩa thêm từ khóa khác , cách nhấn nút Thêm từ khóa để thêm từ khóa mới,bên cạnh người dung thực thao tác như: Thêm từ tệp tin, Xóa liệu HL, Xóa hết từ khóa Giao diện cài đặt huấn luyện Hình 3.8 Giao diện cài đặt huấn luyện - 55 - Giao diện huấn luyện phân loại Hình 3.9 Giao diện huấn luyện phân loại Giao diện danh sách tin tức Hình 3.10 Giao diện danh sách tin tức - 56 - Giao diện người dùng Hình 3.11 Giao diện người dùng 3.4 Kết thực nghiệm Chương trình xây dựng phân loại cho chủ đề: Xã hội , CNTT, Thể thao, Giáo dục Số lượng 220 văn dùng cho đánh giá Luận văn sử dụng độ đo xác để đánh giá phương pháp phân loại văn sử dụng mô hình chủ đề NaiveBayes = ∑| ∑| | | + Trong đó: - TP: văn phân loại - FP: văn phân loại bị sai Để tính số lượng đặc trưng trung bình giảm so với số đặc trưng ban đầu phân loại, luận văn sử dụng công thức sau: = ∑ - 57 - Trong đó: - fi số đặc trưng tập test - N số văn tập test Kết đánh giá thực nghiệm Bảng 3.3 Độ triệu hồi thực truy vấn Số Phương pháp lượng Chủ đề truyền thống Phương pháp áp dụng giảm chiều đặc trưng với topic modeling văn Số đặc trưng TB Độ xác Số đặc trưng Độ TB xác Nghệ thuật 50 1120 0.86 435 0.916 Thể thao 30 835 0.88 251 0.96 Công nghệ 40 456 0.85,4 216 0.97 Thị trường 25 727 0.78 304 0.93 Tài 30 883 0.80,33 378 0.948 Bất động sản 45 954 0.82 452 0.92 Kết đánh giá bảng 3.3 cho thấy rằng, phương pháp luận văn đưa so với phương pháp truyền thống có số lượng đặc trưng giảm 60%, độ xác cao so với phương pháp truyền thống chủ đề phân loại Do số lượng đặc trưng giảm, đặc trưng nhiễu với chủ đề hơn, tốc độ tính toán nhanh độ xác cao 3.5 Kết luận chương Trong chương này, trình bày chi tiết từ phân tích thiết kế hệ thống giao diện hệ thống Các chức hệ thống mô tả rõ ràng, đầy đủ Đánh giá kết phương pháp luận văn thực cài đặt cho kết tốt phương pháp truyền thống số đặc trưng giảm 60% so - 58 - với cách trích rút đặc trưng truyền thống, cho thấy phương pháp thực có ý nghĩa Trong luận văn sử dụng cách đánh giá chuyên gia người cho kết chấp nhận - 59 - KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Với yêu cầu đặt việc nắm bắt thuật toán Naive Bayes để hiểu cách thức phân loại văn tiếng Việt từ áp dụng vào phân loại báo lĩnh vực Công nghệ thông tin theo chuyên ngành khác dựa việc khảo sát số hội thảo chuyên ngành CNTT nước, chương trình đáp ứng yêu cầu Cùng với chương trình đáp ứng thêm số chức năng: thêm, xóa, sửa, quản lý báo cách dễ dàng, thuận tiện Sau thời gian thực nghiên cứu luận văn thành công số công việc cụ thể sau: - Khảo sát tài liệu thuộc chuyên ngành Công nghệ thông tin để tìm hiểu đặc trưng riêng - Nghiên cứu thuật toán theo công trình số [8] thực việc đánh giá thử nghiệm - Xây dựng phần mềm phân loại theo phương pháp luận văn nghiên cứu Hướng phát triển đề tài: - Xây dựng danh sách hoàn thiện từ phổ thông, ký tự đặc biệt nhằm loại bỏ yếu tố gây nhiễu trình huấn luyện phân loại văn - Tiếp tục huấn luyện thêm liệu để đặc trưng chuyên ngành xác - Thực thử nghiệm số lượng lớn báo chưa phân loại - 60 - TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Linh Giang, Nguyễn Mạnh Hiển, Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM [2] Nguyễn Hữu Quỳnh, Ngữ pháp Tiếng Việt, NXB Từ điển Bách Khoa, 2001 Tài liệu tiếng Anh [3] Ha Nguyen Thi Thu, Quynh Nguyen Huu, Khanh Nguyen Thi Hong, Hung Le Manh, Optimization for Vietnamese Text Classification Problem by Reducing Feature Set, 2012 6th International Conference on New Trends in Information Science, Service Science and Data Mining, pp 209-214, 2012 [4] C Apte, F Damerau, S Weiss, Automated Learning of Decision Rules for Text Categorization,ACM Transactions on Information Systems, 12(3), pp 233–251, 1994 [5] Novovicova J., Malik A., and Pudil P., “Feature Selection Using Improved Mutual Information for Text Classification”, SSPR&SPR 2004, LNCS 3138, pp 1010–1017, 2004 [6] Eui-Hong Han, Text Categorization Using Weight Adjusted k- Nearest Neighbor Classification PhD thesis, University of Minnesota, October 1999 [7] A Basu, C Watters, and M Shepherd, Support Vector Machines for Text Categorization, Proceedings of the 36th Hawaii International Conference on SystemSciences (HICSS’03), 0-7695-1874-5/03, 2003 [8] Aigars Mahinovs and Ashutosh Tiwari, Text Classification Review, Cranfield University, April 2007 Method - 61 - [9] Hiroshi Shimodaira, Text Classification using Naive Bayes, Learning and Data Note, 10 February 2015 [10] Mark Steyvers, Tom Griffiths, Probabilistic Topic Models, In: In T Landauer, D McNamara, S Dennis, and W Kintsch (eds),Latent Semantic Analysis: A Road to Meaning Laurence Erlbaum, 2014 [11] Ha Nguyen Thi Thu, Tinh Thanh Dao, Vinh Ho Ngoc, Thanh Nguyen Hai, Building Vietnamese Topic Modeling Based on Core Terms and Applying in Text Classification, 2015 Fifth International Conference on Communication Systems and Network Technologies, pp 1284-1288, @2015 IEEEDOI 10.1109/CSNT.2015.22 [12] http://vlsp.vietlp.org:8080/ [...]... NAIVE BAYES Trong chương này, luận văn trình bày phương pháp phân loại văn bản tiếng Việt dựa trên phương pháp Naive Bayes, từ cách thức mô hình hóa văn bản, trích chọn các đặc trưng, phương pháp tính toán xác suất để xây dựng bộ phân loại văn bản Naive Bayes, từ đó xây dựng phương pháp phân loại tiếng Việt dựa trên bộ phân loại Naive Bayes 2.1 Bộ phân loại Naive Bayes Naive Bayes là phương pháp phân loại. .. Luận văn đã trình bày khái niệm tổng quan về phân loại văn bản và khái niệm cơ bản về lý thuyết Naive Bayes, bộ phân loại Naive Bayes trên mô hình xác suất Trong chương tiếp theo, luận văn dựa trên những khái niệm tổng quan đã trình bày tại chương 1 để đưa ra phương pháp phân loại văn bản tiếng Việt dựa trên bộ phân loại Naive Bayes - 18 - Chương 2: PHÂN LOẠI VĂN BẢN TIẾNG VIỆT DỰA TRÊN PHƯƠNG PHÁP NAIVE. .. có thể phân loại chính xác vào một trong những chủ đề của tập chủ đề C [4] -4- Khái niệm [Phân loại văn bản] : Phân loại văn bản là nhiệm vụ gán một văn bản dj vào một chủ đề ck thích hợp thuộc tập chủ đề C = {c1,c2, ,cm}theo đúng nội dung của văn bản đó 1.1.2 Mô hình hệ thống phân loại văn bản Mô hình bài toán phân loại văn bản được mô tả như hình sau: Hình 1.1 Quá trình học phân loại văn bản Một... TỔNG QUAN VỀ PHÂN LOẠI VĂN BẢN Trong chương này, luận văn trình bày các khái niệm cơ bản về phân loại văn bản tự động, mô hình của hệ thống phân loại văn bản tự động, từ đó giới thiệu một số các phương pháp nghiên cứu liên quan dựa trên cách tiếp cận học máy và một số phương pháp đánh giá hiệu năng của hệ thống phân loại văn bản tự động 1.1 Giới thiệu bài toán phân loại văn bản tiếng Việt 1.1.1 Tổng... | ∑ = | | | | Bảng1.2 Đánh giá phân loại văn bản Trong đó: Trung bình hóa có độ chính xác và thu hồi trên các loại khác nhau; TPi, TNi, FPi và FNi tham khảo các bộ tích cực đúng, âm đúng, sai tích cực, sai tiêu cực và wrt ci, tương ứng 1.2.2 Lý thuyết Naive Bayes Trong học máy, phân loại Naive Bayes là một thành viên trong nhóm các phân loại có xác suất dựa trên việc áp dụng định lý Bayes khai thác... chỉnh Các kho dữ liệu chưa thống nhất và tự do các nhóm nghiên cứu tự xây dựng phục vụ cho nghiên cứu của mình Chưa thành lập được các chuẩn đánh giá hiệu năng cho các hệ thống phân loại văn bản Một số các nghiên cứu phân loại tiếng Việt tập trung vào ứng dụng các phương pháp máy học hoặc áp dụng các phương pháp đã được đề xuất hiệu quả cho tiếng Anh như Phân loại văn bản do nhóm tác giả Phạm Nguyên Khang,... nguồn văn bản và sử dụng chúng thông qua các công cụ như: tra cứu, hỏi đáp, phân loại và tóm tắt sử dụng ngôn ngữ tự nhiên Phân loại văn bản là một trong những phần quan trọng của việc khai phá dữ liệu văn bản, khá nhiều các hệ thống phân loại văn bản sử dụng kỹ thuật dựa trên tri thức (knowledge based) hoặc dựa trên các luật được xây dựng sẵn để tạo thành một tập hợp các quy tắc logic để hiểu và phân loại. .. nhóm tác giả Phạm Nguyên Khang, Đỗ Thanh Nghị, Francois Poulet đề xuất Phân loại văn bản tiếng Việt dựa trên tập thô do nhóm tác giả Đỗ Phúc và các cộng sự đề xuất (2004) Phân loại văn bản Tiếng Việt bằng phương pháp Support véc tơ Machines (Nguyễn Kim Ngân) Phân loại văn bản dựa trên mô hình xác suất Bayes và áp dụng cho tiếng Việt (Nguyễn Tuấn, Anh, 2003), Phương pháp “A comparative study for Vietnamese... Một quy trình xử lý phân loại văn bản bao gồm 2 pha chính: Pha huấn luyện và pha phân loại - Pha huấn luyện: Các văn bản đầu vào được gán nhãn và được trích chọn đặc trưng để nhận dạng và sử dụng thuật toán học để lưu trữ lại các giá trị của đặc trưng theo một mô hình chuẩn - Pha phân loại: Văn bản đầu vào được trích rút thành các đặc trưng và dựa trên mô hình chuẩn đã được học để phân theo đúng nhãn... của văn bản cần phân loại Trọng số của chủ đề cj đối với văn bản x được tính như sau: ( , )=∑ ∈{ } sin( , , ) - Trong đó: y (di, c) thuộc {0,1}, với: + y = 0 : văn bản di không thuộc về chủ đề cj + y = 1 : văn bản di thuộc về chủ đề cj sim (x , d) : độ giống nhau giữa văn bản cần phân loại x và văn bản d Chúng ta có thể sử dụng độ đo Cô sin để tính khoảng cách: sin( , ) = cos ( , )= ‖ ‖ si học sử dụng

Định dạng
Số trang	69
Dung lượng	1,92 MB