1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu Áp Dụng Naïve Bayes Phân Loại Văn Bản Tiếng Việt

9 1,2K 15

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 9
Dung lượng 250,32 KB
File đính kèm Source Code.zip (1 MB)

Nội dung

Văn bản tiếng việt rất đa dạng và phong phú. Đề tài trình bày phương áp dụng dụng Naïve Bayes nhằm phân loại văn bản dựa trên những tri thức đã được học từ dữ liệu huấn luyện. Đề tài này được cung cấp đầy đủ source code được phát triển bằng java cho các bạn tham khảo.

Trường Đại Học Bách Khoa TP Hồ Chính Minh Khoa Khoa Học Máy Tính Đề tài: Áp Dụng Naïve Bayes Phân Loại Văn Bản Tiếng Việt Người thực hiện: Lâm Bảo Vương -12073142 Người hướng dẫn: TS Cao Hoàng Trụ TP Hồ Chí Minh Tháng 12 Năm 2013 Mục Lục I Giới thiệu đề tài Phân loại văn coi trình xác định văn thuộc vào thể loại văn (hay gọi lớp văn bản) cho trước Hiện có nhiều phương pháp phân loại văn Support vector Machine (SVM), K–Nearest Neighbor (kNN), Neural Network…Những phương pháp phân loại tìm hàm f(x) để phân loại văn Naïve Bayes phương pháp văn phân loại văn dựa vào thống kê xác suất Bài báo cáo trình bày giải thuật Naïve Bayes áp dụng giải thuật vào để xác định văn thuộc loại văn thuộc thể loại thể thao văn không thuộc loại văn thể thao II Ý tưởng Naïve Bayes giải thuật dựa xác suất, báo cáo áp dụng giải thuật để xây dựng chương trình phân loại văn bản.Ý tưởng chương trình tính xác suất có điều kiện từ xuất văn cần xác định thuộc loại văn học trước Nếu xác suất thuộc lớp lớn văn thuộc lớp Để phân loại văn phải cho máy tính học văn thuộc thể thao (gọi tắc lớp Thể Thao) -thế văn văn thể thao (gọi tắc lớp Thể Thao) Bước cho máy tính học gọi bước huấn luyện (train) Bước phân loại văn thuộc lớp gọi bước phân lớp( test) Nội dung chi tiết bước mô tả mục IV báo cáo III Giới thiệu thuật toán Naïve Bayes Naïve Bayes (NB) phương pháp phân loại dựa vào xác suất có điều kiện ứng dụng rộng rãi tính dễ hiểu dễ triển khai Thuật toán Naïve Bayes: Thuật toán Naïve Bayes dựa định lý Bayes phát biểu sau [5]: Áp dụng toán phân loại, kiện gồm có:    D: tập liệu huấn luyện vector hóa dạng Ci: phân lớp i, với i = {1,2,…,m} Các thuộc tính độc lập điều kiện đôi với Theo định lý Bayes: Theo tính chất độc lập điều kiện: Trong đó:    xác suất thuộc phân lớp i biết trước mẫu X xác suất phân lớp i xác suất thuộc tính thứ k mang giá trị xk biết X thuộc phân lớp i Các bước thực thuật toán Naïve Bayes: Bước 1: Huấn luyện Naïve Bayes (dựa vào tập liệu), tính Bước 2: Phân lớp , ta cần tính xác suất thuộc phân lớp biết trước X new Xnew gán vào lớp có xác suất lớn theo công thức IV Chương trình áp dụng Thuật toán gồm bước : huấn luyện phân lớp [4,1]  Bước 1: huấn luyện: Ở bước huấn luyện chủ yếu tính Đầu vào chương trình đoạn văn đươc gán nhãn thuộc chủ đề lựa chọn Trong báo cáo chủ để lựa chọn thể thao Do đoạn văn thuộc chủ đề thể thao gán nhãn 1, đoạn văn không thuộc chủ đề thể thao gán nhãn Đầu chương trình trị xác suất  Bước 2: Phân lớp: Đầu vào chương trình đoan văn cần phân loại Đầu nhãn / lớp văn cần phân loại V Đánh giá: Sau phân lớp cho văn phải xem xét xem chương trình áp dụng giải thuật phân lớp văn phần trăm [1] Để đánh giá độ xác, thường lập thống kê sau: Actual class (observation) predicted class (expectation) (true positive) Correct result fn (false negative) Missing result fp (false positive) Unexpected result tn (true negative) Correct absence of result Trong đó: a: số lương đối tượng thuộc lớp xét phân vào lớp b số lượng đối tượng không thuộc lớp xét phân vào lớp c: số đối tượng thuộc lớp xét phân lớp loại khỏi lớp d: số lượng đối tượng không thuộc vào lớp xét phân lớn loại khỏi lớp Để đánh giá chất lượng độ phân lớn Trong báo cáo sử dụng độ đo độ xác (Precision) độ phủ (Recall) VI Hướng dẫn sử dụng chương trình phân lớp văn Chương trình phân lớp văn thuộc thể loại thể thao không thuộc loại thể thao Giao diện chương trình Hình 1: Giao diện chương trình Định dạng Dữ liệu huấn luyện liệu phân lớp văn gồm nhiều file có cấu trúc < văn bản> | ; Trong đó: • • Nội dung văn cần phân loại thuộc lớp Class =1 thuộc thể loại thể thao Class=0 không thuộc loại thể thao Trong chương trình có tạo sẵn 50 file huấn luyện 50 file phân lớp Ví dụ : Trước đó, suốt trận đấu với Galatasaray hôm thứ tư vừa qua, khoảng 45.000 CĐV Real chọn cách đeo mặt nạ Ronaldo để thể ủng hộ dành cho siêu người Bồ Đào Nha.Đây điều chưa xảy với bóng đá xem nguồn động viên tinh thần lớn lao cho CR7, anh cần ủng hộ đua tranh Quả Bóng Vàng FIFA 2013.Tuy nhiên, Ribery không ganh tị với Ronaldo, anh cảm nhận rõ tình cảm lớn nhận từ CĐV Bayern Allianz Arena dịp cuối tuần.Với đóng góp to lớn vào chiến công ăn ba Bayern mùa vừa qua Siêu Cup châu Âu mà đội đoạt hồi cuối hè, Ribery lên ứng viên nặng ký đoạt Quả Bóng Vàng FIFA 2013 | Black Friday (Ngày thứ Sáu đen) lễ hội mua sắm lớn năm người Mỹ, mở cho mùa shopping trước Lễ Giáng sinh Theo truyền thống, kiện tổ chức sau ngày Lễ Tạ Ơn Các cửa hàng, siêu thị khắp nước Mỹ đồng loạt mở cửa sớm, tung khuyến để thu hút người tiêu dùng Tuy nhiên, năm nay, hầu hết hãng bán lẻ lớn khởi động Black Friday sớm ngày | Cấu trúc project  Cấu trúc package STT Pakage naivebayes.gui naivebayes.gui.dto naivebayes.process naivebayes.gui.resources  Cấu trúc Class Ý nghĩa Chứa class giao diện chương trình Chứa class Data Transfer Object Chứa class xử lý phân loại văn sử dụng Naïve Bayes Chứa Resource chương trình ST T Class naivebayes.gui.ComponentID naivebayes.gui.GuiCreate naivebayes.gui.GuiListener naivebayes.gui.GuiMain naivebayes.gui.GuiProcess naivebayes.gui NaiveBayesTabPanel naivebayes.gui.dto.VocabularyDTO naivebayes.gui.resources.Resources naivebayes.process NaiveBayesProcess Ý nghĩa Class chứa ID Button Class tạo giao diện Class xử lý kiện Button… Class hàm main Class xử lý chung Class TabPanel Class đối tượng Data Transfer Object Class chứa tài nguyên chương trình.( Hình ảnh ) Class xử lý cho huấn luyện test Naïve Bayes Một số hình ảnh Hình 2: Kết huấn luyện Hình : Kết phân lớp VII Tài liệu tham khảo [1] Pat Langley, Stephanie Sage: Induction of Selective Bayesian Classifiers In Proceedings of the 10th UAI 1994: 399-406 [2] S.L Ting, W.H Ip, Albert H.C Tsang Is Naïve Bayes a Good Classifier for Document Classification? International Journal of Software Engineering and Its Applications Vol 5, No 3, July, 2011 [3] http://nlp.stanford.edu/IR-book/html/htmledition/text-classification-and-naive-bayes1.html [4] http://www.stanford.edu/class/cs124/lec/naivebayes.pdf [5] http://www.cs.cmu.edu/~tom/mlbook/NBayesLogReg.pdf

Ngày đăng: 06/06/2016, 23:08

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w