Mục tiêu của đề tài là xây dựng một hệ thống hỗ trợ phân loại câu hỏi tự động qua mạng bằng tiếng Việt, trong đó quá trình phân phối các câu hỏi, yêu cầu từ người dùng đến chuyên gia tươ
Trang 1LUAN VAN THAC Si CONG NGHE THONG TIN
HUONG DAN KHOA HOC:
PGS.TS BO PHUC
Tp.Hồ Chí Minh — Năm 2009
Trang 2Dé hoàn thành chương trình cao học và thực hiện đề tài này tôi đã nhận được sự hướng dẫn, giúp đỡ và góp ý nhiệt tình của của quý Thây Cô trường Đại học Công nghệ Thông tin Thành phố Hô Chi Minh.
Trước hết, tôi xin chân thành cảm ơn đến quỷ Thay Cô trường Đại học Công nghệ Thông tin, Đặc biệt là những Thây
Cô đã tận tình dạy bảo cho tôi trong suốt thời gian học tập tại
trường.
Tôi xin gửi lời biết ơn sâu sắc đến Phó giáo sự — Tiến sĩ Đỗ Phúc đã dành nhiều thời gian và tâm huyết hướng dẫn nghiên cứu và giúp tôi hoàn thành luận văn tốt nghiệp này.
Nhân đây, tôi xin chân thành cảm ơn Ban Giám hiệu
trường Đại học Công nghệ Thông tin cùng quí Thây Cô ở Phòng
sau đại học đã tạo rất nhiêu điều kiện thuận lợi để tôi học tập và hoàn thành tốt khóa học.
Mặc dù đã có nhiều có gắng và hoàn thiện luận văn bằng
tat cả sự nhiệt tình và năng lực của mình, tuy nhiên không thể
tránh khỏi sự thiếu sót, rất mong nhận được những đóng góp
quý báo của quý Thầy Cô và các bạn.
TP Hồ Chí Minh, tháng 10, năm 2009
Học viên
Phạm Thanh Phong
Trang 31.1 Giới thiệu
1.2 Đề tài nghiên cứu
1.3 Các công trình liên quan 3
1.4 Các công việc phải tiến hành trong luận vai 7Chương 2 HE THONG HỖ TRỢ 9
2.1 Giới thiệu các hệ thống hỗ trợ 9
2.2 Hé théng hỗ trợ phân loại câu hỏi tự ONY - :: :-:++ 10
2.2.1 Mô tả hoạt động của hệ thống
2.2.2 Vai trò của thành phần trong hệ thống "—¬.
Chương 3 CƠ SỞ LÝ THUYET DE GIẢI QUYÉT BÀI TOÁN 153.1 Thống kê tần xuất xuất hiện từ trong văn bản IS
3.2 Biểu diễn văn bản
18 3.4 Tach từ dùng corpus và các mô hình thông kê - + 2 3.4.1 Don vị từ vung 22
3.4.2 Sự cần thiết tách từ tiếng Việt - ccccccccrrrrrrrrrrrrtrrrrrrrrree 223.4.3 Tach từ tiếng ViỆt 2¿c c2 c222222222111111111 2c xe 23
3.4.4 Mô hình Markov và N-gram ccccsceeeeeeereererrc 24 3.5 Các thuật toán phân loại văn bản
3.5.1 Thuật toán phân loại văn bản Naive Bayes . 555 29
3.5.1.1 Lý thuyết về xác suất -222222v222++++rrrttttttEEEEEEEELxveeeccee 29
3.5.1.2 Thuật toán
3.5.1.3 Đánh giá thuật toán -¿ c5ccctttttieerirriiriirrrerrerree 32
Trang 43.5.2.2 Đánh giá «6+ cành 1H 1 H1 HH H1 10 re 3.5.3 Thuật toán phân loại văn bản Rocchio -:- +52 5+55+5<+s+ 34 3.5.3.1 Thuật toán c¿-c+t th nhìn ườn 34 3.5.3.2 Đánh giá
3.6 Phương pháp phân loại văn ban sử dụng cây quyết định 36 3.6.1 Entropy
3.6.2 Độ lợi thông tin ¿- c5 St reeeree OT, 3.6.3 n án ốốốố ẻ ẻ 38 3.6.4 Xén tỉa cây .42 3.6.5 Xây dựng tập luật phân loại từ cây quyết định - 44 3.6.6 Đánh giá thuật toán
Chương 4 XÂY DUNG HE THON!
4.1 Tập văn bản mẫu sử dụng trong luận văn
4.2 Thống kê các từ đơn, từ đôi, từ ba
4.3 Tách từ.
4.4 Xây dựng từ đi
4.5 Biểu diễn văn ban theo các từ trong từ điển -22 54
4.6 Xây dựng cây quyết định -¿522csscrsrrrsseerrrrrrsrerrerrrrsevc 55
4.6.1 Chọn từ trong từ điển dé gan vào nút cvvsccccccccceerrrr 55
4.6.2 Thuật toán ta0 cây + ch HH tớ 56
4.7 Xén tia cây quyết định
4.8 Phân loại văn bản dựa trên cây quyêt định 5 +©5-5<++ 62
Chương 5 CHƯƠNG TRINH .22222¿2222£22222222222222222222errrrrrrr 63
ell NGÔ HÀ Ứ 242/0/4/0230020220230/40/0209000220/10)030543/1/39316910414104:3330 63
Trang 5Chương 6 KET QUA THỰC NGHIỆM VÀ ĐÁNH GIÁ 7Í
6.1 Phương pháp đánh giá độ chính xác -¿- 555cc 71
6.2 Kết quả đạt được
Chương 7 KET LUẬN VÀ HƯỚNG PHAT TRIÊN - 74
Trang 6Training set : tập huấn luyện
Validation set : tập kiểm chứng
Test set : tập kiểm tra
Decision tree : cây quyết định
Word frequency : tần xuất từ
Corpus : tập văn liệu
Information Gain: độ lợi thông tin
Word Segment : tách từ
K Nearest Neighbor (KNN): K láng giềng gần
Node : nút của cây quyết định
Entropy : chỉ sự đồng nhất của tập hợp
HMM : Hidden Markov Model
Tf x idf : Term Frequency x Inverse Document Frequency Tfc : Term Frequency Component
Ltc : Log Term Component
CNTT : Công nghệ Thông tin
Trang 7Hình 5.5 — Màn hình hỗ trợ dành cho chuyên gi:
Hình 5.6 — Mành hình dành cho thư ký -.¿¿ 22¿c555scceccvscsccrx+ 70
Trang 8nay FY DS Phụ lục bảng thống kê từ ba Phụ lục từ điỂn c2tcccerrrriirriiiriirrririrriie 78
Phụ lục cây CNII SE ốc 5.0.0.0 7 80
Vi trí NodeID trong cây CNTT uu cece OL
Phụ lục cây Viễn thông
Vị trí NodeID trong cây Viễn thông -c5ccccccccccccc-c-ex 94
Trang 9ngập trên mọi phương tiện truyền thông, đặc biệt là sự phát triển rộng rãi củamạng toàn cầu internet, hằng ngày con người phải xử lý một lượng thông tin
khổng lồ Vấn đề hỏi đáp, tư van trở nên phổ biến và hữu hiệu hơn bao giờ
hết Nhiều hệ thống hỗ trợ thông tin ra đời nhằm đáp ứng nhu cầu trao đổithông tin của con người, nó giúp cho doanh nghiệp cung cấp cho khách hàng
những đầu mối dé giải quyết các van đề phát sinh sau bán hang, dịch vụ xử lý
các vấn đề về kỷ thuật, tư vấn, Khi người dùng cần sự hỗ trợ ở một lĩnhvực nào đó, họ sẽ đưa câu hỏi đến hệ thống hỗ trợ, đợi một thời gian và nhận
được câu trả lời.
Mô hình chung của các trung tâm hỗ trợ hiên nay là các cuộc gọi hoặc thông
tin yêu cầu từ khác hàng gửi đến trung tâm sẽ được nhân viên hỗ trợ mức 1tiếp nhận và phân loại yêu cầu, nếu yêu cầu đó đơn giản trong khả năng xử lý
của nhân viên mức 1 thì họ sẽ xử lý trực tiếp và phản hồi thông tin đó cho
khách hàng Trong trường hợp yêu cầu vượt qua khả năng thì họ sẽ phân loại
và chuyên bậc cho các nhân viên hỗ trợ mức 2,3 mức độ chuyên gia xử lý
được thê hiện ở mức càng cao Trong quá trình hoạt động, tất cả thông tin yêucầu, giải pháp xử lý của tất cả các trường hợp sẽ được lưu lại vào cơ sở đữliệu kiến thức nền
Mục tiêu của đề tài là xây dựng một hệ thống hỗ trợ phân loại câu hỏi tự động
qua mạng bằng tiếng Việt, trong đó quá trình phân phối các câu hỏi, yêu cầu
từ người dùng đến chuyên gia tương ứng sẽ được thực hiện một cách tự động
1.2 Đề tài nghiên cứu
Trang 10khác đây là quá trình phân loại văn bản tiếng Việt và các văn bản cần phân
loại ở đây là các câu hỏi, yêu cầu.
Ngôn ngữ tiếng Việt về cơ bản rất khác với ngôn ngữ tiếng Anh và các ngôn
ngữ khác nói chung Về khía cạnh ngữ nghĩa, ngôn ngữ tiếng Việt có rấtnhiều điểm nhập nhằng do bản chất phức tạp của nó Trong công trình nghiêncứu này, các thuật toán và phương pháp sử dụng không liên quan đến cú pháp
trong ngôn ngữ.
Để cho việc phân loại đạt kết quả tốt thì tập văn bản mẫu sử dụng với mỗi chủ
đề phải rất lớn Mỗi chủ đề cần phân loại phải có vài ngàn văn bản mẫu thìmới có thể đạt được độ chính xác cao và các văn bản mẫu cần phải có cácchuyên gia thuộc các chủ đề này để tạo lập các văn bản mẫu Trong khuônkhổ luận văn này, tác giả sử dụng thuật toán cây quyết định để phân loại cácvăn bản trong hai chủ đề CNTT và Viễn thông, hai chủ đề này cùng thuộc
lĩnh vực khoa học kỹ thuật Đối với các văn bản thuộc các chủ đề ở các lĩnh
vực hoàn toàn khác nhau như văn học, kinh tế, y học, pháp luật thì việc
phân loại văn bản sẽ dễ dàng hơn và đạt được độ chính xác cao hơn Hai chủ
đề trên có thể xem là tiêu biểu vì chúng rất gần nhau, đều thuộc cùng một lĩnh
vực Một văn bản có thể thuộc cùng lúc cả hai chủ đề Việc phân loại các văn
bản thuộc hai chủ đề trên sẽ khó khăn hơn và đạt được độ chính xác thấp hơn
Vì vậy nếu giải quyết tốt việc phân loại văn bản cho hai chủ đề CNTT và
Viễn thông, việc phân loại văn bản cho các chủ để khác sẽ đạt được độ chính xác cao hơn.
Trang 11đó[1][5][6][12] Tuy nhiên việc áp dụng phân loại văn bản dé xây dựng mộtứng dụng cụ thể thì vẫn chưa tìm thấy nhiều.
Công trình của Trần Việt Quyén[1] xây dựng hệ thống hỏi đáp từ xa dựa vào
kỹ thuật phân loại văn bản Từ những câu hỏi thuộc về các lớp cụ thể như
toán rời rac, tin học đại cương, cơ sở dit liệu tác giả đưa vào công cụ rút trích đặc trưng văn bản, từ đó rút ra các luật phân lớp giúp cho việc phân loại các
câu hỏi trong hệ thống
Các bước thực hiện phân loại văn bản
Bước 1: tạo vốn từ cho toàn bộ văn bản
Bước 2: chọn T; là một ngưỡng để chọn ra tập từ một từ phổ biến (Trlà
số nguyên, số văn bản có chứa từ)
Bước 3: Tạo cụm từ
Bước 4: Lọc từ và cụm từ dựa trên độ tốt theo phân lớp
Bước 5: Loc từ dựa trên tf-idf
Bước 6: Tìm tập chỉ báo lớn
Tuy nhiên,việc lọc các từ, cụm từ trong tiếng Việt gặp một số khó khăn:
- Số cụm từ phát sinh còn lẫn một số cụm từ không có ý nghĩa phân loại
- Hướng tiếp cận lọc từ, cụm từ dựa trên độ tốt của từ chủ yếu loại bỏ sự
nhập nhang trong phân lớp, chỉ loại bỏ phần lớn các từ don.
Những khó khăn này dẫn đến phát sinh nhiều tổ hợp vô ích, làm chậm quátrình xây dựng bộ luật phân lớp Dé giải quyết những khó khăn này tác giả đã
đề xuất hướng tiếp cận tự động rút trích đặc trưng văn bản có sự hỗ trợ của từ
điền
Trang 12sở dữ liệu, tin học đại cương và toán rời rạc, mỗi môn 100 câu hỏi.
Hướng tiếp cận lọc có từ Hướng tiếp cận lọcđiển không có từ điển
Rút trích đặc trưng văn | 120 giây 112 giây
bản
Tạo luật phân lớp 1.320 giây 259.200 giây
Phân loại câu hỏi 660 giây/100 câu hỏi 1.500giây/100 câu hỏi
Số câu hỏi phân loại 60 58
S6 câu hỏi phân loại sai 2 10
S6 câu hỏi không thê 38 32
tập văn liệu và không dùng từ điển Phương pháp huấn luyện dựa vào việc
xây dựng các mô hình markov cấp 1 và cấp 2 (tương ứng là bi-gram và gram), và thống kê xuất hiện của các n-gram từ một tập văn liệu thô
tri-Tác giả đã vận dụng các nguyên lý kết hợp, phương pháp phân đoạn dựa vào
các thông tin hỗ tương rút từ tập văn liệu đã qua huấn luyện mà không cầntham khao từ điển Dựa vào mô hình Markov ẩn hỗn hợp cấp 1 và cấp 2, tính
Trang 13tham số ngưỡng t.
Tác giả cũng đã xây dựng được một chương tình demo phân đoạn văn ban
trên tập corpus là tập “Bách khoa toàn thư mạng”.
Đây là kết quả khá cao nếu đem so sánh với phương pháp của Richard Sproat,
Chilin Shih, Willam Gale và Nancy Chang trong A Stochastic Finite-State Word-Segmentation Algorithm for Chinese Day là công trình cũng với mục
tiêu xác định từ trong chuồi tiếng Trung Quốc, các tác giả sử dụng một giải
thuật hữu hạn trạng thái có tính thống kê, dùng từ điển và phân tích tiếng Kết
quả thực nghiệm là 70% trên 100 câu thử với 4372 âm tiết[13]
Công trình của Nguyễn An Nhơn về Phân loại văn bản theo chủ đề bằng
phương pháp Support Vector Machines [10], Tác giả đã xây dựng một hệ
thống dùng dé phân loại văn bản theo chủ đề Nhân của hệ thống phân loại
nay là một máy học theo mô hình Support Vector Machines Dé tăng độ chính
xác của hệ thống, tác gia sử dụng thêm một số phương pháp hỗ trợ tiền xử lýnhư phương pháp chọn từ khóa giúp giảm kích thước không gian huấn luyện,
Trang 14biên tối ưu dé phân chia các văn bản mẫu vào hai tập rời nhau Phương pháp
này được các nhà khoa học trong ngành xử lý ngôn ngữ tự nhiên đánh giá là
có hiệu suất và độ chính xác cao.
Tác giả chọn thuật toán SMO (Sequential Minimal Optimization) để hiện thựcphương pháp trên Tối ưu thuật toán SMO nguyên thuỷ bằng cách cache dữliệu và thay đổi cách chọn giá trị ngưỡng giúp cho tốc độ học tăng lên rấtnhiều (~318 lần) Kết hợp với việc tách từ bằng giải thuật N-gram giúp giatăng độ chính xác của hệ thống đối với các văn bản tiếng Việt
Trong phần hiện thực tác giả dùng tập văn bản thuộc ba chủ đề là “xã hội”,
“khoa học” và “thé thao”, dé phân loại cho tập văn bản trong các chủ đề gầnnhau, tác giả xây dựng thêm mô hình phân loại cho tập văn bản gồm hai chủ
Tác giả nhận xét các độ chính xác của hệ thống sau khi áp dụng phương pháp
phân đoạn văn bản như sau:
- Mô hình phân loại các chủ đề “khoa học — xã hội — thé thao”, độ chính xác được nâng lên là 91%
Trang 15trước đó.
* Với mỗi hướng tiếp cận khác nhau để giải quyết bài toán phân loại văn bảnthì đều có những ưu khuyết điểm riêng Trong khuôn khô đề tài này, tác giảxin dé xuất một hướng tiếp cận khác là sử dụng cây quyết định dé giải quyếtbài toán phân loại văn bản Cây quyết định được sử dụng rat rong rai trong
lĩnh vực máy học va khai pha dữ liệu, nó là một phương pháp mô ta dit liệu
trực quan nhất, dễ hiểu nhất và trong bài toán phân loại van bản trên ngôn ngữ
tiếng Anh nó cũng đạt được một số kết quả rất khả quan Với mong muốn thử
nghiệm thuật toán cây quyết định để giải quyết bài toán phân loại văn bảntiếng Việt và từ đó xây dựng một ứng dụng đề hỗ trợ phân loại câu hỏi tự
động qua mạng, đó là lý do tác giả chọn phương pháp này.
1.4 Các công việc phải tiến hành trong luận văn
Để giải quyết được các mục tiêu đề ra, các vấn đề sau cần phải được giảiquyết trong luận văn:
e Xử lý văn bản, tạo từ điển từ tập văn bản
-_ Thống kê các từ đơn, từ đôi, từ ba
- Tach từ trong tiếng Việt
- Tạo từ điển tự động
e_ Biểu diễn văn bản
e_ Xây dựng cây quyết định cho từng chủ đề của tập văn bản, với mỗi núttrên cây là một từ trong từ điển
- _ Cách lựa chọn từ dé đưa vào nút trong cây quyết định
Trang 16« Thi nghiệm và khang định kết quả
Trang 17Có rất nhiều hình thức hỗ trợ qua mạng được xây dựng trên các website để hỗ
trợ trực tuyến như tin nhắn tức thời, chat, diễn đàn trao đổi thông tin, email Dựa vào nơi xuất phát câu hỏi cần hỗ trợ và nguồn giải đáp ta có thể phân loại
các hệ thống này thành hai loại: loại tập trung và loại không tập trung.
Đối với hệ thống hỏi đáp trực tuyến, hỗ trợ qua email, hỗ trợ qua tin nhắn tứcthời các câu hỏi gửi đến thì các câu trả lời chỉ được xuất phát tập trung một
nơi Hình thức này gọi là tập trung.
Đối với hệ thống diễn dan thảo luận, mailing-list các câu hỏi có thé nhận đượccác câu trả lời từ nhiều nơi Thường đối với hệ thống này, ai đến chuyên mục
nếu biết câu trả lời cho câu hỏi nào đó và nếu sẵn lòng thì sẽ trả lời Như vậy
câu trả lời xuất phát từ nhiều người dùng khác nhau Các hệ thống như thế gọi
là hệ thống không tập trung
Hai hệ thống này có những ưu khuyết điểm riêng Đối với hệ thống không tập
trung, việc trả lời sẽ trải cho nhiều người nhưng có thể người yêu cầu được hỗ trợ nhận được thông tin không thích hợp, vì không ai đảm bảo tính chính xác
cho thông tin do người trả lời cung cấp Với hệ thống này thông tin trả lời chỉ
mang tính chất tham khảo và thậm chí có khi thông tin trả lời còn thiếu chính xác, không đúng.
Trong môi trường internet tràn ngập thông tin hiện nay, vấn dé gan lọc thông
tin để tìm được những thông tin hữu ích và cần thiết cho người tìm kiếm là
một bài toán khó Nhiều hệ thống ngày nay được xây dựng tập trung nhằmhạn chế các nguồn thông tin không thích hợp Với hệ thống hỗ trợ tập trungcác câu trả lời sẽ tập trung tại một nguồn cung cấp thông tin, các nguồn này làcác chuyên gia phụ trách hỗ trợ các vấn đề liên quan đến chuyên môn của họ
Trang 18Trở ngại của hệ thống này là công việc sẽ trở nên quá tải cho người phân loại
va phân phối câu hỏi cho chuyên gia nếu lượng thông tin trao đổi quá nhiêu.
Một ví dụ cho hệ thống hỗ trợ khách hàng của các hãng trên internet hiện nay
Khi vào trang chủ của một công ty ta thường thấy mục hỗ trợ, khi vào đó
được yêu cầu đặt vấn đề tại đây, sau đó yêu cầu của bạn sẽ được gửi đến địachỉ support@congty.com ( ) Câu hỏi sẽ được gửi đến một tài khoản emailduy nhất, sẽ có người tiếp nhận và phân phối chúng đến các chuyên gia tươngứng để trả lời câu hỏi của bạn Và đối với hệ thống này, dường như công việc
đã dồn rất nhiều cho thư ký — là người phải đọc để hiểu vấn đề đang cần được
hỗ trợ về vấn đề gì, liên quan đến lĩnh vực nào, chuyên môn của chuyên gianao, từ đó quyết định chuyền câu hỏi cho chuyên gia tương ứng Thôngthường đối với hệ thống như vậy từ lúc người dùng gửi câu hỏi đến lúc nhậnđược thư xác nhận “vấn dé của bạn đã được hệ thống ghỉ nhận và chuyên gia
đang xử ý nớ” mat khoảng hai ba ngày Nếu trong một ngày số lượng câu hỏi
gửi đến hệ thống quá nhiều làm sao người thư ký có thể giải quyết xué việcphân loại và chuyển câu hỏi đến chuyên gia Hơn nữa, người thư ký cho hệ
thống này phải là người có kiến thức căn bản về các lĩnh vực mà hệ thống hỗ
trợ dé có thé đọc hiểu được hết các yêu cầu từ người dùng
Chúng ta thấy rằng hệ thống hỗ trợ thông tin trên internet là rất phổ biến, vàvấn dé nảy sinh sự quá tải cho công việc thư ký trong hệ thống này Day
chính là vấn đề mà luận văn mong muốn đạt được đề giải quyết cơ chế phân
phối tự động câu hỏi đến chuyên gia trong các hệ thống hỗ trợ
2.2 Hệ thống hỗ trợ phân loại câu hỏi tự động
2.2.1 Mô tá hoạt động của hệ thống
Trang 19đề cần được hỗ trợ đến hệ thống Các vấn đề từ người dùng đưa đến hệ thống
sẽ được phân loại và chuyển đến chuyên gia một cách tự động, khi vấn đề
thuộc lĩnh vực mới phát sinh mà hệ thống không thẻ phân loại được, thì câu
hỏi sẽ được chuyền bằng tay qua thư ký
Tài khoản cho người sử dụng chia ra làm 3 loại:
- Khách hàng: đối tượng cần hỏi đáp, cần được hỗ trợ Các vấn đề cầnđược giải đáp, hỗ trợ sẽ được khách hàng mô tả bằng văn bản trên ô
text trên trang web.
- Thư ký: người phân loại câu hỏi bằng tay đối với các câu hỏi mà hệ thống không thể phân loại tự động được.
- Chuyên gia: người đưa ra các giải pháp, các câu trả lời cho khách
hàng khi vấn đề của họ được chuyền đến mình
Trang 202.2.2 Vai trò của thành phần trong hệ thống
mang ý nghĩa với tat định văn j
Các thành phần chủ yếu của hệ thống được mô tả trong hình 2.2 Theo đó, ta
có thể phân chia ra làm hai phần lớn:
Trang 21- Phần giao tiếp và tương tác với người sử dụng.
- Tác nhân huấn luyện hệ thống: Ở đây sẽ bao gồm hầu hết các bướcchính cần thực hiện trong luận văn
° Tập các văn bản thuộc nhiều chủ dé: đây là các văn bản thuộc nhiều chủ đề khác nhau, số lượng văn bản tuỳ thuộc vào lĩnh vực
và chủ đề mà hệ thống cần phân loại Tập văn bản này được sửdụng để huấn luyện hệ thống, nói cách khác nó là co sở dé xâydựng bộ từ điển rồi từ đó xây dựng cây quyết định để phục vụ
cho việc phân loại.
Sửa lỗi cú pháp thông thường: thành phần này giúp hiệu chỉnh
tập văn bản để giúp cho việc phân loại được chính xác hơn Các
văn bản thường gặp một số lỗi như bỏ dấu sai chính tả (ví dụ chữtoán hay viết sai thành fan), giữa các chữ có nhiều hơn một
khoảng trắng, viết chưa hết câu mà xuống hàng
Tach từ: thông kê các từ đơn, từ đôi, từ ba có trang tat cả các vănbản Trong thành phần này có sử dụng phương pháp Markov hỗn
hợp Bi-gram và Tri-gram để tách từ đôi, từ ba trong tiếng Viét[S].
Tao từ điển: Các từ sau khi qua bước phân đoạn được đưa vào cơ
sở dữ liệu để tạo nên một bộ từ điển một cách tự động Bộ từđiển này được dùng dé biểu diễn các văn bản của tập văn bảnhuấn luyện và các văn bản cần phân loại
Loại bỏ từ không mang ý nghĩa với các chủ đề: Để giảm nhỏ bộ
kích thước của bộ từ dién, giảm kích thước các ma trận khi biểu
diễn văn bản đồng thời giúp cho việc giảm chỉ phí tính toán Ở
đây tác giả đề xuất sử dụng phương pháp thống kê # kết hợp với
Trang 22các tiêu chí đưa ra đề loại bỏ những từ không mang ý nghĩa phân loại với tất cả các chủ đề.
Xây dựng cây quyết định: Cây quyết định sử dụng là cây nhịphân được xây dựng từ bộ từ điển Mỗi chủ đề sẽ được xây dựng
một cây quyết định riêng Văn bản cần được phân loại sẽ lần lượt
đưa vào từng cây quyết định Mỗi cây quyết định cho biết vănbản cần phân loại có thuộc về chủ đề này hay không Trong bướcnày có thực hiện xây dựng cây quyết định đầy đủ và xén tỉa câyquyết định để loại bỏ những nút không có giá trị thông tin hoặcgiá trị thông tin bị sai Cây quyết định sau khi xén tỉa giúp cho
việc phân loại văn bản được chính xác và nhanh chóng hơn.
Trang 23Chuong 3 CO SO LY THUYET DE GIAI QUYET BAI TOAN
3.1 Thống kê tần xuất xuất hiện từ trong van ban
Bước đầu tiên trong việc phân loại văn bản là chuyền đổi văn bản nay từ một
hay nhiều chuỗi các từ sang một dạng thích hợp dé có thé được xử lý bởi các
thuật toán Các văn bản thường được coi là một tập hợp của các tr mà không cần chú ý đến cấu trúc câu, trật tự các từ trong câu, thì của câu, từ loại Vì vậy
khi phân loại văn bản tiếng Việt, việc cần làm đầu tiên là phải phân đoạn các
câu trong văn bản thành các từ đơn, từ ghép hai, ghép ba một cách chính
xác.
Ngôn ngữ tiếng Việt tồn tại rất nhiều từ kép, từ lay, từ Hán Viét, Dé đạt
được độ chính xác cao trong việc phân loại văn bản thì việc nhận dạng chính xác các từ này là rất quan trọng.
Để phân đoạn văn bản, đầu tiên cin phải xác định tần xuất xuất hiện của các
từ đơn, từ đôi, từ ba trong toàn bộ các tập văn bản huấn luyện Việc xácđịnh tần xuất xuất hiện các từ được tiến hành như sau Dựa vào các ký tự
phân cách từ như: khoảng trắng, dấu cham phẩy câu, dấu mở đóng ngoặc
các từ đơn được tách ra khỏi văn bản Tiếp theo, tất cả các từ hai tiếng đứnggần nhau sẽ được thống kê Tương tự, các từ ba tiếng đứng gần nhau cũng sẽđược thống kê
Vi dụ: xét câu gồm các từ như sau:
ABCDEFG
Với câu trên, các từ 1 tiếng được thống kê là A, B, C, D, E, F, G Các từ 2 tiếng được thống kê là: A B, B C, C D, D E, E F và F G Các từ 3 tiếng được
thống kê là A BC, BC D,C DE,DEF,EFG
Trang 243.2 Biểu diễn văn bản
Thông thường người ta sử dụng mô hình không gian vector dé biéu diễn một
văn bản Trong mô hình này một văn bản được biểu diễn bằng một vector các
từ Số chiều M của không gian vector là số từ mẫu dùng dé biểu diễn tập văn
bản [9]
“công ty
“tiên ”
ở đi ý.
Hình 3.1 Mô hình không gian vector 2 chiều
Tập gồm 3 văn bản 7, d2, đ3 với số chiều M=2 là hai mẫu từ công ty và tién
Trong hình trên văn bản d/ gồm 2 từ tién và 4 từ công ty.
Một tập các văn bản sẽ được biểu diễn bởi một ma trận A với mỗi cột là mộtvector biểu diễn cho một văn bản Mỗi phan tử trong ma trận A tượng trưngcho sự xuất hiện của một từ trong một văn bản nào đó
A= (aix)
Trong đó ax biểu diễn sự xuất hiện của từ 7 trong văn bản k Do mỗi văn bản
thường chỉ chứa một số từ nào đó nên ma trận A sẽ có nhiều phần tử có giá trị
bằng 0 Số hàng M của ma trận là tổng số các từ khác nhau trong các văn bản
M có thể là một số rất lớn Vì vậy một khó khăn trong việc phân loại văn bản
là phải xử lý một ma trận với kích thước rất lớn
Trang 25Dễ dàng nhận thấy, nếu một từ xuất hiện trong văn bản càng nhiều, khả năng
từ đó có liên quan đến chủ dé của văn bản đó càng lớn Nếu một từ xuất hiệntrong hau hết các văn bản thuộc về các chủ đề khác nhau thi từ đó khôngmang ý nghĩa thông tin với một chủ đề nào cả
Gọi fx là số lần từ i xuất hiện trong văn bản k
Na tông số các văn bản
M là tổng số các từ khác nhau
n; là số văn ban có từ i xuất hiện
Có nhiều phương pháp dé xác định a, , điển hình có:
- Phương pháp boolean
1 fx >0
ay = 0 _
Su =0
giá trị a, bằng 1 trong trường hợp từ ¿ có xuất hiện trong van bản k và bằng 0
trong trường hợp ngược lại.
- Phương pháp tần xuất từ (word frequency)
iz SẼ bằng số lần xuất hiện của từ i trong văn bản k (aj = fix)
- Phuong phap tf x idf (term frequency x inverse document frequency)
Từ i xuất hiện trong văn bản k còn được xem xét đến sự xuất hiện của nó ở
Trang 26Phương pháp này tương tự như phương pháp tf x idf Tuy nhiên trong phương
pháp này chiều dài của các văn bản sẽ được để ý đến Với cùng số lần xuấthiện của từ i, văn bản nào có chiều dài ngắn hon thì sẽ có hệ số ay lớn hơn.E2]
- Phương pháp Itc (log term component)
3.3 Giảm kích thước ma trận lưu trữ
Một khó khăn lớn trong việc phân loại văn bản là kích thước ma trận lưu trữ
các từ biểu diễn văn bản Số hàng trong ma trận bằng với số từ để biểu diễntập các văn bản Thông thường số từ này có thé lên đến cả vài chục ngàn Nếu
không giảm được kích thước ma trận thì rất khó tính toán trên ma trận này,
đồng thời chỉ phí tính toán sẽ rất lớn
Có nhiều phương pháp giúp cho việc giảm kích thước ma trận, nó tìm ra các
từ không mang ý nghĩa thông tin cho bất kỳ chủ đề nào và loại bỏ các từ này
ra khỏi ma trận.
- Phuong pháp số lần xuất hiện
Trang 27Phương pháp này dựa trên giả thiết rằng những từ có số lần xuất hiện thấp sẽ
ít mang ý nghĩa thông tin cho việc phân loại văn bản.
Theo phương pháp này thì số lần xuất hiện của một từ là tổng số các văn bảntrong đó có xuất hiện từ này Mỗi từ trong ma trận sẽ được tính ra giá trị của
số lần xuất hiện Nếu giá trị này nhỏ hơn một ngưỡng đã định trước thì từ này
sẽ bị loại bỏ khỏi ma trận.
- Phương pháp độ mạnh của từ
Phương pháp này tính độ mạnh của từ w dựa trên sự xuất hiện đồng thời của
nó trong các văn bản có liên quan với nhau Hai văn bản được gọi là liên quan
khi giá trị cosin của hai vector biểu diễn hai văn bản này nhỏ hơn một ngưỡng
nào đó.
Giả sử x và y là hai văn bản liên quan với nhau, khi đó độ mạnh của từ w là:
s(w)= P(wex|we y)
Phương pháp này giả thiết rằng các từ càng có trong nhiều văn bản liên quan
với nhau thì các từ này càng có ý nghĩa thông tin.
- Phương pháp độ lợi thông tin:
Gọi c¿, ,c¿ là các chủ dé của các văn bản
Độ lợi thông tin của một từ w được tính như sau
k & _« — —
IG(w) =-> P(e, log P(e,)+ P(w)3` P(e, |w)log P(e, |w)+ PO)” P(e, |w)log P(e; |)
jl jal il
Trong do
P(c) là xác suất của một văn bản thuộc chủ đề c
P(w) là xác suất của một văn bản có từ w xuất hiện
P(c | w) là xác suất của một văn bản thuộc chủ đề c mà có từ w xuất
hiện
Trang 28P(c, |») là xác suất của một văn bản thuộc chủ đề c; mà không có từ wxuất hiện
Các từ sẽ lần lượt được tính giá trị độ lợi thông tin Từ nào có giá trị độ lợi
thông tin nhỏ hơn một ngưỡng đã định trước sẽ bị loại bỏ khỏi ma trận.
- Phương pháp thống kê we
Giả sử từ w được phân bố vào chủ dé c; như bảng sau:
Van bản có chứa từ w_| Van ban không chứa từ w
Van bản thuộc chủ đề G A Cc
Van bản không thuộc chủ đê c; B D
Bang 3.1 - Phân bô của từ w trong tập van ban
Trong do:
A là tổng số văn ban thuộc chủ đề c¡ có chứa từ w
B là tổng số văn bản không thuộc chủ đề c¡ nhưng có chứa từ w
C là tổng số văn bản thuộc chủ để c¡ nhưng không chứa từ w
D là tổng số văn bản không thuộc chủ đề cj và cũng không chứa từ w
" i, klacac chỉ số tương ứng với các 6 trong bảng 3.1
= Ox là giá trị quan sát được Giá trị O;), O2;, O12, O» trong bảng trên lần
lượt là 4, 8, C, D
Trang 29= Ey là giá trị phân bố Giá trị phân bố của mỗi 6 trong bảng 3.1 được
tính như sau:
DẠ -42£,4t8 Ly
N N
Ey = 2 tC, C# Py N N
Giá trị thống kê z? của từ w trên tất cả các chủ đề được tính như sau:
Trang 30này không phải là một vấn đề.
Trong tiếng Anh, Pháp, Đức các từ được phân định bằng khoảng trắng nhờ
đó việc xác định từ vựng là rất rõ ràng
Tiếng Việt không giống như các ngôn ngữ khác trong việc phân định từ:khoảng trắng không phải là điểm tách từ mà chỉ là tách âm tiết (tiếng), một
thành tố nhỏ hơn từ trong tiếng việt.
3.4.2 Sự cần thiết tách từ tiếng Việt
Từ tiếng Việt có thể bao gồm từ một tiếng (từ đơn) như: ăn, học, nhà, cửa,
cao, rộng, và, nhưng, đã, sẽ, và cũng có thé bao gồm nhiều tiếng (từ đôi, từba) như: giáo sư, tạp chí, đủng đỉnh, bắt thình lình, xã hội học, Đồng thời
một câu cũng có thé được phân đoạn theo những cách khác nhau và do đó sẽ
được hiểu theo những nghĩa khác nhau
Trang 31Vi dụ: câu “Ông già di nhanh quá” có thé tách từ theo 2 cách khác nhau thành
2 câu sau Hai câu này có ý nghĩa hoàn toàn khác nhau.
Câu 1: “Ông gid di nhanh qua”
Câu 2: “Ong già đi nhanh qua”
Một ví dụ khác cho thấy có nhiều cách tách từ trên câu: “Máy tinh nhanh được sử dụng trong nghiên cứu khoa hoc”
Câu 1: “May tính nhanh được sử dụng trong nghiên cứu khoa hoc”
Câu 2: “Máy tính nhanh được sử dụng trong nghiên cứu khoa học ”
Câu 3: “May tinh nhanh được sử dụng trong nghiên cứu khoa hoc”
Câu 4: “Máy tính nhanh được sử dụng trong nghiên cứu khoa học ”
Vi dụ nêu trên cho thấy có sự nhập nhằng trong việc tách từ tiếng Việt Việc
tách từ chính xác hỗ trợ đắc lực cho việc xây dựng từ điển giúp cho việc phânloại văn bản đạt độ chính xác cao hơn đồng thời các vấn đề về xử lý ngôn ngữ
tự nhiên cũng đạt kết quả tốt hơn.
3.4.3 Tách từ tiếng Việt
Đối với một số ngôn ngữ Đông phương như tiếng Trung Quốc, tiếng Nhật,tiếng Hàn, tiếng Việt, tiếng Thái thì sự phân định từ bằng khoảng trắng làkhông thé Nhiều phương pháp tách từ được nghiên cứu dựa trên cơ sở luật và
sử dụng từ điển Một số phương pháp gần đây được các nhà nghiên cứu về xử
lý ngôn ngữ tự nhiên đưa ra dựa vào tập văn liệu (corpus) và sử dụng các mô
hình thống kê Trong bước tách từ này, tác giả đề xuất vận dụng mô hìnhthống kê dựa vào tập văn liệu mà Trần Ngọc Tuấn [5] đã thử nghiệm trên
ngôn ngữ tiếng Việt và đạt được kết quả rất khả quan Đây là phương pháp
huấn luyện dựa vào các mô hình Markov cấp 1(bi-gram) và cấp 2 (tri-gram),
và thống kê xuất hiện của các n-gram từ một tập văn liệu thô
Trang 323.4.4 Mô hình Markov và N-gram
o Phân lớp tương đương
Thông thường để thực hiện suy luận về một đặc trưng, chúng ta mong muốntìm được các đặc trưng khác có trong mô hình và trên cơ sở đó có thể dự đoán
về đặc trưng cần tìm Ở đây giả thiết rằng những điều xảy ra trong quá khứ sẽ
giúp tìm ra những gì sẽ đến trong tương lai Giả thiết này dan đến một bài
toán phân lớp: cần tiên đoán các đặc trưng mục tiêu trên cơ sở của những lớpđặc trưng Với nguyên tắc trên, ta cần chia dữ liệu trong corpus thành các lớp
tương đương có chung các giá trị đặc trưng, và sử dụng sự phân lớp tương
đương này để tiên đoán về giá trị của đặc trưng mục tiêu trên phần dữ liệukhác(mới) Nếu sự phân lớp càng chỉ tiết (càng có nhiều lớp tương đương) thì
phân phối xác suất của đặc trưng chưa biết càng tốt Tuy nhiên sẽ phát sinh
van đề: càng nhiều phân vùng dữ liệu càng có nguy cơ có vùng không có(hoặc rat it) dữ liệu (qua huấn luyện), từ đó ước lượng thống kê sẽ kém độ tincậy Như vậy một vấn đề cần giải quyết là tìm kiếm một sự thỏa hiệp giữ haitiêu chuẩn: phân lớp chỉ tiết và có đủ dữ liệu cho từng lớp
o Mô hình Markov ấn
Mô hình Markov ân (Hidden Markov Model - HMM) là mô hình thống kê
trong đó hệ thống được mô hình hóa được cho là một quá trình Markov vớicác tham số không biết trước và nhiệm vụ là xác định các tham số ẩn từ cáctham số quan sát được, dựa trên sự thừa nhận này Các tham số của mô hình
được rút ra sau đó có thể sử dụng đề thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu.
Trong một mô hình Markov điển hình, trạng thái được quan sát trực tiếp bởi
người quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham sốduy nhất Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất
Trang 33phân bổ trên các biểu hiện đầu ra có thé Vì vậy, nhìn vào day của các biểu
hiện được sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái.
Mot ví dụ cụ thé:
Giả sử tôi có một người bạn sóng ở rất xa Hàng ngày chúng tôi gọi điện thoại cho nhau và anh ta ké cho tôi nghe anh ta đã làm gi trong ngày Người ban tôi chỉ có 3 công việc mà anh thích làm là 1) đi dạo, 2) đi chợ và 3) dọn phòng.
Hiển nhiên là sự lựa chọn phải làm gì thì phụ thuộc trực tiếp vào thời tiết hômday thé nào Như vậy, tôi không nhận được thông tin cụ thé về thời tiết nơianh bạn tôi sống nhưng tôi lại biết về xu hướng chung Dựa vào lời ké củacông việc hàng ngày của anh ta, tôi có thể đoán về thời tiết hôm đó
Như vậy, thời tiết được vận hành như một chuỗi Markov cụ thể Có 2 trạngthái thời tiết, "Mưa" và "Nắng", nhưng tôi không quan sát trực tiếp, do đó,
chúng là ấn đối với tôi Vào mỗi ngày, anh bạn tôi sẽ làm một trong các việc
sau phụ thuộc vào thời tiết hôm đó là "đi dao", "di chợ" và "don phòng" Vì
anh bạn tôi đã tường thuật lại hoạt động của mình, đó là các dữ liệu quan sát Toàn bộ hệ thống nay là một mô hình Markov an.
II các xác suất trạng thái banđầu II={},i€S
A xác suất dịch chuyền trạng thái A=tai}, iJES
Trang 34B xác suất phát ra biểu tượng B= {aig}, JES, KEK
Day trang thai X=(Xj, , Xrv7) XI:SE>({I N}
Day output O=(0}, ,0r) o/(CK
Với một HMM cho trước, có thé dễ dàng mô phỏng hoạt động của một quátrình Markov, và tạo ra một dãy output Tuy nhiên điều này không thực sự
hấp dẫn Sự hấp dẫn trong các HMM ở chỗ: giả sử có các tập dữ liệu được tạo
ra bởi một HMM, yêu cầu tính toán các xác suất và các dãy trạng thái có thểtiềm an bên dưới
Khởi tạo ở trạng thái sị với xác suất z; (ví dụ, X:=i)
Forever do
Chuyển từ trạng thái s, với xác suất aj (ví du, X,:¡=j)
Phát biểu tượng quan sát o/=k với xác suất ijk
//o, xác suất quan sát ở thời điểm t
f:=ttl
od
Trở lại ví dụ, ta có
trang thái = (Mưa', 'Nắng')
di liệu quan sát = (‘di dạo', 'di cho’, 'don phòng)
khả năng ban đầu = {'Mưa': 0.6, 'Nang’: 0.4}
khả năng chuyển dịch = {
"Rainy' : {Mưa': 0.7, "Nắng': 0.3},
'Sunny': {'Mưa': 0.4, 'Nắng': 0.6},
}
Trang 35khả năng loại bỏ = {
"Mưa': {đi dạo': 0.1, 'đi chợ": 0.4, 'dọn phòng': 0.5},
"Nắng' : {'di dạo': 0.6, 'di chợ": 0.3, 'don phòng': 0.1},
}
Trong đoạn câu lệnh trên, khả năng ban đầu cho thấy tôi không chắc về
trạng thái HMM khi người bạn đầu tiên gọi điện cho tôi (tt cả cái tôi biết làtrời có vẻ mưa) khả năng chuyển dịch cho thấy những thay đổi về thời tiết
trong chuỗi Markov Trong ví dụ này, chỉ có 30% khả năng ngày mai trời sẽ
nắng nếu hôm nay trời mưa Khả năng loại bỏ cho thấy anh bạn thích làmnhững việc gì mỗi ngày Nếu trời mưa thì có đến 50% khả năng anh bạn này
sẽ don phòng, trong khi trời nắng thì 60% khả năng anh ta sẽ đi dao.
o_Mô hình N-Gram
N-gram là loại mô hình markov an được dùng trong các giải thuật xử lý ngôn
ngữ tự nhiên sử dụng những phương pháp thống kê
Giả sử ta cần tính xác suất xuất hiện của chuỗi T1, T2, , TQ
Theo công thức tính xác suất đồng thời, ta có:
Trang 36hợp này, TỊT; Tọ được xem là sự xuất hiện của một từ tiếng Việt gồm Q
trước nó.
Chúng ta sử dụng sự phân lớp của các tiếng đứng trước, sử dụng lịch sử để
tiên đoán cho tiếng xuất hiện tiếp theo Dựa trên vấn đề căn bản là với số
lượng text đủ lớn, chúng ta biết được tiếng nào có xu hướng theo sau cáctiếng khác Chúng ta không xem xét từng lịch sử một cách riêng biệt vì đa số
các câu trong ngôn ngữ tự nhiên khi xuất hiện trong một text đều chưa hề xuất
hiện trước đó, do vậy không có một lịch sử nào có thể giúp làm căn cứ tiênđoán một cách chính xác Thậm chí trong trường hợp phần đầu của cụm từ
(câu) đã có trong lịch sử, thì phần cuối của nó vẫn có thể hoàn toàn mới Do
vậy chúng ta cần một phương pháp đề thành lập nhóm lịch sử tương tự, làmcăn cứ tiên đoán cho tiếng kế tiếp Một trong những phương pháp là sử dụnggiả thiết markov : chỉ có một số ít ngữ cảnh cục bộ kế trước là có ảnh hưởng
đến tiếng cần tiên đoán Mô hình cần lập sử dụng nguyên tắc : mọi lịch sử có
cùng (n-1) tiếng được xếp vào cùng một lớp tương đương, đây là mô hìnhmarkov cấp (n-1), và được gọi là mô hình n-gram Tiếng cuối cùng trong n-
gram là tiếng cần tiên đoán sự xuất hiện của nó.
Trang 37Cần lưu ý rằng ngay cả ước lượng xác suất n-gram cũng khĩ hiện thực trong
thực nghiệm, do đĩ n-gram trong thực tế chỉ được dùng với n=2(bi-gram) và n=3(tri-gram).
3.5 Các thuật tốn phân loại văn bản
Phan này trình bày một số thuật tốn tiêu biểu thường được sử dụng trong lĩnhvực phân loại văn bản Các thuật tốn cĩ thể kể đến như: Naive Bayes,Decision Tree, K Nearest Neighbor, Rocchio Đối với mỗi thuật tốn điều
cĩ những điều yếu điểm mạnh riêng Trong thực tế, tùy theo lĩnh vực của vănbản cần phân loại mà mỗi thuật tốn sẽ cĩ những ứng dụng riêng của nĩ
Tập văn bản ban đầu trước khi đưa vào thuật tốn thường được chia ra làm 3
tập:
¢ Tập huấn luyện dùng trong quá trình xây dựng thuật tốn phân loại vănbản Mục đích của tập này là để huấn luyện thuật tốn trong việc nhậnbiết chủ đề của các văn bản
«_ Tập kiểm chứng dùng dé hiệu chỉnh lại sau khi thuật tốn đã được huấnluyện bởi tập hudn luyện Một số thuật tốn khơng cần đến tập này
e Tập kiểm tra dùng dé đánh giá độ chính xác sau khi thuật tốn đã được
xây dựng và hiệu chỉnh hồn chỉnh.
Khi so sánh về độ chính xác của các giải thuật, các giải thuật này cần phảiđược xây dựng trên cùng một tập huấn luyện và được kiểm tra trên cùng mộttập kiểm tra đồng thời phải sử dụng cùng một phương pháp đánh giá
3.5.1 Thuật tốn phân loại văn bản Nạve Bayes
3.5.1.1 Lý thuyết về xác suất
- Các xác suất đều nằm giữa 0 và 1
0<P(A)<1
Trang 38- Xác suất hợp của A và B sẽ được tính bởi công thức
P(A UB) = P(A) + P(B) - P(A ¬B)
gop
- Xác suất có điều kiện:
Xác suất dé sự kiện A xảy ra khi đã có sự kiện B là
Từ đó suy ra: P(A OB) = P(A) P(B)
- Gọi E là văn bản cân phân loại
- Ta cân tìm xác suât của văn bản E đôi với mỗi chủ dé c¡
P(c, | E)= Melee re)
Với tat cả chủ dé, ta có
a P(E)
Trang 39= P(E)= 3` P(c,)x P(E |e,)
Nila tổng số văn bản trong tập huấn luyện
n, là số văn bản trong tập hudn luyện thuộc về chủ đề ¢;
- Văn bản E được biểu diễn bang các từ e; như sau:
E=eiA@^ Am
- Giả sử các từ e; của một văn bản là độc lập với nhau Ta có:
P(E| c¡)= P(@i AG A A Em | ci)
=llmP€; | ci)
Ví dụ:
C= {allergy, cold, well}
€¡ = sneeze; e; = cough; e; = fever
E = {sneeze, cough, ¬ fever}
Prob Well Cold Allergy P(c) 0.9 0.05 0.05 P(sneeze | c¡ ) 0.1 0.9 0.9
=0.019/P(E)
Trang 40P(E) = 0.089 + 0.01 + 0.019 = 0.0379 P(well | E) = 0.23
P(cold | E) = 0.26 P(allergy | E) = 0.50 Vay xác suất của allergy là cao nhất
3.5.1.3 Đánh giá thuật toán
¢ Thuật toán đơn giản, dễ thực hiện.
e Xác suất của văn bản đối với chủ đề c; phụ thuộc vào xác suất P(c)
Xác suất này được tinh dựa vào các văn bản trong tập huấn luyện Như
vậy xác suất P(e,) phụ thuộc hoàn toàn vào tập huấn luyện Giả sử sốlượng các văn bản thuộc về mỗi chủ đề trong tập huấn huyện khác nhau,
khi đó chủ đề / nào có số lượng văn bản nhiều nhất sẽ có xác suất PŒ)
lớn nhất Điều này sẽ ảnh hưởng đến độ chính xác của giải thuật
¢ Trong quá trình tính toán, dé đơn giản ta có giả sử các từ e; của một vănbản là độc lập với nhau khi cho trước chủ dé c;, điều này đôi khi gây ra
sự không chính xác Nếu không đưa ra giả thuyết trên thì việc tính toán
sẽ rất phức tạp (độ phức tạp là một hàm mũ tỉ lệ với hệ số m)