1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Công nghệ thông tin: Hỗ trợ phân loại câu hỏi qua mạng

94 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hỗ trợ phân loại câu hỏi qua mạng
Tác giả Phạm Thanh Phong
Người hướng dẫn PGS.TS Đỗ Phúc
Trường học ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
Chuyên ngành Công nghệ thông tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2009
Thành phố Tp.Hồ Chí Minh
Định dạng
Số trang 94
Dung lượng 42,96 MB

Nội dung

Mục tiêu của đề tài là xây dựng một hệ thống hỗ trợ phân loại câu hỏi tự động qua mạng bằng tiếng Việt, trong đó quá trình phân phối các câu hỏi, yêu cầu từ người dùng đến chuyên gia tươ

Trang 1

LUAN VAN THAC Si CONG NGHE THONG TIN

HUONG DAN KHOA HOC:

PGS.TS BO PHUC

Tp.Hồ Chí Minh — Năm 2009

Trang 2

Dé hoàn thành chương trình cao học và thực hiện đề tài này tôi đã nhận được sự hướng dẫn, giúp đỡ và góp ý nhiệt tình của của quý Thây Cô trường Đại học Công nghệ Thông tin Thành phố Hô Chi Minh.

Trước hết, tôi xin chân thành cảm ơn đến quỷ Thay Cô trường Đại học Công nghệ Thông tin, Đặc biệt là những Thây

Cô đã tận tình dạy bảo cho tôi trong suốt thời gian học tập tại

trường.

Tôi xin gửi lời biết ơn sâu sắc đến Phó giáo sự — Tiến sĩ Đỗ Phúc đã dành nhiều thời gian và tâm huyết hướng dẫn nghiên cứu và giúp tôi hoàn thành luận văn tốt nghiệp này.

Nhân đây, tôi xin chân thành cảm ơn Ban Giám hiệu

trường Đại học Công nghệ Thông tin cùng quí Thây Cô ở Phòng

sau đại học đã tạo rất nhiêu điều kiện thuận lợi để tôi học tập và hoàn thành tốt khóa học.

Mặc dù đã có nhiều có gắng và hoàn thiện luận văn bằng

tat cả sự nhiệt tình và năng lực của mình, tuy nhiên không thể

tránh khỏi sự thiếu sót, rất mong nhận được những đóng góp

quý báo của quý Thầy Cô và các bạn.

TP Hồ Chí Minh, tháng 10, năm 2009

Học viên

Phạm Thanh Phong

Trang 3

1.1 Giới thiệu

1.2 Đề tài nghiên cứu

1.3 Các công trình liên quan 3

1.4 Các công việc phải tiến hành trong luận vai 7Chương 2 HE THONG HỖ TRỢ 9

2.1 Giới thiệu các hệ thống hỗ trợ 9

2.2 Hé théng hỗ trợ phân loại câu hỏi tự ONY - :: :-:++ 10

2.2.1 Mô tả hoạt động của hệ thống

2.2.2 Vai trò của thành phần trong hệ thống "—¬.

Chương 3 CƠ SỞ LÝ THUYET DE GIẢI QUYÉT BÀI TOÁN 153.1 Thống kê tần xuất xuất hiện từ trong văn bản IS

3.2 Biểu diễn văn bản

18 3.4 Tach từ dùng corpus và các mô hình thông kê - + 2 3.4.1 Don vị từ vung 22

3.4.2 Sự cần thiết tách từ tiếng Việt - ccccccccrrrrrrrrrrrrtrrrrrrrrree 223.4.3 Tach từ tiếng ViỆt 2¿c c2 c222222222111111111 2c xe 23

3.4.4 Mô hình Markov và N-gram ccccsceeeeeeereererrc 24 3.5 Các thuật toán phân loại văn bản

3.5.1 Thuật toán phân loại văn bản Naive Bayes . 555 29

3.5.1.1 Lý thuyết về xác suất -222222v222++++rrrttttttEEEEEEEELxveeeccee 29

3.5.1.2 Thuật toán

3.5.1.3 Đánh giá thuật toán -¿ c5ccctttttieerirriiriirrrerrerree 32

Trang 4

3.5.2.2 Đánh giá «6+ cành 1H 1 H1 HH H1 10 re 3.5.3 Thuật toán phân loại văn bản Rocchio -:- +52 5+55+5<+s+ 34 3.5.3.1 Thuật toán c¿-c+t th nhìn ườn 34 3.5.3.2 Đánh giá

3.6 Phương pháp phân loại văn ban sử dụng cây quyết định 36 3.6.1 Entropy

3.6.2 Độ lợi thông tin ¿- c5 St reeeree OT, 3.6.3 n án ốốốố ẻ ẻ 38 3.6.4 Xén tỉa cây .42 3.6.5 Xây dựng tập luật phân loại từ cây quyết định - 44 3.6.6 Đánh giá thuật toán

Chương 4 XÂY DUNG HE THON!

4.1 Tập văn bản mẫu sử dụng trong luận văn

4.2 Thống kê các từ đơn, từ đôi, từ ba

4.3 Tách từ.

4.4 Xây dựng từ đi

4.5 Biểu diễn văn ban theo các từ trong từ điển -22 54

4.6 Xây dựng cây quyết định -¿522csscrsrrrsseerrrrrrsrerrerrrrsevc 55

4.6.1 Chọn từ trong từ điển dé gan vào nút cvvsccccccccceerrrr 55

4.6.2 Thuật toán ta0 cây + ch HH tớ 56

4.7 Xén tia cây quyết định

4.8 Phân loại văn bản dựa trên cây quyêt định 5 +©5-5<++ 62

Chương 5 CHƯƠNG TRINH .22222¿2222£22222222222222222222errrrrrrr 63

ell NGÔ HÀ Ứ 242/0/4/0230020220230/40/0209000220/10)030543/1/39316910414104:3330 63

Trang 5

Chương 6 KET QUA THỰC NGHIỆM VÀ ĐÁNH GIÁ 7Í

6.1 Phương pháp đánh giá độ chính xác -¿- 555cc 71

6.2 Kết quả đạt được

Chương 7 KET LUẬN VÀ HƯỚNG PHAT TRIÊN - 74

Trang 6

Training set : tập huấn luyện

Validation set : tập kiểm chứng

Test set : tập kiểm tra

Decision tree : cây quyết định

Word frequency : tần xuất từ

Corpus : tập văn liệu

Information Gain: độ lợi thông tin

Word Segment : tách từ

K Nearest Neighbor (KNN): K láng giềng gần

Node : nút của cây quyết định

Entropy : chỉ sự đồng nhất của tập hợp

HMM : Hidden Markov Model

Tf x idf : Term Frequency x Inverse Document Frequency Tfc : Term Frequency Component

Ltc : Log Term Component

CNTT : Công nghệ Thông tin

Trang 7

Hình 5.5 — Màn hình hỗ trợ dành cho chuyên gi:

Hình 5.6 — Mành hình dành cho thư ký -.¿¿ 22¿c555scceccvscsccrx+ 70

Trang 8

nay FY DS Phụ lục bảng thống kê từ ba Phụ lục từ điỂn c2tcccerrrriirriiiriirrririrriie 78

Phụ lục cây CNII SE ốc 5.0.0.0 7 80

Vi trí NodeID trong cây CNTT uu cece OL

Phụ lục cây Viễn thông

Vị trí NodeID trong cây Viễn thông -c5ccccccccccccc-c-ex 94

Trang 9

ngập trên mọi phương tiện truyền thông, đặc biệt là sự phát triển rộng rãi củamạng toàn cầu internet, hằng ngày con người phải xử lý một lượng thông tin

khổng lồ Vấn đề hỏi đáp, tư van trở nên phổ biến và hữu hiệu hơn bao giờ

hết Nhiều hệ thống hỗ trợ thông tin ra đời nhằm đáp ứng nhu cầu trao đổithông tin của con người, nó giúp cho doanh nghiệp cung cấp cho khách hàng

những đầu mối dé giải quyết các van đề phát sinh sau bán hang, dịch vụ xử lý

các vấn đề về kỷ thuật, tư vấn, Khi người dùng cần sự hỗ trợ ở một lĩnhvực nào đó, họ sẽ đưa câu hỏi đến hệ thống hỗ trợ, đợi một thời gian và nhận

được câu trả lời.

Mô hình chung của các trung tâm hỗ trợ hiên nay là các cuộc gọi hoặc thông

tin yêu cầu từ khác hàng gửi đến trung tâm sẽ được nhân viên hỗ trợ mức 1tiếp nhận và phân loại yêu cầu, nếu yêu cầu đó đơn giản trong khả năng xử lý

của nhân viên mức 1 thì họ sẽ xử lý trực tiếp và phản hồi thông tin đó cho

khách hàng Trong trường hợp yêu cầu vượt qua khả năng thì họ sẽ phân loại

và chuyên bậc cho các nhân viên hỗ trợ mức 2,3 mức độ chuyên gia xử lý

được thê hiện ở mức càng cao Trong quá trình hoạt động, tất cả thông tin yêucầu, giải pháp xử lý của tất cả các trường hợp sẽ được lưu lại vào cơ sở đữliệu kiến thức nền

Mục tiêu của đề tài là xây dựng một hệ thống hỗ trợ phân loại câu hỏi tự động

qua mạng bằng tiếng Việt, trong đó quá trình phân phối các câu hỏi, yêu cầu

từ người dùng đến chuyên gia tương ứng sẽ được thực hiện một cách tự động

1.2 Đề tài nghiên cứu

Trang 10

khác đây là quá trình phân loại văn bản tiếng Việt và các văn bản cần phân

loại ở đây là các câu hỏi, yêu cầu.

Ngôn ngữ tiếng Việt về cơ bản rất khác với ngôn ngữ tiếng Anh và các ngôn

ngữ khác nói chung Về khía cạnh ngữ nghĩa, ngôn ngữ tiếng Việt có rấtnhiều điểm nhập nhằng do bản chất phức tạp của nó Trong công trình nghiêncứu này, các thuật toán và phương pháp sử dụng không liên quan đến cú pháp

trong ngôn ngữ.

Để cho việc phân loại đạt kết quả tốt thì tập văn bản mẫu sử dụng với mỗi chủ

đề phải rất lớn Mỗi chủ đề cần phân loại phải có vài ngàn văn bản mẫu thìmới có thể đạt được độ chính xác cao và các văn bản mẫu cần phải có cácchuyên gia thuộc các chủ đề này để tạo lập các văn bản mẫu Trong khuônkhổ luận văn này, tác giả sử dụng thuật toán cây quyết định để phân loại cácvăn bản trong hai chủ đề CNTT và Viễn thông, hai chủ đề này cùng thuộc

lĩnh vực khoa học kỹ thuật Đối với các văn bản thuộc các chủ đề ở các lĩnh

vực hoàn toàn khác nhau như văn học, kinh tế, y học, pháp luật thì việc

phân loại văn bản sẽ dễ dàng hơn và đạt được độ chính xác cao hơn Hai chủ

đề trên có thể xem là tiêu biểu vì chúng rất gần nhau, đều thuộc cùng một lĩnh

vực Một văn bản có thể thuộc cùng lúc cả hai chủ đề Việc phân loại các văn

bản thuộc hai chủ đề trên sẽ khó khăn hơn và đạt được độ chính xác thấp hơn

Vì vậy nếu giải quyết tốt việc phân loại văn bản cho hai chủ đề CNTT và

Viễn thông, việc phân loại văn bản cho các chủ để khác sẽ đạt được độ chính xác cao hơn.

Trang 11

đó[1][5][6][12] Tuy nhiên việc áp dụng phân loại văn bản dé xây dựng mộtứng dụng cụ thể thì vẫn chưa tìm thấy nhiều.

Công trình của Trần Việt Quyén[1] xây dựng hệ thống hỏi đáp từ xa dựa vào

kỹ thuật phân loại văn bản Từ những câu hỏi thuộc về các lớp cụ thể như

toán rời rac, tin học đại cương, cơ sở dit liệu tác giả đưa vào công cụ rút trích đặc trưng văn bản, từ đó rút ra các luật phân lớp giúp cho việc phân loại các

câu hỏi trong hệ thống

Các bước thực hiện phân loại văn bản

Bước 1: tạo vốn từ cho toàn bộ văn bản

Bước 2: chọn T; là một ngưỡng để chọn ra tập từ một từ phổ biến (Trlà

số nguyên, số văn bản có chứa từ)

Bước 3: Tạo cụm từ

Bước 4: Lọc từ và cụm từ dựa trên độ tốt theo phân lớp

Bước 5: Loc từ dựa trên tf-idf

Bước 6: Tìm tập chỉ báo lớn

Tuy nhiên,việc lọc các từ, cụm từ trong tiếng Việt gặp một số khó khăn:

- Số cụm từ phát sinh còn lẫn một số cụm từ không có ý nghĩa phân loại

- Hướng tiếp cận lọc từ, cụm từ dựa trên độ tốt của từ chủ yếu loại bỏ sự

nhập nhang trong phân lớp, chỉ loại bỏ phần lớn các từ don.

Những khó khăn này dẫn đến phát sinh nhiều tổ hợp vô ích, làm chậm quátrình xây dựng bộ luật phân lớp Dé giải quyết những khó khăn này tác giả đã

đề xuất hướng tiếp cận tự động rút trích đặc trưng văn bản có sự hỗ trợ của từ

điền

Trang 12

sở dữ liệu, tin học đại cương và toán rời rạc, mỗi môn 100 câu hỏi.

Hướng tiếp cận lọc có từ Hướng tiếp cận lọcđiển không có từ điển

Rút trích đặc trưng văn | 120 giây 112 giây

bản

Tạo luật phân lớp 1.320 giây 259.200 giây

Phân loại câu hỏi 660 giây/100 câu hỏi 1.500giây/100 câu hỏi

Số câu hỏi phân loại 60 58

S6 câu hỏi phân loại sai 2 10

S6 câu hỏi không thê 38 32

tập văn liệu và không dùng từ điển Phương pháp huấn luyện dựa vào việc

xây dựng các mô hình markov cấp 1 và cấp 2 (tương ứng là bi-gram và gram), và thống kê xuất hiện của các n-gram từ một tập văn liệu thô

tri-Tác giả đã vận dụng các nguyên lý kết hợp, phương pháp phân đoạn dựa vào

các thông tin hỗ tương rút từ tập văn liệu đã qua huấn luyện mà không cầntham khao từ điển Dựa vào mô hình Markov ẩn hỗn hợp cấp 1 và cấp 2, tính

Trang 13

tham số ngưỡng t.

Tác giả cũng đã xây dựng được một chương tình demo phân đoạn văn ban

trên tập corpus là tập “Bách khoa toàn thư mạng”.

Đây là kết quả khá cao nếu đem so sánh với phương pháp của Richard Sproat,

Chilin Shih, Willam Gale và Nancy Chang trong A Stochastic Finite-State Word-Segmentation Algorithm for Chinese Day là công trình cũng với mục

tiêu xác định từ trong chuồi tiếng Trung Quốc, các tác giả sử dụng một giải

thuật hữu hạn trạng thái có tính thống kê, dùng từ điển và phân tích tiếng Kết

quả thực nghiệm là 70% trên 100 câu thử với 4372 âm tiết[13]

Công trình của Nguyễn An Nhơn về Phân loại văn bản theo chủ đề bằng

phương pháp Support Vector Machines [10], Tác giả đã xây dựng một hệ

thống dùng dé phân loại văn bản theo chủ đề Nhân của hệ thống phân loại

nay là một máy học theo mô hình Support Vector Machines Dé tăng độ chính

xác của hệ thống, tác gia sử dụng thêm một số phương pháp hỗ trợ tiền xử lýnhư phương pháp chọn từ khóa giúp giảm kích thước không gian huấn luyện,

Trang 14

biên tối ưu dé phân chia các văn bản mẫu vào hai tập rời nhau Phương pháp

này được các nhà khoa học trong ngành xử lý ngôn ngữ tự nhiên đánh giá là

có hiệu suất và độ chính xác cao.

Tác giả chọn thuật toán SMO (Sequential Minimal Optimization) để hiện thựcphương pháp trên Tối ưu thuật toán SMO nguyên thuỷ bằng cách cache dữliệu và thay đổi cách chọn giá trị ngưỡng giúp cho tốc độ học tăng lên rấtnhiều (~318 lần) Kết hợp với việc tách từ bằng giải thuật N-gram giúp giatăng độ chính xác của hệ thống đối với các văn bản tiếng Việt

Trong phần hiện thực tác giả dùng tập văn bản thuộc ba chủ đề là “xã hội”,

“khoa học” và “thé thao”, dé phân loại cho tập văn bản trong các chủ đề gầnnhau, tác giả xây dựng thêm mô hình phân loại cho tập văn bản gồm hai chủ

Tác giả nhận xét các độ chính xác của hệ thống sau khi áp dụng phương pháp

phân đoạn văn bản như sau:

- Mô hình phân loại các chủ đề “khoa học — xã hội — thé thao”, độ chính xác được nâng lên là 91%

Trang 15

trước đó.

* Với mỗi hướng tiếp cận khác nhau để giải quyết bài toán phân loại văn bảnthì đều có những ưu khuyết điểm riêng Trong khuôn khô đề tài này, tác giảxin dé xuất một hướng tiếp cận khác là sử dụng cây quyết định dé giải quyếtbài toán phân loại văn bản Cây quyết định được sử dụng rat rong rai trong

lĩnh vực máy học va khai pha dữ liệu, nó là một phương pháp mô ta dit liệu

trực quan nhất, dễ hiểu nhất và trong bài toán phân loại van bản trên ngôn ngữ

tiếng Anh nó cũng đạt được một số kết quả rất khả quan Với mong muốn thử

nghiệm thuật toán cây quyết định để giải quyết bài toán phân loại văn bảntiếng Việt và từ đó xây dựng một ứng dụng đề hỗ trợ phân loại câu hỏi tự

động qua mạng, đó là lý do tác giả chọn phương pháp này.

1.4 Các công việc phải tiến hành trong luận văn

Để giải quyết được các mục tiêu đề ra, các vấn đề sau cần phải được giảiquyết trong luận văn:

e Xử lý văn bản, tạo từ điển từ tập văn bản

-_ Thống kê các từ đơn, từ đôi, từ ba

- Tach từ trong tiếng Việt

- Tạo từ điển tự động

e_ Biểu diễn văn bản

e_ Xây dựng cây quyết định cho từng chủ đề của tập văn bản, với mỗi núttrên cây là một từ trong từ điển

- _ Cách lựa chọn từ dé đưa vào nút trong cây quyết định

Trang 16

« Thi nghiệm và khang định kết quả

Trang 17

Có rất nhiều hình thức hỗ trợ qua mạng được xây dựng trên các website để hỗ

trợ trực tuyến như tin nhắn tức thời, chat, diễn đàn trao đổi thông tin, email Dựa vào nơi xuất phát câu hỏi cần hỗ trợ và nguồn giải đáp ta có thể phân loại

các hệ thống này thành hai loại: loại tập trung và loại không tập trung.

Đối với hệ thống hỏi đáp trực tuyến, hỗ trợ qua email, hỗ trợ qua tin nhắn tứcthời các câu hỏi gửi đến thì các câu trả lời chỉ được xuất phát tập trung một

nơi Hình thức này gọi là tập trung.

Đối với hệ thống diễn dan thảo luận, mailing-list các câu hỏi có thé nhận đượccác câu trả lời từ nhiều nơi Thường đối với hệ thống này, ai đến chuyên mục

nếu biết câu trả lời cho câu hỏi nào đó và nếu sẵn lòng thì sẽ trả lời Như vậy

câu trả lời xuất phát từ nhiều người dùng khác nhau Các hệ thống như thế gọi

là hệ thống không tập trung

Hai hệ thống này có những ưu khuyết điểm riêng Đối với hệ thống không tập

trung, việc trả lời sẽ trải cho nhiều người nhưng có thể người yêu cầu được hỗ trợ nhận được thông tin không thích hợp, vì không ai đảm bảo tính chính xác

cho thông tin do người trả lời cung cấp Với hệ thống này thông tin trả lời chỉ

mang tính chất tham khảo và thậm chí có khi thông tin trả lời còn thiếu chính xác, không đúng.

Trong môi trường internet tràn ngập thông tin hiện nay, vấn dé gan lọc thông

tin để tìm được những thông tin hữu ích và cần thiết cho người tìm kiếm là

một bài toán khó Nhiều hệ thống ngày nay được xây dựng tập trung nhằmhạn chế các nguồn thông tin không thích hợp Với hệ thống hỗ trợ tập trungcác câu trả lời sẽ tập trung tại một nguồn cung cấp thông tin, các nguồn này làcác chuyên gia phụ trách hỗ trợ các vấn đề liên quan đến chuyên môn của họ

Trang 18

Trở ngại của hệ thống này là công việc sẽ trở nên quá tải cho người phân loại

va phân phối câu hỏi cho chuyên gia nếu lượng thông tin trao đổi quá nhiêu.

Một ví dụ cho hệ thống hỗ trợ khách hàng của các hãng trên internet hiện nay

Khi vào trang chủ của một công ty ta thường thấy mục hỗ trợ, khi vào đó

được yêu cầu đặt vấn đề tại đây, sau đó yêu cầu của bạn sẽ được gửi đến địachỉ support@congty.com ( ) Câu hỏi sẽ được gửi đến một tài khoản emailduy nhất, sẽ có người tiếp nhận và phân phối chúng đến các chuyên gia tươngứng để trả lời câu hỏi của bạn Và đối với hệ thống này, dường như công việc

đã dồn rất nhiều cho thư ký — là người phải đọc để hiểu vấn đề đang cần được

hỗ trợ về vấn đề gì, liên quan đến lĩnh vực nào, chuyên môn của chuyên gianao, từ đó quyết định chuyền câu hỏi cho chuyên gia tương ứng Thôngthường đối với hệ thống như vậy từ lúc người dùng gửi câu hỏi đến lúc nhậnđược thư xác nhận “vấn dé của bạn đã được hệ thống ghỉ nhận và chuyên gia

đang xử ý nớ” mat khoảng hai ba ngày Nếu trong một ngày số lượng câu hỏi

gửi đến hệ thống quá nhiều làm sao người thư ký có thể giải quyết xué việcphân loại và chuyển câu hỏi đến chuyên gia Hơn nữa, người thư ký cho hệ

thống này phải là người có kiến thức căn bản về các lĩnh vực mà hệ thống hỗ

trợ dé có thé đọc hiểu được hết các yêu cầu từ người dùng

Chúng ta thấy rằng hệ thống hỗ trợ thông tin trên internet là rất phổ biến, vàvấn dé nảy sinh sự quá tải cho công việc thư ký trong hệ thống này Day

chính là vấn đề mà luận văn mong muốn đạt được đề giải quyết cơ chế phân

phối tự động câu hỏi đến chuyên gia trong các hệ thống hỗ trợ

2.2 Hệ thống hỗ trợ phân loại câu hỏi tự động

2.2.1 Mô tá hoạt động của hệ thống

Trang 19

đề cần được hỗ trợ đến hệ thống Các vấn đề từ người dùng đưa đến hệ thống

sẽ được phân loại và chuyển đến chuyên gia một cách tự động, khi vấn đề

thuộc lĩnh vực mới phát sinh mà hệ thống không thẻ phân loại được, thì câu

hỏi sẽ được chuyền bằng tay qua thư ký

Tài khoản cho người sử dụng chia ra làm 3 loại:

- Khách hàng: đối tượng cần hỏi đáp, cần được hỗ trợ Các vấn đề cầnđược giải đáp, hỗ trợ sẽ được khách hàng mô tả bằng văn bản trên ô

text trên trang web.

- Thư ký: người phân loại câu hỏi bằng tay đối với các câu hỏi mà hệ thống không thể phân loại tự động được.

- Chuyên gia: người đưa ra các giải pháp, các câu trả lời cho khách

hàng khi vấn đề của họ được chuyền đến mình

Trang 20

2.2.2 Vai trò của thành phần trong hệ thống

mang ý nghĩa với tat định văn j

Các thành phần chủ yếu của hệ thống được mô tả trong hình 2.2 Theo đó, ta

có thể phân chia ra làm hai phần lớn:

Trang 21

- Phần giao tiếp và tương tác với người sử dụng.

- Tác nhân huấn luyện hệ thống: Ở đây sẽ bao gồm hầu hết các bướcchính cần thực hiện trong luận văn

° Tập các văn bản thuộc nhiều chủ dé: đây là các văn bản thuộc nhiều chủ đề khác nhau, số lượng văn bản tuỳ thuộc vào lĩnh vực

và chủ đề mà hệ thống cần phân loại Tập văn bản này được sửdụng để huấn luyện hệ thống, nói cách khác nó là co sở dé xâydựng bộ từ điển rồi từ đó xây dựng cây quyết định để phục vụ

cho việc phân loại.

Sửa lỗi cú pháp thông thường: thành phần này giúp hiệu chỉnh

tập văn bản để giúp cho việc phân loại được chính xác hơn Các

văn bản thường gặp một số lỗi như bỏ dấu sai chính tả (ví dụ chữtoán hay viết sai thành fan), giữa các chữ có nhiều hơn một

khoảng trắng, viết chưa hết câu mà xuống hàng

Tach từ: thông kê các từ đơn, từ đôi, từ ba có trang tat cả các vănbản Trong thành phần này có sử dụng phương pháp Markov hỗn

hợp Bi-gram và Tri-gram để tách từ đôi, từ ba trong tiếng Viét[S].

Tao từ điển: Các từ sau khi qua bước phân đoạn được đưa vào cơ

sở dữ liệu để tạo nên một bộ từ điển một cách tự động Bộ từđiển này được dùng dé biểu diễn các văn bản của tập văn bảnhuấn luyện và các văn bản cần phân loại

Loại bỏ từ không mang ý nghĩa với các chủ đề: Để giảm nhỏ bộ

kích thước của bộ từ dién, giảm kích thước các ma trận khi biểu

diễn văn bản đồng thời giúp cho việc giảm chỉ phí tính toán Ở

đây tác giả đề xuất sử dụng phương pháp thống kê # kết hợp với

Trang 22

các tiêu chí đưa ra đề loại bỏ những từ không mang ý nghĩa phân loại với tất cả các chủ đề.

Xây dựng cây quyết định: Cây quyết định sử dụng là cây nhịphân được xây dựng từ bộ từ điển Mỗi chủ đề sẽ được xây dựng

một cây quyết định riêng Văn bản cần được phân loại sẽ lần lượt

đưa vào từng cây quyết định Mỗi cây quyết định cho biết vănbản cần phân loại có thuộc về chủ đề này hay không Trong bướcnày có thực hiện xây dựng cây quyết định đầy đủ và xén tỉa câyquyết định để loại bỏ những nút không có giá trị thông tin hoặcgiá trị thông tin bị sai Cây quyết định sau khi xén tỉa giúp cho

việc phân loại văn bản được chính xác và nhanh chóng hơn.

Trang 23

Chuong 3 CO SO LY THUYET DE GIAI QUYET BAI TOAN

3.1 Thống kê tần xuất xuất hiện từ trong van ban

Bước đầu tiên trong việc phân loại văn bản là chuyền đổi văn bản nay từ một

hay nhiều chuỗi các từ sang một dạng thích hợp dé có thé được xử lý bởi các

thuật toán Các văn bản thường được coi là một tập hợp của các tr mà không cần chú ý đến cấu trúc câu, trật tự các từ trong câu, thì của câu, từ loại Vì vậy

khi phân loại văn bản tiếng Việt, việc cần làm đầu tiên là phải phân đoạn các

câu trong văn bản thành các từ đơn, từ ghép hai, ghép ba một cách chính

xác.

Ngôn ngữ tiếng Việt tồn tại rất nhiều từ kép, từ lay, từ Hán Viét, Dé đạt

được độ chính xác cao trong việc phân loại văn bản thì việc nhận dạng chính xác các từ này là rất quan trọng.

Để phân đoạn văn bản, đầu tiên cin phải xác định tần xuất xuất hiện của các

từ đơn, từ đôi, từ ba trong toàn bộ các tập văn bản huấn luyện Việc xácđịnh tần xuất xuất hiện các từ được tiến hành như sau Dựa vào các ký tự

phân cách từ như: khoảng trắng, dấu cham phẩy câu, dấu mở đóng ngoặc

các từ đơn được tách ra khỏi văn bản Tiếp theo, tất cả các từ hai tiếng đứnggần nhau sẽ được thống kê Tương tự, các từ ba tiếng đứng gần nhau cũng sẽđược thống kê

Vi dụ: xét câu gồm các từ như sau:

ABCDEFG

Với câu trên, các từ 1 tiếng được thống kê là A, B, C, D, E, F, G Các từ 2 tiếng được thống kê là: A B, B C, C D, D E, E F và F G Các từ 3 tiếng được

thống kê là A BC, BC D,C DE,DEF,EFG

Trang 24

3.2 Biểu diễn văn bản

Thông thường người ta sử dụng mô hình không gian vector dé biéu diễn một

văn bản Trong mô hình này một văn bản được biểu diễn bằng một vector các

từ Số chiều M của không gian vector là số từ mẫu dùng dé biểu diễn tập văn

bản [9]

“công ty

“tiên ”

ở đi ý.

Hình 3.1 Mô hình không gian vector 2 chiều

Tập gồm 3 văn bản 7, d2, đ3 với số chiều M=2 là hai mẫu từ công ty và tién

Trong hình trên văn bản d/ gồm 2 từ tién và 4 từ công ty.

Một tập các văn bản sẽ được biểu diễn bởi một ma trận A với mỗi cột là mộtvector biểu diễn cho một văn bản Mỗi phan tử trong ma trận A tượng trưngcho sự xuất hiện của một từ trong một văn bản nào đó

A= (aix)

Trong đó ax biểu diễn sự xuất hiện của từ 7 trong văn bản k Do mỗi văn bản

thường chỉ chứa một số từ nào đó nên ma trận A sẽ có nhiều phần tử có giá trị

bằng 0 Số hàng M của ma trận là tổng số các từ khác nhau trong các văn bản

M có thể là một số rất lớn Vì vậy một khó khăn trong việc phân loại văn bản

là phải xử lý một ma trận với kích thước rất lớn

Trang 25

Dễ dàng nhận thấy, nếu một từ xuất hiện trong văn bản càng nhiều, khả năng

từ đó có liên quan đến chủ dé của văn bản đó càng lớn Nếu một từ xuất hiệntrong hau hết các văn bản thuộc về các chủ đề khác nhau thi từ đó khôngmang ý nghĩa thông tin với một chủ đề nào cả

Gọi fx là số lần từ i xuất hiện trong văn bản k

Na tông số các văn bản

M là tổng số các từ khác nhau

n; là số văn ban có từ i xuất hiện

Có nhiều phương pháp dé xác định a, , điển hình có:

- Phương pháp boolean

1 fx >0

ay = 0 _

Su =0

giá trị a, bằng 1 trong trường hợp từ ¿ có xuất hiện trong van bản k và bằng 0

trong trường hợp ngược lại.

- Phương pháp tần xuất từ (word frequency)

iz SẼ bằng số lần xuất hiện của từ i trong văn bản k (aj = fix)

- Phuong phap tf x idf (term frequency x inverse document frequency)

Từ i xuất hiện trong văn bản k còn được xem xét đến sự xuất hiện của nó ở

Trang 26

Phương pháp này tương tự như phương pháp tf x idf Tuy nhiên trong phương

pháp này chiều dài của các văn bản sẽ được để ý đến Với cùng số lần xuấthiện của từ i, văn bản nào có chiều dài ngắn hon thì sẽ có hệ số ay lớn hơn.E2]

- Phương pháp Itc (log term component)

3.3 Giảm kích thước ma trận lưu trữ

Một khó khăn lớn trong việc phân loại văn bản là kích thước ma trận lưu trữ

các từ biểu diễn văn bản Số hàng trong ma trận bằng với số từ để biểu diễntập các văn bản Thông thường số từ này có thé lên đến cả vài chục ngàn Nếu

không giảm được kích thước ma trận thì rất khó tính toán trên ma trận này,

đồng thời chỉ phí tính toán sẽ rất lớn

Có nhiều phương pháp giúp cho việc giảm kích thước ma trận, nó tìm ra các

từ không mang ý nghĩa thông tin cho bất kỳ chủ đề nào và loại bỏ các từ này

ra khỏi ma trận.

- Phuong pháp số lần xuất hiện

Trang 27

Phương pháp này dựa trên giả thiết rằng những từ có số lần xuất hiện thấp sẽ

ít mang ý nghĩa thông tin cho việc phân loại văn bản.

Theo phương pháp này thì số lần xuất hiện của một từ là tổng số các văn bảntrong đó có xuất hiện từ này Mỗi từ trong ma trận sẽ được tính ra giá trị của

số lần xuất hiện Nếu giá trị này nhỏ hơn một ngưỡng đã định trước thì từ này

sẽ bị loại bỏ khỏi ma trận.

- Phương pháp độ mạnh của từ

Phương pháp này tính độ mạnh của từ w dựa trên sự xuất hiện đồng thời của

nó trong các văn bản có liên quan với nhau Hai văn bản được gọi là liên quan

khi giá trị cosin của hai vector biểu diễn hai văn bản này nhỏ hơn một ngưỡng

nào đó.

Giả sử x và y là hai văn bản liên quan với nhau, khi đó độ mạnh của từ w là:

s(w)= P(wex|we y)

Phương pháp này giả thiết rằng các từ càng có trong nhiều văn bản liên quan

với nhau thì các từ này càng có ý nghĩa thông tin.

- Phương pháp độ lợi thông tin:

Gọi c¿, ,c¿ là các chủ dé của các văn bản

Độ lợi thông tin của một từ w được tính như sau

k & _« — —

IG(w) =-> P(e, log P(e,)+ P(w)3` P(e, |w)log P(e, |w)+ PO)” P(e, |w)log P(e; |)

jl jal il

Trong do

P(c) là xác suất của một văn bản thuộc chủ đề c

P(w) là xác suất của một văn bản có từ w xuất hiện

P(c | w) là xác suất của một văn bản thuộc chủ đề c mà có từ w xuất

hiện

Trang 28

P(c, |») là xác suất của một văn bản thuộc chủ đề c; mà không có từ wxuất hiện

Các từ sẽ lần lượt được tính giá trị độ lợi thông tin Từ nào có giá trị độ lợi

thông tin nhỏ hơn một ngưỡng đã định trước sẽ bị loại bỏ khỏi ma trận.

- Phương pháp thống kê we

Giả sử từ w được phân bố vào chủ dé c; như bảng sau:

Van bản có chứa từ w_| Van ban không chứa từ w

Van bản thuộc chủ đề G A Cc

Van bản không thuộc chủ đê c; B D

Bang 3.1 - Phân bô của từ w trong tập van ban

Trong do:

A là tổng số văn ban thuộc chủ đề c¡ có chứa từ w

B là tổng số văn bản không thuộc chủ đề c¡ nhưng có chứa từ w

C là tổng số văn bản thuộc chủ để c¡ nhưng không chứa từ w

D là tổng số văn bản không thuộc chủ đề cj và cũng không chứa từ w

" i, klacac chỉ số tương ứng với các 6 trong bảng 3.1

= Ox là giá trị quan sát được Giá trị O;), O2;, O12, O» trong bảng trên lần

lượt là 4, 8, C, D

Trang 29

= Ey là giá trị phân bố Giá trị phân bố của mỗi 6 trong bảng 3.1 được

tính như sau:

DẠ -42£,4t8 Ly

N N

Ey = 2 tC, C# Py N N

Giá trị thống kê z? của từ w trên tất cả các chủ đề được tính như sau:

Trang 30

này không phải là một vấn đề.

Trong tiếng Anh, Pháp, Đức các từ được phân định bằng khoảng trắng nhờ

đó việc xác định từ vựng là rất rõ ràng

Tiếng Việt không giống như các ngôn ngữ khác trong việc phân định từ:khoảng trắng không phải là điểm tách từ mà chỉ là tách âm tiết (tiếng), một

thành tố nhỏ hơn từ trong tiếng việt.

3.4.2 Sự cần thiết tách từ tiếng Việt

Từ tiếng Việt có thể bao gồm từ một tiếng (từ đơn) như: ăn, học, nhà, cửa,

cao, rộng, và, nhưng, đã, sẽ, và cũng có thé bao gồm nhiều tiếng (từ đôi, từba) như: giáo sư, tạp chí, đủng đỉnh, bắt thình lình, xã hội học, Đồng thời

một câu cũng có thé được phân đoạn theo những cách khác nhau và do đó sẽ

được hiểu theo những nghĩa khác nhau

Trang 31

Vi dụ: câu “Ông già di nhanh quá” có thé tách từ theo 2 cách khác nhau thành

2 câu sau Hai câu này có ý nghĩa hoàn toàn khác nhau.

Câu 1: “Ông gid di nhanh qua”

Câu 2: “Ong già đi nhanh qua”

Một ví dụ khác cho thấy có nhiều cách tách từ trên câu: “Máy tinh nhanh được sử dụng trong nghiên cứu khoa hoc”

Câu 1: “May tính nhanh được sử dụng trong nghiên cứu khoa hoc”

Câu 2: “Máy tính nhanh được sử dụng trong nghiên cứu khoa học ”

Câu 3: “May tinh nhanh được sử dụng trong nghiên cứu khoa hoc”

Câu 4: “Máy tính nhanh được sử dụng trong nghiên cứu khoa học ”

Vi dụ nêu trên cho thấy có sự nhập nhằng trong việc tách từ tiếng Việt Việc

tách từ chính xác hỗ trợ đắc lực cho việc xây dựng từ điển giúp cho việc phânloại văn bản đạt độ chính xác cao hơn đồng thời các vấn đề về xử lý ngôn ngữ

tự nhiên cũng đạt kết quả tốt hơn.

3.4.3 Tách từ tiếng Việt

Đối với một số ngôn ngữ Đông phương như tiếng Trung Quốc, tiếng Nhật,tiếng Hàn, tiếng Việt, tiếng Thái thì sự phân định từ bằng khoảng trắng làkhông thé Nhiều phương pháp tách từ được nghiên cứu dựa trên cơ sở luật và

sử dụng từ điển Một số phương pháp gần đây được các nhà nghiên cứu về xử

lý ngôn ngữ tự nhiên đưa ra dựa vào tập văn liệu (corpus) và sử dụng các mô

hình thống kê Trong bước tách từ này, tác giả đề xuất vận dụng mô hìnhthống kê dựa vào tập văn liệu mà Trần Ngọc Tuấn [5] đã thử nghiệm trên

ngôn ngữ tiếng Việt và đạt được kết quả rất khả quan Đây là phương pháp

huấn luyện dựa vào các mô hình Markov cấp 1(bi-gram) và cấp 2 (tri-gram),

và thống kê xuất hiện của các n-gram từ một tập văn liệu thô

Trang 32

3.4.4 Mô hình Markov và N-gram

o Phân lớp tương đương

Thông thường để thực hiện suy luận về một đặc trưng, chúng ta mong muốntìm được các đặc trưng khác có trong mô hình và trên cơ sở đó có thể dự đoán

về đặc trưng cần tìm Ở đây giả thiết rằng những điều xảy ra trong quá khứ sẽ

giúp tìm ra những gì sẽ đến trong tương lai Giả thiết này dan đến một bài

toán phân lớp: cần tiên đoán các đặc trưng mục tiêu trên cơ sở của những lớpđặc trưng Với nguyên tắc trên, ta cần chia dữ liệu trong corpus thành các lớp

tương đương có chung các giá trị đặc trưng, và sử dụng sự phân lớp tương

đương này để tiên đoán về giá trị của đặc trưng mục tiêu trên phần dữ liệukhác(mới) Nếu sự phân lớp càng chỉ tiết (càng có nhiều lớp tương đương) thì

phân phối xác suất của đặc trưng chưa biết càng tốt Tuy nhiên sẽ phát sinh

van đề: càng nhiều phân vùng dữ liệu càng có nguy cơ có vùng không có(hoặc rat it) dữ liệu (qua huấn luyện), từ đó ước lượng thống kê sẽ kém độ tincậy Như vậy một vấn đề cần giải quyết là tìm kiếm một sự thỏa hiệp giữ haitiêu chuẩn: phân lớp chỉ tiết và có đủ dữ liệu cho từng lớp

o Mô hình Markov ấn

Mô hình Markov ân (Hidden Markov Model - HMM) là mô hình thống kê

trong đó hệ thống được mô hình hóa được cho là một quá trình Markov vớicác tham số không biết trước và nhiệm vụ là xác định các tham số ẩn từ cáctham số quan sát được, dựa trên sự thừa nhận này Các tham số của mô hình

được rút ra sau đó có thể sử dụng đề thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu.

Trong một mô hình Markov điển hình, trạng thái được quan sát trực tiếp bởi

người quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham sốduy nhất Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất

Trang 33

phân bổ trên các biểu hiện đầu ra có thé Vì vậy, nhìn vào day của các biểu

hiện được sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái.

Mot ví dụ cụ thé:

Giả sử tôi có một người bạn sóng ở rất xa Hàng ngày chúng tôi gọi điện thoại cho nhau và anh ta ké cho tôi nghe anh ta đã làm gi trong ngày Người ban tôi chỉ có 3 công việc mà anh thích làm là 1) đi dạo, 2) đi chợ và 3) dọn phòng.

Hiển nhiên là sự lựa chọn phải làm gì thì phụ thuộc trực tiếp vào thời tiết hômday thé nào Như vậy, tôi không nhận được thông tin cụ thé về thời tiết nơianh bạn tôi sống nhưng tôi lại biết về xu hướng chung Dựa vào lời ké củacông việc hàng ngày của anh ta, tôi có thể đoán về thời tiết hôm đó

Như vậy, thời tiết được vận hành như một chuỗi Markov cụ thể Có 2 trạngthái thời tiết, "Mưa" và "Nắng", nhưng tôi không quan sát trực tiếp, do đó,

chúng là ấn đối với tôi Vào mỗi ngày, anh bạn tôi sẽ làm một trong các việc

sau phụ thuộc vào thời tiết hôm đó là "đi dao", "di chợ" và "don phòng" Vì

anh bạn tôi đã tường thuật lại hoạt động của mình, đó là các dữ liệu quan sát Toàn bộ hệ thống nay là một mô hình Markov an.

II các xác suất trạng thái banđầu II={},i€S

A xác suất dịch chuyền trạng thái A=tai}, iJES

Trang 34

B xác suất phát ra biểu tượng B= {aig}, JES, KEK

Day trang thai X=(Xj, , Xrv7) XI:SE>({I N}

Day output O=(0}, ,0r) o/(CK

Với một HMM cho trước, có thé dễ dàng mô phỏng hoạt động của một quátrình Markov, và tạo ra một dãy output Tuy nhiên điều này không thực sự

hấp dẫn Sự hấp dẫn trong các HMM ở chỗ: giả sử có các tập dữ liệu được tạo

ra bởi một HMM, yêu cầu tính toán các xác suất và các dãy trạng thái có thểtiềm an bên dưới

Khởi tạo ở trạng thái sị với xác suất z; (ví dụ, X:=i)

Forever do

Chuyển từ trạng thái s, với xác suất aj (ví du, X,:¡=j)

Phát biểu tượng quan sát o/=k với xác suất ijk

//o, xác suất quan sát ở thời điểm t

f:=ttl

od

Trở lại ví dụ, ta có

trang thái = (Mưa', 'Nắng')

di liệu quan sát = (‘di dạo', 'di cho’, 'don phòng)

khả năng ban đầu = {'Mưa': 0.6, 'Nang’: 0.4}

khả năng chuyển dịch = {

"Rainy' : {Mưa': 0.7, "Nắng': 0.3},

'Sunny': {'Mưa': 0.4, 'Nắng': 0.6},

}

Trang 35

khả năng loại bỏ = {

"Mưa': {đi dạo': 0.1, 'đi chợ": 0.4, 'dọn phòng': 0.5},

"Nắng' : {'di dạo': 0.6, 'di chợ": 0.3, 'don phòng': 0.1},

}

Trong đoạn câu lệnh trên, khả năng ban đầu cho thấy tôi không chắc về

trạng thái HMM khi người bạn đầu tiên gọi điện cho tôi (tt cả cái tôi biết làtrời có vẻ mưa) khả năng chuyển dịch cho thấy những thay đổi về thời tiết

trong chuỗi Markov Trong ví dụ này, chỉ có 30% khả năng ngày mai trời sẽ

nắng nếu hôm nay trời mưa Khả năng loại bỏ cho thấy anh bạn thích làmnhững việc gì mỗi ngày Nếu trời mưa thì có đến 50% khả năng anh bạn này

sẽ don phòng, trong khi trời nắng thì 60% khả năng anh ta sẽ đi dao.

o_Mô hình N-Gram

N-gram là loại mô hình markov an được dùng trong các giải thuật xử lý ngôn

ngữ tự nhiên sử dụng những phương pháp thống kê

Giả sử ta cần tính xác suất xuất hiện của chuỗi T1, T2, , TQ

Theo công thức tính xác suất đồng thời, ta có:

Trang 36

hợp này, TỊT; Tọ được xem là sự xuất hiện của một từ tiếng Việt gồm Q

trước nó.

Chúng ta sử dụng sự phân lớp của các tiếng đứng trước, sử dụng lịch sử để

tiên đoán cho tiếng xuất hiện tiếp theo Dựa trên vấn đề căn bản là với số

lượng text đủ lớn, chúng ta biết được tiếng nào có xu hướng theo sau cáctiếng khác Chúng ta không xem xét từng lịch sử một cách riêng biệt vì đa số

các câu trong ngôn ngữ tự nhiên khi xuất hiện trong một text đều chưa hề xuất

hiện trước đó, do vậy không có một lịch sử nào có thể giúp làm căn cứ tiênđoán một cách chính xác Thậm chí trong trường hợp phần đầu của cụm từ

(câu) đã có trong lịch sử, thì phần cuối của nó vẫn có thể hoàn toàn mới Do

vậy chúng ta cần một phương pháp đề thành lập nhóm lịch sử tương tự, làmcăn cứ tiên đoán cho tiếng kế tiếp Một trong những phương pháp là sử dụnggiả thiết markov : chỉ có một số ít ngữ cảnh cục bộ kế trước là có ảnh hưởng

đến tiếng cần tiên đoán Mô hình cần lập sử dụng nguyên tắc : mọi lịch sử có

cùng (n-1) tiếng được xếp vào cùng một lớp tương đương, đây là mô hìnhmarkov cấp (n-1), và được gọi là mô hình n-gram Tiếng cuối cùng trong n-

gram là tiếng cần tiên đoán sự xuất hiện của nó.

Trang 37

Cần lưu ý rằng ngay cả ước lượng xác suất n-gram cũng khĩ hiện thực trong

thực nghiệm, do đĩ n-gram trong thực tế chỉ được dùng với n=2(bi-gram) và n=3(tri-gram).

3.5 Các thuật tốn phân loại văn bản

Phan này trình bày một số thuật tốn tiêu biểu thường được sử dụng trong lĩnhvực phân loại văn bản Các thuật tốn cĩ thể kể đến như: Naive Bayes,Decision Tree, K Nearest Neighbor, Rocchio Đối với mỗi thuật tốn điều

cĩ những điều yếu điểm mạnh riêng Trong thực tế, tùy theo lĩnh vực của vănbản cần phân loại mà mỗi thuật tốn sẽ cĩ những ứng dụng riêng của nĩ

Tập văn bản ban đầu trước khi đưa vào thuật tốn thường được chia ra làm 3

tập:

¢ Tập huấn luyện dùng trong quá trình xây dựng thuật tốn phân loại vănbản Mục đích của tập này là để huấn luyện thuật tốn trong việc nhậnbiết chủ đề của các văn bản

«_ Tập kiểm chứng dùng dé hiệu chỉnh lại sau khi thuật tốn đã được huấnluyện bởi tập hudn luyện Một số thuật tốn khơng cần đến tập này

e Tập kiểm tra dùng dé đánh giá độ chính xác sau khi thuật tốn đã được

xây dựng và hiệu chỉnh hồn chỉnh.

Khi so sánh về độ chính xác của các giải thuật, các giải thuật này cần phảiđược xây dựng trên cùng một tập huấn luyện và được kiểm tra trên cùng mộttập kiểm tra đồng thời phải sử dụng cùng một phương pháp đánh giá

3.5.1 Thuật tốn phân loại văn bản Nạve Bayes

3.5.1.1 Lý thuyết về xác suất

- Các xác suất đều nằm giữa 0 và 1

0<P(A)<1

Trang 38

- Xác suất hợp của A và B sẽ được tính bởi công thức

P(A UB) = P(A) + P(B) - P(A ¬B)

gop

- Xác suất có điều kiện:

Xác suất dé sự kiện A xảy ra khi đã có sự kiện B là

Từ đó suy ra: P(A OB) = P(A) P(B)

- Gọi E là văn bản cân phân loại

- Ta cân tìm xác suât của văn bản E đôi với mỗi chủ dé c¡

P(c, | E)= Melee re)

Với tat cả chủ dé, ta có

a P(E)

Trang 39

= P(E)= 3` P(c,)x P(E |e,)

Nila tổng số văn bản trong tập huấn luyện

n, là số văn bản trong tập hudn luyện thuộc về chủ đề ¢;

- Văn bản E được biểu diễn bang các từ e; như sau:

E=eiA@^ Am

- Giả sử các từ e; của một văn bản là độc lập với nhau Ta có:

P(E| c¡)= P(@i AG A A Em | ci)

=llmP€; | ci)

Ví dụ:

C= {allergy, cold, well}

€¡ = sneeze; e; = cough; e; = fever

E = {sneeze, cough, ¬ fever}

Prob Well Cold Allergy P(c) 0.9 0.05 0.05 P(sneeze | c¡ ) 0.1 0.9 0.9

=0.019/P(E)

Trang 40

P(E) = 0.089 + 0.01 + 0.019 = 0.0379 P(well | E) = 0.23

P(cold | E) = 0.26 P(allergy | E) = 0.50 Vay xác suất của allergy là cao nhất

3.5.1.3 Đánh giá thuật toán

¢ Thuật toán đơn giản, dễ thực hiện.

e Xác suất của văn bản đối với chủ đề c; phụ thuộc vào xác suất P(c)

Xác suất này được tinh dựa vào các văn bản trong tập huấn luyện Như

vậy xác suất P(e,) phụ thuộc hoàn toàn vào tập huấn luyện Giả sử sốlượng các văn bản thuộc về mỗi chủ đề trong tập huấn huyện khác nhau,

khi đó chủ đề / nào có số lượng văn bản nhiều nhất sẽ có xác suất PŒ)

lớn nhất Điều này sẽ ảnh hưởng đến độ chính xác của giải thuật

¢ Trong quá trình tính toán, dé đơn giản ta có giả sử các từ e; của một vănbản là độc lập với nhau khi cho trước chủ dé c;, điều này đôi khi gây ra

sự không chính xác Nếu không đưa ra giả thuyết trên thì việc tính toán

sẽ rất phức tạp (độ phức tạp là một hàm mũ tỉ lệ với hệ số m)

Ngày đăng: 08/11/2024, 17:30

w