Phƣơng pháp rút trích đặc trƣng

Theo truyền thống, một văn bản D thì đƣợc biểu diễn bằng một vector đặc trƣng theo dạng (d1,d2,…,dn), trong đó di là trọng số của đặc trƣng thứ i và n là số lƣợng các đặc trƣng . Mỗi một đặc trƣng tƣơng ứng với một từ xuất hiện trong tập huấn luyện, sau khi loại bỏ các stopword ra khỏi các văn bản.

 Phƣơng pháp 1:

Phƣơng pháp phổ biến nhất để rút trích các đặc trƣng là dựa vào tần suất xuất hiện của các từ riêng biệt trong các văn bản. Phƣơng pháp này thực hiện thông qua hai bƣớc sau

Bƣớc 1: Loại bỏ các từ chung (ngữ nghĩa của các từ này không ảnh hƣởng đến nội dung của văn bản) ra khỏi văn bản bằng cách sử dụng một từ điển đặc biệt, hoặc là sử dụng danh sách các từ tầm thƣờng (stopword ).

Bƣớc 2: Xác định tần suất xuất hiện tfij của các từ Tj còn lại trong mỗi văn bản Di và đặc biệt là số lần xuất hiện của Tj trong Di. Sau đó dựa vào tần suất xuất hiện của các từ này, chúng ta sẽ tính giá trị trọng số cho các từ Tj này. Và n từ Tj có giá trị trọng số lớn nhất sẽ đƣợc chọn làm n đặc trƣng của văn bản.

 Phƣơng pháp 2:

Một phƣơng pháp khác để rút trích các đặc trƣng của văn bản là sự kết hợp tần suất xuất hiện của từ trong văn bản và tần suất xuất hiện ngƣợc trong văn bản (TF-IDF) [5]. Lúc này chúng ta có công thức tính giá trị trọng số cho từ Tj trong văn bản Di, nhƣ sau:

) log( df tf w j ih ij N  

Trong đó: dfj là số luợng văn bản trong tập văn bản N mà trong đó từ Tj có xuất hiện .Và cũng tƣơng tự nhƣ trong phƣơng pháp 1, n từ Tj có giá trị trọng số lớn nhất sẽ đƣợc chọn làm n đặc trƣng của văn bản

3.3.3Phƣơng pháp đặc trƣng đề nghị sử dụng

Chúng ta sẽ sử dụng một phƣơng pháp rút trích đặc trƣng sao cho phù hợp với mục tiêu yêu cầu đặt ra của đề tài. Chúng ta chọn phƣơng pháp Tf*idf weighting để rút trích đặc trƣng, vì các yếu tố sau:

- Phƣơng pháp này không phụ thuộc vào tần suất xuất hiện của các từ trong văn bản.

- Phƣơng pháp này cân bằng giữa yếu tố mức độ bao phủ và số luợng các đặc trƣng đuợc sử dụng để biểu diễn văn bản.

Chi tiết các bƣớc thực hiện của phƣơng pháp này: Bƣớc 1: Loại bỏ các từ tầm thƣờng (stopword)

Bƣớc 2: Đếm tần suất xuất hiện của các từ trong bƣớc 1

Bƣớc 3: Đặt lower = k, upper = k (tần suất xuất hiện của các từ (giả định ban đầu) và sẽ đƣợc xác định chính xác khi số lƣợng đặc trƣng tìm đƣợc có mức độ phủ lớn hơn ngƣỡng T, thông thƣờng ngƣỡng T đƣợc gán khoảng 0.95 – 95%)

Bƣớc 4: Chọn tất cả các từ ở trên với tần suất xuất hiện nằm trong khoảng từ lower đến upper.

Bƣớc 5: Kiểm tra mức độ phủ của các từ.

Nếu mức độ phủ này lớn hơn ngƣỡng T đã đƣợc định nghĩa trƣớc thì dừng. Ngƣợc lại thì đặt lower = lower –1 và upper = upper + 1 và quay lại bƣớc 4

Hình 3.2 Chi tiết giai đoạn huấn luyện Ví dụ minh họa:

Có một văn bản gồm 100 từ, trong đó từ “máy tính” xuất hiện 10 lần thì độ phổ biến:

tf(“máy tính”) = 10 / 100 = 0.1.

Bây giờ giả sử có 1000 tài liệu đã đƣợc huấn luyện thuộc chuyên ngành Hệ thống thông tin, trong đó có 200 tài liệu chứa từ “máy tính”. Lúc này ta sẽ tính đƣợc:

idf(“máy tính”) = log(1000 / 200) = 0.699 Nhƣ vậy ta tính đƣợc độ đo:

TF.IDF = tf*idf = 0.1 * 0.699 = 0.0699

Dựa vào kết quả ta biết đƣợc trọng số của từ “máy tính” đối với chuyên ngành Hệ thống thông tin

3.4 Sử dụng thuật toán Naïve Bayes để phân loại văn bản 3.4.1Lý do chọn Naïve Bayes

Các phƣơng pháp tách từ

Tách từ trong văn bản