Các phương pháp rút trích thơng tin cổ điển coi mỗi một văn bản như là tập các từ khĩa và gọi tập các từ khĩa này là tập các term [4]. Một phần tử trong tập term đơn giản là một từ, mà ngữ nghĩa của từ này giúp tạo nên nội dung của văn bản. Vì vậy, tập term được sử dụng để tạo các chỉ mục và tĩm lược nội dung của văn bản.
Giả sử cho một tập term (cụm từ) của một văn bản nào đĩ, cĩ thể nhận thấy rằng khơng phải tất cả các từ trong tập term này đều cĩ mức độ quan trọng như nhau trong việc mơ tả nội dung văn bản. Ví dụ, xét một tập gồm một trăm ngàn văn bản, giả sử cĩ một từ A nào đĩ xuất hiện trong một trăm ngàn văn bản này thì cĩ thể khẳng định rằng từ A này khơng quan trọng và ta sẽ khơng quan tâm đến nĩ, bởi chắc chắn nĩ sẽ khơng cho ta biết được về nội dung của các văn bản này. Vì vậy từ A sẽ bị loại ra khỏi tập các term, khi chúng ta xây dựng tập term cho văn bản để miêu tả nội dung ngữ nghĩa của các văn bản này. Kết quả này cĩ được thơng qua thao tác xác định trọng số cho mỗi một từ trong tập term của một văn bản.
Đặt ki là từ thứ i trong tập term, dj là văn bản j, và wij 0 là trọng số của từ ki
trong văn bản dj. Giá trị của trọng số này rất quan trọng trong việc miêu tả nội dung của văn bản.
Đặt t là số lượng các từ trong tập term của hệ thống. K={k1, k2, k3,.., kt} là tập tất cả các từ trong tập term, trong đĩ ki là từ thứ i trong tập term. Trọng số wij > 0 là trọng số của từ ki trong văn bản dj. Với mỗi một từ, nếu nĩ khơng xuất hiện trong văn bản thì wij = 0. Do đĩ, văn bản dj thì được biểu diễn bằng vector dj, trong đĩ vector dj = {wj1, wj2, wj3, ..., wjt }.
a. Phương pháp rút trích đặc trưng
Giả sử cĩ một tập gồm m văn bản, mỗi văn bản được biểu diễn bằng một vector đặc trưng theo dạng D = {d1, d2,..., dn}, trong đĩ di là trọng số của đặc trưng thứ i và n là số lượng các đặc trưng của văn bản D. Mỗi một đặc trưng tương ứng với một từ xuất hiện trong tập huấn luyện, sau khi loại bỏ các stop-word ra khỏi các văn bản.
Phương pháp 1
Phương pháp phổ biến nhất để rút trích các đặc trưng là dựa vào tần suất xuất hiện của các từ riêng biệt trong các văn bản. Phương pháp này thực hiện thơng qua hai bước sau:
- Bước 1: Loại bỏ các từ chung (ngữ nghĩa của các từ này khơng ảnh hưởng đến nội dung của văn bản) ra khỏi văn bản bằng cách sử dụng một từ điển đặc biệt, hoặc là sử dụng danh sách các từ tầm thường (stop-word).
- Bước 2: Xác định tần suất xuất hiện tfij của các từ ti cịn lại trong mỗi văn bản Dj. Sau đĩ dựa vào tần suất xuất hiện để tính giá trị trọng số cho các từ ti. Khi đĩ, n từ ti cĩ giá trị trọng số lớn nhất sẽ được chọn làm n đặc trưng của văn bản Dj.
Phương pháp 2
Một phương pháp khác để rút trích các đặc trưng của văn bản là sự kết hợp tần suất xuất hiện của từ trong văn bản và tần suất xuất hiện ngược trong văn bản (TF-IDF). Như đã trình bày ở trên- (Trọng số của từ trong văn bản), ta cĩ cơng thức tính giá trị trọng số cho từ ti trong văn bản dj như sau:
𝑤𝑖𝑗 = 𝑡𝑓𝑖𝑗 ∗ log (𝑑𝑓𝑚
𝑖) (1.7) Trong đĩ: dfi là số lượng văn bản cĩ chứa từ khố ti trong tập m văn bản đang xét. Khi đĩ, n từ ti cĩ giá trị trọng số lớn nhất sẽ được chọn làm n đặc trưng của văn bản.
b. Phương pháp đặc trưng đề nghị sử dụng trong luận văn
Chúng ta sẽ sử dụng một phương pháp rút trích đặc trưng sao cho phù hợp với mục tiêu yêu cầu đặt ra của đề tài. Đề xuất lựa chọn phương pháp TF*IDF weighting để rút trích đặc trưng, vì các yếu tố sau:
- Phương pháp này khơng phụ thuộc vào tần suất xuất hiện của các từ trong văn bản.
- Phương pháp này cân bằng giữa yếu tố mức độ bao phủ và số luợng các đặc trưng đuợc sử dụng để biểu diễn văn bản.
Chi tiết các bước thực hiện của phương pháp này: Bước 1: Loại bỏ các từ tầm thường (stop-word).
Bước 2: Đếm tần suất xuất hiện của các từ trong bước 1.
Bước 3: Đặt lower = k, upper = k (tần suất xuất hiện của các từ - giả định ban đầu - và sẽ được xác định chính xác khi số lượng đặc trưng tìm được cĩ mức độ phủ lớn hơn ngưỡng T, thơng thường ngưỡng T được gán khoảng 0,95 ÷ 95%).
Bước 4: Chọn tất cả các từ ở trên với tần suất xuất hiện nằm trong khoảng từ lower đến upper.
Bước 5: Kiểm tra mức độ phủ của các từ. Nếu mức độ phủ này lớn hơn ngưỡng T đã được định nghĩa trước thì dừng. Ngược lại thì đặt lower = lower –1 và upper = upper + 1 rồi quay lại bước 4.