Phương pháp biểu diễn văn bản

Trong bài toán phân lớp văn bản, cách biểu diễn văn bản đóng vai trò rất lớn. Một tài liệu được biểu diễn dưới dạng tập hợp các từ, mỗi từ được xem là một thuộc tính hoặc đặc trưng và văn bản tương ứng với vector thuộc tính. Đôi khi, thay vì những từ đơn, các thuộc tính có thể được biểu diễn bằng các cụm từ hoặc chuỗi n từ với n >=2. Dễ nhận thấy, nhiều thuộc tính phức tạp có thể giàu thông tin hơn. Ví dụ, cụm từ “word wide web” mang nhiều thông tin hơn từng từ riêng biệt. Tuy nhiên, trong thực hành sử dụng n-grams dẫn tới việc có quá nhiều số lượng thuộc tính và có thể làm việc giải quyết bài toán khó khăn hơn. Theo các nghiên cứu về phương pháp biểu diễn văn bản khác nhau, đặc biệt là khi so sánh ảnh hưởng và hiệu quả của nó thì không có cách biểu diễn văn bản nào tốt hơn cách biểu diễn bằng tập các từ riêng biệt được lấy ra từ văn bản gốc.

Sau khi xác định được các thuộc tính, chúng ta cần tính giá trị thuộc tính (hoặc trọng số từ khóa) cho mỗi văn bản. Mỗi từ khóa ti trong một tài liệu Dj được gán một trọng số wij và do đó, mỗi tài liệu được biểu diễn như một vector. Trọng số từ khóa có thể được tính toán bằng nhiều cách khác nhau. Cách đơn giản nhất là gán trọng số bằng một giá trị nhị phân chỉ ra từ khóa có mặt hay không có mặt trong văn bản, tức là giá trị trọng số wij là 1 nếu từ khóa ti xuất hiện ít nhất một lần trong tập tài liệu Dj và wij là 0 trong trường hợp ngược lại –

Đây là mô hình Boolean. Phương pháp khác là tính số lần xuất hiện của từ khóa

trong một tài liệu gọi là tần suất từ khóa. Tần suất từ khóa được tính theo công thức: N D t occ D t freq( k, j)  ( k, j)

Trong đó N là tổng số từ khóa của tài liệu Dj và occ(tk,Dj) là số lần xuất hiện của từ tk trong văn bản Dj. Phương pháp này được gọi là phương pháp dựa trên tần số từ khóa (TF-Term Frequency).

Phương pháp này có vẻ rất trực quan nhưng mặt hạn chế của phương pháp này là: nếu một từ xuất hiện nhiều lần trong tài liệu sẽ có tần xuất cao. Tuy nhiên nếu những từ này đều xuất hiện trong tất cả các văn bản thì nó sẽ không mang nhiều thông tin ngữ nghĩa của văn bản và do đó độ quan trọng của nó giảm đi.

Ví dụ: khi văn bản xuất hiện nhiều từ khóa “máy tính”, điều đó có nghĩa là văn bản đang xét chủ yếu liên quan đến lĩnh vực “Tin học”. Nhưng suy luận trên không phải lúc nào cũng đúng. Một ví dụ điển hình là từ “Chúng tôi” xuất hiện nhiều lần trong văn bản, nhưng trên thực tế từ này lại không mang nhiều ý nghĩa như tần suất xuất hiện của nó.

Thông thường tần suất của các từ khóa trong văn bản không đồng đều nhau. Một số từ khóa xuất hiện rất thường xuyên, trong khi đó, một nửa số từ khóa xuất hiện chỉ một lần. Để giải quyết hạn chế này, phương pháp dựa trên nghịch đảo tần số văn bản (IDF – Inverse Document Frequency) với tần suất logarit (tương tự với tần suất từ khóa) được tính theo công thức:

Freg(tk,Dk) = log(1 + freg(tk,Dj))

Hay giá trị từ khóa ti được tính theo công thức: Wij = log log( ) log( i)

df m

m  

Trong đó, m là số lượng văn bản và dfi là số lượng văn bản trong hệ thống có chứa từ khóa ti. Trọng số wij trong công thức này được tính dựa trên độ quan trọng của từ khóa ti trong văn bản dj. Nếu ti xuất hiện trong càng ít văn bản, điều đó có nghĩa khi nó xuất hiện trong văn bản dj thì trọng số của nó đối với văn bản

dj càng lớn hay nó là điểm quan trọng để phân biệt văn bản dj với các văn bản khác và hàm lượng thông tin trong nó càng lớn.

Phương pháp dựa trên nghịch đảo tần số văn bàn IDF được sử dụng phổ biến hơn phương pháp dựa trên tần số IF, nhưng phương pháp này vẫn chưa giải quyết triệt để hạn chế của phương pháp tần số từ khóa. Theo đó, một từ xuất hiện nhiều lần có tần suất cao, từ xuất hiện ít có tần số thấp.

Phương pháp chuẩn thường được sử dụng là IFIDF (Term Frequency Inverse Document Frequency), hàm tính trọng số từ khóa được xác định bởi công thức:

TFIDFl,d = freql,d *log(

df m

trong đó, tần suất từ khóa l trong tài liệu d: freql,d là số lần xuất hiện của từ khóa l trong tài liệu d; Tần suất văn bản dfl là số văn bản trong tập tài liệu có chứa từ khóa l; m là tổng số tài liệu học.

Trọng số TFIDF của một từ khóa biểu diễn độ quan trọng của từ khóa. TFIDF của một từ khóa trong một tài liệu sẽ giảm nếu như từ đó xuất hiện trong hầu hết các văn bản. Vì vậy, một từ xuất hiện quá ít hoặc quá nhiều được đánh giá ít quan trọng hơn so với các từ xuất hiện cân bằng.

Trọng số TFIDF của một từ khóa trong toàn bộ tập tài liệu m được tính bởi công thức:

TFIDF = TFIDFl,d TFIDFl R.

Phương pháp thu thập dữ liệu

Thực nghiệm phân lớp bán giám sát SVM-kNN