Phương pháp biểu diễn văn bản

7. Nội dung luận văn

1.3.8. Phương pháp biểu diễn văn bản

Phương pháp biểu diễn văn bản đĩng vai trị rất lớn trong bài tốn phân lớp văn bản. Một văn bản được hình thành từ tập hợp các từ, trong đĩ mỗi từ được xem là một thuộc tính hoặc một đặc trưng và văn bản đĩ tương ứng với một vector thuộc tính. Đơi khi chỉ cần một từ đơn cũng đã mang lại được ý nghĩa ví dụ, sách, bút, tre, gỗ….Tuy nhiên các thuộc tính cĩ thể được biểu diễn dưới dạng các cụm hoặc chuỗi các từ, như vậy sinh ra nhiều thuộc tính phức tạp tuy nhiên nĩ mang lại nhiều ý nghĩa hơn. Ví dụ, cụm từ “Thành phố bên sơng Hàn” mang lại nhiều thơng tin hơn từng từ riêng biệt. Trong thực tế, sử dụng mơ hình ngơn ngữ N-gram sinh ra cĩ quá nhiều số lượng thuộc tính làm cho bài tốn xử lý rất khĩ khăn. Cĩ rất nhiều nghiên cứu về cách biểu diễn văn bản khác nhau tuy nhiên để đạt hiệu quả tốt thì khơng cĩ cách biểu diễn văn bản nào tốt hơn cách biểu diễn bằng tập các từ riêng biệt được trích rút ra từ văn bản gốc.

Cĩ nhiều cách biểu diễn văn bản tuy nhiên với thời lượng cho phép chỉ trình bày một số mơ hình phổ biến.

1.3.7.1. Mơ hình Boolean

Mơ hình Boolean là mơ hình biểu diễn vector với hàm f cho ra giá trị rời rạc với duy nhất hai giá trị đúng và sai. Hàm f tương ứng với từ khĩa ti sẽ cho ra giá trị đúng nếu và chỉ nếu từ khĩa ti xuất hiện trong văn bản đĩ. Giả sử cĩ một tập dữ liệu gồm n

văn bản, D = {d1, d2, … dn}. Mỗi văn bản được biểu diễn dưới dạng một vector gồm m

từ khĩa T = {t1, t2, … tm}. Gọi W = {wij} là ma trận trọng số, trong đĩ wij là giá trị trọng số của từ khĩa ti trong văn bản dj. wij = 1 nếu ti cĩ mặt trong dj và bằng 0 nếu ngược lại.

1.3.7.2. Mơ tình tính tần xuất

Một mơ hình khác là tính số lần xuất hiện của của từ khĩa trong một văn bản gọi phương pháp dựa trên tần số từ khĩa (TF – Term Frequency) phương pháp này được tính theo cơng thức ba cơng thức sau:

wij = fij (1.3)

wij = 1 + log(fij) (1.4)

wij = √fij (1.5)

Gọi fij là số lần xuất hiện của từ khĩa ti trong văn bản dj, khi đĩ wij được tính theo một trong ba cơng thức trên. Với phương pháp này, trọng số wij tỷ lệ thuận với số lần

xuất hiện của từ khĩa ti trong văn bản dj. Nếu số lần xuất hiện từ khĩa ti trong văn bản

dj càng lớn chứng tỏ văn bản dj càng phụ thuộc vào từ khĩa ti. Ví dụ một văn bản mang nhiều từ khĩa “CNTT” chứng tỏ văn bản đĩ thuộc về lĩnh vực tin học.

Tuy nhiên theo phương pháp trên khơng phải lúc nào cũng đúng. Ví dụ trong một văn bản từ khĩa “như vậy” xuất hiện nhiều lần trong văn bản tuy nhiên nĩ khơng mang lại nhiều ý nghĩa như tần xuất xuất hiện của nĩ. Để khắc phục nhược điểm của phương pháp TF một phương pháp khác ra đời đĩ là phương pháp IDF (Inverse Document) hay cịn gọi phương pháp dựa trên nghịch đảo tần số văn bản.

Trong phương pháp IDF, giá trị wij được tính theo cơng thức sau:

𝑤𝑖𝑗 = {log 𝑚

ℎ𝑖 = log(𝑚) − log (ℎ𝑖) 𝑛ế𝑢 𝑡𝑖 𝑥𝑢ấ𝑡 ℎ𝑖ệ𝑛 𝑡𝑟𝑜𝑛𝑔 𝑑𝑗

Trong đĩ m là số lượng văn bản hi là số lượng văn bản cĩ từ khĩa ti xuất hiện. Trong cơng thức này trọng số wij được tính dựa trên độ quan trọng của từ khĩa ti

trong văn bản dj. Nếu số lần xuất hiện của ti càng ít trong văn bản thì trọng số ti đối với văn bản dj càng lớn hay nĩ là điểm quan trọng để phân biệt văn bản dj với các văn bản khác.

Ngồi hai phương pháp TF và IDF cịn một phương pháp khác đĩ là sự kết hợp của hai phương pháp trên đĩ là phương pháp TF – IDF (term frequency – inverse document frequency). Phương pháp này được tính theo cơng thức:

𝑤𝑖𝑗 = {[1 + log(𝑓𝑖𝑗)] log ( 𝑚

ℎ𝑖) 𝑛ế𝑢 𝑓𝑖𝑗 ≥ 1

0 𝑛ế𝑢 𝑛𝑔ượ𝑐 𝑙ạ𝑖 (1.7)

Đây là phương pháp kết hợp các ưu điểm từ hai phương pháp trên. Trọng số wij

được tính bằng tần số xuất hiện của từ khĩa ti trong văn bản dj và độ hiếm của từ khĩa

ti trong tồn bộ CSDL.

1.3.7.3. Mơ hình khơng gian vector

Mơ hình khơng gian vector là một mơ hình đại số (algebraic model) thể hiện thơng tin văn bản như một vector, các phần tử của vector này thể hiện mức độ quan trọng của một từ và cả sự xuất hiện hay khơng xuất hiện (Bag of words) của nĩ trong một văn bản.

Mơ hình này biểu diễn văn bản như những điểm trong khơng gian Euclid n- chiều, mỗi chiều tương ứng với một từ trong tập hợp các từ. Phần tử thứ i, là di của vector văn bản cho biết số lần mà từ thứ i xuất hiện trong văn bản. Sự tương đồng của hai văn bản được định nghĩa là khoảng cách giữa các điểm, hoặc là gĩc giữa những vector trong khơng gian.

Mỗi từ trong khơng gian vector sẽ cĩ một trọng số, cĩ nhiều phương pháp xếp hạng khác nhau. Mặc dù đơn giản, nhưng mơ hình khơng gian vector và những biến thể của nĩ hiện nay vẫn là cách phổ biến để biểu diễn văn bản trong Data mining và Information retrieval. Tuy nhiên, một trong những điểm yếu của vector space model số chiều lớn (high-dimensonal), cĩ khoảng cỡ chục triệu chiều trong khơng gian vector nếu như chúng ta áp dụng nĩ vào web search engine.

Hình 1.5. Mơ hình khơng gian vector[27]

Ví dụ trong một văn bản, sự xuất hiện của một từ 10 lần thì tài liệu đĩ được coi là phù hợp hơn tài liệu mà từ đĩ chỉ xuất hiện 1 lần. Nhưng khơng phải là phù hợp hơn tài liệu kia 10 lần. Sự phù hợp khơng tỷ lệ thuận với số lần xuất hiện của từ đĩ trong một tài liệu.

Bộ phân loại Support Vector Machines (SVM)

Trường hợp phân tách phi tuyến