Phƣơng pháp dựa trên nghịch đảo tần số văn bản (IDF – Inverse Document

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số kỹ thuật phát hiện trang web giả mạo và ứng dụng (Trang 34 - 35)

Trong mơ hình tần suất, ma trận W = {wij} đƣợc xác định dựa trên tần

số xuất hiện của từ khĩa ti trong văn bản dj hoặc tần số xuất hiện của từ khĩa ti

trong tồn bộ cơ sở dữ liệu. Sau đây là một số phƣơng pháp phổ biến [4]:

2.1.1. Phƣơng pháp dựa trên tần số từ khĩa (TF – Term Frequency)

Các giá trị wij đƣợc tính dựa trên tần số (hay số lần) xuất hiện của từ

khĩa trong văn bản. Gọi fij là số lần xuất hiện của từ khĩa ti trong văn bản dj,

khi đĩ wij đƣợc tính bởi một trong ba cơng thức:

wij = fij

wij = 1 + log(fij) wij = √

Trong phƣơng pháp này, trọng số wij tỷ lệ thuận với số lần xuất hiện

của từ khĩa ti trong văn bản dj . Khi số lần xuất hiện từ khĩa ti trong văn bản

dj càng lớn thì điều đĩ cĩ nghĩa là văn bản dj càng phụ thuộc vào từ khĩa ti ,

hay nĩi cách khác từ khĩa ti mang nhiều thơng tin trong văn bản dj .

Ví dụ, khi văn bản xuất hiện nhiều từ khĩa máy tính, điều đĩ cĩ nghĩa là văn bản đang xét chủ yếu liên quan đến lĩnh vực tin học.

Nhƣng suy luận trên khơng phải lúc nào cũng đúng. Một ví dụ điển hình là từ “và” xuất hiện nhiều trong hầu hết các văn bản, nhƣng trên thực tế từ này lại khơng mang nhiều ý nghĩa nhƣ tần suất xuất hiện của nĩ. Hoặc cĩ những từ khơng xuất hiện trong văn bản này nhƣng lại xuất hiện trong văn

bản khác, khi đĩ ta sẽ khơng tính đƣợc giá trị của log(fij). Một phƣơng pháp

khác ra đời khắc phục đƣợc nhƣợc điểm của phƣơng pháp TF, đĩ là phƣơng pháp IDF.

2.1.2. Phƣơng pháp dựa trên nghịch đảo tần số văn bản (IDF – Inverse Document Frequency) Document Frequency)

{ ( ) ( )

Trong đĩ m là số lƣợng văn bản và hi là số lƣợng văn bản mà từ khĩa ti

xuất hiện.

Trọng số wij trong cơng thức này đƣợc tính dựa trên độ quan trọng của

từ khĩa ti trong văn bản dj . Nếu ti xuất hiện trong càng ít văn bản, điều đĩ cĩ

nghĩa là khi nĩ xuất hiện trong dj thì trọng số của nĩ đối với văn bản dj càng

lớn hay nĩ là điểm quan trọng để phân biệt văn bản dj với các văn bản khác và hàm lƣợng thơng tin trong nĩ càng lớn.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số kỹ thuật phát hiện trang web giả mạo và ứng dụng (Trang 34 - 35)