Phƣơng pháp TF × IDF

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số kỹ thuật phát hiện trang web giả mạo và ứng dụng (Trang 35 - 36)

Phƣơng pháp này là tổng hợp của hai phƣơng pháp TF và IDF, giá trị của ma trận trọng số đƣợc tính nhƣ sau:

{[ ( )] ( )

Đây là phƣơng pháp kết hợp đƣợc ƣu điểm của cả hai phƣơng pháp

trên. Trọng số wij đƣợc tính bằng tần số xuất hiện của từ khĩa ti trong văn bản

dj và độ hiếm của từ khĩa ti trong tồn bộ cơ sở dữ liệu. Một số ƣu, nhƣợc điểm của phƣơng pháp biểu diễn này: • Ƣu điểm

Các tài liệu cĩ thể đƣợc sắp xếp theo mức độ liên quan đến nội dung yêu cầu. Tiến hành lƣu trữ và tìm kiếm đơn giản hơn phƣơng pháp Logic. • Nhƣợc điểm

Việc xử lý sẽ chậm khi hệ thống các từ vựng là lớn do phải tính tốn trên tồn bộ các vector của tài liệu.

Khi biểu diễn các vector với các hệ số là số tự nhiên sẽ làm tăng mức độ chính xác của việc tìm kiếm nhƣng làm tốc độ tính tốn giảm đi rẩt nhiều do các phép nhân vector phải tiến hành trên các số tự nhiên hoặc số thực, hơn nữa việc lƣu trữ các vector sẽ tốn kém và phức tạp.

Hệ thống khơng linh hoạt khi lƣu trữ các từ khĩa. Chỉ cần một thay đổi rất nhỏ trong bảng từ vựng sẽ kéo theo hoặc là vector hĩa lại tồn bộ các tài

liệu lƣu trữ, hoặc là sẽ bỏ qua các từ cĩ nghĩa bổ sung trong các tài liệu đƣợc mã hĩa trƣớc đĩ.

Một nhƣợc điểm nữa, chiều của mỗi Vector theo cách biểu diễn này là rất lớn, bởi vì chiều của nĩ đƣợc xác định bằng số lƣợng các từ khác nhau trong tập hợp văn bản. Ví dụ số lƣợng các từ cĩ thể cĩ từ 103 đến 105 trong tập hợp các văn bản nhỏ, cịn trong tập hợp các văn bản lớn thì số lƣợng sẽ nhiều hơn, đặc biệt trong mơi trƣờng Web.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số kỹ thuật phát hiện trang web giả mạo và ứng dụng (Trang 35 - 36)

Tải bản đầy đủ (PDF)

(77 trang)