Khái niệm độ tương đồng

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin phân loại nội dung tài liệu web (Trang 32)

Trong tốn học, một độ đo là một hàm số cho tương ứng với một "chiều dài", một "thể tích" hoặc một "xác suất" với một phần nào đĩ của một tập hợp cho sẵn. Nĩ là một khái niệm quan trọng trong giải tích và trong lý thuyết xác suất.

Ví dụ, độđo đếm được định nghĩa bởi µ(S) = số phần tử của S

Rất khĩ để đo sự giống nhau, sự tương đồng. Sự tương đồng là một đại lượng (con số) phản ánh cường độ của mối quan hệ giữa hai đối tượng hoặc hai

đặc trưng. Đại lượng này thường ở trong phạm vi từ -1 đến 1 hoặc 0 đến 1. Như

vậy, một độ đo tương đồng cĩ thể coi là một loại Scoring Function (hàm tính

Ví dụ, trong mơ hình khơng gian vector, ta sử dụng độ đo Cosine để tính độ

tương đồng giữa hai văn bản, mỗi văn bản được biểu diễn bởi một vector.

2.3.2 Độ tương đồng

Phát biểu bài tốn độ tính tương đồng như sau: Xét 2 văn bản di và dj. Mục tiêu của bài tốn là tìm ra một giá trị của hàm S(di,dj) với S ∈ (0,1). Hàm S(di,dj)

được gọi là độ đo sự tương đồng giữa 2 văn bản di và dj. Giá trị càng cao thì sự

giống nhau về nghĩa của hai văn bản càng nhiều.

Ví dụ: Xét hai câu sau: “Tơi là nam” và “Tơi là nữ”, bằng trực giác cĩ thể

thấy rằng hai câu trên cĩ sự tương đồng khá cao.

Độ tương đồng ngữ nghĩa là một giá trị tin cậy phản ánh mối quan hệ ngữ

nghĩa giữa hai câu. Trên thực tế, khĩ cĩ thể lấy một giá trị cĩ chính xác cao bởi vì ngữ nghĩa chỉđược hiểu đầy đủ trong một ngữ cảnh cụ thể.

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin phân loại nội dung tài liệu web (Trang 32)