Phõn cụm dữ liệu Web

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số vấn đề về phân cụm dữ liệu luận văn ths công nghệ thông tin 1 01 10 (Trang 86 - 88)

4.2. PHÂN CỤM THEO NỘI DUNG WEB

4.2.1. Cỏc lựa chọn đặc trưng

v Những đặc điểm tiềm năng:

o Body: Phần thõn o Meta: Phần biến đổi o Title: Phần tiờu đề

o Snippet: Đoạn trớch, là những dũng cú nghĩa gửi kốm theo địa chỉ URL mà nú sẽ xuất hiện trong cỏc kết quả tỡm kiếm.

o Anchor Window: Cửa sổ đỏnh dấu, là những ký tự đỏnh dấu của một đường siờu liờn kết đến cỏc trang web khỏc trong trang web nguồn.

o MT: Sự kết hợp của phần Meta và Title o BMT: Sự kết hợp của Body, Meta và Ttile

Tỷ lệ cỏc từ sử dụng trong một trang web sử dụng thẻ HTML như bảng 4.1. [6][9][19]

Bảng 4.1. Tỷ lệ từ sử dụng trong một trang web

Sự phõn loại biểu diễn cỏc biểu thị đặc trưng của cỏc trang web được biểu diễn như bảng 4.2.

Bảng 4.2. Phõn loại giỏ trị biểu thị trang Web 4.2.2. Phộp đo tương tự 4.2.2. Phộp đo tương tự

v Kiểu vectơ khoảng cỏch chứa trong phộp đo tương tự bao gồm:

o IR: Cỏc hệ thống luụn chấp nhận cỏc nhúm từ chỉ mục để xử lý cỏc truy vấn.

o Từ chỉ mục: Một từ khúa hay một nhúm từ được lựa chọn hoặc bất kỳ từ nào.

o Phần xen kẽ cú thể được sử dụng để kết nối

o Một tệp tin đảo ngược được xõy dựng cho nhúm từ chỉ mục. v Những khỏi niệm cơ bản của kiểu vectơ khoảng cỏch

o Ki là một thuật ngữ chỉ mục o Dj là một tài liệu

o t là số thuật ngữ chỉ mục

o K = (k1, k2, …, kt) là một tập của tất cả cỏc từ chỉ mục o wij >= 0 là một trọng số kết hợp với (ki,dj)

o wij = 0 chỉ ra rằng thuật ngữ đú khụng phụ thuộc vào tài liệu o vec(dj) = (w1j, w2j, …, wtj)

o vec(dj) = (w1j, w2j, …, wtj) là trọng số vectơ kết hợp với tài liệu dj o gi(vec(dj)) = wij là một hàm mà nú trả về trọng số kết hợp với

cặp(ki,dj)

v Mụ hỡnh của vectơ khoảng cỏch

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số vấn đề về phân cụm dữ liệu luận văn ths công nghệ thông tin 1 01 10 (Trang 86 - 88)

Tải bản đầy đủ (PDF)

(118 trang)