Siêu dữ liệu cho nút

Để xây dựng khái niệm cụ thể cho từng nút, các mối liên hệ của nút với các nút khác, và những đặc trưng cụ thể nhằm đáp ứng các yêu cầu phân loại ta cần xây dựng siêu dữ liệu cho nút theo phương pháp nội suy từ chính nội dung trang web của nút.

Hình 5.2: Danh sách các lớp (hay nút) ở mức 1của kiến trúc dir.yahoo.com Tên nút: Trích xuất từ địa chỉ của trang html hoặc được trích xuất phần mô tả chủ đề.

Mô tả nút: Trong trang html không có mô tả cụ thể cho nút. Do vậy phần mô tả này sẽ được là toàn bộ nội dung của các mô tả cho các link trên trang html. Nội dung mô tả nút được sử dụng ở các bước trích chọn đặc trưng cho nút, lượng hóa các đặc trưng. Những đặc trưng này là cơ sở xây dựng các bộ phân loại cho nút.

Mã của nút: Mã của nút chủ yếu dùng để ký hiệu theo quy tắc nào đó dùng chủ yếu phục vụ công tác quản lý của hệ quản trị cơ sở dữ liệu, mối liên hệ của các nút. Thông thường lập trình viên sẽ thực hiện thao tác này.

Mối liên hệ: Đây là một trong những thông tin quan trọng hình thành nên kiến trúc phân cấp. Với kiến trúc yahoo này thì trong trang html của nút chỉ thể hiện các nút con của nó. Do vậy ta phải trích xuất thông tin nút cha từ chính địa chỉ của trang html. Một đặc trưng rất quan trọng trong cấu trúc yahoo chính là cấu trúc thư mục, do vậy xây dựng mối liên hệ các nút trong kiến trúc cây hoặc taxonomy chỉ đơn giản chỉ rõ được kiến trúc thư mục này.

Ngoài ra còn một số thông tin khác có thể xem xét cho vào meta data của nút như ngày giời khởi tạo, lịch sử thay đổi, … Những thông tin này thường do lập trình

viên làm hoặc hệ thống tự sinh ra trong quá trình chỉnh sửa của người dùng. Trong khuôn khổ luận văn này, tất cả quá trình tạo meta data cho nút được tiến hành tự động trong quá trình thử nghiệm.

Thuật toán trích xuất siêu dữ liệu của tất cả nút

Input: Thư mục chứa bản sao http://dir.yahoo.com

Output:

Siêu dữ liệu của tất cả các nút

Giải thuật:

B0: Đọc nội dung file index.html của thư mục hiện tại.

B1: Loại bỏ ký tự điều khiển, định dạng trang web của file html. B2: Trích xuất đường dẫn trang web hay đường dẫn thư mục; trích xuất tên nút (thành phần thuộc thẻ <Meta> của file); gán mã của nút; xác định nút cha;

B3: Trích xuất toàn bộ nội dung còn lại của trang web.

B4: Xác định tập các thư mục con của thư mục hiện tại, thực hiện rút trích siêu dữ liệu cho các thư mục con.

Giải thuật đệ quy duyệt qua tất cả các nút của bản sao site

http://dir.yahoo.com. Ngoài các bước thực hiện trên, modul thực hiện giải thuật loại bỏ các đường link tới các trang web khác và các nội dung quảng cáo trong thẻ <frameset> và các nội dung mô tả cho các ảnh, flash.

5.1.3 Xây dựng taxonomy

Từ siêu dữ liệu của site http://dir.yahoo.com trích xuất được theo 5.1.1 và mục tiêu xây dựng bài toán phân loại theo kiến trúc đồ thị có hướng không vòng. Cây phân loại được xây dựng theo các quy tắc sau:

- Mỗi thư mục là một nút (hay lớp). Tên của nút được trích xuất từ địa chỉ thư mục hay tên nút.

- Siêu dữ liệu của nút được trích xuất từ nội dung file html chứa trong thư mục đó (siêu dữ liệu của thư mục) và không bao gồm nội dung của các thư mục con.

những link tới các chủ đề khác không thuộc các chủ đề con thì không xét tới. Tuy nhiên trong một số trường hợp ta có thể vẫn sử dụng những nội dung của các link khác để làm giàu thêm metadata cho nút đang xét.

Hình 5.3: Các bước xây dựng taxonomy của site http://dir.yahoo.com

Từ thông tin cần quan tâm xây dựng là file html, cấu trúc thư mục, nội dung mô tả đường link website còn được gọi là dữ liệu thô. Qua bước tiền xử lý để loại bỏ nhiễu trang web đã đề cập tại 4.2.2 . Dựa trên những thông tin này, ta xây dựng thư viện metadata cho tất cả các nút. Và lại từ dữ liệu metadata, ta thu được những thông tin cần thiết về sự liện hệ của các nút, tên của các nút … là cơ sở để xây dựng cây phân loại taxonomy.

Các trường hợp phân loại

Kiến trúc và nội dung thể hiện