Tập dữ liệu phục vụ cho việc kiểm thử mô hình là bản sao của website
http://dir.yahoo.com. Dung lượng lưu trữ trên máy cục bộ là 58,7MB, kiến trúc phân cấp trên máy cục bộ và trực tiếp trên trang web http://dir.yahoo.com như nhau.
Bảng 5.1: Tổng hợp các thông số tập dữ liệu download bằng wget
STT Thông số Số lượng Ghi chú
1 Dung lượng 58,7 MB
2 Số thư mục 2927
3 Số file 2816
4 Số nút 2926 Số nút của cây
5 Số nút có dữ liệu 2815 Có chứa file trong thư mục
6 Chiều sâu tối đa 9
bỏ stopword, thực hiện stemming với dữ liệu ở trên ta có:
Bảng 5.2: Thông số tập dữ liệu sau bước tiền xử lý
Thông số Số lượng Ghi chú
Nút 2927
Nút lấy dữ liệu 2490 Ứng số file index.html trong thư mục
Nút không có dữ liệu 437 Là số nút không chứa file index.html
Chiều sâu tối đa 9
Chiều không gian 31025 Số đặc trưng rút trích được tương ứng với chiều không gian
Số thuật ngữ rút trích được 31025
Số đặc trưng rút trích được ở bước rút trích đặc trưng ứng với số chiều không gian
Số đặc trưng ít nhất của một
nút 1
Số đặc trưng ít nhất rút trích được từ một nút
Số đặc trưng nhiều nhất của
một nút 401
Số đặc trưng nhiều nhất rút trích được từ một nút
Nút được đặc trưng bởi thành phần dữ liệu trích xuất được từ file index.html. Từ siêu dữ liệu rút trích được từ file html (theo 5.1.2), ta chia thành các thành phần
Category, Entry, CategoryName, CategoryDescription, EntryContent và
EntrySummary. Đây sẽ là các thành phần xây dựng bộ dữ liệu thử nghiệm. Bảng 5.3 nêu định nghĩa các thành phần này
Bảng 5.3: Các định nghĩa thành phần dữ liệu
Thuật ngữ Định nghĩa
1 Category Phân lớp của yahoo
2 Entry Chỉ mục (index) tới 1 trang nào đó - link
3 CategoryName Tên đầy đủ của một lớp thuộc yahoo Ví dụ: root:arts:performing
4 CategoryDescription Nội dung các title ứng với danh sách các nút con của nút hiện tại
5 EntryContent Nội dung file htlm do EntryUrl trỏ tới;
6 EntryTitle Title của link website trên yahoo webpage
7 EntrySummary Mô tả ngắn gọn một chỉ mục trên các webpage của yahoo
Luận văn đặc trưng tập dữ liệu phục vụ thử nghiệm như sau: + Dữ liệu đặc trưng nút (hành tinh): EntrySummary
+ Dữ liệu đặc trưng cho dữ liệu test: CategoryDescription + EntryTitle Bảng 5.4: Đặc trưng của nút và test
Đặc trưng nút
1 EntrySummary Mô tả ngắn gọn một chỉ mục trên các webpage của yahoo 2 Số đặc trưng ít nhất 3 3 Số đặc trưng nhiều nhất 286 4 Số nút có đặc trưng rút trích được 2424 Đặc trưng test 5 EntryTitle + CategoryDescription
Title của link website trên yahoo webpage + Title của các nút con của nút hiện tại
6 Số đặc trưng ít nhất của
nút 1
7 Số đặc trưng nhiều nhất 262
8 Số test có đặc trưng rút
trích được 2490
Theo thống kê từ bảng 5.4 cho thấy có nhiều nút thuộc cây phân loại có số đặc trưng rất ít, điều này ảnh hưởng rất lớn đến kết quả phân loại, nhất là đối với các thuật toán phân loại theo hướng tiếp cận cục bộ ( 4.2.1).
Hình 5.12. Thống kê số nút và số đặc trưng của nút
Theo đồ thị thống kê số nút và số đặc trưng của nút (hình 5.12) cho thấy số đặc trưng của một nút tập trung từ 8 cho đến 160. Chứng tỏ phân bố đặc trưng của dữ liệu là không đều. Tuy nhiên do tính chất cung cấp “từ khóa” nhằm mô tả thông
0 5 10 15 20 25 30 35 1 11 21 31 41 51 61 71 81 91 1 01 111 121 131 411 151 161 171 181 911 201 211 221 231 241 251 261 271 281 Số n út đặc trưng
tin quảng bá của cá nhân, tổ chức lên site dir.yahoo.com nên đặc trưng rút trích được là những đặc trưng có chất lượng. Đây cũng là điều kiện thuận lợi cho bài toán phân loại.