Tập dữ liệu thử nghiệm

Một phần của tài liệu Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn (Trang 76 - 79)

Tập dữ liệu phục vụ cho việc kiểm thử mô hình là bản sao của website

http://dir.yahoo.com. Dung lượng lưu trữ trên máy cục bộ là 58,7MB, kiến trúc phân cấp trên máy cục bộ và trực tiếp trên trang web http://dir.yahoo.com như nhau.

Bảng 5.1: Tổng hợp các thông số tập dữ liệu download bằng wget

STT Thông số Số lượng Ghi chú

1 Dung lượng 58,7 MB

2 Số thư mục 2927

3 Số file 2816

4 Số nút 2926 Số nút của cây

5 Số nút có dữ liệu 2815 Có chứa file trong thư mục

6 Chiều sâu tối đa 9

bỏ stopword, thực hiện stemming với dữ liệu ở trên ta có:

Bảng 5.2: Thông số tập dữ liệu sau bước tiền xử lý

Thông số Số lượng Ghi chú

Nút 2927

Nút lấy dữ liệu 2490 Ứng số file index.html trong thư mục

Nút không có dữ liệu 437 Là số nút không chứa file index.html

Chiều sâu tối đa 9

Chiều không gian 31025 Số đặc trưng rút trích được tương ứng với chiều không gian

Số thuật ngữ rút trích được 31025

Số đặc trưng rút trích được ở bước rút trích đặc trưng ứng với số chiều không gian

Số đặc trưng ít nhất của một

nút 1

Số đặc trưng ít nhất rút trích được từ một nút

Số đặc trưng nhiều nhất của

một nút 401

Số đặc trưng nhiều nhất rút trích được từ một nút

Nút được đặc trưng bởi thành phần dữ liệu trích xuất được từ file index.html. Từ siêu dữ liệu rút trích được từ file html (theo 5.1.2), ta chia thành các thành phần

Category, Entry, CategoryName, CategoryDescription, EntryContent

EntrySummary. Đây sẽ là các thành phần xây dựng bộ dữ liệu thử nghiệm. Bảng 5.3 nêu định nghĩa các thành phần này

Bảng 5.3: Các định nghĩa thành phần dữ liệu

Thuật ngữ Định nghĩa

1 Category Phân lớp của yahoo

2 Entry Chỉ mục (index) tới 1 trang nào đó - link

3 CategoryName Tên đầy đủ của một lớp thuộc yahoo Ví dụ: root:arts:performing

4 CategoryDescription Nội dung các title ứng với danh sách các nút con của nút hiện tại

5 EntryContent Nội dung file htlm do EntryUrl trỏ tới;

6 EntryTitle Title của link website trên yahoo webpage

7 EntrySummary Mô tả ngắn gọn một chỉ mục trên các webpage của yahoo

Luận văn đặc trưng tập dữ liệu phục vụ thử nghiệm như sau: + Dữ liệu đặc trưng nút (hành tinh): EntrySummary

+ Dữ liệu đặc trưng cho dữ liệu test: CategoryDescription + EntryTitle Bảng 5.4: Đặc trưng của nút và test

Đặc trưng nút

1 EntrySummary Mô tả ngắn gọn một chỉ mục trên các webpage của yahoo 2 Số đặc trưng ít nhất 3 3 Số đặc trưng nhiều nhất 286 4 Số nút có đặc trưng rút trích được 2424 Đặc trưng test 5 EntryTitle + CategoryDescription

Title của link website trên yahoo webpage + Title của các nút con của nút hiện tại

6 Số đặc trưng ít nhất của

nút 1

7 Số đặc trưng nhiều nhất 262

8 Số test có đặc trưng rút

trích được 2490

Theo thống kê từ bảng 5.4 cho thấy có nhiều nút thuộc cây phân loại có số đặc trưng rất ít, điều này ảnh hưởng rất lớn đến kết quả phân loại, nhất là đối với các thuật toán phân loại theo hướng tiếp cận cục bộ ( 4.2.1).

Hình 5.12. Thống kê số nút và số đặc trưng của nút

Theo đồ thị thống kê số nút và số đặc trưng của nút (hình 5.12) cho thấy số đặc trưng của một nút tập trung từ 8 cho đến 160. Chứng tỏ phân bố đặc trưng của dữ liệu là không đều. Tuy nhiên do tính chất cung cấp “từ khóa” nhằm mô tả thông

0 5 10 15 20 25 30 35 1 11 21 31 41 51 61 71 81 91 1 01 111 121 131 411 151 161 171 181 911 201 211 221 231 241 251 261 271 281 Số n út đặc trưng

tin quảng bá của cá nhân, tổ chức lên site dir.yahoo.com nên đặc trưng rút trích được là những đặc trưng có chất lượng. Đây cũng là điều kiện thuận lợi cho bài toán phân loại.

Một phần của tài liệu Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn (Trang 76 - 79)

Tải bản đầy đủ (PDF)

(85 trang)