Đặc trưng hóa cho nút

Một phần của tài liệu Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn (Trang 66 - 68)

Theo cách xây dựng cây phân loại ở 5.1.2 ta có một kiến trúc cây của các nút. Mỗi nút tương ứng với một lớp và được coi như một khái niệm. Nội dung khái niệm này chính là nội dung mô tả nút (hay lớp) đó [19] – siêu dữ liệu của nút.

Với mô hình không gian vecto đã đề cập tại mục 4.2.3, mỗi nút sẽ được đặc trưng hóa bằng một vecto nhiều chiều. Mỗi chiều là một đặc trưng của không gian. Do vậy lượng hóa đặc trưng của các nút chính bước là xây dựng công thức tính mức độ quan trọng của đặc trưng hay trọng số của từng đặc trưng.

Hình 5.4 thể hiện các bước trích chọn được đặc trưng và lượng hóa đặc trưng từ siêu dữ liệu có được từ các bước tiền xử lý.

Cấu trúc thư mục Tiền xử lý llý Mô tả Website Siêu dữ liệu Taxonomy File html Dữ liệu thô

Hình 5.4: Lượng hóa đặc trưng nút

5.1.4.1 Trích chọn đặc trưng

Trích chọn đặc trưng cho nút là bước sau của giai đoạn tiền xử lý dữ liệu thô. Đầu vào của giai đoạn này là các metadata của các nút. Tất cả các dữ liệu từ

metadata sẽ qua một số bước liên tục là tách token (4.2.4.1), loại bỏ stopword

(4.2.4.2) … và cuối cùng của giai đoạn này là lựa chọn đặc trưng.[17],[19]

Hình 5.5: Các giai đoạn cần thiết cho quá trình lựa chọn đặc trưng Giải thuật mô tả trích chọn đặc trưng của nút

Input: Siêu dữ liệu của nút

Output:

Danh sách các đặc trưng của nút

Giải thuật:

B0: Đọc nội dung siêu dữ liệu B1: Tách token.

B2: Loại bỏ stopword B3: Lược bỏ hậu tố.

B4: Xác định tập con các đặc trưng theo ngưỡng ԑ.

Lựa chọn đặc trưng từ siêu dữ liệu của cây phân loại là một tiến trình lặp qua từng nút của cây. Mỗi bước lặp chính là trích chọn đặc trưng từ siêu dữ liệu của nút.

Siêu dữ liệu Tách token Loại bỏ stopword Lựa chọn đặc trưng Lược bỏ hậu tố Siêu dữ liệu

Toàn bộ đặc trưng được trích xuất từ các siêu dữ liệu được xem xét để lựa chọn tập con đặc trưng tốt nhất theo lý thuyết đề cập ở mục 4.2.4.4. Tập con đặc trưng tốt nhất được chọn sẽ là cơ sở xây dựng mô hình không gian vecto n chiều (n là số chiều không gian vecto và cũng là số đặc trưng được trích xuất trên toàn tập dữ liệu).

5.1.4.2 Lượng hóa đặc trưng cho nút

Những đặc trưng của nút là tập con của tập đặc trưng không gian. Mỗi đặc trưng trong không gian là một chiều của không gian vecto. Tuy nhiên tại mỗi nút, các đặc trưng này tại lại đóng vai trò không giống nhau. Giữa chúng có sự phân biệt do tầm quan trọng mà cụ thể là tần suất xuất hiện của đặc trưng đó trong siêu dữ liệu của nút. Mức độ quan trọng của đặc trưng và gán trọng số theo chỉ số tf-idf đề cập ở mục 4.2.2.4.

Và như vậy mỗi nút trong kiến trúc phân cấp được xây dựng sẽ được đặc trưng hóa dựa trên một tập các đặc trưng và trọng số của các đặc trưng này. Mỗi trọng số của đặc trưng được tính bằng công thức (4.14).

Một phần của tài liệu Phân loại tài liệu theo mô hình thuyết vạn vật hấp dẫn (Trang 66 - 68)