Xây dựng các bộ phân lớp nhị phân

Một phần của tài liệu phân lớp phân cấp taxonomy văn bản WEB và ứng dụng (Trang 33 - 34)

1. 2 Một số khái niệm

2.2.2. Xây dựng các bộ phân lớp nhị phân

Các bộ phân lớp nhị phân thông thường được học với cả dữ liệu học dương và âm. Trong phương pháp phân lớp phân cấp, một bộ phân lớp nhị phân được xây dựng cho mỗi lớp. Các bộ phân lớp này được chia thành hai loại :

– Bộ phân lớp xác định một tài liệu có thuộc lớp nào đó hay không gọi là bộ phân lớp cục bộ (local-classifier)

– Bộ phân lớp xác định một tài liệu có thuộc nhánh nào đó không được gọi là bộ

phân lớp nhánh (subtree-classifier).

Sự phân biệt giữa bộ phân lớp cục bộ và bộ phân lớp nhánh được đề xuất bởi Dumais và Chen [21].

Để xây dựng các bộ phân lớp nhị phân trong phân lớp phân cấp, việc rất quan trọng là phải xác định tập dữ liệu học cho mỗi bộ phân lớp.

Kí hiệu Parent(Ci) là lớp cha của CiCoverage(Ci ) với Ci thuộc taxonomy là tập tất cả các lớp thuộc nhánh có gốc là Ci gồm cả Ci . Một tài liệu

j

dCoverage(Ci ) là đúng nếu dj thuộc bất kì lớp nào của Coverage(Ci ). Ví dụ taxonomy hình 2.2 :

Coverage(Tin học ) = {Tin học, Phần cứng, Phần mềm, Tán ngẫu }

Tập dữ liệu học cho các bộ phân lớp được lựa chọn theo chiến thuật sau:

♦ Bộ phân lớp nhánh của lớp gốc Croot: – Dữ liệu dương : djCoverage C( root) – Dữ liệu âm :djCoverage C( root)

♦ Bộ phân lớp nhánh cho nút trong Ci của taxonomy: – Dữ liệu dương : djCoverage C( )i

– Dữ liệu âm :djCoverage C( )idjCoverage Parent C( ( )i ) ♦ Bộ phân lớp cục bộ cho nút trong Ci của taxonomy:

– Dữ liệu âm :djCidjCoverage C( )i

♦ Bộ phân lớp cục bộ cho lá Cl của taxonomy: – Dữ liệu dương : djCl

– Dữ liệu âm :djCldjCoverage Parent C( ( )l )

Một phần của tài liệu phân lớp phân cấp taxonomy văn bản WEB và ứng dụng (Trang 33 - 34)

Tải bản đầy đủ (PDF)

(61 trang)