Áp dụng S3VM vào phân lớp trang Web

Một phần của tài liệu LUẬN VĂN:PHÂN LỚP BÁN GIÁM SÁT VÀ ỨNG DỤNG THUẬT TOÁN SVM VÀO PHÂN LỚP TRANG WEB potx (Trang 39 - 41)

Có thể thấy trang Web là siêu văn bản (hypertext) rất phổ dụng hiện nay. Nội dung của các trang Web thường được mô tả ngắn gọn, súc tích, có các siêu liên kết chỉ đến các Web có nội dung liên quan và cho phép các trang khác liên kết đến nó.

Như đã nói trên, vì được xem như là các văn bản thông thường nên trong quá trình phân lớp trang Web việc biểu diễn văn bản sử dụng mô hình không gian vector. Việc biểu diễn và xử lý tài liệu Web cũng giống như biểu diễn và xử lý văn bản bằng mô hình này. Tuy nhiên trong phân lớp Web thì việc khai thác thế mạnh của siêu liên kết trong văn bản là một vấn đề đáng quan tâm. Với việc sử dụng các siêu liên kết giữa các trang Web từ đó có thể lấy được các thông tin về mối liên hệ giữa nội dung các trang, và dựa vào đó để nâng cao hiệu quả phân lớp và tìm kiếm.

Để áp dụng vào phân lớp trang Web, thuật toán S3VM xem mỗi trang Web là một vector f(d1, d2,…, dn) được biểu diễn giống như văn bản. Áp dụng công thức (2.5) trong phương trình của siêu phẳng:

thay thế mỗi văn bản tương ứng với mỗi trang Web vào phương trình siêu phẳng này:

Với i=1,…,n.

Nếu f(d) ≥ 0 thì trang Web thuộc lớp +1.

Ngược lại nếu f(d) < 0 trang Web thuộc lớp –1.

f(x1, x2,…, xn) = C +∑ wi xi

(2.6)

Có thể thấy rằng quá trình áp dụng thuật toán S3VM vào bài toán phân lớp trang Web chính là việc thay thế vector trọng số biểu diễn trang Web đó vào phương trình siêu phẳng của S3VM, từ đó tìm ra được nhãn lớp của các trang Web chưa gán nhãn.

Như vậy, thực chất của quá trình phân lớp bán giám sát áp dụng đối với dữ liệu là các trang Web là tập dữ liệu huấn luyện là các trang Web còn tập working set (dữ liệu chưa gán nhãn) là những trang Web được các trang Web đã có nhãn trong tập huấn luyện trỏ tới.

Chương 3 TH NGHIM HC BÁN GIÁM SÁT PHÂN LP TRANG WEB

Khóa luận định hướng khai thác phần mềm nguồn mở để tiến hành thử nghiệm phân lớp bán giám sát các tài liệu web. Phần đầu của chương giới thiệu phần mềm nguồn mở SVMlin có tiêu đề là “"Fast Linear SVM Solvers for Supervised and Semi- supervised Learning" do Vikas Sindhwani công bố. Các phần tiếp theo khóa luận giới thiệu quá trình khai thác phần mềm nhằm thực hiện bài toán phân lớp và đánh giá. Nội dung của chương này tổng hợp từ các nội dung được trình bày trong [14,15,18].

Phần mềm SVMlin thuộc diện phần mềm nguồn mở, được công bố theo các tiêu chuẩn của giấy phép sử dụng phần mềm GNU.

Một phần của tài liệu LUẬN VĂN:PHÂN LỚP BÁN GIÁM SÁT VÀ ỨNG DỤNG THUẬT TOÁN SVM VÀO PHÂN LỚP TRANG WEB potx (Trang 39 - 41)