* Giới thiệu bài toán phân lớp trang Web (Web Classification)
Phân lớp trang Web là một trường hợp đặc biệt của phân lớp văn bản bởi sự hiện diện của các siêu liên kết trong trang Web, cấu trúc trang Web chặt chẽ, đầy đủ hơn, dẫn đến các tính năng hỗn hợp như là plain texts, các thẻ hypertext, hyperlinks….
Internet với hơn 10 tỷ trang Web là một tập huấn luyện rất phong phú về mọi chủ đề trong cuộc sống, hơn nữa với số lượng chủ đề trên các Website là không nhiều thì việc (2.5) sử dụng Internet như cơ sở huấn luyện rất phù hợp. Trong các trang Web, tuy độ chính xác không phải là tuyệt đối, nhưng ta có thể thấy mỗi chủ đề gồm có nhiều từ chuyên môn với tần suất xuất hiện rất cao, việc tận dụng tần số phụ thuộc của các từ này vào chủ đề có thể đem lại kết quả khả quan cho phân lớp.
* Áp dụng S3VM vào phân lớp trang Web
Có thể thấy trang Web là siêu văn bản (hypertext) rất phổ dụng hiện nay. Nội dung của các trang Web thường được mô tả ngắn gọn, súc tích, có các siêu liên kết chỉ đến các Web có nội dung liên quan và cho phép các trang khác liên kết đến nó.
Như đã nói trên, vì được xem như là các văn bản thông thường nên trong quá trình phân lớp trang Web việc biểu diễn văn bản sử dụng mô hình không gian vector. Việc biểu diễn và xử lý tài liệu Web cũng giống như biểu diễn và xử lý văn bản bằng mô hình này. Tuy nhiên trong phân lớp Web thì việc khai thác thế mạnh của siêu liên kết trong văn bản là một vấn đề đáng quan tâm. Với việc sử dụng các siêu liên kết giữa các trang Web từ đó có thể lấy được các thông tin về mối liên hệ giữa nội dung các trang, và dựa vào đó để nâng cao hiệu quả phân lớp và tìm kiếm.
Để áp dụng vào phân lớp trang Web, thuật toán S3VM xem mỗi trang Web như là một vector f d d( , ,..., )1 2 dn được biểu diễn giống như văn bản. áp dụng công thức (2.4) trong phương trình siêu phẳng:
i i 1 2
( , ,..., )n W X
f x x x = +∑C
i i 1 2
( , ,..., )n W d
f d d d = +∑C
Với i=1,…,n.
Nếu f d( )≥ 0 thì trang Web thuộc lớp +1.
Ngược lại nếu f d( ) < 0 trang Web thuộc lớp –1.
Có thể thấy rằng quá trình áp dụng thuật toán S3VM vào bài toán phân lớp trang Web chính là việc thay thế vector trọng số biểu diễn trang Web đó vào phương trình siêu phẳng của S3VM, từ đó tìm ra được nhãn lớp của các trang Web chưa gán nhãn.
Như vậy, thực chất của quá trình phân lớp bán giám sát áp dụng đối với dữ liệu là các trang Web là tập dữ liệu huấn luyện là các trang Web còn tập working set (dữ liệu chưa gán nhãn) là những trang Web được các trang Web đã có nhãn trong tập huấn luyện trỏ tới.
Chương 3: THỬ NGHIỆM HỌC BÁN GIÁM SÁT PHÂN LỚP TRANG WEB
Khóa luận định hướng khai thác phần mềm nguồn mở để tiến hành thử nghiệm phân lớp bán giám sát các tài liệu web. Phần đầu của chương giới thiệu phần mềm nguồn mở SVMlin có tiêu đề là “"Fast Linear SVM Solvers for Supervised and Semi- supervised Learning" do Vikas Sindhwani công bố. Các phần tiếp theo khóa luận giới thiệu quá trình khai thác phần mềm nhằm thực hiện bài toán phân lớp và đánh giá. Nội dung của chương này tổng hợp từ các nội dung được trình bày trong [14,15,18].
Phần mềm SVMlin thuộc diện phần mềm nguồn mở, được công bố theo các tiêu chuẩn của giấy phép sử dụng phần mềm GNU.