Sau khi thu được các trang web ở dạng html, chúng tơi tiến hành trích chọn các
anchor text tương ứng cho từng trang web đĩ. Để việc xử lý các từ tiếng Việt được thuận tiện và dễ dàng, chúng ta sẽ biến đổi các từ tương ứng sang dạng chỉ gồm các ký hiệu trong bảng chữ cái và chữ số. Điều này được thực hiện bằng cơng cụ text2telex.php.
Các dữ liệu text và anchor text này sẽđược xử lý để loại bỏ các từ dừng để việc lựa chọn các đặc trưng cho từng lớp cĩ tính chuyên biệt cao.
Các đặc trưng của văn bản quyết định phân lớp của văn bản đĩ. Trong phân lớp văn bản thì các đặc trưng của văn bản chính là các từ xuất hiện trong các văn bản đĩ. Việc xây dựng các đặc trưng dựa trên các mệnh đề mơ tả thơng tin ngữ cảnh. Trong khố luận này chúng tơi sử dụng cấu trúc n-grams, với n = 1, 2, 3 vì thực tế với các giá trị trên của n là chúng ta cĩ thểđủđể bao quát các thơng tin ngữ cảnh đối với bài tốn phân lớp văn bản tiếng Việt.
Chúng tơi tiến hành xây dựng các n-gram như sau:
• Đầu tiên, chúng ta tiến hành loại bỏ các từ dừng trong các văn bản: Đối với tiếng Việt do chưa cĩ một danh sách các từ dừng chuẩn nên việc loại bỏ các từ dừng chỉ là tương đối theo một danh sách các từ dừng tiếng Việt do chúng tơi tự thiết kế.
thơng tin ngữ cảnh là “dự báo cơng nghệ thơng tin Việt Nam năm 2005”
thì danh sách các n-gram là:
Bảng 7: Danh sách các n-gram
Với các n-gram được sinh ra như trên (xem bảng 7), chúng tơi tiến hành xây dựng các mệnh đề thơng tin ngữ cảnh như sau, ví dụ một mệnh đề chỉ ra văn bản thứ di cĩ chứa cụm từ wt nào đĩ n lần:
[<di> chứa <wt>: n lần]
Do thuật tốn học bán giám sát self-training và co-training là một tiến trình lặp nên việc thu được từng đặc trưng trong một văn bản mới là rất cĩ ý nghĩa. Do vậy, chúng tơi quyết định lựa chọn tất cả các đặc trưng để tiến hành phân lớp mà khơng loại bỏ một đặc trưng nào cả.