1. 2 Một số khái niệm
2.1. Hai phương pháp phân lớp phân cấ p
Phân lớp phân cấp văn bản hướng tới việc gán tài liệu vào một hoặc nhiều lớp phù hợp của cây phân cấp. Các phương pháp giải quyết bài toán phân lớp phân cấp văn bản có thểđược chia thành hai hướng [Sun and Lim, 2001][3]:
– Phương pháp toàn cục (hoặc big-bang). – Phương pháp cục bộ (hoặc top down).
Trong phương pháp big-bang, chỉ một bộ phân lớp được sử dụng trong quá trình phân lớp. Cho một tài liệu, bộ phân lớp sẽ gán nó vào một hoặc nhiều lớp trong hệ phân cấp. Các lớp được gán có thể là lá hoặc các nút trong của hệ phân cấp phụ
thuộc vào cấu trúc của hệ phân cấp và từng bài toán khác nhau. Phương pháp big-bang có thể thu được với bộ phân lớp Rocchio, bộ phân lớp dựa vào luật và các phương pháp được xây dựng trên khai phá các luật kết hợp. Đánh giá kết quả được sử dụng trong những thực nghiệm này dựa trên số tài liệu được phân lớp đúng hoặc phần trăm tài liệu bị phân lớp sai.
Trong phương pháp top-down, một hoặc nhiều bộ phân lớp được xây dựng tại mỗi nút của cây phân cấp và mỗi bộ phân lớp làm việc như một bộ phân lớp phẳng ở
mức đó. Một tài liệu đầu tiên sẽ được phân lớp bởi bộ phân lớp ở mức gốc vào một hoặc nhiều lớp ở mức thấp hơn. Nó sẽ tiếp tục được phân lớp xa hơn ở các mức tiếp theo cho đến khi nó đạt được lớp cuối cùng có thể là lá hoặc nút trong của cây. Phương pháp top-down được thực hiện với các thuật toán như Bayesian, SVM. Ba độ đo:
precision, recall, độ đo F được sử dụng trong phương pháp này. Phương pháp cục bộ
có vẻ tự nhiên hơn cho phân lớp phân cấp bởi vì nó phản ánh cách mà con người thường thực hiện đối với những bài toán như vậy. Phân biệt giữa ít lớp đơn giản hơn so với phân biệt giữa hàng trăm lớp. Điều này là đúng với các hệ thống tựđộng. Trong học máy, nói chung theo kinh nghiệm, càng nhiều lớp thì bài toán càng khó hơn. Phân lớp vào các mức cao đơn giản hơn so với phân lớp vào tất cả các lớp không phải chỉ vì số lượng lớp ít hơn mà bởi vì chúng được phân biệt với nhau rõ hơn. Do đó, sau khi
phân lớp ở mức cao, khả năng phân lớp ở mức thấp ít hơn bởi vì chúng ta chỉ xem xét lớp được lựa chọn.
Dễ nhận thấy phương pháp toàn cục có những nhược điểm sau: – Nặng về tính toán.
– Rất khó để biểu diễn tập thuộc tính khác nhau tại các mức khác nhau.
– Không đủ mềm dẻo, linh hoạt vì mỗi khi cấu trúc taxonomy thay đổi thì bộ
phân lớp phải được học lại.
Do đó, trong khóa luận này, chúng tôi tập trung vào bài toán phân lớp phân cấp văn bản theo hướng tiếp cận top-down.