II. Hệ Thống ATC Bootstrapping bằng Thư Viện Số
1.2.Tập huấn luyện
Sau khi quyết định chọn DDC là lược đồ phân lớp tổng quát, ta cần tìm một nguồn tài nguyên để ta có thể tự động thu thập các tài liệu văn bản được phân lớp bằng tay theo DDC. Các tài liệu này được dùng để tạo ra một tập dữ liệu cho việc huấn luyện của thuật toán phân lớp theo máy học. Số lượng lớp trong DDC ( lớp), việc gán nhãn bằng tay cho các tài liệu mẫu là không thể nào được trong trường hợp này, thậm chí nếu cho mỗi một tài liệu mẫu cho mỗi lớp thì
số lượng tài liệu gán nhãn bằng tay là 100,000. Đối mặt với vấn đề này, một số nhà nghiên cứu đã sử dụng một cách tiếp cận khác là sử dụng các hệ thống thư viện cho ATC mà không dựa trên máy học. Cách tiếp cận này bao gồm kỹ thuật so khớp chuỗi-với-chuỗi giữa các từ trong một danh sách mục từ được trích ra từ bộ từ điển thư viện và lược đồ phân lớp, và các từ trong văn bản để phân lớp [13]. Tuy nhiên, độ chính xác của cách tiếp cận này thì thấp hơn đáng kể so với cách tiếp cận máy học [14].
Mặt khác, lược đồ DDC được sử dụng hằng ngày bởi hàng ngàn chuyên gia phân lớp trong các thư viện khắp thế giới để phân lớp sách và các văn bản khác. Các tập văn bản khổng lồ đã được phân lớp có tiềm năng được sử dụng để xây dựng một tập huấn luyện chất lượng cao cho việc huấn luyện một bộ phân lớp theo máy học, thích hợp để phân lớp tài liệu văn bản theo lược đồ DDC. Tuy nhiên, thực tế thì điều này không khả thi bởi vì nội dung văn bản của thư viện có thể không tồn tại bản điện tử hay không có bản quyền tác giả. Do đó, ta sẽ sử dụng phần mô tả của các sách đã phân lớp, phần này có sẵn trên các trang web bán sách online như là một cách thay thế cho toàn bộ nội dung của sách. Cụ thể, ta sẽ sử dụng phần mô tả sách của trang web bán sách online Amazon. Mặc dù phần mô tả thường ít hơn 200 từ, nhưng chúng chứa các từ khóa có giá trị phơi ra chủ đề chính của sách. Ta sẽ xây dựng thành phần bootstrapping để xây dựng tập dữ liệu huấn luyện cho mỗi lớp DDC bằng cách thu thập phần mô tả của các sách thuộc về lớp đó.