II. Hệ Thống ATC Bootstrapping bằng Thư Viện Số
1.1.Lược đồ phân lớp tổng quát
Để cho phép người sử dụng tạo ra một lược đồ phân lớp phù hợp cho yêu cầu việc phân lớp của họ thì cần có một lược đồ phân lớp tổng quát bao phủ hầu như tất cả chủ đề mà con người quan tâm. Lược đồ phân lớp tổng quát này sẽ cho phép người sử dụng tạo ra lược đồ phân lớp riêng cho họ. Ta sẽ xem xét các hệ thống thư viện cho mục đích này.
Một hệ thống thư viện sẽ định mã và tổ chức các tài nguyên của họ theo các chủ đề. Các hệ thống thư viện đã sử dụng những người biên mục để phân lớp sách và các tài nguyên khác (ví dụ., audio, file máy tính, bản đồ, …) trong thư viện. Có hai hệ thống thư viện lớn là Dewey Decimal Classification (DDC) và Library of Congress Classification (LCC), đã trải qua nhiều lần xem xét và cập
nhật theo thời gian. DDC và LCC là các lược đồ phân lớp tổng quát được sử dụng rộng rãi nhất trong các thư viện ngày nay và chúng bao phủ hầu như tất cả các chủ đề mà con người quan tâm. Có xấp xỉ 100,000 các lớp khác nhau trong LCC và số lượng lớp của DDC không kém bao nhiêu. Lược đồ LCC thì chính xác hơn trong hầu hết các lĩnh vực, tuy nhiên, ở đây ta sử dụng DDC vì hai lý do:
- DDC được sử dụng cho phân lớp các mục trong khoảng 80% thư viện trên thế giới và do đó, số lượng các mục được phân lớp bằng tay theo DDC thì lớn hơn LCC nhiều. Điều này làm cho DDC là sự lựa chọn tốt nhất cho thuật toán bootstrapping của ta.
- DDC có một cấu trúc phân cấp đầy đủ trong khi LCC thì không phân cấp và thông thường sắp xếp theo ký tự abc hay theo khu vực. Các mối quan hệ thể hiện phân cấp giữa các chủ đề trong DDC chính là con số của các lớp đó. Đặc trưng phân cấp của DDC cho phép những nhà phát triển tạo ra các giao diện dễ dàng cho người sử dụng duyệt và điều hướng lược đồ và nhanh chóng tìm ra lớp mà họ quan tâm mà không cần yêu cầu bất kỳ kiến thức về lược đồ phân lớp hay việc biểu diễn các ký hiệu.