5 Chương 3 Tổng quan về tập mẫu
5.3.1.4 Hệ thống phần lớp trong Reuter 21578
Một tập văn bản mẫu cần cho phõn lớp văn bản chứa ớt nhất một tập hợp văn bản và một specification- đặc t của phõp lớp mà văn bản đú thuộc về. đối với tập văn bản mẫu của Reuters -21578 văn bản là cỏc bàI bỏo newswire và cỏc phõn lớp là năm tập hợp của nội dung liờn quan đến phõn lớp văn bản. Mỗi một văn bản, người lập thư mục quyết định phõn lớp nào mà từ đú cỏc tập hợp chứa đựng văn bản đú. Cỏc tập hợp phõn lớp sau:
Category Set Số lượng
Categories SốCategories với ớtlượng nhất một lần xuất hiện Số lượng Categories với ớt nhất hai mươi lần xuất hiện EXCHANGES 39 32 7 ORGS 56 32 9 PEOPLE 267 114 15 PLACES 175 147 60 TOPICS 135 120 57 Bảng 3.3. Hệ thống phõn lớp trong Reuter 21578
Tập phõn lớp TOPIC là phõn lớp theo chủ đề kinh tế như "coconut", "gold", "inventories", và "money-supply"….Tập hợp phõn lớp này là một trong những tập hợp đựoc sử dụng nhiều nhất trong hầu hết cỏc nghiờn cứu trước đõy với dữ liệu của Reuters
Cỏc tập phõn lớp XCHANGES, ORGS, PEOPLE, and PLACES phự hợp với tờn của từng loại nhất định. Vớ dụ "nasdaq" (EXCHANGES), "gatt" (ORGS), "perez-de-cuellar" (PEOPLE), và "australia" (PLACES). Tuy nhiờn, như tỏc giả đó trỡnh bày ở trờn, khụng phải tất cả cỏc văn bản được gỏn phõn lớp một cỏch chớnh xỏc.
Bảng thống kờ trờn nhúm nghiờn cứu muốn chỉ ra bao nhiờu phõn lớp xuất hiện ớt nhất một lần trong 21,578 văn bản mẫu và bao nhiờu xuất hiện ớt nhất 20 lần trong văn bản mẫu. Rất nhiều phõn lớp khụng xuất hiện trong văn bản móu nhưng nhúm nghiờn cứu vẫn muốn bao gồm cả những phõn lớp này khi đỏnh giỏ hiệu quả của hệ thống phõn lớp.