Lịch sử phỏt triển của tập mẫu Reuter 21578

Một phần của tài liệu XÂY DỰNG THỬ NGHIỆM TẬP MẪU VÀ PHẦN MỀM PHÂN TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT (Trang 35)

5 Chương 3 Tổng quan về tập mẫu

5.3.1.1 Lịch sử phỏt triển của tập mẫu Reuter 21578

Tập văn bản mẫu Reuters-21578 lần đầu xuất hiện vào năm 1987. Đến năm 1990, tập văn bản mẫu này được Reuter và CGI dựng vào mục đớch nghiờn cứu trong phũng thớ nghiệm về thu thập thụng tin Information Retrieval Laboratory (IRL)(W. Bruce Croft, Director) của khoa Khoa học mỏy tớnh và thụng tin của Đại học Massachusetts ở Amherst. Việc định dạng của văn bản và xõy dựng cỏc file dữ liệu được tiến hành năm 1990 bởi David D.Lewis và Stephen Harding ở Information Retrieval Laboratory.

Việc định dạng và xõy dựng những file dữ liệu ở mức độ cao hơn được thực hiện vào năm 1991 và 1992 bởi David D. Lewis và Peter Shoemaker ở Trung tõm

Thụng tin và Nghiờn cứu Ngụn ngữ Chicago - Center for Information and Language Studies, University of Chicago.

Phiờn bản dữ liệu này được cung cẫp miễn phớ với tờn gọi "Reuters-22173, Distribution 1.0" qua giao thức FTP ở Nhật năm 1993. Từ năm 1993 tới năm 1996, Distribution 1.0 lưu giữ trờn FTP sites được duy trỡ bởi Trung tõm Intelligent Information Retrieval (W. Bruce Croft, Giỏm Đốc) của Trung tõm Khoa học Mỏy tớnh Đại học Massachusetts Amherst.

Tại hội nghị ACM SIGIR '96 vào thỏng tỏm năm 1996 một nhúm cỏc nhà nghiờn cứu về phõn lớp văn bản đó thảo luận sự khỏc biệt giữa kết quả nghiờn cứu đối với Reuters-22173 và cỏc nghiờn cứu khỏc. Và họ quyết định rằng một phiờn bản mới của văn bản mẫu sẽ được xõy dựng với tớnh định hỡnh rừ ràng hơn, và bao gồm cỏc tư liệu về cỏc phơưng phỏp sử dụng văn bản móu chuẩn.

Steve Finch and David D. Lewis tiến hành chỉnh sửa văn bản mẫu này trong thỏng 11 năm 1996, dựa vào bản SGML-tagged của Finch's từ một nghiờn cứu trước đú. Một kết quả nữa của quỏ trỡnh kiểm tra là sự gỡ bỏ 595 văn bản trựng lặp, những văn bản là bản sao chớnh xỏc của cỏc văn bản khỏc trong văn bản mẫu. Tập văn bản mẫu mới chỉ cú 21,578 văn bản, và vỡ vậy gọi là Reuters-21578 collection.

Một phần của tài liệu XÂY DỰNG THỬ NGHIỆM TẬP MẪU VÀ PHẦN MỀM PHÂN TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT (Trang 35)

Tải bản đầy đủ (DOC)

(96 trang)
w