5 Chương 3 Tổng quan về tập mẫu
5.3.2.3 Quỏ trỡnh xõy dựng RCV1
Trong những năm 1996 và 1997, Reuters sản xuất hơn 800 000 bài bỏo bằng tiếng Anh mỗi năm. Reuters dựng 90 người để mó húa 5.5 triệu bài bỏo tiếng Anh mỗi năm. Tuy nhiờn, con số này bao gồm cả những baỡ bỏo tiếng Anh của cỏc nhà bỏo Reuters và cỏc bài bỏo từ cỏc nguồn khỏc, và bao gồm cả dữ liệu khụng cú trong dữ liệu của RCV1.
Quỏ trỡnh xõy dựng RCV1 bao gồm cỏc bước: tự động, chỉnh sửa bằng tay sửa lỗi. Đõy là quỏ trỡnh xõy dựng mà Reuter đó tiến hành.
Autocoding
Mỗi bài bỏo sẽ qua hệ thống phõn lớp văn bản, được gọi là TIS (Topic Identafication System). Mỗi một tạo lập cú ớt nhất một nguyờn tắc mà cú thể gỏn cho chỳng, nhưng tớnh tự động khụng được ỏp dụng cho một số tạo lập vỡ chỳng cú thể vượt quỏ khả năng của hệ thống
Kết quả của TIS được kiểm tra một cỏch tự động để phự hợp với Nguyờn tắc Mó húa tối thiểu - Minimum Code. Nếu đỳng mỗi một bài bỏo sẽ được tự động xếp hàng. Nếu khụng, bài bỏo đú đầu tiờn sẽ được gửi tới người cú trỏch nhiệm về xuất bản. Người này sẽ gỏn những tạo lập cần thiết (bài bỏo nhận ớt nhất là một tạo lập chủ đề và một tạo lập vựng). Họ cũng cú thể xoỏ hoặc thay đổi cỏc giỏ trị đó gỏn. Họ cũng là người thường xuyờn sửa chữa cỏc lỗi trong việc xõy dựng bài bỏo, nhưng nhiệm vụ chớnh của họ là sửa chữa cỏc thiết lập. Sau đú họ sẽ xem xột lại cỏc bài bỏo đang xếp hàng chờ (holding queue).
Sửa chữa lỗi đối với việc xếp hàng chờ của cỏc bài bỏo
Cứ 6 tiếng một lần, cỏc bài bỏo đang xếp hàng được xem xột bởi người biờn tập, người sẽ sửa chữa cỏc sai sút trong tạo lập. Mỗi bài bỏo sẽ xếp hàng (holding queue) và chỳng sẽ được xử lý và đưa vào cơ sở dữ liệu theo khối.