2.1.Traning Dataset Builder

Một phần của tài liệu Bootstrapping Phân Lớp Văn Bản bằng Nguồn Tài Nguyên Thư Viện Số (Trang 41)

II. Hệ Thống ATC Bootstrapping bằng Thư Viện Số

2.1.Traning Dataset Builder

Nhiệm vụ của thành phần này là tạo ra được một tập dữ liệu để huấn luyện bộ phân lớp theo máy học tương ứng với Classification Scheme (lược đồ phân lớp) mà người dùng định sẵn. Classification Scheme là một tập tin chứa một tập các lớp được chọn từ lược đồ DDC bởi người dùng. Mỗi phần tử (mỗi dòng) của tập tin gồm có tên lớp và một con số Dewey (tức là ID của lớp) ứng với lược đồ DDC. Ví dụ số Dewey 796.962 tương ứng với tên lớp Ice hockey trong chú thích của lược đồ DDC. Tên lớp có thể đặt tùy ý, trong hệ thống này ta là đặt là ‘rec.sport.hockey’ cho trùng với tên lớp của một lớp trong tập dữ liệu kiểm tra 20 Newsgroups để tiện cho chương trình phân lớp, sẽ nói ở phần sau.

Số Dewey Chú thích trong DDC

7 Arts & recreation

79 Sport, games & entertainment

796 Athletic and outdoor sports and games 796.9 Ice and snow sports

796.96 Ice games 796.962 Ice hockey

Lớp Ice hockey trong lược đồ DDC

796.357;rec.sport.baseball 796.7;rec.motocycles 230;soc.religon.christian 796.962;rec.sport.hockey 610;sci.med

006.6;comp.graphics

Ví dụ cấu trúc một tập tin Classification Scheme

2.1.1. Zclient

Đầu tiên, thành phần ZClient sẽ đọc tập tin Classification Scheme của người dùng và lấy ra được một danh sách các lớp DDC của người dùng. Sau đó sử dụng giao thức Z3950 [15] để truy vấn tới Online Public Access Catalogue (OPAC) của US Library của Congress (LOC) lấy các bản tin tương ứng với các số Dewey trong danh sách đó. Kết quả tìm kiếm trả về là các bản tin trong định dạng USMARC [16]. Mỗi bản ghi gồm có các trường như tên sách, tác giả, ISBN, ngày xuất bản, … ở đây với mục đích của hệ thống ta chỉ quan tâm đến hai trường là tên sách (tiêu đề) và ISBN. Hai trường này sẽ được lưu lại thành từng tập tin tương ứng với mỗi số Dewey. Ví dụ, với số Dewey 796.962 ta sẽ lưu lại thành tập tin có tên chính là tên lớp ‘rec.sport.hockey’ và có nội dung như sau

612

0836831039;A basic guide to ice hockey null;Betting hockey.

0981393810;Blood feuds :hockey's best-ever rivalries 0771041799;Century of hockey :a season-by-season celebration

0736037950;Coaching youth hockey 0873229649;Coaching youth hockey …

Ở đây 612 là tổng số sách mà ta truy vấn được. Mỗi dòng gồm có số ISBN và tên sách được phân sách nhau bởi dấu ‘;’. Nếu sách nào không có mã ISBN thì sẽ có giá trị là ‘null’.

2.1.2. AClient

Tiếp theo, thành phần Aclient sẽ đọc các tập tin này lấy ra được danh sách ISBN. Từ đó, qua giao thức HTTP nó truy vấn tới website Amazon.com theo định dạng sau:

http://amazon.com/gp/product/[ISBN]

Và với kết quả phản hồi trả về từ Amazon theo định dạng truy vấn trên, ta sẽ lấy được book description của từng ISBN (sách). Với mỗi ISBN, ta sẽ lưu lại thành một tập tin với tên chính là con số ISBN và các tập tin này sẽ được nhóm lại theo lớp và được lưu trữ thành ‘Raw Training Dataset’ (tập dữ liệu huấn luyện thô)

2.1.3. Data Cleaner

Sau khi có được tập dữ liệu huấn luyện thô, để có thể đưa vào huấn luyện cho bộ phân lớp thì phải cần qua bước làm sạch dữ liệu. Ở đây, bộ cleaner sẽ làm các công việc là loại bỏ stop word, gồm các từ stop word phổ biến và các từ stop word đặc trưng trong trường hợp này của hệ thống chẳng hạn như ‘book, ‘author’, ‘title’, vì chúng xuất hiện khá nhiều trong book description. Tiếp đó là, tokenize (tách chuỗi) và lemmatize theo [20]. Sau đó, sẽ được lưu trữ lại ‘Traning Dataset’ cho việc huấn luyện bộ phân lớp.

Một phần của tài liệu Bootstrapping Phân Lớp Văn Bản bằng Nguồn Tài Nguyên Thư Viện Số (Trang 41)

Tải bản đầy đủ (DOCX)

(64 trang)
w