Kết quả thử nghiệm

II. Hệ Thống ATC Bootstrapping bằng Thư Viện Số

3. Kết quả thử nghiệm

Ta thử nghiệm độ chính xác của hệ thống với tập dữ liệu đánh giá chuẩn cho việc phân loại văn bản là tập 20news-18828. Đây là tập gồm 18,828 văn bản, được chia thành 20 lớp. Để sử dụng tập dữ liệu này như là tập dữ liệu kiểm tra cho việc đánh giá hiệu năng của hệ thống, ta ánh xạ 6 lớp trong tập 20 Newsgroups thành các lớp tương ứng trong lược đồ DDC, tạo ra một file Classification Scheme, và chạy ‘Training Dataset Builder’ để tự động xây dựng tập dữ liệu huấn luyện cho bộ phân lớp. Bảng dưới đây cho thấy việc ánh xạ newsgroups tới các lớp DDC.

Newsgroup Số Dewey Chú thích trong DDC

comp.graphics 006.6 Computer graphics

soc.religon.christian 230 Christian theology

sci.med 610 Medicine and health

rec.sport.baseball 796.357 Baseball

rec.motocycles 796.7 Driving motor vehicles rec.sport.hockey 796.962 Ice hockey

Các newsgroups còn lại trong tập dữ liệu kiểm thử, chẳng hạn như

miscellaneous.forsale, talk.politics.guns, hay talk.religion.miscellaneous, không tương ứng với bất kỳ lớp nào trong lược đồ DDC. Một phần là do thời gian hạn chế và một phần là không có tài khoản truy cập vào cơ sở dữ liệu lược

đồ của họ để tìm ra lớp thích hợp tương ứng một cách chính xác nhất. Do đó phải, thực viện truy vấn đệ quy trên ‘dewey.info’ (ví dụ như

‘http://dewey.info/class/10/e23/about’ để nhận các lớp con của số dewey 10) để lấy tất cả các số dewey cũng như chú thích và được lưu trữ thành tập tin “DeweyNumberDescription-ALL.txt”.

Ta thu thập 2400 ‘book description’ từ Amazon cho 6 lớp, tương ứng mỗi lớp là 400 ‘book description’ để làm tập dữ liệu huấn luyện cho hệ thống của ta. Và dưới đây là kết quả độ chính xác của từng lớp sau khi thực hiện phân lớp với tập kiểm thử 20news-18828

newsgroup Độ chính xác comp.graphics 0.881 soc.religon.christian 0.825 sci.med 0.852 rec.sport.baseball 0.676 rec.motocycles 0.789 rec.sport.hockey 0.809 Độ chính xác trung bình 0.805

Cả hai thuật toán đều cho độ chính xác trung bình giống nhau với số đặc trưng là 400. Độ chính xác trên khá cạnh tranh nếu so sánh với các phương pháp boostrapping khác cho ATC trong [9, 17, 18].

Cũng với hai thuật toán trên ta kiểm nghiệm với tập dữ liệu 20news-bydate là một phiên bản khác của tập dữ liệu 20newsgroup. Trong đó, nó chia 60% dữ liệu để huấn luyện và 40% để kiểm thử. Và kết quả độ chính xác trung bình lần lượt là 0.773 và 0.785 khi ta áp dụng hai thuật toán trên để thực hiện phân lớp.

Nếu ta giảm số lượng đặc trưng xuống 350 thì kết quả độ chính xác theo thuật toán Naïve Bayes lại giảm xún 2% và kết quả độ chính xác của thuật toán SVM lại tăng 1%. Điều này chứng minh thực tế rằng, việc lựa chọn thuật toán

phân lớp tốt nhất phụ thuộc nhiều vào đặc trưng của tập dữ liệu huấn luyện và tập dữ liệu kiểm thử trong tác vụ phân lớp. Do đó, không có thuật toán nào tối ưu cho tất cả các trường hợp của ATC, điều này cũng đã được dẫn chứng bởi một số nhà nghiên cứu [10, 17].

III. Tổng kết

Phân loại văn bản là một vấn đề quan trọng trong lĩnh vực xử lý ngôn ngữ. Nhiệm vụ của bài toán này là gán các tài liệu văn bản vào nhóm các chủ đề cho trước, đây là một bài toán rất thường gặp trong thực tế. Trong thời đại bùng nổ Internet nói riêng và dữ liệu nói chung, phân loại văn bản càng trở nên có sức hấp dẫn. Với phương pháp bootstrapping đã trình bày trong bài thu hoạch này, cụ thể là sử dụng thư viện điện tử. Với nguồn tài nguyên phong phú này sẽ giải quyết các vấn đề gặp phải trong việc xây dựng tập dữ liệu huấn luyện cho các hệ thống ATC theo máy học như chi phí tốn kém thuê chuyên gia phân loại hay thiếu các tập dữ liệu lớn và chất lượng cao để huấn luyện cho các thuật toán ML. Bài thu hoạch này đã trình bày cơ chế cũng như cách hiện thực một hệ thống bootstrapping ATC với nguồn tài nguyên Online Public Access Catalogue của US Library của Congress. Kết quả thu được với hệ thống ATC khá tốt, tuy nhiên với một số hạn chế như không có quyền truy cập vào hệ thống thư viện trên để tìm ra được dữ liệu chính xác hơn cho việc xây dựng bộ phân lớp, và trong thử nghiệm trên số dữ liệu thu thập để xây dựng bộ phân lớp không được lớn để cho kết quả tốt hơn.

Trong tương lai, ta sẽ thử nghiệm với các nguồn tài nguyên khác để thu thập và xây dựng tập dữ liệu huấn luyện. Một trong các nguồn tài nguyên đó chẳng hạn như dự án Google Book Search. Với nguồn tài nguyên mới Google Book Search cho phép chúng ta thu thập các dữ liệu mẫu chất lượng cao để nâng cao độ chính xác cho hệ thống ATC. Ngoài ra, cần phải thử nghiệm với

các phương pháp biểu diễn văn bản hiện đại chẳng hạn như eTVSM (enhanced Topic-based Vector Model để kiểm nghiệm. Về mặt ứng dụng, có thể áp dụng cho việc phân loại email. Với ứng dụng này thì việc xác định tất cả các chủ đề cần đề phân lớp hết sức khó khăn, cũng như việc tìm dữ liệu huấn luyện cho các lớp đó, do đó khá là phù hợp nếu áp dụng phương pháp bootstrapping này cho ứng dụng phân loại email.

Các tập dữ liệu chuẩn để đánh giá

1.1.Lược đồ phân lớp tổng quát