1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân lớp tài liệu web độc lập ngôn ngữ

50 404 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 50
Dung lượng 819,75 KB

Nội dung

Phân lớp tài liệu web độc lập ngôn ngữ

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thuỳ Linh PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP NGƠN NGỮ KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán hướng dẫn: NCS Phan Xuân Hiếu Cán đồng hướng dẫn: TS Hà Quang Thuỵ HÀ NỘI – 2006 LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới Tiến sĩ Hà Quang Thuỵ (Trường Đại học Công Nghệ) Nghiên cứu sinh Phan Xuân Hiếu (Japan Advanced Institute of Science and Technology) bảo hướng dẫn tận tình cho tơi suốt trình nghiên cứu Khoa học trình thực khố luận Em xin gửi lời cảm ơn biết ơn sâu sắc tới thày, dạy dỗ em suốt q trình học tập trường Đại học Công Nghệ Những kiến thức thày, cô dạy hành trang để vững bước vào đời Em xin chân thành cảm ơn thày, cô, anh, chị Bộ môn Các hệ thống thông tin tạo điều kiện, giúp đỡ động viên tinh thần cho em trình làm khố luận Tơi xin gửi lời cảm ơn tới bạn sinh viên nhóm seminar “Khai phá liệu khám phá tri thức” ủng hộ khuyến khích tơi q trình nghiên cứu làm khoá luận Và cuối cùng, xin gửi lời cảm ơn biết ơn vô hạn tới bố, mẹ, cảm ơn em trai tôi, người thân yêu tôi, nuôi nấng, dạy dỗ động viên, làm chỗ dựa tinh thần cho sống học tập làm việc Xin chân thành cảm ơn! Hà Nội, ngày 25 tháng 05 năm 2006 Sinh viên Nguyễn Thị Thuỳ Linh TÓM TẮT NỘI DUNG Phân lớp văn toán quan trọng lĩnh vực xử lý ngơn ngữ tự nhiên Nó có ứng dụng nhiều tốn thực tế ví dụ như: ứng dụng lọc nội dung văn (lọc thư rác, lọc trang web có nội dung phản động, trang web có nội dung khơng lành mạnh,…), tốn phân lớp văn sau tìm kiếm,… Hiện có nhiều phân lớp đạt độ xác cao (đều xấp xỉ 90%), nhiên phân lớp hầu hết áp dụng cho ngôn ngữ cụ thể Thực tế cho thấy, toán lọc nội dung trang Web vấn đề đặt phải xử lý nhiều ngôn ngữ khác Một hướng nghiên cứu phân lớp văn quan tâm gần phân lớp đa ngôn ngữ [7] Khoá luận nghiên cứu đề xuất phương pháp phân lớp nội dung Web độc lập ngơn ngữ Phương pháp cho phép tích hợp thêm ngôn ngữ vào phân lớp giải vấn đề bùng nổ đặc trưng thông qua hướng tiếp cận entropy cực đại sử dụng chiến lược tối ưu hoá hàm nhiều biến hiệu Các kết thực nghiệm cho thấy hướng tiếp cận khoá luận khả quan, cụ thể, huấn luyện riêng biệt ngôn ngữ nhận kết cao (Anh 98%, Việt 91%), có kết hợp hai ngơn ngữ kết đạt khả quan (Anh-Việt xấp xỉ 95%) Đặc biệt cho mơ hình kiểm tra tập liệu hoàn toàn kết khả quan (độ xác Anh-Việt xấp xỉ 84%) Bên cạnh đó, khố luận phân tích vấn đề toán phân lớp văn độc lập ngơn ngữ nhập nhằng ngơn ngữ bùng nổ đặc trưng, sau đưa phương pháp khắc phục hiệu Một đề xuất mà khoá luận đưa mơ hình dựa phân lớp thơng minh Đề xuất có nhiều triển vọng cho ứng dụng nhỏ cần phân loại văn nhận diện ngôn ngữ i MỤC LỤC LỜI CẢM ƠN i TÓM TẮT NỘI DUNG i MỤC LỤC ii BẢNG KÍ HIỆU VIẾT TẮT iv DANH MỤC BẢNG SỐ LIỆU .v DANH MỤC HÌNH ẢNH vi MỞ ĐẦU CHƯƠNG KHÁI QUÁT VỀ PHÂN LỚP VĂN BẢN ĐỘC LẬP NGƠN NGỮ 1.1 Bài tốn phân lớp văn 1.1.1 Tổng quan 1.2 Phân lớp văn độc lập ngôn ngữ .4 1.2.1 Đặt vấn đề 1.2.2 Phân lớp văn độc lập ngôn ngữ 1.2.3 Ý nghĩa ứng dụng .5 CHƯƠNG CÁC MÔ HÌNH VÀ THUẬT TỐN PHÂN LỚP VĂN BẢN .7 2.1 Giới thiệu 2.2 Mơ hình Maximum Entropy 2.2.1 Giới thiệu .7 2.2.2 Xây dựng mơ hình 2.3 Tổng kết chương .16 CHƯƠNG PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP NGƠN NGỮ VỚI MƠ HÌNH ENTROPY CỰC ĐẠI 17 3.1 Giới thiệu 17 3.2 Bài tốn phân lớp văn độc lập ngơn ngữ 17 3.2.1 Vấn đề nhập nhằng ngôn ngữ 17 3.2.2 Vấn đề bùng nổ đặc trưng 18 3.3 Quy trình xây dựng phân lớp 19 3.3.1 Tiền xử lý liệu 19 3.3.2 Xây dựng đặc trưng .20 3.3.3 Lựa chọn đặc trưng 21 3.3.4 Huấn luyện mô hình 23 3.3.5 Phân lớp văn 23 3.4 Đánh giá độ xác phân lớp 24 ii 3.4.1 Các độ đo 24 3.4.2 Áp dụng phương pháp ước lượng chéo k tập 25 3.5 Xây dựng phân lớp phân lớp thông minh .25 3.5.1 Bản chất toán 26 3.5.2 Phân lớp cho văn 26 3.5.3 Thảo luận .27 3.6 Tổng kết chương 27 CHƯƠNG KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ 28 4.1 Môi trường thử nghiệm 28 4.1.1 Môi trường phần cứng 28 4.1.2 Công cụ phần mềm 28 4.2 Dữ liệu kiểm thử .29 4.2.1 Tiền xử lý liệu 29 4.2.2 Cây phân lớp 30 4.3 Kết thử nghiệm 31 4.3.1 Quá trình huấn luyện 31 4.3.2 Lần lặp cho độ xác cao 34 4.3.3 Kết kiểm tra liệu .35 4.4 Tổng kết chương .36 KẾT LUẬN 37 PHỤ LỤC DANH SÁCH STOP-WORD 38 TÀI LIỆU THAM KHẢO .41 iii BẢNG KÍ HIỆU VIẾT TẮT Kí hiệu Diễn giải GIS Generalized Interative Scaling HTML Hyper Text Markup Language IDF Inverse Document Frequency IIS Improved Iterative Scaling kNN K Nearest Neighbours L-BFGS Limited-memory Broyden-Fletcher-Goldfarb-Shannon MaxEnt Maximum Entropy NCR Numeric Character References TF Term Frequency UTF Unicode Transformation Formats iv DANH MỤC BẢNG SỐ LIỆU Bảng Cây phân lớp thông minh tổng quát .26 Bảng Bảng ví dụ cho phân lớp thơng minh 26 Bảng Cấu hình hệ thống chạy thử nghiệm 28 Bảng Danh sách phần mềm sử dụng để thử nghiệm 28 Bảng Danh sách công cụ sử dụng để thử nghiệm .29 Bảng Cây phân lớp thông tin 31 Bảng Tập liệu huấn luyện mơ hình 31 Bảng Độ xác 10 lần huấn luyện tiếng Anh .32 Bảng Độ xác 10 lần huấn luyện tiếng Việt .32 Bảng 10 Độ xác 10 lần huấn luyện kết hợp Anh-Việt 32 v DANH MỤC HÌNH ẢNH Hình Tập ràng buộc C .12 Hình Mơ tả bước xây dựng phân lớp .19 Hình Trang tin tức tiếng Việt VnExpress.net 29 Hình Trang tin tức tiếng Anh BBC News 30 Hình Độ xác phân lớp 10 lần huấn luyện 33 Hình Sự phụ thuộc độ xác theo bước lặp mơ hình 34 Hình Kết kiểm tra liệu độc lập Anh-Việt 35 vi MỞ ĐẦU Hiện nay, nhờ khả cho phép mã hố phần lớn ngơn ngữ thơng dụng toàn giới bảng mã Unicode, khoảng cách quốc gia, dân tộc hạn chế ngôn ngữ gây dần xoá Theo thống kê [20] có 141 ngơn ngữ sử dụng Internet xu hướng tất yếu ngày xuất thêm nhiều ngôn ngữ Internet Bộ phân lớp văn có dừng mức phân lớp cho văn ngôn ngữ Nếu với 141 ngôn ngữ xây dựng 141 phân lớp thật tốn Hơn trang web thương mại, web có nội dung khơng lành mạnh thể ẩn náu nhiều hình thức đa dạng (nhiều ngôn ngữ xuất trang web) với mục đích qua lọc máy tìm kiếm, chúng gây nhiều phiền tối cho người dùng Vì vậy, tốn phân lớp văn độc lập ngơn ngữ đặt nhằm mục đích xây dựng phân lớp cho nhiều ngơn ngữ Ý thức vấn đề đó, khóa luận tập trung xây dựng phân lớp tài liệu web độc lập ngôn ngữ dựa việc áp dụng nguyên lý entropy cực đại Đây phương pháp có khả tích hợp mạnh hàng nghìn hàng triệu đặc trưng quan trọng Qua kết thực nghiệm, với tập liệu lên tới 12.000 trang Web bao gồm hai ngôn ngữ Anh Việt, kết cho thấy khả quan Mục tiêu mà khoá luận hướng tới: Xây dựng phân lớp cho nhiều ngơn ngữ dựa mơ hình entropy cực đại Không cần sử dụng phân nhận dạng ngôn ngữ khác Thử nghiệm đánh giá, vạch hướng phát triển Cấu trúc luận văn tổ chức sau: Chương 1: Giới thiệu tóm tắt tốn phân lớp văn bản, đặt vấn đề phát biểu toán phân lớp văn độc lập ngơn ngữ Chương 2: Trình bày cụ thể toán phân lớp, đề cập đến vấn đề nguyên lý entropy cực đại theo hướng áp dụng vào toán phân lớp văn Chương 3: Phát biểu tốn phân lớp văn độc lập ngơn ngữ, phân tích vấn đề cần giải toán bước xây dựng phân lớp sở áp dụng mơ hình entropy cực đại Đưa đề xuất áp dụng ứng dụng vừa nhỏ Chương 4: Trình bày kết đánh giá thử nghiệm khoá luận áp dụng cho toán phân lớp tin tức với hai ngôn ngữ Anh Việt Cuối kết luận lại điểm chính, đóng góp luận văn, đồng thời điểm cần khắc phục vạch hướng cải tiến nhằm hướng tới xây dựng hệ ứng dụng thực môi trường Internet ... Vì vậy, tốn phân lớp văn độc lập ngôn ngữ đặt nhằm mục đích xây dựng phân lớp cho nhiều ngơn ngữ Ý thức vấn đề đó, khóa luận tập trung xây dựng phân lớp tài liệu web độc lập ngôn ngữ dựa việc... không phụ thuộc ngôn ngữ (độc lập) sử dụng mơ hình entropy cực đại 1.2.2 Phân lớp văn độc lập ngôn ngữ Phân lớp văn độc lập ngơn ngữ tốn phân lớp văn bản, cho phép xếp văn vào lớp mà khơng cần... PHÂN LỚP VĂN BẢN ĐỘC LẬP NGƠN NGỮ 1.1 Bài tốn phân lớp văn 1.1.1 Tổng quan 1.2 Phân lớp văn độc lập ngôn ngữ .4 1.2.1 Đặt vấn đề 1.2.2 Phân lớp văn độc

Ngày đăng: 27/02/2013, 16:39

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Nguyễn Việt Cường, Bài toán lọc và phân lớp tài liệu Web tiếng Việt với hướng tiếp cận entropy cực đại, Luận văn tốt nghiệp đại học, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, 2005 Sách, tạp chí
Tiêu đề: Luận văn tốt nghiệp đại học
[2] Nguyễn Đức Dân, Lô gich ngữ nghĩa cú pháp, NXB ĐH&TH chuyên nghiệp, Hà Nội, 1987 Sách, tạp chí
Tiêu đề: NXB ĐH&TH chuyên nghiệp
Nhà XB: NXB ĐH&TH chuyên nghiệp"
[3] Nguyễn Cẩm Tú, Nhận biết các loại thực thể trong văn bản tiếng Việt nhằm hỗ trợ Web ngữ nghĩa và tìm kiếm hướng thực thể, Luận văn tốt nghiệp đại học, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, 2005 Sách, tạp chí
Tiêu đề: Luận văn tốt nghiệp đại học
[4] Berger, A., Della Pietra, S., and Della Pietra, V. A maximum entropy approach to natural language processing. Computational Linguistics, volume 22, number 1, 1996, pages 39-71 Sách, tạp chí
Tiêu đề: Computational Linguistics
[5] Cavnar, W. B. and Trenkle, J. M. N-Gram-Based Text Categorization. Proceedings of {SDAIR}-94, 3rd Annual Symposium on Document Analysis and Information Retrieval, 1994, pages 161-175 Sách, tạp chí
Tiêu đề: Proceedings of {SDAIR}-94, 3rd Annual Symposium on Document Analysis and Information Retrieval
[6] Darroch, J. and Ratcliff, D. Generalized iterative scaling for log-linear models. Annals Mathematical Statistics, volume 43, number 5, 1972, pages 1470–1480 Sách, tạp chí
Tiêu đề: Annals Mathematical Statistics
[7] Fuchen, P., Dale, S. and Shaojun, W. Language and Task independent text categorizationg with simple language models, Proceedings of HLT-NAACL, 2003 Sách, tạp chí
Tiêu đề: Proceedings of HLT-NAACL
[8] Jaynes, E. R. (1957). Information Theory and Statistical Mechanics. Physic Review, volume 106, 1957, pages 620-630 Sách, tạp chí
Tiêu đề: Physic Review
Tác giả: Jaynes, E. R
Năm: 1957
[9] Joachims, T. Text Classification with Support Vector Machines: Learning with many relevant features. Machine Learning: ECML-98, Tenth European Conference on Machine Learning, 1998, pages 137-142 Sách, tạp chí
Tiêu đề: Machine Learning: ECML-98, Tenth European Conference on Machine Learning
[10] Liu, D. C. and Nocedal J. On the limited memory BFGS method for large scale optimization. Mathematical Programming, volume 45, number 3, 1989, pages 503-528 Sách, tạp chí
Tiêu đề: Mathematical Programming
[11] Malouf, R. A comparison of algorithms for maximum entropy parameter estimation. Proceedings of the Sixth Conference on Natural Language Learning (CoNLL-2002), 2002, pages 183-186 Sách, tạp chí
Tiêu đề: Proceedings of the Sixth Conference on Natural Language Learning (CoNLL-2002)
[12] Nigam, K., Lafferty, J. and McCallum, A. Using maximum entropy for text classification. IJCAI-99 Workshop on Machine Learning for Information Filtering, 1999, pages 61-67 Sách, tạp chí
Tiêu đề: IJCAI-99 Workshop on Machine Learning for Information Filtering
[13] Nigam K., McCallum, A., Thrun S. and Mitchell, T. Text Classification from Labeled and Unlabeled Documents using EM. Machine Learning, volume 39, number 2/3, 2000, pages 103-134 Sách, tạp chí
Tiêu đề: Machine Learning
[14] Ratnaparkhi, A. A Maximum Entropy Part-Of-Speech Tagger. Proceedings of the Empirical Methods in Natural Language Processing Conference, May 17-18, 1996 Sách, tạp chí
Tiêu đề: Proceedings of the Empirical Methods in Natural Language Processing Conference
[15] Ratnaparkhi, A. A simple introduction to maximum entropy models for natural language processing. Technical Report 97-08, Institute for Research in Cognitive Science, University of Pennsylvania, 1997 Sách, tạp chí
Tiêu đề: Technical Report 97-08, Institute for Research in Cognitive Science, University of Pennsylvania
[16] Ratnaparkhi, A. Maximum Entropy Models for Natural Language Ambiguity Resolution. Ph.D. thesis, University of Pennsylvania, Philadelphia, PA, 1998 Sách, tạp chí
Tiêu đề: Ph.D. thesis, University of Pennsylvania
[17] Rosenfeld, R. A maximum entropy approach to adaptive statistical language modeling. Computer, Speech, and Language, volume 10, 1996, pages 187-228 Sách, tạp chí
Tiêu đề: Computer, Speech, and Language
[23] Website: http://dev.mysql.com/doc/refman/5.0/en/fulltext-stopwords.html Link
[18] Zhang, L., Maximum Entropy Modeling Toolkit for Python and C++, 2004 Khác

HÌNH ẢNH LIÊN QUAN

BẢNG KÍ HIỆU VIẾT TẮT - Phân lớp tài liệu web độc lập ngôn ngữ
BẢNG KÍ HIỆU VIẾT TẮT (Trang 6)
Hình 1. Tập ràng buộc C - Phân lớp tài liệu web độc lập ngôn ngữ
Hình 1. Tập ràng buộc C (Trang 20)
Hình 2. Mô tả các bước xây dựng bộ phân lớp  3.3.1. Tiền xử lý dữ liệu - Phân lớp tài liệu web độc lập ngôn ngữ
Hình 2. Mô tả các bước xây dựng bộ phân lớp 3.3.1. Tiền xử lý dữ liệu (Trang 27)
Bảng 1. Cây phân lớp thông minh tổng quát - Phân lớp tài liệu web độc lập ngôn ngữ
Bảng 1. Cây phân lớp thông minh tổng quát (Trang 34)
Bảng 4. Danh sách phần mềm sử dụng để thử nghiệm  STT  Tên phần mềm  Nguồn - Phân lớp tài liệu web độc lập ngôn ngữ
Bảng 4. Danh sách phần mềm sử dụng để thử nghiệm STT Tên phần mềm Nguồn (Trang 36)
Bảng 5. Danh sách công cụ sử dụng để thử nghiệm  STT  Tên công cụ  Mô tả - Phân lớp tài liệu web độc lập ngôn ngữ
Bảng 5. Danh sách công cụ sử dụng để thử nghiệm STT Tên công cụ Mô tả (Trang 37)
Hình 4. Trang tin tức tiếng Anh BBC News - Phân lớp tài liệu web độc lập ngôn ngữ
Hình 4. Trang tin tức tiếng Anh BBC News (Trang 38)
Bảng 6. Cây phân lớp thông tin - Phân lớp tài liệu web độc lập ngôn ngữ
Bảng 6. Cây phân lớp thông tin (Trang 39)
Bảng 7. Tập dữ liệu huấn luyện của cả 3 mô hình  Mô hình  Mệnh đề thông tin ngữ cảnh  Đặc trưng - Phân lớp tài liệu web độc lập ngôn ngữ
Bảng 7. Tập dữ liệu huấn luyện của cả 3 mô hình Mô hình Mệnh đề thông tin ngữ cảnh Đặc trưng (Trang 39)
Bảng 9. Độ chính xác 10 lần huấn luyện của tiếng Việt - Phân lớp tài liệu web độc lập ngôn ngữ
Bảng 9. Độ chính xác 10 lần huấn luyện của tiếng Việt (Trang 40)
Hình 5. Độ chính xác của 3 bộ phân lớp trong 10 lần huấn luyện - Phân lớp tài liệu web độc lập ngôn ngữ
Hình 5. Độ chính xác của 3 bộ phân lớp trong 10 lần huấn luyện (Trang 41)
Hình 6. Sự phụ thuộc độ chính xác theo bước lặp của cả 3 mô hình - Phân lớp tài liệu web độc lập ngôn ngữ
Hình 6. Sự phụ thuộc độ chính xác theo bước lặp của cả 3 mô hình (Trang 42)
Hình 7. Kết quả kiểm tra bộ dữ liệu độc lập Anh-Việt - Phân lớp tài liệu web độc lập ngôn ngữ
Hình 7. Kết quả kiểm tra bộ dữ liệu độc lập Anh-Việt (Trang 43)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w