ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THÀNH TRUNG LÀM GIÀU ĐẶC TRƯNG CHO BÀI TOÁN PHÂN LỚP TRUY VẤN LUẬN VĂN THẠC SĨ Hà Nội - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THÀNH TRUNG LÀM GIÀU ĐẶC TRƯNG CHO BÀI TỐN PHÂN LỚP TRUY VẤN Ngành: Cơng nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.05 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: TS NGUYỄN TRÍ THÀNH Hà Nội - 2011 Mục lục Lời cảm ơn 1 Lời cam đoan 2 Mục lục 3 Danh sách hình vẽ 5 Danh sách bảng 6 Mở đầu 7 Chương 1. Bài toán phân lớp truy vấn 9 1.1. Giới thiệu toán phân lớp truy vấn 9 1.2. Một số khái niệm toán phân lớp truy vấn 11 1.3. Các vấn đề liên quan đến toán phân lớp truy vấn 12 1.4. Các ứng dụng toán phân lớp truy vấn 12 1.4.1. Ứng dụng máy siêu tìm kiếm 12 1.4.2. Tìm kiếm theo chiều dọc 13 1.4.3. Quảng cáo trực tuyến 13 1.5. Tóm tắt chương 14 Chương 2. Các mơ hình biểu diễn câu truy vấn 15 2.1. Giới thiệu 15 2.2. Mơ hình khơng gian vectơ 15 2.2.1. Phương pháp biểu diễn Boolean 15 2.2.2. Phương pháp biểu diễn dựa tần số từ khóa 15 2.2.3. Phương pháp biểu diễn dựa nghịch đảo tần số văn 16 2.2.4. Phương pháp biểu diễn dựa TF-IDF 16 2.2.5. Các độ đo sử dụng mơ hình khơng gian vectơ 17 2.3. Mơ hình xác suất 17 2.4. Tóm tắt chương hai 18 Chương 3. Mơ hình phân tích chủ đề ẩn với LDA 19 3.1. Giới thiệu LDA 19 3.2. Phân tích chủ đề ẩn với LDA 19 3.3. Một số ví dụ chủ đề ẩn sinh LDA 22 3.4. Tóm tắt chương ba 24 Chương 4. Đề xuất mơ hình làm giàu câu truy vấn 25 4.1. Ý tưởng mơ hình đề xuất 25 4.2. Hai mơ hình làm giàu nội dung câu truy vấn 26 4.2.1. liệu Mơ hình 1: Tìm kiếm Google câu truy vấn tập 26 4.2.2. Mơ hình 2: Tìm kiếm Google câu truy vấn người sử dụng 28 4.3. Tóm tắt chương bốn 29 Chương 5. Thực nghiệm đánh giá 30 5.1. Môi trường thực nghiệm 30 5.2. Bộ liệu sử dụng trình thực nghiệm 31 5.3. Tìm kiếm câu truy vấn liệu máy tìm kiếm Google32 5.4. Tập liệu kiểm thử tập liệu đào tạo 32 5.5. Thuật toán phân lớp truy vấn sử dụng thực nghiệm 33 5.6. Các đại lượng đánh giá hiệu suất phân lớp 33 5.7. Các bước tiến hành thực nghiệm 35 5.7.1. Thực nghiệm với mơ hình 35 5.7.2. Thực nghiệm với mô hình 40 5.8. Kết thực nghiệm 43 5.8.1. Kết phân lớp với câu truy vấn ban đầu 43 5.8.2. Kết phân lớp với câu truy vấn làm giàu 43 5.8.3. Nhận xét kết thực nghiệm 44 Kết luận 46 Tài liệu tham khảo 47 Làm giàu đặc trưng cho toán phân lớp truy vấn Học viên: Nguyễn Thành Trung Đơn vị công tác: Công ty CP CNTT, VT & TĐH Dầu khí Email: trungnt1983@yahoo.com GVHD: TS Nguyễn Trí Thành Đơn vị cơng tác: ĐH Công nghệ - ĐH Quốc gia Hà Nội Email: ntthanh@vnu.edu.vn Từ khóa: chủ đề ẩn, LDA, máy tìm kiếm, phân lớp, truy vấn GIỚI THIỆU BÀI TỐN Bài tốn phân lớp truy vấn toán thuộc lĩnh vực tìm kiếm thơng tin Nội dung tốn gán câu truy vấn người sử dụng vào lớp định nghĩa Bài toán phân lớp truy vấn tốn phân lớp văn có nhiều đặc điểm giống câu truy vấn ngắn nhập nhằng nên tốn khó nhiều so với toán phân lớp văn Các thuật toán phân lớp truy vấn chưa cho độ xác cao [1, 2, 5] Bài tốn phân lớp truy vấn ứng dụng máy tìm kiếm Nếu câu truy vấn đầu vào người dùng phân lớp máy tìm kiếm tìm lĩnh vực liên quan đến câu truy vấn đó, kết trả xác Ngồi tốn phân lớp truy vấn ứng dụng máy siêu tìm kiếm, quảng cáo trực tuyến Luận văn nghiên cứu toán phân lớp truy vấn đề xuất phương pháp làm giàu câu truy vấn để nâng cao hiệu phân lớp NỘI DUNG LUẬN VĂN A Mơ hình phân tích chủ đề ẩn với LDA LDA (Latent Dirichlet Allocation) mơ hình sinh xác suất cho tập liệu rời rạc dựa phân phối Dirichlet dựa ý tưởng: tài liệu trộn lẫn nhiều chủ đề, chủ đề phân phối xác suất tập từ Về chất, LDA mơ hình Bayesian ba mức: mức kho liệu, mức tài liệu mức từ [3] Mơ hình LDA giống với mơ hình pLSA (probabilistic Latent Semantic Analysis) [4], có điểm khác mơ hình LDA sử dụng phân phối Dirichlet để phân phối chủ đề B Đề xuất mô hình làm giàu câu truy vấn Ý tưởng mơ hình làm giàu câu truy vấn dựa vào dụng chủ đề ẩn sinh mơ hình phân tích chủ đề ẩn LDA Nguồn sinh tri thức kho liệu Internet thông qua máy tìm kiếm Google Dựa vào cách sử dụng máy tìm kiếm Google để lấy liệu, tác giả đề xuất hai mơ hình làm giàu câu truy vấn: - Mơ hình 1: Tìm kiếm Google câu truy vấn tập liệu - Mơ hình 2: Tìm kiếm Google câu truy vấn người sử dụng Các bước thực mơ hình 1: - - Thực ngoại tuyến: Các câu truy vấn tập liệu tìm kiếm Google, lấy kết cao sau tổng hợp kết lại đưa vào mơ hình LDA để sinh chủ đề ẩn Các chủ đề ẩn sau lọc để lấy chủ đề ẩn gần với lớp Thực trực tuyến: Câu truy vấn sau tiền xử lý tính độ tương tự với chủ đề ẩn lựa chọn để tìm độ tương tự lớn nhất, sau câu truy vấn làm giàu cách thêm vào từ có xác suất cao chủ đề ẩn Các bước thực mơ hình 2: Câu truy vấn người sử dụng tìm kiếm Google, lấy kết cao sau tổng hợp kết lại đưa vào mơ hình LDA để sinh chủ đề ẩn Các chủ đề ẩn sau lọc để lấy chủ đề ẩn gần với lớp Câu truy vấn người sử dụng sau tiền xử lý tính độ tương tự với chủ đề ẩn lựa chọn để tìm độ tương tự lớn nhất, sau câu truy vấn làm giàu cách thêm vào từ có xác suất cao chủ đề ẩn C Thực nghiệm đánh giá Bộ liệu sử dụng trình thực nghiệm truy vấn trang AOL mùa thu năm 2004 [1, 2] Quá trình thực nghiệm với hai mơ hình cho thấy độ xác độ đo F tăng so với kết ban đầu Mô hình có độ xác cao thời gian thực lâu so với mơ hình KẾT LUẬN Quá trình thực nghiệm đạt kết khả quan cho thấy tính đắn việc lựa chọn phương pháp Tuy độ xác phân lớp tăng lên không cao hứa hẹn nhiều tiềm để phát triển TÀI LIỆU THAM KHẢO [1] S M Beitzel et al Improving Automatic Query Classification via Semi-supervised Learning The 5th IEEE International Conference on Data Mining, 2005 [2] S M Beitzel On Understanding and Classifying Web Queries PhD Thesis, Illinois Institute of Technology, 2006 [3] D Blei M et al Latent Dirichlet Allocation The Journal of Machine Learning Research, Volume 3, pp 993-1022 [4] T Hofmann Probabilistic Latent Semantic Indexing, Proceedings of the 22nd Annual International SIGIR Conference on Research and Development in Information Retrieval, pp 50-57, 1999 [5] D Shen et al Query enrichment for web-query classification Journal ACM Transactions on Information Systems, Volume 24, Issue 3, pp 320-352, 2006 ... Bài toán phân lớp truy vấn 9 1.1. Giới thiệu toán phân lớp truy vấn 9 1.2. Một số khái niệm toán phân lớp truy vấn 11 1.3. Các vấn đề liên quan đến toán phân lớp truy vấn. .. kiếm, phân lớp, truy vấn GIỚI THIỆU BÀI TỐN Bài tốn phân lớp truy vấn tốn thuộc lĩnh vực tìm kiếm thơng tin Nội dung tốn gán câu truy vấn người sử dụng vào lớp định nghĩa Bài toán phân lớp truy vấn. .. tốn phân lớp văn có nhiều đặc điểm giống câu truy vấn ngắn nhập nhằng nên tốn khó nhiều so với toán phân lớp văn Các thuật toán phân lớp truy vấn chưa cho độ xác cao [1, 2, 5] Bài tốn phân lớp truy