ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THÀNH TRUNG LÀM GIÀU ĐẶC TRƯNG CHO BÀI TOÁN PHÂN LỚP TRUY VẤN LUẬN VĂN THẠC SĨ Hà Nội - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THÀNH TRUNG LÀM GIÀU ĐẶC TRƯNG CHO BÀI TỐN PHÂN LỚP TRUY VẤN Ngành: Cơng nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.05 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: TS NGUYỄN TRÍ THÀNH Hà Nội - 2011 Mục l Lời cảm ơn Lời cam đoan Mục lục Danh sách hình vẽ Danh sách bảng Mở đầu Chương Bài toán 1.1 Giới thiệu toán phân lớp tru 1.2 Một số khái niệm toá 1.3 Các vấn đề liên quan đến to 1.4 Các ứng dụng toán phâ 1.4.1 Ứng dụ 1.4.2 Tìm kiế 1.4.3 Quảng 1.5 Tóm tắt chương Chương Các mô 2.1 Giới thiệu 2.2 Mơ hình khơng gian vectơ 2.2.1 Phương 2.2.2 Phương 2.2.3 Phương 2.2.4 Phương 2.2.5 Các độ 2.3 Mơ hình xác suất 2.4 Tóm tắt chương hai Chương Mơ hìn 3.1 Giới thiệu LDA 3.2 Phân tích chủ đề ẩn với LDA 3.3 Một số ví dụ chủ đề ẩn 3.4 Tóm tắt chương ba Chư 4.1 Ý tưởng mô hình đề xu 4.2 Hai mơ hình làm giàu nội d liệu 4.3 Tóm tắt chương bốn Chư 5.1 Môi trường thực nghiệm 5.2 Bộ liệu sử dụng tr 5.3 Tìm kiếm câu truy vấn 5.4 Tập liệu kiểm thử tập 5.5 Thuật toán phân lớp truy v 5.6 Các đại lượng đánh giá hiệ 5.7 Các bước tiến hành thực ng 5.8 Kết thực nghiệm Kết luận Tài liệu tham khảo Làm giàu đặc trưng cho toán phân lớp truy vấn Học viên: Nguyễn Thành Trung Đơn vị công tác: Công ty CP CNTT, VT & TĐH Dầu khí Email: trungnt1983@yahoo.com GVHD: TS Nguyễn Trí Thành Đơn vị cơng tác: ĐH Công nghệ - ĐH Quốc gia Hà Nội Email: ntthanh@vnu.edu.vn Từ khóa: chủ đề ẩn, LDA, máy tìm kiếm, phân lớp, truy vấn GIỚI THIỆU BÀI TỐN Bài tốn phân lớp truy vấn toán thuộc lĩnh vực tìm kiếm thơng tin Nội dung tốn gán câu truy vấn người sử dụng vào lớp định nghĩa Bài toán phân lớp truy vấn tốn phân lớp văn có nhiều đặc điểm giống câu truy vấn ngắn nhập nhằng nên tốn khó nhiều so với toán phân lớp văn Các thuật toán phân lớp truy vấn chưa cho độ xác cao [1, 2, 5] - - Thực ngoại tuyến: Các câu truy vấn tập liệu tìm kiếm Google, lấy kết cao sau tổng hợp kết lại đưa vào mơ hình LDA để sinh chủ đề ẩn Các chủ đề ẩn sau lọc để lấy chủ đề ẩn gần với lớp Thực trực tuyến: Câu truy vấn sau tiền xử lý tính độ tương tự với chủ đề ẩn lựa chọn để tìm độ tương tự lớn nhất, sau câu truy vấn làm giàu cách thêm vào từ có xác suất cao chủ đề ẩn Bài tốn phân lớp truy vấn ứng dụng máy tìm kiếm Nếu câu truy vấn đầu vào người dùng phân lớp máy tìm kiếm tìm lĩnh vực liên quan đến câu truy vấn đó, kết trả xác Ngồi tốn phân lớp truy vấn cịn ứng dụng máy siêu tìm kiếm, quảng cáo trực tuyến Luận văn nghiên cứu toán phân lớp truy vấn đề xuất phương pháp làm giàu câu truy vấn để nâng cao hiệu phân lớp Các bước thực mơ hình 2: Câu truy vấn người sử dụng tìm kiếm Google, lấy kết cao sau tổng hợp kết lại đưa vào mơ hình LDA để sinh chủ đề ẩn Các chủ đề ẩn sau lọc để lấy chủ đề ẩn gần với lớp Câu truy vấn người sử dụng sau tiền xử lý tính độ tương tự với chủ đề ẩn lựa chọn để tìm độ tương tự lớn nhất, sau câu truy vấn làm giàu cách thêm vào từ có xác suất cao chủ đề ẩn NỘI DUNG LUẬN VĂN Bộ liệu sử dụng trình thực nghiệm truy vấn trang AOL mùa thu năm 2004 [1, 2] Q trình thực nghiệm với hai mơ hình cho thấy độ xác độ đo F tăng so với kết ban đầu Mơ hình có độ xác cao thời gian thực lâu so với mơ hình A Mơ hình phân tích chủ đề ẩn với LDA LDA (Latent Dirichlet Allocation) mơ hình sinh xác suất cho tập liệu rời rạc dựa phân phối Dirichlet dựa ý tưởng: tài liệu trộn lẫn nhiều chủ đề, chủ đề phân phối xác suất tập từ Về chất, LDA mơ hình Bayesian ba mức: mức kho liệu, mức tài liệu mức từ [3] Mơ hình LDA giống với mơ hình pLSA (probabilistic Latent Semantic Analysis) [4], có điểm khác mơ hình LDA sử dụng phân phối Dirichlet để phân phối chủ đề B Đề xuất mơ hình làm giàu câu truy vấn Ý tưởng mơ hình làm giàu câu truy vấn dựa vào dụng chủ đề ẩn sinh mơ hình phân tích chủ đề ẩn LDA Nguồn sinh tri thức kho liệu Internet thơng qua máy tìm kiếm Google Dựa vào cách sử dụng máy tìm kiếm Google để lấy liệu, tác giả đề xuất hai mơ hình làm giàu câu truy vấn: -Mơ hình 1: Tìm kiếm Google câu truy vấn tập liệu -Mơ hình 2: Tìm kiếm Google câu truy vấn người sử dụng Các bước thực mô hình 1: C Thực nghiệm đánh giá KẾT LUẬN Quá trình thực nghiệm đạt kết khả quan cho thấy tính đắn việc lựa chọn phương pháp Tuy độ xác phân lớp tăng lên không cao hứa hẹn nhiều tiềm để phát triển TÀI LIỆU THAM KHẢO [1] S M Beitzel et al Improving Automatic Query Classification th [2] [3] [4] [5] via Semi-supervised Learning The IEEE International Conference on Data Mining, 2005 S M Beitzel On Understanding and Classifying Web Queries PhD Thesis, Illinois Institute of Technology, 2006 D Blei M et al Latent Dirichlet Allocation The Journal of Machine Learning Research, Volume 3, pp 993-1022 T Hofmann Probabilistic Latent Semantic Indexing, Proceedings of the 22nd Annual International SIGIR Conference on Research and Development in Information Retrieval, pp 50-57, 1999 D Shen et al Query enrichment for web-query classification Journal ACM Transactions on Information Systems, Volume 24, Issue 3, pp 320-352, 2006 ... NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THÀNH TRUNG LÀM GIÀU ĐẶC TRƯNG CHO BÀI TỐN PHÂN LỚP TRUY VẤN Ngành: Cơng nghệ thơng tin Chuyên ngành: Hệ thống thông tin Mã số: 60. 48. 05 LUẬN VĂN THẠC SĨ Người... gán câu truy vấn người sử dụng vào lớp định nghĩa Bài toán phân lớp truy vấn tốn phân lớp văn có nhiều đặc điểm giống câu truy vấn ngắn nhập nhằng nên tốn khó nhiều so với toán phân lớp văn Các... kiếm, quảng cáo trực tuyến Luận văn nghiên cứu toán phân lớp truy vấn đề xuất phương pháp làm giàu câu truy vấn để nâng cao hiệu phân lớp Các bước thực mơ hình 2: Câu truy vấn người sử dụng tìm kiếm