Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 46 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
46
Dung lượng
5,07 MB
Nội dung
LatentsemanticIndexing GVHD: PGS TS Hồ Bảo Quốc HVTH: Bùi Duy Tâm 16C11034 Lê Hồng Danh 16C Nội dung Vấn đề •LSI •Ví dụ •Tóm tắt •Tài liệu tham khảo Vấn đề • Truy vấn liệu xuất vào năm thập kỷ 1980 • Cho tập tập liệu: Lấy tài liệu liên quan đến câu truy vấn • Thực việc so khớp terms với terms câu truy vấn • Dựa vào phương pháp khơng gian vector Vấn đề • Phương pháp khơng gian vector • Ma trận term-document gồm hàng từ (term) cột tài liệu (document), giá trị cell dựa vào tầng suất xuất từ • Ma trận chuyển thành vector không gian vector Mỗi vector tài liệu (document) • Giá trị cosine để đo khoảng cách vector tài liệu • Nếu giá trị lớn tài liệu giống • Nếu giá trị nhỏ tài liệu khơng giống Vấn đề • Đo đạt chuẩn IR • Độ xác: Tỉ số • Recall: portion of the target items that the system selected Vấn đề • Hai vấn đề dùng phương pháp khơng gian vector • Từ đồng nghĩa: có nhiều cách để nói đến đối tượng, ví dụ: car and automobile Điều dẫn đễn poor recall • Từ đa nghĩa: Hầu tất từ có nhiều nghĩa, ví dụ model, python, chip Điều dẫn đến poor precision Vấn đề • Ví dụ auto engine bonnet tyres lorry boot car emissions hood make model trunk Từ đồng nghĩa: Có giá trị cosine nhỏ liên quan make hidden Markov model emissions normalize Từ đa nghĩa: Có giá trị cosine cao khơng liên quan Vấn đề • LatentSemanticIndexing đề nghị để xử lý hai vấn đề mơ hình không gian vector truy vấn thông tin LSI hay LSA • Sự khác LSI LSA • LSI sử dụng việc tạo mục lĩnh vực truy vấn thơng tin (IR) • LSA đước sử dụng lĩnh vực khác Trị riêng vector riêng • Vector riêng (Cho ma trận S kích thước) Ví dụ (bên phải) Vector riêng Trị riêng • Có trị riêng? Chỉ có giải pháp trị riêng 10 Ví dụ Technical Memo Titles c1: Human machine interface for ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system c4: System and human system engineering testing of EPS c5: Relation of user perceived response time to error measurement m1: The generation of random, binary, ordered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey Ví dụ human interface computer user system response time EPS survey trees graph minors c1 1 0 0 0 0 c2 0 1 1 1 0 c3 1 0 0 0 c4 0 0 0 0 c5 0 1 0 0 m1 0 0 0 0 0 m2 0 0 0 0 1 m3 0 0 0 0 1 m4 0 0 0 0 1 r (human.user) = -.38 r (human.minor s) = -.29 Ví dụ • Phân rã giá trị đơn: {A}={U}{S}{V}T • Giảm số chiều: {~A}~={~U}{~S} {~V}T Ví dụ {U} =0.22 0.20 0.24 0.40 0.64 0.27 0.27 0.30 0.21 0.01 0.04 0.03 -0.11 -0.07 0.04 0.06 -0.17 0.11 0.11 -0.14 0.27 0.49 0.62 0.45 0.29 0.14 -0.16 -0.34 0.36 -0.43 -0.43 0.33 -0.18 0.23 0.22 0.14 -0.41 -0.55 -0.59 0.10 0.33 0.07 0.07 0.19 -0.03 0.03 0.00 -0.01 -0.11 0.28 -0.11 0.33 -0.16 0.08 0.08 0.11 -0.54 0.59 -0.07 -0.30 -0.34 0.50 -0.25 0.38 -0.21 -0.17 -0.17 0.27 0.08 -0.39 0.11 0.28 0.52 -0.07 -0.30 0.00 -0.17 0.28 0.28 0.03 -0.47 -0.29 0.16 0.34 -0.06 -0.01 0.06 0.00 0.03 -0.02 -0.02 -0.02 -0.04 0.25 -0.68 0.68 -0.41 -0.11 0.49 0.01 0.27 -0.05 -0.05 -0.17 -0.58 -0.23 0.23 0.18 Ví dụ {∑} = 3.34 2.54 2.35 1.64 1.50 1.31 0.85 0.56 0.36 Ví dụ {V} =0.20 -0.06 0.11 -0.95 0.05 -0.08 0.18 -0.01 -0.06 0.61 0.17 -0.50 -0.03 -0.21 -0.26 -0.43 0.05 0.24 0.46 -0.13 0.21 0.04 0.38 0.72 -0.24 0.01 0.02 0.54 -0.23 0.57 0.27 -0.21 -0.37 0.26 -0.02 -0.08 0.28 0.11 -0.51 0.15 0.33 0.03 0.67 -0.06 -0.26 0.00 0.19 0.10 0.02 0.39 -0.30 -0.34 0.45 -0.62 0.01 0.44 0.19 0.02 0.35 -0.21 -0.15 -0.76 0.02 0.02 0.62 0.25 0.01 0.15 0.00 0.25 0.45 0.52 0.08 0.53 0.08 -0.03 -0.60 0.36 0.04 -0.07 -0.45 Ví dụ c1 c2 c3 c4 c5 m1 m2 m3 m4 human 0.16 0.40 0.38 0.47 0.18 -0.05 -0.12 -0.16 -0.09 interface 0.14 0.37 0.33 0.40 0.16 -0.03 -0.07 -0.10 -0.04 computer 0.15 0.51 0.36 0.41 0.24 0.02 0.06 0.09 0.12 user 0.26 0.84 0.61 0.70 0.39 0.03 0.08 0.12 0.19 system 0.45 1.23 1.05 1.27 0.56 -0.07 -0.15 -0.21 -0.05 response 0.16 0.58 0.38 0.42 0.28 0.06 0.13 0.19 0.22 time 0.16 0.58 0.38 0.42 0.28 0.06 0.13 0.19 0.22 EPS 0.22 0.55 0.51 0.63 0.24 -0.07 -0.14 -0.20 -0.11 survey 0.10 0.53 0.23 0.21 0.27 0.14 0.31 0.44 0.42 trees -0.06 0.23 -0.14 -0.27 0.14 0.24 0.55 0.77 0.66 graph -0.06 0.34 -0.15 -0.30 0.20 0.31 0.69 0.98 0.85 minors -0.04 0.25 -0.10 -0.21 0.15 0.22 0.50 0.71 0.62 r (human.user) = 94 r (human.minors) = -.83 Ví dụ human interface computer user system response time EPS survey trees graph minors c1 1 0 0 0 0 c2 0 1 1 1 0 c3 1 0 0 0 c4 0 0 0 0 c5 0 1 0 0 m1 0 0 0 0 0 m2 0 0 0 0 1 m3 0 0 0 0 1 m4 0 0 0 0 1 r (human.user) = -.38 r (human.minors) = -.29 Correlation Summary • Some Issues • SVD Algorithm complexity O(n^2k^3) • n = number of terms • k = number of dimensions in semantic space (typically small ~50 to 350) • for stable document collection, only have to run once • dynamic document collections: might need to rerun SVD, but can also “fold in” new documents Summary • Some issues • Finding optimal dimension for semantic space • precision-recall improve as dimension is increased until hits optimal, then slowly decreases until it hits standard vector model • run SVD once with big dimension, say k = 1000 • then can test dimensions