Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 46 trang
THÔNG TIN TÀI LIỆU
Cấu trúc
Latent semantic Indexing
Nội dung
1. Vấn đề
Vấn đề
Slide 5
Slide 6
Slide 7
Slide 8
LSI hay LSA
Trị riêng và vector riêng
Phép nhân vector ma trận
Slide 12
Phép nhân ma trận
Slide 14
Ví dụ
Khai triển trị riêng/đường chéo
Khai triển đường chéo: tại sao/bằng cách nào
Khai triển đường chéo – ví dụ
Khai triển đường chéo –Ví dụ
Khai triển trị riêng đối xứng
LSI
SVD
Slide 23
Slide 24
Slide 25
Xấp xỉ cấp thấp
Slide 27
SVD giảm
Lỗi xấp xỉ
Xấp xỉ cấp thấp SVD
Slide 31
Ví dụ
Slide 33
Slide 34
Slide 35
Slide 36
Slide 37
Slide 38
Slide 39
Correlation
Summary
Slide 42
Slide 43
Slide 44
Slide 45
Slide 46
Nội dung
LatentsemanticIndexing GVHD: PGS TS Hồ Bảo Quốc HVTH: Bùi Duy Tâm 16C11034 Lê Hồng Danh 16C Nội dung Vấn đề •LSI •Ví dụ •Tóm tắt •Tài liệu tham khảo Vấn đề • Truy vấn liệu xuất vào năm thập kỷ 1980 • Cho tập tập liệu: Lấy tài liệu liên quan đến câu truy vấn • Thực việc so khớp terms với terms câu truy vấn • Dựa vào phương pháp khơng gian vector Vấn đề • Phương pháp khơng gian vector • Ma trận term-document gồm hàng từ (term) cột tài liệu (document), giá trị cell dựa vào tầng suất xuất từ • Ma trận chuyển thành vector không gian vector Mỗi vector tài liệu (document) • Giá trị cosine để đo khoảng cách vector tài liệu • Nếu giá trị lớn tài liệu giống • Nếu giá trị nhỏ tài liệu khơng giống Vấn đề • Đo đạt chuẩn IR • Độ xác: Tỉ số • Recall: portion of the target items that the system selected Vấn đề • Hai vấn đề dùng phương pháp khơng gian vector • Từ đồng nghĩa: có nhiều cách để nói đến đối tượng, ví dụ: car and automobile Điều dẫn đễn poor recall • Từ đa nghĩa: Hầu tất từ có nhiều nghĩa, ví dụ model, python, chip Điều dẫn đến poor precision Vấn đề • Ví dụ auto engine bonnet tyres lorry boot car emissions hood make model trunk Từ đồng nghĩa: Có giá trị cosine nhỏ liên quan make hidden Markov model emissions normalize Từ đa nghĩa: Có giá trị cosine cao khơng liên quan Vấn đề • LatentSemanticIndexing đề nghị để xử lý hai vấn đề mơ hình không gian vector truy vấn thông tin LSI hay LSA • Sự khác LSI LSA • LSI sử dụng việc tạo mục lĩnh vực truy vấn thơng tin (IR) • LSA đước sử dụng lĩnh vực khác Trị riêng vector riêng • Vector riêng (Cho ma trận S kích thước) Ví dụ (bên phải) Vector riêng Trị riêng • Có trị riêng? Chỉ có giải pháp trị riêng 10 Ví dụ Technical Memo Titles c1: Human machine interface for ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system c4: System and human system engineering testing of EPS c5: Relation of user perceived response time to error measurement m1: The generation of random, binary, ordered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey Ví dụ human interface computer user system response time EPS survey trees graph minors c1 1 0 0 0 0 c2 0 1 1 1 0 c3 1 0 0 0 c4 0 0 0 0 c5 0 1 0 0 m1 0 0 0 0 0 m2 0 0 0 0 1 m3 0 0 0 0 1 m4 0 0 0 0 1 r (human.user) = -.38 r (human.minor s) = -.29 Ví dụ • Phân rã giá trị đơn: {A}={U}{S}{V}T • Giảm số chiều: {~A}~={~U}{~S} {~V}T Ví dụ {U} =0.22 0.20 0.24 0.40 0.64 0.27 0.27 0.30 0.21 0.01 0.04 0.03 -0.11 -0.07 0.04 0.06 -0.17 0.11 0.11 -0.14 0.27 0.49 0.62 0.45 0.29 0.14 -0.16 -0.34 0.36 -0.43 -0.43 0.33 -0.18 0.23 0.22 0.14 -0.41 -0.55 -0.59 0.10 0.33 0.07 0.07 0.19 -0.03 0.03 0.00 -0.01 -0.11 0.28 -0.11 0.33 -0.16 0.08 0.08 0.11 -0.54 0.59 -0.07 -0.30 -0.34 0.50 -0.25 0.38 -0.21 -0.17 -0.17 0.27 0.08 -0.39 0.11 0.28 0.52 -0.07 -0.30 0.00 -0.17 0.28 0.28 0.03 -0.47 -0.29 0.16 0.34 -0.06 -0.01 0.06 0.00 0.03 -0.02 -0.02 -0.02 -0.04 0.25 -0.68 0.68 -0.41 -0.11 0.49 0.01 0.27 -0.05 -0.05 -0.17 -0.58 -0.23 0.23 0.18 Ví dụ {∑} = 3.34 2.54 2.35 1.64 1.50 1.31 0.85 0.56 0.36 Ví dụ {V} =0.20 -0.06 0.11 -0.95 0.05 -0.08 0.18 -0.01 -0.06 0.61 0.17 -0.50 -0.03 -0.21 -0.26 -0.43 0.05 0.24 0.46 -0.13 0.21 0.04 0.38 0.72 -0.24 0.01 0.02 0.54 -0.23 0.57 0.27 -0.21 -0.37 0.26 -0.02 -0.08 0.28 0.11 -0.51 0.15 0.33 0.03 0.67 -0.06 -0.26 0.00 0.19 0.10 0.02 0.39 -0.30 -0.34 0.45 -0.62 0.01 0.44 0.19 0.02 0.35 -0.21 -0.15 -0.76 0.02 0.02 0.62 0.25 0.01 0.15 0.00 0.25 0.45 0.52 0.08 0.53 0.08 -0.03 -0.60 0.36 0.04 -0.07 -0.45 Ví dụ c1 c2 c3 c4 c5 m1 m2 m3 m4 human 0.16 0.40 0.38 0.47 0.18 -0.05 -0.12 -0.16 -0.09 interface 0.14 0.37 0.33 0.40 0.16 -0.03 -0.07 -0.10 -0.04 computer 0.15 0.51 0.36 0.41 0.24 0.02 0.06 0.09 0.12 user 0.26 0.84 0.61 0.70 0.39 0.03 0.08 0.12 0.19 system 0.45 1.23 1.05 1.27 0.56 -0.07 -0.15 -0.21 -0.05 response 0.16 0.58 0.38 0.42 0.28 0.06 0.13 0.19 0.22 time 0.16 0.58 0.38 0.42 0.28 0.06 0.13 0.19 0.22 EPS 0.22 0.55 0.51 0.63 0.24 -0.07 -0.14 -0.20 -0.11 survey 0.10 0.53 0.23 0.21 0.27 0.14 0.31 0.44 0.42 trees -0.06 0.23 -0.14 -0.27 0.14 0.24 0.55 0.77 0.66 graph -0.06 0.34 -0.15 -0.30 0.20 0.31 0.69 0.98 0.85 minors -0.04 0.25 -0.10 -0.21 0.15 0.22 0.50 0.71 0.62 r (human.user) = 94 r (human.minors) = -.83 Ví dụ human interface computer user system response time EPS survey trees graph minors c1 1 0 0 0 0 c2 0 1 1 1 0 c3 1 0 0 0 c4 0 0 0 0 c5 0 1 0 0 m1 0 0 0 0 0 m2 0 0 0 0 1 m3 0 0 0 0 1 m4 0 0 0 0 1 r (human.user) = -.38 r (human.minors) = -.29 Correlation Summary • Some Issues • SVD Algorithm complexity O(n^2k^3) • n = number of terms • k = number of dimensions in semantic space (typically small ~50 to 350) • for stable document collection, only have to run once • dynamic document collections: might need to rerun SVD, but can also “fold in” new documents Summary • Some issues • Finding optimal dimension for semantic space • precision-recall improve as dimension is increased until hits optimal, then slowly decreases until it hits standard vector model • run SVD once with big dimension, say k = 1000 • then can test dimensions