1. Trang chủ
  2. » Công Nghệ Thông Tin

Latent semantic indexing

46 268 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 46
Dung lượng 5,07 MB

Nội dung

Latent semantic Indexing GVHD: PGS TS Hồ Bảo Quốc HVTH: Bùi Duy Tâm 16C11034 Lê Hồng Danh 16C Nội dung Vấn đề •LSI •Ví dụ •Tóm tắt •Tài liệu tham khảo Vấn đề • Truy vấn liệu xuất vào năm thập kỷ 1980 • Cho tập tập liệu: Lấy tài liệu liên quan đến câu truy vấn • Thực việc so khớp terms với terms câu truy vấn • Dựa vào phương pháp khơng gian vector Vấn đề • Phương pháp khơng gian vector • Ma trận term-document gồm hàng từ (term) cột tài liệu (document), giá trị cell dựa vào tầng suất xuất từ • Ma trận chuyển thành vector không gian vector Mỗi vector tài liệu (document) • Giá trị cosine để đo khoảng cách vector tài liệu • Nếu giá trị lớn tài liệu giống • Nếu giá trị nhỏ tài liệu khơng giống Vấn đề • Đo đạt chuẩn IR • Độ xác: Tỉ số • Recall: portion of the target items that the system selected Vấn đề • Hai vấn đề dùng phương pháp khơng gian vector • Từ đồng nghĩa: có nhiều cách để nói đến đối tượng, ví dụ: car and automobile Điều dẫn đễn poor recall • Từ đa nghĩa: Hầu tất từ có nhiều nghĩa, ví dụ model, python, chip Điều dẫn đến poor precision Vấn đề • Ví dụ auto engine bonnet tyres lorry boot car emissions hood make model trunk Từ đồng nghĩa: Có giá trị cosine nhỏ liên quan make hidden Markov model emissions normalize Từ đa nghĩa: Có giá trị cosine cao khơng liên quan Vấn đề • Latent Semantic Indexing đề nghị để xử lý hai vấn đề mơ hình không gian vector truy vấn thông tin LSI hay LSA • Sự khác LSI LSA • LSI sử dụng việc tạo mục lĩnh vực truy vấn thơng tin (IR) • LSA đước sử dụng lĩnh vực khác Trị riêng vector riêng • Vector riêng (Cho ma trận S kích thước) Ví dụ (bên phải) Vector riêng Trị riêng • Có trị riêng? Chỉ có giải pháp trị riêng 10 Ví dụ Technical Memo Titles c1: Human machine interface for ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system c4: System and human system engineering testing of EPS c5: Relation of user perceived response time to error measurement m1: The generation of random, binary, ordered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey Ví dụ human interface computer user system response time EPS survey trees graph minors c1 1 0 0 0 0 c2 0 1 1 1 0 c3 1 0 0 0 c4 0 0 0 0 c5 0 1 0 0 m1 0 0 0 0 0 m2 0 0 0 0 1 m3 0 0 0 0 1 m4 0 0 0 0 1 r (human.user) = -.38 r (human.minor s) = -.29 Ví dụ • Phân rã giá trị đơn: {A}={U}{S}{V}T • Giảm số chiều: {~A}~={~U}{~S} {~V}T Ví dụ {U} =0.22 0.20 0.24 0.40 0.64 0.27 0.27 0.30 0.21 0.01 0.04 0.03 -0.11 -0.07 0.04 0.06 -0.17 0.11 0.11 -0.14 0.27 0.49 0.62 0.45 0.29 0.14 -0.16 -0.34 0.36 -0.43 -0.43 0.33 -0.18 0.23 0.22 0.14 -0.41 -0.55 -0.59 0.10 0.33 0.07 0.07 0.19 -0.03 0.03 0.00 -0.01 -0.11 0.28 -0.11 0.33 -0.16 0.08 0.08 0.11 -0.54 0.59 -0.07 -0.30 -0.34 0.50 -0.25 0.38 -0.21 -0.17 -0.17 0.27 0.08 -0.39 0.11 0.28 0.52 -0.07 -0.30 0.00 -0.17 0.28 0.28 0.03 -0.47 -0.29 0.16 0.34 -0.06 -0.01 0.06 0.00 0.03 -0.02 -0.02 -0.02 -0.04 0.25 -0.68 0.68 -0.41 -0.11 0.49 0.01 0.27 -0.05 -0.05 -0.17 -0.58 -0.23 0.23 0.18 Ví dụ {∑} = 3.34 2.54 2.35 1.64 1.50 1.31 0.85 0.56 0.36 Ví dụ {V} =0.20 -0.06 0.11 -0.95 0.05 -0.08 0.18 -0.01 -0.06 0.61 0.17 -0.50 -0.03 -0.21 -0.26 -0.43 0.05 0.24 0.46 -0.13 0.21 0.04 0.38 0.72 -0.24 0.01 0.02 0.54 -0.23 0.57 0.27 -0.21 -0.37 0.26 -0.02 -0.08 0.28 0.11 -0.51 0.15 0.33 0.03 0.67 -0.06 -0.26 0.00 0.19 0.10 0.02 0.39 -0.30 -0.34 0.45 -0.62 0.01 0.44 0.19 0.02 0.35 -0.21 -0.15 -0.76 0.02 0.02 0.62 0.25 0.01 0.15 0.00 0.25 0.45 0.52 0.08 0.53 0.08 -0.03 -0.60 0.36 0.04 -0.07 -0.45 Ví dụ c1 c2 c3 c4 c5 m1 m2 m3 m4 human 0.16 0.40 0.38 0.47 0.18 -0.05 -0.12 -0.16 -0.09 interface 0.14 0.37 0.33 0.40 0.16 -0.03 -0.07 -0.10 -0.04 computer 0.15 0.51 0.36 0.41 0.24 0.02 0.06 0.09 0.12 user 0.26 0.84 0.61 0.70 0.39 0.03 0.08 0.12 0.19 system 0.45 1.23 1.05 1.27 0.56 -0.07 -0.15 -0.21 -0.05 response 0.16 0.58 0.38 0.42 0.28 0.06 0.13 0.19 0.22 time 0.16 0.58 0.38 0.42 0.28 0.06 0.13 0.19 0.22 EPS 0.22 0.55 0.51 0.63 0.24 -0.07 -0.14 -0.20 -0.11 survey 0.10 0.53 0.23 0.21 0.27 0.14 0.31 0.44 0.42 trees -0.06 0.23 -0.14 -0.27 0.14 0.24 0.55 0.77 0.66 graph -0.06 0.34 -0.15 -0.30 0.20 0.31 0.69 0.98 0.85 minors -0.04 0.25 -0.10 -0.21 0.15 0.22 0.50 0.71 0.62 r (human.user) = 94 r (human.minors) = -.83 Ví dụ human interface computer user system response time EPS survey trees graph minors c1 1 0 0 0 0 c2 0 1 1 1 0 c3 1 0 0 0 c4 0 0 0 0 c5 0 1 0 0 m1 0 0 0 0 0 m2 0 0 0 0 1 m3 0 0 0 0 1 m4 0 0 0 0 1 r (human.user) = -.38 r (human.minors) = -.29 Correlation Summary • Some Issues • SVD Algorithm complexity O(n^2k^3) • n = number of terms • k = number of dimensions in semantic space (typically small ~50 to 350) • for stable document collection, only have to run once • dynamic document collections: might need to rerun SVD, but can also “fold in” new documents Summary • Some issues • Finding optimal dimension for semantic space • precision-recall improve as dimension is increased until hits optimal, then slowly decreases until it hits standard vector model • run SVD once with big dimension, say k = 1000 • then can test dimensions

Ngày đăng: 10/12/2017, 08:24

TỪ KHÓA LIÊN QUAN