Mô hình Boolean dựa trên lý thuyết tập hợp và đại số logic Câu truy vấn được phân tích thành các từ khóa truy vấn. Các tài liệu được đánhgiá bởi việc có chứa hoặc không chứa các từ khóa truy vấn. Mô hình không gian vector được phát triển bởi Gerard Salton, trong đó tài liệuvà câu truy vấn được biểu diễn dưới dạng các vector. Mỗi chiều của vector tươngứng với một mục từ (term). Term – viết tắt của terminology nghĩa là thuật ngữ,là một từ hay cụm từ biểu thị một khái niệm khoa học. Nếu term này xuất hiệntrong tài liệu thì giá trị của nó trong vector đặc trưng là khác 0. Một văn bản dđược biểu diễn như một vector của các từ chỉ mục
ĐẠI HỌC GIAO THÔNG VẬN TẢI – HCMC BỘ MÔN CÔNG NGHỆ THÔNG TIN BÁO CÁO Môn học: chuyên đề công nghệ thông tin Đề tài: Tìm hiểu Information Retrieval Nhóm sinh viên thực hiện: Mã sinh viên: Bùi Văn Hiệp (nhóm trưởng) 5451074036 Nguyễn Thị Kim Chi 5451074001 Nguyễn Tuấn Tiến 5451074016 Nguyễn Thảo Nhi 5451074058 Đinh Xuân Bằng 5451074022 Tp.HCM, Tháng 11 năm 2016 Trường đại học giao thông vận tải - HCMC Mục lục Mục lục .1 Chương Giới thiệu Information Retrieval .2 1.1 Khái niệm Information Retrieval (truy hồi thông tin): .2 1.2 Khái niệm Documents .2 1.3 Khái niệm Query 1.4 Best-Match Retrieval Chương Lịch sử hình thành phát triển IR 2.1 Trước năm 1900: 2.2 Năm 1920 năm 1930 2.3 Năm 1940 năm 1950 2.4 Giữa năm 1960 : 2.5 Những năm 1970 2.6 Những năm 1980 2.7 Những năm 1990 Chương Cấu trúc hệ thống IR 3.1 Các thành phần hệ thống IR: 3.2 Mô tả chi tiết số thành phần hệ thống IR Chương Phân loại hệ thống truy hồi thông tin 13 4.1 Phân loại hệ thống tìm kiếm thông tin 13 4.2 Hệ thống tìm kiếm dựa khái niệm (sematic search) 15 Chương Một số kỹ thuật tìm kiếm 19 5.1 Mô hình Boolean 19 5.2 Mô hình Boolean mở rộng (lập mục ngược) 21 5.3 Mô hình không gian vector 23 Information Retrieval Chương 1: Giới thiệu Information Retrieval Chương Giới thiệu Information Retrieval 1.1 Khái niệm Information Retrieval (truy hồi thông tin): - Là tìm kiếm thông tin (thường tài liệu) dạng phi cấu trúc (thông thường văn bản) thỏa mãn nhu cầu tìm kiếm thông tin từ nguồn thông tin lớn (được lưu trữ máy tính) 1.2 Khái niệm Documents Văn bản, chuỗi kí tự Document Hình ảnh Bài báo, tạp chí Âm Video Hình 1.1 Các loại document 1.3 Khái niệm Query - Là thông tin cần thiết người dùng nhập vào hệ thống Information Retrieval Chương 1: Giới thiệu Information Retrieval Dạng truy vấn logic có giá trị sai EX: She is beautiful, It is sunny and warm Query Bao gồm 2, từ chí nhiều từ khóa EX: dress, computer, telephone… Cụm từ truy vấn EX: information technology, social organization, proffessional environment… Hình 1.2 Phân loại query 1.4 Best-Match Retrieval - So sánh thuật ngữ document query - Tính độ tương quan document kho tài liệu query dựa thuật ngữ mà chúng có điểm chung - Sắp xếp documents theo thứ tự giảm dần độ tương quan với query - Kết đầu danh sách xếp documents hiển thị đến người dùng mà documents có độ liên quan cao đánh giá hệ thống Hình 1.3 Information retrieval process Information Retrieval Chương 2: Lịch sử hình thành phát triển IR Chương Lịch sử hình thành phát triển IR 2.1 Trước năm 1900: - 1801 : Joseph Marie Jacquard phát minh máy dệt Jacquard , máy sử dụng thẻ đục lỗ để kiểm soát chuỗi hoạt động - Năm 1880 : Herman Hollerith phát minh lập bảng liệu điện sử dụng thẻ đục lỗ phương tiện đọc máy - 1890 Hollerith thẻ , keypunches tabulators dùng để xử lý 1.890 US Census liệu 2.2 Năm 1920 năm 1930 - Emanuel Goldberg nộp sáng chế cho "Máy thống kê" công cụ tìm kiếm tài liệu sử dụng tế bào quang điện nhận dạng mẫu để tìm kiếm siêu liệu cuộn văn microfilmed 2.3 Năm 1940 năm 1950 - Cuối năm 40 : Quân đội Mỹ phải đối mặt vấn đề lập mục tìm kiếm tài liệu nghiên cứu khoa học chiến tranh bị bắt từ Đức - 1945 : As We May Think Vannevar Bush xuất Atlantic Monthly - 1947 : Hans Peter Luhn (kỹ sư nghiên cứu IBM kể từ năm 1941) bắt đầu làm việc hệ thống đấm thẻ dựa cho việc tìm kiếm hợp chất hóa học - Năm 1950 : Trồng quan tâm Hoa Kỳ "khoảng cách khoa học" với Liên Xô thúc đẩy, khuyến khích tài trợ cung cấp bối cảnh cho hệ thống tìm kiếm tài liệu ( Allen Kent) Và việc phát minh dẫn lập mục ( Eugene Garfield) - 1950 : Thuật ngữ "thu hồi thông tin" đặt Calvin Mooers - 1951 : Philip Bagley tiến hành thí nghiệm thu hồi tài liệu máy vi tính luận án thạc sĩ MIT - 1955 : Allen Kent gia nhập Case Western Reserve University , cuối trở thành phó giám đốc Trung tâm Tư liệu Nghiên cứu Truyền thông Cùng năm đó, Kent đồng nghiệp công bố báo tài liệu Mỹ mô tả biện pháp xác thu hồi chi tiết đề nghị "khủng" để Information Retrieval Chương 2: Lịch sử hình thành phát triển IR đánh giá hệ thống IR bao gồm phương pháp lấy mẫu thống kê để xác định số lượng tài liệu liên quan không lấy - 1958 : Hội nghị quốc tế Thông tin Khoa học Washington DC bao gồm việc xem xét hệ thống hồng ngoại giải pháp cho vấn đề xác định Xem: Kỷ yếu Hội nghị quốc tế thông tin khoa học, 1958 (National Academy of Sciences, Washington, DC, 1959) - 1959 : Hans Peter Luhn xuất "Tự động-mã hóa liệu để tìm kiếm thông tin." - Năm 1960: Melvin Earl Maron John Lary Kuhns xuất “On relevance, probabilistic indexing, and information retrieval” " Tạp chí ACM (3): 216-244, tháng năm 1960 - 1962 : - Cyril W Cleverdon công bố phát ban đầu nghiên cứu Cranfield, phát triển mô hình để đánh giá hệ thống IR Xem: Cyril W Cleverdon, "Report on the Testing and Analysis of an Investigation into the Comparative Efficiency of Indexing Systems" Cranfield Collection Hàng không, Cranfield, Anh, năm 1962 - Kent xuất Information Analysis Retrieval - 1963 : - Báo cáo Weinberg "Khoa học, Chính phủ Thông tin" đưa phát âm đầy đủ ý tưởng "cuộc khủng hoảng thông tin khoa học." Báo cáo đặt theo tên Tiến sĩ Alvin Weinberg - Joseph Becker Robert M Hayes công bố văn thông tin Becker, Joseph; Hayes, Robert Mayo: Thông tin lưu trữ truy xuất: công cụ, yếu tố, lý thuyết New York, Wiley (1963) - 1964 : - Karen Spärck Jones hoàn thành luận án Cambridge, đồng nghĩa phân loại ngữ nghĩa, tiếp tục công việc ngôn ngữ học tính toán áp dụng cho IR - Các Cục Tiêu chuẩn Quốc gia tài trợ cho hội thảo mang tên "Hiệp hội thống kê Phương pháp Tài liệu giới." Một số báo quan trọng, bao gồm tài Information Retrieval Chương 2: Lịch sử hình thành phát triển IR liệu tham khảo xuất G Salton (we believe) cho hệ thống thông minh Information Retrieval Chương 2: Lịch sử hình thành phát triển IR 2.4 Giữa năm 1960 : - Thư viện Y khoa Quốc gia phát triển: MEDLARS y tế Phân tích Văn học hệ thống Retrieval, sở liệu máy tính đọc truy hồi hệ thống lớn - Dự án Intrex MIT - 1965 : JCR Licklider xuất Libraries of the Future - 1966 : Don Swanson tham gia vào nghiên cứu Đại học Chicago yêu cầu cho Catalogs tương lai - Cuối năm 60 : F Wilfrid Lancaster hoàn thành nghiên cứu đánh giá hệ thống MEDLARS xuất ấn văn thông tin - 1968 : Gerard Salton công bố Automatic Information Organization and Retrieval John W Sammon, báo cáo RADC Tech Jr "Một số Toán học thông tin lưu trữ Retrieval " phác thảo mô hình vector - 1969 : " A nonlinear mapping for data structure analysis " Sammon (IEEE giao dịch máy tính) đề nghị cho giao diện trực quan để hệ thống IR 2.5 Những năm 1970 - Năm 1970 : Trực tuyến hệ thống-NLM AIM-TWX, MEDLINE; Dialog Lockheed; ORBIT SDC Theodor Nelson thúc đẩy khái niệm siêu văn , công bố Computer Lib/Dream Machines - 1971 : Nicholas Jardine Cornelis J van Rijsbergen xuất "The use of hierarchic clustering in information retrieval", có kết nối "giả thuyết cluster." - 1975 : Ba ấn phẩm có ảnh hưởng lớn Salton hoàn toàn khớp khuôn khổ phân biệt đối xử hạn mô hình xử lý vector mình: A Theory of Indexing (Society for Industrial and Applied Mathematics) Information Retrieval Chương 2: Lịch sử hình thành phát triển IR A Theory of Term Importance in Automatic Text Analysis A Vector Space Model for Automatic Indexing - 1978 : Hội nghị ACM SIGIR - 1979 : CJ Van Rijsbergen xuất Information Retrieval (Butterworths) Nhấn mạnh vào mô hình xác suất - 1979 : Tamas Doszkocs thực CITE giao diện người dùng ngôn ngữ tự nhiên cho MEDLINE Thư viện Y khoa Quốc gia Hệ thống CITE hỗ trợ đầu vào truy vấn hình thức miễn phí, sản lượng xếp thông tin phản hồi liên quan 2.6 Những năm 1980 - 1980 : quốc tế hội nghị ACM SIGIR, liên doanh với tập đoàn British Computer Society IR Cambridge - 1982 : Nicholas J Belkin , Robert N Oddy, Helen M Brooks đề xuất ASK (Anomalous State of Knowledge) quan điểm cho thông tin Đây khái niệm quan trọng, dù công cụ phân tích tự động họ chứng minh cuối thất vọng - 1983 : Salton (và Michael J McGill) xuất Introduction to Modern Information Retrieval (McGraw-Hill), với nhấn mạnh vào mô hình vector - 1985 : David Blair Bill Maron xuất bản: An Evaluation of Retrieval Effectiveness for a Full-Text Document-Retrieval System - Giữa năm 1980 : Nỗ lực để phát triển phiên người dùng cuối hệ thống IR thương mại 2.7 Những năm 1990 - 1992 : Hội nghị TREC diễn - 1997 : Công bố Korfhage Information Storage and Retrieval với nhấn mạnh vào hệ thống trực quan đa điểm tham khảo - Cuối năm 1990 : Công cụ tìm kiếm web thực nhiều tính trước tìm thấy hệ thống IR nghiệm Công cụ tìm kiếm trở thành instantiation phổ biến có lẽ tốt mô hình IR Information Retrieval Chương 3: Cấu trúc hệ thống IR Chương Cấu trúc hệ thống IR Hình 3.1 Cấu trúc hệ thống IR 3.1 Các thành phần hệ thống IR: - User interface: giao diện người dùng nhằm mục đích giúp cho người dùng tìm kiếm thông tin nhận kết tìm kiếm thông tin - Text operations: Là nơi tiếp nhận thông tin tìm kiếm người dùng, sau xử lý thông tin nhằm giúp cho hệ thống hiểu thông tin mà người dùng hướng tới - Query operation: thao tác truy vấn liệu nhằm tạo câu truy vấn sau truy xuất thông tin hệ thống - Searching: Sau truy vấn xử lý hệ thống bắt đầu tìm kiếm thông tin có hệ thống - Ranking: Xếp hạng tài liệu theo mức độ liên quan thông tin, tài liệu có mức độ liên quan cao nằm top - Indexing: Xây dựng mục cho tài liệu nhằm tăng tốc độ truy xuất thông tin, giúp hệ thống trả kết tốt cho người dùng - Database manager: Là nơi chứa liệu tài liệu hệ thống, người dùng truy vấn đến hệ thống truy xuất thông tin từ để trả kết hiển thị cho người dùng 3.2 Mô tả chi tiết số thành phần hệ thống IR Information Retrieval Chương 4: Phân loại hệ thống truy hồi thông tin Chương Phân loại hệ thống truy hồi thông tin 4.1 Phân loại hệ thống tìm kiếm thông tin - Phân loại theo cách xây dựng từ mục: có cách: Cách thứ nhất: dùng tập mục xây dựng từ tập từ hay cụm từ rút trích từ nội dung tài liệu, cách lập mục gọi lập mục free-text Các mô Boolean, mô hình không gian vector(Vector Space Model), mô hình xác suất lập mục theo cách Cách thứ hai: dựa vào cấu trúc phân lớp có sẵn, phân loại tài liệu theo danh mục tiêu đề đề mục có sẵn Tập mục cách làm tồn trước độc lập với tài liệu, cách lập mục gọi controlled vocabulary - Phân loại theo đơn vị thông tin: có cách: Hệ thống tìm kiếm thông tin dựa từ khóa: sử dụng từ khóa biểu diễn tài liệu câu truy vấn Đây cách làm phổ biến hệ thống tìm kiếm trước Tiêu biểu mô hình Boolean, mô hình không gian vector, mô hình xác xuất LSI Hệ thống tìm kiếm thông tin dựa khái niệm (sematic search): sử dụng khái niệm biểu diễn tài liệu câu truy vấn Information Retrieval 13 Chương 4: Phân loại hệ thống truy hồi thông tin 4.1 Hệ thống tìm kiếm thông tin dựa từ khóa: - Một hệ thống tìm kiếm web có thành phần chính: thu nhập thông tin, lập mục truy vấn 4.1.1 Bộ thu nhập thông tin – Robot - Robot chương trình tự động duyệt qua cấu trúc siêu liên kết để thu thập tài liệu nhận tất tài liệu có liên lết với tài liệu Về chất robot chương trình duyệt thu thập thông tin từ site theo giao thức web Những trình duyệt thông thường không xem robot thiếu tính chủ động, chúng duyệt web có tác động người 4.1.2 Bộ lập mục – Index - Hệ thống lập mục hay gọi hệ thống phân tích xử lý liệu, thực việc phân tích, trích chọn thông tin cần thiết (thường từ đơn, từ ghép, cụm từ quang trọng) từ liệu mà robot thu thập tổ chức thành sở liệu riêng để tìm kiếm cách nhanh chóng, hiệu Hệ thống mục danh sách từ khóa, rõ từ khóa xuất trnag nào, địa 4.1.3 Bộ truy vấn (bộ tìm kiếm) Information Retrieval 14 Chương 4: Phân loại hệ thống truy hồi thông tin - Bộ phận tìm kiếm có nhiệm vụ so khớp câu truy vấn người dùng với tập mục lập tài liệu để đánh giá độ liên quan tài liệu với câu truy vấn trả tài liệu liên quan, xếp theo độ liên quan với câu truy vấn - Đối với động tìm kiếm theo từ khóa, tìm kiếm từ tìm kiếm trang mà từ câu truy vấn (query) xuất nhiều nhất, ngoại từ stopword ( mạo từ, giới từ…) Một từ xuất nhiều trang trang chọn để trả cho người dùng Và trang chứa tất từ câu truy vấn tốt trang không chứa chứa số từ Ngày nay, hầu hết động tìm kiếm hỗ trợ chức tìm nâng cao, tìm từ đơn, từ ghép, cụm từ, danh từ riêng, hay giới hạn phạm vi tìm kiếm đề mục, tiêu đề, đoạn văn giới thiệu trang web,… 4.2 Hệ thống tìm kiếm dựa khái niệm (sematic search) - Trong mô hình tìm kiếm thông tin dựa khái niệm, nội dung đối tượng thông tin mô tả tập khái niệm Hệ thống tìm kiếm dựa khái niệm có chức năng, nguyên lý hoạt động phận cấu thành hệ thống tìm kiếm tổng quát Tuy nhiên, khác biệt lớn hệ tìm kiếm dựa khái niệm hệ tìm kiếm dựa từ khóa hai điểm sau: Hệ tìm kiếm dựa từ khóa sử dụng từ khóa để lập mục, hệ tìm kiếm dựa khái niệm sử dụng khái niệm để lập mục Để rút trích khái niệm, hệ tìm kiếm dựa khái niệm cần sử dụng đến nguồn tri thức lĩnh vực định Information Retrieval 15 Chương 4: Phân loại hệ thống truy hồi thông tin Hình: Hệ thống tìm kiếm dựa khái niệm - Kiến trúc hệ thống tìm kiếm dựa khái niệm cấu thành từ phận thu thập thông tin, lập mục khái niệm truy vấn 4.2.1 Bộ thu thập thông tin - Giống thu thập thông tin hệ thống tìm kiếm dựa từ khóa Nó có chức thu thập trang web Internet lưu trữ lại sở liệu Chức thực lặp lặp lại thường xuyên để cập nhật trang Web vào sở liệu 4.2.2 Bộ lập mục khái niệm Information Retrieval 16 Chương 4: Phân loại hệ thống truy hồi thông tin - Điều khác biệt động tìm kiếm theo khái niệm động tìm kiếm theo từ khóa nằm phận lập mục Đây phận quan trọng toàn hệ thống Với động tìm kiếm dựa từ khóa, hệ thống lập mục theo từ khóa, với động tìm kiếm dựa khái niệm, hệ thống lập mục theo khái niệm - Để có khái niệm, hệ thống cần thực công việc rút trích toàn khái niệm sở liệu để phục vụ cho trình lập mục.Như vậy, lập mục có nhiệm vụ quan trọng rút trích khái niệm từ tập sở liệu lập mục cho tài liệu dựa khái niệm - Quy trình chung rút trích khái niệm: Rút trích khái niệm nhiệm vụ khó khăn hệ thống tìm kiếm dựa khái niệm Quá trình gồm hai giai đoạn là: rút trích từ mục tài liệu so khớp cụm từ với nguồn tri thức Giai đoạn rút trích cụm từ tài liệu: Đầu tiên, tài liệu đưa vào để tách thành thành phần khác o danh từ, cụm danh từ, động từ, cụm động từ, tính từ, cụm tính từ, Tiếp theo, hệ thống bắt đầu tạo biến thể từ thành phần o o Giai đoạn so khớp cụm từ với nguồn tri thức: Sau có tập biến thể, hệ thống xem xét xem biến thể có sở tri thức chứa khái niệm đưa vào thành tập ứng viên o Sau đó, tập ứng viên đánh giá cho điểm theo tiêu chí định xếp lại theo điểm số o Cuối việc chọn lựa ứng viên để đưa vào tập khái niệm.Hệ thống tìm ứng viên phù họrp để tạo thành khái niệm, gọi tập khái niệm rút trích từ tài liệu 4.2.3 Bộ truy vấn - Cũng giống truy vấn hệ tìm kiểm dựa từ khóa Bộ truy vấn hệ thống dựa khái niệm có chức lấy nội dung câu truy vấn người Information Retrieval 17 Chương 4: Phân loại hệ thống truy hồi thông tin dùng nhập vào, sau so trùng với tập mục lập tài liệu để tìm tài liệu liên quan đển câu truy vấn - Để so trùng với tập mục lập tài liệu, trước tiên hệ thống cần phải rút trích khái niệm từ câu truy vấn Việc rút trích khái niệm từ câu truy vấn tương tự trình rút trích khái niệm tài liệu - Tùy thuộc vào cách lập mục cho tập khái niệm mà có cách so trùng câu truy vấn với tập mục tài liệu khác Nếu lập mục sử dụng mô hình truyền thống, cách truy vấn thông tin so trùng khái niệm giống hệ thống tìm kiếm dựa từ khóa truyền thống Nếu cấu trúc khái niệm biểu diễn tập khái niệm tài liệu xây dựng trình lập mục, cần xây dựng thêm cấu trúc khái niệm để biểu diễn tập khái niệm câu truy vấn Sau đó, việc tìm kiếm thực dựa việc so trùng hai cấu trúc khái niệm Information Retrieval 18 Chương 5: Một số kỹ thuật tìm kiếm Chương Một số kỹ thuật tìm kiếm 5.1 Mô hình Boolean 5.1.1 Tổng quan - Mô hình Boolean dựa lý thuyết tập hợp đại số logic - Câu truy vấn phân tích thành từ khóa truy vấn Các tài liệu đánh giá việc có chứa không chứa từ khóa truy vấn - V = { T1, T2, …, Tn } tập tất từ khóa (kho từ khóa kho từ điển) - D = { D1, D2, …, Dn } tập tất tài liệu (kho tài liệu) Trong đó: D1 = { d1, d2, …, di } tài liệu chứa di từ khóa - Q = (W1 OR W2) AND … AND (Wm OR Wn OR Wp) câu truy vấn (dữ liệu vào) Trong đó: W1 = Ti W1 = NOT Ti - Những tài liệu cần tìm tài liệu có chứa không chứa Wi 𝐒𝐢𝐣 = { 𝟎 𝐧ế𝐮 𝐖𝐢 ⊈ 𝐃𝐣 𝟏 𝐧ế𝐮 𝐖𝐢 ⊆ 𝐃𝐣 Ma trận từ khóa – tài liệu: D1 D2 Dj W1 S11 S12 S1j W2 S21 S22 S2j Wj Si1 Si2 Sij Si = { Sij | Sij = } Giả sử Q = (W1 OR W2) AND W3 S1 = { Dj | S1j = } S2 = { Dj | S2j = 1} Si = { Dj | Sij = } S = S1 ∩ S2 ∩ … ∩ Si Information Retrieval 19 Chương 5: Một số kỹ thuật tìm kiếm 5.1.2 Ví dụ - O = { O1, O2, O3 } kho tài liệu gốc Trong đó: O1 = Bayes' Principle: The principle that, in estimating a parameter, one should initially assume that each possible value has equal probability (a uniform prior distribution) O2 = Bayesian Decision Theory: A mathematical theory of decision-making which presumes utility and probability functions, and according to which the act to be chosen is the Bayes act, i.e the one with highest subjective expected utility If one had unlimited time and calculating power with which to make every decision, this procedure would be the best way to make any decision O3 = Bayesian Epistemology: A philosophical theory which holds that the epistemic status of a proposition (i.e how well proven or well established it is) is best measured by a probability and that the proper way to revise this probability is given by Bayesian conditionalisation or similar procedures A Bayesian epistemologist would use probability to define, and explore the relationship between, concepts such as epistemic status, support or explanatory power - V = { Bayes' Principle, probability, decision-making, Bayesian Epistemology } - D = { D , D2 , D3 } Trong đó: D1 = { Bayes' Principle, probability } D2 = { probability, decision-making } D3 = { probability, Bayesian Epistemology } - Q = probability AND decision-making Ma trận từ khóa – tài liệu: probability decision-making D1 D2 1 Dj S1 = { D1, D2, D3 } S2 = { D2 } S = S1 ∩ S2 = { D2 } Information Retrieval 20 Chương 5: Một số kỹ thuật tìm kiếm - Hạn chế: Không áp dụng với từ khóa dạng cụm từ (cụm từ trở lên) Mô hình Boolean mở rộng (lập mục ngược) 5.2 Mô hình Boolean mở rộng (lập mục ngược) - Các toán tử logic: Not: Lấy bù And: Lấy giao Or: Lấy hợp - Lập mục ngược: Bước 1: Bước 2: Information Retrieval 21 Chương 5: Một số kỹ thuật tìm kiếm Bước 3: Bước 4: Bước 5: Information Retrieval 22 Chương 5: Một số kỹ thuật tìm kiếm 5.3 Mô hình không gian vector 5.3.1 Giới thiệu - Mô hình không gian vector phát triển Gerard Salton, tài liệu câu truy vấn biểu diễn dạng vector Mỗi chiều vector tương ứng với mục từ (term) Term – viết tắt terminology nghĩa thuật ngữ, từ hay cụm từ biểu thị khái niệm khoa học Nếu term xuất tài liệu giá trị vector đặc trưng khác Một văn d biểu diễn vector từ mục 𝑑 = (𝑤𝑡1 , 𝑤𝑡2 , … , 𝑤𝑡𝑛 ) Tương tự, câu truy vấn biểu diễn vector 𝑞= (𝑤𝑡1 , 𝑤𝑡2 , … , 𝑤𝑡𝑛 ).Trong 𝑤𝑡1, 𝑤𝑡𝑛 trọng số (term - weight) từ t1 … tn (Cách tính 𝑤𝑡 giới thiệu phần dưới) Sau biểu diễn tập văn câu truy vấn thành vector không gian vector, sử dụng độ đo cosine để tính độ tương tự vector văn vector truy vấn Kết sau tính toán dùng để xếp hạng độ liên quan văn câu truy vấn 5.3.2 Số hóa tập văn - Cách tổ chức liệu – Ma trận mục: Trong mô hình không gian vector, tập văn có n văn biểu diễn m từ mục vector hóa thành ma trận A – ma trận gọi ma trận từ mục (term document) Trong n văn tập văn biểu diễn thành n vector cột, m từ mục biểu diễn thành m dòng Do phần tử 𝑑𝑖𝑗 ma trận A trọng số từ mục i xuất văn j - Công thức tính trọng số từ mục: Dựa vào số lần xuất thuật ngữ tài liệu (term count), tính tần số xuất thuật ngữ (term frequency) với kí hiệu 𝑡𝑓𝑡 Giá trị 𝑑𝑓𝑡 (term frequency) tương ứng với số lượng tài liệu chứa thuật ngữ t Tần số nghịch đảo tài liệu (inverse document frequency), tính công thức : 𝑖𝑑𝑓𝑡 = log 𝑁 𝑑𝑓𝑡 Trong đó, N tổng tài liệu, 𝑑𝑓𝑡 số tài liệu chứa thuật ngữ t Information Retrieval 23 Chương 5: Một số kỹ thuật tìm kiếm Dựa giá trị tf idf, giá trị trọng số (term - weight) thuật ngữ tài liệu xác định công thức : 𝑤𝑡,𝑑 = 𝑡𝑓𝑡,𝑑 ∗ 𝑖𝑑𝑓𝑡 Giá trị trọng số sử dụng ma trận từ mục, giá trị khác ma trận thể trọng số thuật ngữ tài liệu - Truy vấn mô hình không gian vector Trong mô hình không gian vector, câu truy vấn xem tập từ mục biểu diễn văn tập văn Số lượng từ mục câu truy vấn so với số lượng từ mục tập văn Nên có nhiều từ mục tập văn không xuất câu truy vấn Do nên từ mục câu truy vấn không xuất tập văn thành phần vector truy vấn gán Thủ tục truy vấn tìm văn tập văn liên quan với câu truy vấn hay cách khác văn có độ đo tương tự “cao” với câu truy vấn Theo cách biểu diễn hình học, văn chọn văn gần với câu truy vấn theo độ đo (measure) Độ đo thường sử dụng độ đo cosine góc vector truy vấn vector văn tính theo công thức: 𝑑 ⃑⃑⃑ ∑𝑓 𝑤𝑓 𝑖 𝑤𝑓𝑞 𝑑𝑖 𝑞 ⃑⃑⃑𝑖 , 𝑞 ) = 𝑆𝑖𝑚(𝑑𝑖 , 𝑞 ) = 𝑐𝑜𝑠𝑖𝑛𝑒(𝑑 = ⃑⃑⃑𝑖 ||𝑞 | ⃑⃑⃑𝑖 ||𝑞 | |𝑑 |𝑑 Trong đó: Information Retrieval 24 Chương 5: Một số kỹ thuật tìm kiếm ⃑⃑⃑ 𝑑𝑖 : vector tài liệu thứ i 𝑞 : vector câu truy vấn - Ví dụ: Với truy vấn “best car insurance” tập liệu với N = 1.000.000 tài liệu, biết đại lượng document frequency - 𝑑𝑓𝑡 (số tài liệu kho mà có chứa term t) term auto, best, car, insurance 5.000, 50.000,10.000, 1.000 Số lần xuất term tài liệu doc1, doc2, doc3 cho bảng bên dưới: Doc1 20 15 car best auto insurance Doc2 25 30 Doc3 24 46 12 Yêu cầu: Tính trọng số ifd * tf term auto, best, car, insurance tài liệu tính độ tương quan (giống nhau) tài liệu câu truy vấn q Hướng dẫn: Chuẩn hoá liệu đưa dạng X€[0,1] theo công thức: 𝑋∗ = 𝑋 − Min(𝑋) 𝑋 − min(𝑋) = 𝑟𝑎𝑛𝑔𝑒(𝑋) 𝑀𝑎𝑥(𝑋) − 𝑀𝑖𝑛(𝑋) Doc1 Doc2 0.75 0.2 Car Best Auto insurance Doc3 0.23 0.83 0.52 0.26 Tính 𝑤𝑑 𝑣à 𝑖𝑑𝑓 ,ta lập bảng sau: Doc1 Car Best Auto insurance tf 0.75 0.2 Information Retrieval 𝒘𝒅𝟏 0.975 0.46 Doc2 tf 0.23 0.83 𝒘𝒅𝟐 0.46 1.079 2.3 Doc3 tf 0.52 0.26 𝒘𝒅𝟑 1.04 1.3 0.78 idf 1.3 2.3 25 Chương 5: Một số kỹ thuật tìm kiếm Biểu diễn document doc1 ,doc2 ,doc3 dạng vector tương ứng car, best, auto, insurance : ⃑⃑⃑⃑ 𝑑1 (2 , 0.975 , 0.46 , 0) ⃑⃑⃑⃑ 𝑑2 (0.46 , 1.079 , 2.3 , 0) ⃑⃑⃑⃑ 𝑑3 (1.04 , 1.3 , , 0.78) Biểu diễn câu truy vấn dạng vector: 𝑞 ⃑⃑⃑ = (1,1,0,1) tương ứng với thuật ngữ car, best, auto, insurance Từ bảng ta tính độ liên quan tài liệu doc1, doc2, doc3 câu truy vấn là: Độ liên quan ⃑⃑⃑⃑ 𝑑1 (2 , 0.975 , 0.46 , 0).và 𝑞 ⃑⃑⃑ = (1,1,0,1) : ⃑⃑⃑⃑ ∑𝑓 𝑤𝑓𝑑1 𝑤𝑓𝑞 𝑑1 𝑞 ⃑⃑⃑⃑1 , 𝑞 ) = 𝑆𝑖𝑚(𝑑1 , 𝑞 ) = 𝑐𝑜𝑠𝑖𝑛𝑒(𝑑 = ⃑⃑⃑⃑1 ||𝑞 | ⃑⃑⃑𝑖 ||𝑞 | |𝑑 |𝑑 = |2 ∗ + 0.975 ∗ + 0.46 ∗ + ∗ 1| √22 + 0.9752 + 0.462 + 02 ∗ √12 + 12 + 02 + 12 = 0.75 ⃑⃑⃑⃑2 (0.46 , 1.079 , 2.3 , 0) 𝑞 Độ liên quan 𝑑 ⃑⃑⃑ = (1,1,0,1) : ⃑⃑⃑⃑ ∑𝑓 𝑤𝑓𝑑2 𝑤𝑓𝑞 𝑑2 𝑞 ⃑⃑⃑⃑2 , 𝑞 ) = 𝑆𝑖𝑚(𝑑2 , 𝑞 ) = 𝑐𝑜𝑠𝑖𝑛𝑒(𝑑 = ⃑⃑⃑⃑2 ||𝑞 | ⃑⃑⃑⃑2 ||𝑞 | |𝑑 |𝑑 = |0.46 ∗ + 1.079 ∗ + 2.3 ∗ + ∗ 1| √0.462 + 1.0792 + 2.32 + 02 ∗ √12 + 12 + 02 + 12 = 0.34 ⃑⃑⃑⃑3 (1.04 , 1.3 , , 0.78) 𝑞 Độ liên quan 𝑑 ⃑⃑⃑ = (1,1,0,1) : ⃑⃑⃑⃑3 𝑞 ∑𝑓 𝑤𝑓𝑑3 𝑤𝑓𝑞 𝑑 ⃑⃑⃑⃑3 , 𝑞 ) = 𝑆𝑖𝑚(𝑑3 , 𝑞 ) = 𝑐𝑜𝑠𝑖𝑛𝑒(𝑑 = ⃑⃑⃑⃑3 ||𝑞 | ⃑⃑⃑⃑3 ||𝑞 | |𝑑 |𝑑 = |1.04 ∗ + 1.3 ∗ + ∗ + 0.78 ∗ 1| √1.042 + 1.32 + 02 + 0.782 ∗ √12 + 12 + 02 + 12 = 0.98 Xếp hạng mức độ liên quan tài liệu với câu truy vấn theo thứ tự: 𝑑3 > 𝑑1 > 𝑑2 - Đánh giá mô hình không gian vector Ưu điểm: Đưa khái niệm phù hợp phần, công thức xếp hạng cosine cho phép đồng thời xác định độ phù hợp xếp danh sách kết Information Retrieval 26 Chương 5: Một số kỹ thuật tìm kiếm Nhược điểm: Số chiều biểu diễn cho tập văn lớn nên tốn nhiều thời gian lưu trữ Không xét quan hệ ngữ nghĩa với câu truy vấn Information Retrieval 27 ... không gian vector 23 Information Retrieval Chương 1: Giới thiệu Information Retrieval Chương Giới thiệu Information Retrieval 1.1 Khái niệm Information Retrieval (truy hồi thông tin):... thiệu Information Retrieval .2 1.1 Khái niệm Information Retrieval (truy hồi thông tin): .2 1.2 Khái niệm Documents .2 1.3 Khái niệm Query 1.4 Best-Match Retrieval. .. Khái niệm Query - Là thông tin cần thiết người dùng nhập vào hệ thống Information Retrieval Chương 1: Giới thiệu Information Retrieval Dạng truy vấn logic có giá trị sai EX: She is beautiful, It