Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 13 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
13
Dung lượng
177,17 KB
Nội dung
Header Page of 126 -1- -2- BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG Công trình ñược hoàn thành ĐẠI HỌC ĐÀ NẴNG NGÔ THỊ HIỀN TRANG Người hướng dẫn khoa học: TS Huỳnh Công Pháp NGHIÊN CỨU, THỬ NGHIỆM VÀ ĐÁNH GIÁ CÁC PHƯƠNG PHÁP XẾP HẠNG Phản biện 1: TS Trương Ngọc Châu KẾT QUẢ TÌM KIẾM Phản biện 2: TS Trương Công Tuấn Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Luận văn ñược bảo vệ Hội ñồng chấm Luận văn tốt nghiệp Thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày 04 tháng 03 năm 2012 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT * Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng Đà Nẵng - Năm 2012 Footer Page of 126 - Trung tâm Học liệu, Đại học Đà Nẵng Header Page of 126 -3MỞ ĐẦU -4• Về mặt thực nghiệm: ñánh giá phương pháp xếp hạng chọn lựa thực nghiệm phương pháp tốt Lý chọn ñề tài Đối tượng phạm vi nghiên cứu Hiện nay, Công nghệ Thông tin ñược ứng dụng rộng rãi • Đối tượng nghiên cứu phương pháp xếp hạng tài liệu nhiều lĩnh vực ñời sống xã hội Dữ liệu ñược thu thập lưu trữ • Phạm vi nghiên cứu thực nghiệm xếp hạng kết tìm trình ứng dụng công nghệ thông tin ngày ñược tích kiếm ñơn ngữ luỹ nhiều lên Theo thống kê ñến tháng 4/2010 số lượng máy chủ Phương pháp nghiên cứu 46 triệu máy, ñó cài ñặt 240 triệu website [12] Theo tính toán khác, ñến cuối năm 2009, ñã có 20 tỷ trang Web ñã ñược Google ñánh mục [13] Tìm kiếm thông tin nhu cầu thiết thực tất người • Phương pháp phân tích: Thu thập ñánh giá ñộ liên quan câu truy vấn liệu • Phương pháp thực nghiệm: Thực việc cài ñặt, thử nghiệm phương pháp xếp hạng tài liệu; Đánh giá kết ñạt ñược Tuy nhiên, người sử dụng gặp nhiều khó khăn tiếp nhận kết theo bảng ñánh giá ñộ liên quan ñã xây dựng trả Để hỗ trợ người dùng, máy tìm kiếm thực việc xếp Ý nghĩa khoa học thực tiễn ñề tài hạng (ranking) tài liệu ñể xếp theo thứ tự ưu tiên Có nhiều Sau thực nghiên cứu ñánh giá hiệu phương phương pháp ñưa ñể thực việc xếp hạng tài liệu chưa pháp xếp hạng kết trả làm sở cho việc lựa chọn mô hình có ñánh giá ñược thực nhằm phân tích tính hiệu xếp hạng phù hợp việc xây dựng hệ truy tìm thông tin phương pháp Với lý vậy, chọn ñề tài “Nghiên cứu, Cấu trúc luận văn thử nghiệm ñánh giá phương pháp xếp hạng kết tìm kiếm” Nội dung luận văn ñược chia thành ba chương: làm sở cho việc chọn lựa phương pháp xếp hạng phù hợp Chương – Cơ sở lý thuyết Mục ñích nghiên cứu Các khái niệm tìm kiếm thông tin Mục ñích ñề tài tìm hiểu, ñánh giá phương pháp xếp hạng tài liệu ñể chọn lựa phương pháp xếp hạng phù hợp sau ñó Các khái niệm Ma trận, giá trị riêng Chương – Các phương pháp xếp hạng kết tìm kiếm tiến hành thực nghiệm phương pháp xếp hạng ñã lựa chọn Để hoàn thành mục ñích ñề cần nghiên cứu nội dung sau: • Về mặt lý thuyết: Tìm hiểu kiến thức tìm kiếm thông tin (Information Retrieval), vai trò xếp hạng (ranking) hệ thống tìm kiếm thông tin, phương pháp xếp hạng tài liệu; tiêu chí ñánh giá kết xếp hạng Footer Page of 126 Nội dung tìm hiểu phương pháp, mô hình xếp hạng kết tìm kiếm So sánh, ñánh giá phương pháp xếp hạng Chương – Cài ñặt thử nghiệm Mô tả kiến trúc cài ñặt thử nghiệm hệ tìm kiếm thông tin theo mô hình mục ngữ nghĩa ngầm LSI Header Page of 126 -5- -6trong ñó di tài liệu thứ i sưu tập tài liệu (document CHƯƠNG CƠ SỞ LÝ THUYẾT collection), tj thuật ngữ thứ j chứa tài liệu thể thuật ngữ tj có chứa tài liệu di ngược lại Các số bảng 1.1.CÁC KHÁI NIỆM CƠ BẢN thay số lần xuất thuật ngữ tài liệu 1.1.1 Tài liệu - Document Trong ñó, mục ngược (inverted index), thuật ngữ Tài liệu giữ vai trò trung tâm sản phẩm trình tìm kiếm, chứa thông tin cần thiết Việc tìm kiếm ñược thực sưu tập tài liệu (document collection) 1.1.2 Thuật ngữ - Term Mỗi tài liệu ñược biểu diễn cách lô-gic tập hợp tương ứng với danh sách tài liệu chứa t1 d1 d3 d51 t2 d2 d10 d61 d100 d1001 d3000 d151 d2011 d3001 d5001 … thuật ngữ (term) Các hệ thống tìm kiếm có cách tiếp cận khác Một tài liệu tương ứng với tập hợp từ, hay cụm từ tm 1.1.4 Ma trận từ mục – Term - Document chứa Một tập văn có n văn ñược biểu diễn m từ mục 1.1.3 Lập mục cho tài liệu – Index Lập mục cho tài liệu phương pháp thực quét lần ñược vector hóa thành ma trận A – ma trận ñược gọi ma trận file văn lưu lại danh sách thuật ngữ (từ, cụm từ) từ mục (term document) Trong ñó n văn tập văn có file ñó thông tin ñi kèm với thuật ngữ ñược biểu diễn thành n vector cột, m từ mục ñược biểu diễn thành (term) (vị trí, tần suất, ñộ quan trọng, …) Các thông tin ñược m dòng Phần tử dij ma trận A trọng số từ mục i tổ chức theo cấu trúc liệu riêng ñược gọi mục Lúc xuất văn j Thông thường, tập văn số từ thao tác tìm kiếm ñược tiến hành dựa mục thay mục lớn nhiều so với văn m >> n ñược thực trực tiếp file văn 1.1.5 Trọng số thuật ngữ - Term – weight Chỉ mục tài liệu (index) tương ứng với tập hợp thuật count), tính tần suất xuất thuật ngữ (term frequency), với ngữ chứa Các tài liệu ñược biểu diễn dạng: t1 t2 t3 t4 tm d1 1 0 … 0 dn 0 0 Footer Page of 126 Dựa vào số lần xuất thuật ngữ tài liệu (term ký hiệu tft Giá trị dft (document frequency) tương ứng với số lượng tài liệu chứa thuật ngữ t Header Page of 126 -8- -7- Tần số nghịch ñảo tài liệu (inverse document frequency), ñược người dùng ñưa vào câu truy vấn, hệ thống tìm kiếm thông tin xử lý tính công thức: idft = log( ) Trong ñó, N tổng số tài liệu, câu truy vấn thành ngôn ngữ mục mô tả yếu tố thông tin dft số tài liệu chứa thuật ngữ t cần tìm kiếm thực ñối chiếu với mục tài liệu ñể tìm N df t Dựa giá trị tf idf, giá trị trọng số (term-weight) tài liệu liên quan Cuối cùng, tài liệu liên quan ñược trả cho thuật ngữ tài liệu ñược xác ñịnh công thức: wt,d = người dùng theo danh sách ñược xếp theo ñộ ưu tiên tft,d*idft xác giảm dần (ranked list) Giá trị trọng số ñược sử dụng ma trận từ mục, giá trị khác ma trận thể trọng số thuật ngữ tài liệu 1.1.6 Truy vấn - Query Truy vấn (query) cách biểu diễn yêu cầu thông tin từ người 1.2.2 Cách thức hoạt ñộng hệ tìm kiếm thông tin 1.2.3 Các phận cấu thành hệ tìm kiếm thông tin Một hệ thống tìm kiếm thông tin hoạt ñộng môi trường mạng (internet) hay môi trường máy tính cá nhân (PC) ñều gồm có thành phần sau: sử dụng Thông thường chứa thuật ngữ toán tử kết hợp 1.2.3.1 Bộ thu thập thông tin - Crawler thuật ngữ AND, OR, LIKE, NEAR 1.2.3.2 Bộ lập mục – Index 1.1.7 Sự phù hợp - Relevant 1.2.3.3 Bộ tìm kiếm thông tin – Search Engine Một tài liệu ñược coi phù hợp người sử dụng ñánh giá 1.2.4 Mục tiêu hệ tìm kiếm thông tin chứa thông tin có giá trị phù hợp với nhu cầu tìm kiếm thông 1.2.5 Tách từ tin Bên cạnh phụ thuộc vào tính chủ quan người sử dụng, có 1.3 ĐÁNH GIÁ CÁC HỆ THỐNG TÌM KIẾM THÔNG TIN nhiều kiểu phù hợp dựa nguồn tư liệu, cách biểu diễn yêu cầu 1.3.1 Nền tảng ñánh giá hệ tìm kiếm thông tin ngữ cảnh tìm kiếm (context of the search) 1.3.2 Khái niệm ñộ liên quan câu truy vấn tài liệu 1.2 HỆ TÌM KIẾM THÔNG TIN – Information Retrieval Độ liên quan khái niệm ña khía cạnh (multifaceted), ña 1.2.1 Tổng quan tìm kiếm thông tin hệ thống tìm kiếm chiều (multidimension) Theo nghiên cứu có nhiều loại ñộ liên quan thông tin Độ liên quan mang tính chủ quan, phụ thuộc vào tính cá nhân Tìm kiếm thông tin (Information Retrieval - IR) tìm kiếm tài nhân tố thời gian nguyên tập lớn liệu phi cấu trúc ñược lưu trữ Có hai loại ñộ liên quan: máy tính nhằm thỏa mãn nhu cầu thông tin.[2] • Độ liên quan nhị phân (binary relevance): ñộ liên quan Để tìm kiếm thông tin, trước hết, hệ thống tìm kiếm xử lý tài liệu thô thành tài liệu ñược tách từ, phân ñoạn (tokennized documents) sau ñó lập mục (index) dựa vị trí từ Khi Footer Page of 126 có giá trị: có liên quan (relevant _ 1), liên quan (not relevant _ 0) Header Page of 126 -9- - 10 - • Độ liên quan nhiều mức ñộ (ñộ liên quan ña cấp ñộ): ñộ liên quan ñược xét nhiều mức ñộ, có nhiều giá trị CHƯƠNG XẾP HẠNG TRONG CÁC MÔ HÌNH TÌM KIẾM THÔNG TIN Trong hầu hết thử nghiệm ñánh giá hệ thống tìm kiếm thông tin người ta thường quan tâm ñộ liên quan nhị phân (tài liệu có Các mô hình bao gồm: mô hình so khớp (Boolean model), mô liên quan (1) liên quan (0)) hình tính ñiểm trọng số(term-weight), mô hình không gian vec-tơ 1.3.2 Các tiêu chí ñánh giá hiệu hệ truy tìm thông tin (Vector Space Model), mô hình mục ngữ nghĩa ngầm (Latent Để ñánh giá hiệu hệ truy tìm thông tin dựa theo tiêu chuẩn sau [5]: Sematic Indexing), mô hình xác suất (Probabilistic model) Trừ mô hình Boolean, mô hình khác sử dụng công thức xếp • Dựa hai ñộ ño : hạng, cho phép người sử dụng nhập câu truy vấn nhận ñược danh Độ xác (Precision): ñược ño tỉ lệ tài liệu trả sách tài liệu ñược xếp hạng theo mức ñộ phù hợp [8] xác tổng tài liệu nhận ñược Độ bao phủ (Recall): ñược ño tỉ lệ tài liệu trả xác tổng tài liệu có liên quan • Hiệu thực thi hệ thống(Execution efficiency) ñược 2.1 MÔ HÌNH SO KHỚP CHÍNH XÁC – Boolean Model 2.1.1 Giới thiệu Đây mô hình sử dụng nguyên tắc so sánh xác tìm kiếm tài liệu Hệ thống yêu cầu người sử dụng cung cấp câu truy vấn ño thời gian thực thủ tục tìm kiếm văn liên quan ñến hình thức từ khoá kèm theo toán tử AND, OR, NOT câu truy vấn ñược cho 2.1.2 Cách tổ chức liệu • Hiệu lưu trữ ñược ño dung lượng nhớ cần thiết Một tập văn có n văn ñược biểu diễn m từ mục ñể lưu trữ liệu ñược vector hóa thành ma trận A – ma trận ñược gọi ma trận 1.4 ĐẠI SỐ TUYẾN TÍNH từ mục (term document) Trong ñó n văn tập văn 1.4.1 Định nghĩa loại ma trận ñược biểu diễn thành n cột, m từ mục ñược biểu diễn thành m 1.4.2 Các phép toán ma trận dòng Phần tử dij ma trận A hai giá trị Một ma trận 1.4.3 Tính ñịnh thức Ma trận nhị phân mục từ với giá trị biểu diễn mục từ ki có tài liệu di 1.4.4 Tính hạng Ma trận ngược lại 1.4.5 Giải HPTTT phương pháp GAUSS Antony Julius The 1.4.6 Tính trị riêng vector riêng Ma trận and Caesar Tempest 1.4.6.1 Định nghĩa Cleopatra 1.4.6.2 Cách tính trị riêng vector riêng Footer Page of 126 Antony Hamlet Othello Macbeth … 0 … Header Page of 126 - 11 - - 12 - Brutus 1 0 … Caesar 1 1 … Mercy 1 1 … Worser 1 1 … … … … … … … … … Nhược ñiểm: • Chuyển câu truy vấn sang dạng boolean không ñơn giản; • Văn trả không quan tâm ñến thứ tự quan hệ với câu truy vấn 2.2 MÔ HÌNH TÍNH ĐIỂM VÀ TRỌNG SỐ CHO MỤC TỪ TERM WEIGHT Hình 2.1 Ví dụ ma trận mục từ cho tác phẩm Shakespeare 2.1.3 Truy vấn mô hình Boolean Trong mô hình Boolean, câu truy vấn ñược thiết lập cách mục từ kết hợp với toán tử AND, OR, NOT Ví dụ: 2.2.1 Giới thiệu Mô hình so khớp xác trả giá trị logic có tài liệu tìm kiếm, kết trả thứ hạng Để cải tiến mô hình này, người ta áp dụng cách tính ñiểm cho kết trả về, dựa trọng số mục từ tài liệu Brutus AND Caesar AND NOT Calpurnia Để truy vấn mô Mỗi mục từ ma trận từ mục ñược gán trọng số, hình Boolean: dựa ma trận nhị phân mục từ câu truy vấn thực giá trị phụ thuộc vào số lần xuất mục từ tài liệu lấy vector mục từ so khớp theo toán tử bit chứa mục từ tập tài liệu Tính kết ñộ liên quan câu truy Giả sử có ma trận nhị phân mục từ hình 2.1 Để trả lời cho câu truy vấn Brutus AND Caesar AND NOT Calpurnia, thực lấy vector so khớp theo toán tử bit sau: Vector mục từ Brutus ma trận tương ñương: 110100 Tương tự Caesar tương ñương: 110111, Calpurnia: 010000 Thực so khớp toán tử bít sau: Brutus AND vấn văn sau ñó xếp kết trả 2.2.2 Cách tổ chức liệu Một ma trận mục từ ñược xây dựng với n cột tương ứng với n văn tập tài liệu, m dòng tương ứng với m mục từ Phần tử dij ma trận A thay có giá trị mô hình Boolean ñược thay trọng số mục từ (term weight) Caesar AND NOT Calpurnia Tương ñương với: 110100 AND Trọng số mục từ ñược tính công thức (2.1) 110111 AND NOT 010000 = 100100 2.2.3 Công thức tính trọng số từ mục Sau thực so khớp giá trị tương ñương với cột thứ i (văn thứ i) ma trận mục từ thoả mãn ñiều kiện Như kết trả lời Antony and Cleopatra (d1) Hamlet (d4) 2.1.4 Đánh giá mô hình Boolean Ưu ñiểm: • Đơn giản dễ sử dụng Footer Page of 126 Định nghĩa hàm tính trọng số từ mục sau: wij = lij * gi * nj (2.1) Trong ñó: lij : hàm ñếm số lần xuất từ mục VB gi trọng số toàn cục từ mục i - hàm ñếm số lần xuất từ mục toàn tập văn Header Page of 126 - 13 - - 14 - nj hệ số ñược chuẩn hoá văn j - hệ số cân chiều dài văn tập văn 2.2.3.1 Các công thức tính trọng số cục lij 2.3 MÔ HÌNH KHÔNG GIAN VECTOR – Vector Space Model 2.2.3.2 Các công thức tính trọng số toàn cục gi 2.2.4 Cách truy vấn mô hình tính ñiểm, trọng số mục từ Điểm số tài liệu d tổng ñiểm mục từ câu truy vấn q có mặt tài liệu d Truy vấn mô hình tính ñiểm ∑ wq ij Ví dụ 2.2: với 1000 tài liệu có 100 tài liệu chứa mục từ “tin” 150 tài liệu chứa mục từ “học”, giả sử tài liệu thứ d có lần xuất mục từ “tin” lần xuất mục từ “học”, ñó ñiểm số câu truy vấn q=tin học tài liệu d là: Score(q,d) = tftin,d – idftin + tfhọc,d – idfhọc N = tftin,d * log df tin N + tfhọc,d * log df h = * log(1000/100) + * log(1000/150) =6.23 2.2.5 Đánh giá mô hình tính ñiểm, trọng số mục từ Ưu ñiểm: • Trọng số từ mục không giới hạn hai trị 1, trọng số ñược sử dụng ñể tính toán ñộ ño tương tự văn với câu truy vấn Kết trả có quan tâm ñến thứ tự xuất Nhược ñiểm: • Kết tính trọng số chưa xét vai trò mục từ câu truy vấn Có thể số lượng mục từ vai trò khác hoàn toàn Mô hình không gian vector ñược phát triển Gerard Salton, ñó tài liệu câu truy vấn ñược biểu diễn dạng vector 2.2.3.3 Công thức tính hệ số chuẩn hoá nj trọng số ñược tính theo công thức: Score(q,di )= 2.3.1 Giới thiệu Một văn d ñược biểu diễn vector từ mục d = (t1 , t ,K, t n ) Tương tự, câu truy vấn ñược biểu diễn vector q = t1 , t , K , t n Sau biểu diễn tập văn câu truy vấn thành vector không gian vector, sử dụng ñộ ño cosin ñể tính ñộ ño tương tự vector văn vector truy vấn Kết sau tính toán ñược dùng ñể xếp hạng ñộ liên quan văn câu truy vấn 2.3.2 Số hoá tập văn 2.3.2.1 Cách tổ chức liệu – Ma trận từ mục Trong mô hình không gian vector, tập văn có n văn ñược biểu diễn m từ mục ñược vector hóa thành ma trận A – ma trận ñược gọi ma trận từ mục (term document) Trong ñó n văn tập văn ñược biểu diễn thành n vector cột, m từ mục ñược biểu diễn thành m dòng Do ñó phần tử dij ma trận A trọng số từ mục i xuất văn j 2.3.2.2 Công thức tính trọng số từ mục Trong ma trận từ mục, phần tử ma trận trọng số từ mục i ñối với tập văn ñược tính công thức: wij =lij * gi * nj 2.3.3 Truy vấn mô hình không gian vector Trong mô hình không gian vector, câu truy vấn ñược xem tập từ mục ñược biểu diễn văn tập văn Số lượng từ mục câu truy vấn ngắn so với số Footer Page of 126 Header Page of 126 - 16 - - 15 - lượng từ mục nên có nhiều từ mục tập văn không Cho câu truy vấn người dùng q văn d tập văn xuất câu truy vấn, có nghĩa hầu hết thành phần Mô hình xác suất tính xác suất mà văn d liên quan ñến cấu vector truy vấn Thủ tục truy vấn tìm văn truy vấn người dùng Mô hình giả thiết xác suất liên quan tập văn liên quan với câu truy vấn hay gọi văn có văn với câu truy vấn phụ thuộc cách biểu diễn chúng Tập ñộ ño tương tự “cao” với câu truy vấn Theo cách biểu diễn hình học, văn kết ñược xem liên quan có tổng xác suất liên quan văn ñược chọn văn gần với câu truy vấn theo với câu truy vấn lớn [11] ñộ ño (measure) ñó Độ ño thường ñược sử dụng ñộ 2.4.2 Mô hình tìm kiếm nhị phân ñộc lập - Binary independence ño cosin góc vector truy vấn vector văn ñược tính retrieval -BIR theo công thức: 2.4.3 Mô hình mức ñộ ñáng kể (eliteness) ∑ T cos θ j = dj q dj q = ∑ m m i =1 d i =1 ij 2.4.4 Công thức BM25 d ij qi ∑ m q i =1 i Trong ñó dij giá trị trọng số phần tử ma trận từ mục; qi giá trị trọng số phần tử thứ i vector câu truy 2.4.5 Đánh giá mô hình xác suất 2.5 MÔ HÌNH CHỈ MỤC NGỮ NGHĨA NGẦM - LSI 2.5.1 Giới thiệu Latent Semantic Indexing (LSI) phương pháp tạo mục ngữ nghĩa ngầm dựa khái niệm ñể khắc phục hai hạn chế tồn vấn mô hình không gian vector chuẩn vấn ñề ñồng nghĩa 2.3.4 Đánh giá mô hình không gian vector Ưu ñiểm: • (synoymy) ña nghĩa (polysemy) [14] Với synoymy, nhiều từ ñược sử dụng ñể biểu diễn khái niệm, hệ thống không Đưa khái niệm phù hợp phần; công thức xếp hạng thể trả văn liên quan ñến câu truy vấn người dùng cô-sin cho phép ñồng thời xác ñịnh phù hợp phục vụ xếp họ sử dụng từ câu truy vấn ñồng nghĩa với từ danh sách kết văn Với polysemy, từ có nhiều nghĩa, hệ Nhược ñiểm: • Số chiều biểu diễn cho tập văn lớn nên tốn nhiều không gian lưu trữ; • Không xét quan hệ ngữ nghĩa với câu truy vấn 2.4 MÔ HÌNH XÁC SUẤT - Probabilistic model 2.4.1 Giới thiệu thống trả văn không liên quan Điều thực tế thường xảy văn tập văn ñược viết nhiều tác giả, với cách dùng từ khác Một cách tiếp cận tốt cho phép người dùng truy vấn văn dựa khái niệm (concept) hay nghĩa (meaning) văn Mô hình LSI khắc phục hai hạn chế mô hình không gian vector cách mục khái niệm ñược tạo phương Footer Page of 126 Header Page of 126 - 17 - - 18 - pháp phân tích giá trị ñơn (Single Value Decomposition - SVD) từ mục sử dụng kiểm ñịnh thống kê ñể chọn hệ số k tốt dãy ma trận từ mục (term – document A) hệ số k ñược chọn thử nghiệm 2.5.2 Phân tích giá trị ñơn (Single Value Decomposition - SVD) 2.5.4 Truy vấn mô hình LSI Để truy vấn mô hình LSI: Tính ñộ ño cosines của ma trận từ mục Vấn ñề mô hình LSI dùng kỹ thuật phân huỷ giá góc vector truy vấn q vector văn ma trận xấp xỉ trị ñơn SVD ma trận từ mục ñể tạo ma trận ngữ nghĩa Ak (Độ ño cô-sin ñược tính theo công thức mô hình không gian Mục ñích việc phân tích SVD phát mối quan hệ ngữ vector) Hoặc văn ñược so sánh với cách nghĩa cách dùng từ toàn văn A = UΣV T giảm số chiều ma trận sau phân tích tính ñộ ño cosines vector văn “không gian văn bản” (document space) – so sánh vector cột ma trận Đầu tiên, từ tập liệu xây dựng ma trận từ mục ñược biểu diễn ñó dòng tương ứng với từ mục (term) xác ñịnh quan hệ (số lần xuất hiện, hay trọng số) thuật ngữ ñối với tài liệu Tương tự, cột biểu diễn cho 01 tài liệu Tiếp theo, LSI áp dụng kỹ thuật phân hủy giá trị ñơn (SVD) ma trận từ mục Ma trận từ mục A bị phân hủy thành sản phẩm ba ma trận khác: A = UΣV T Khi rút gọn ma trận ∑, giữ lại số k phần tử ñầu tiên rút T gọn tương ứng ma trận U V , tạo xấp xỉ gần ñúng cho ma trận từ mục A 2.5.3 Chọn hệ số k mô hình LSI VkT Một câu truy vấn q ñược xem văn giống vector cột ñược thêm vào ma trận VkT Để thêm q cột vào VkT ta phải chiếu q vào không gian văn k chiều Từ công thức: A=U Σ VT ⇒ AT= (U Σ VT)T = V Σ UT ⇔ ATU Σ −1 = V Σ UTU Σ −1 ⇒ V=ATU Σ −1 Ma trận V gồm n dòng (n>1), dòng ma trận V thể 01 vector tài liệu d: d=dTU Σ −1 Việc giảm chiều không gian k chiều, vector d ñược viết lại sau: d=dTUk Σ k −1 Trong mô hình LSI, việc chọn hệ số k ñể xây dựng ma trận xấp Một câu truy vấn q ñược xem văn giống xỉ việc quan trọng ñến hiệu thuật toán Theo vector cột ñược thêm vào ma trận VkT Để thêm q cột tài liệu nghiên cứu LSI [6] qua thực nghiệm tập vào VkT ta phải chiếu q vào không gian văn k chiều: liệu văn cụ thể, tác giả chọn k từ 50 ñến 100 cho tập q=qTUk Σ k liệu nhỏ từ 100 ñến 300 cho tập liệu lớn Một phương pháp ñề nghị chọn hệ số k gần ñây (2003) ñược ñưa Miles Efron tài liệu [26], tác giả sử dụng phương pháp phân tích giá trị riêng (Eigenvalue) ma trận từ Footer Page of 126 −1 Tính ñộ liên quan vector truy vấn q vector tài liệu di ma trận VkT công thức sau: −1 −1 sim(q,d)=sim(qTUk Σ k ,dTUk Σ k )= q.d | q |.| d | Header Page 10 of 126 - 19 - Sắp kết trả theo giảm dần ñộ liên quan 2.5.5 Cập nhật giá trị mô hình LSI Thông tin luôn ñược thêm vào hay bị xóa ñi, ñiều ñó - 20 ñồng nghĩa ña nghĩa Hiệu mô hình LSI ñược ñánh giá cao so với mô hình VSM [6], [7] 2.6.2 Đánh giá theo thử nghiệm hai mô hình VSM LSI có nghĩa ma trận mục bị biến ñộng Trong mô Như ñã trình bày chương 1, hiệu hệ IR hình LSI, có văn ñược thêm vào hay bị xóa ñi ñều ñược ñánh giá dựa tiêu chuẩn: hiệu truy tìm, hiệu ảnh hưởng ñến việc tính toán lại giá trị ma trận từ mục lưu trữ liệu mục; Thời gian thực thủ tục truy vấn ma trận xấp xỉ thông qua kỹ thuật phân tích SVD Đối với ma 2.6.2.1 Đánh giá hiệu truy tìm trận lớn, việc tính toán lại tốn nhiều chi phí thời gian Trên thực tế việc sử dụng hai ñộ ño precision recall ñể ñánh 2.5.5.1 Cập nhật văn (SVD- Updating document) giá hiệu hệ thống khó, thực tế xác 2.5.5.2 Cập nhật từ mục (SVD- Updating terms): ñịnh ñược số văn liên quan ñến câu truy vấn cụ thể tập văn 2.5.5.3 Xoá từ mục(Downdating) lớn bao nhiêu, thực ñiều tập văn nhỏ, 2.5.6 Đánh giá mô hình LSI ñược chọn lựa phân loại chi tiết Một khó khăn gặp phải Ưu ñiểm: • việc ñánh giá kết trả tập văn liên quan ñến câu LSI phương pháp tạo mục tự ñộng dựa khái truy vấn phụ thuộc nhiều vào tính chủ quan người ñánh giá niệm ñể khắc phục hạn chế tồn mô hình không gian vector nhu cầu Vì ñánh giá so sánh hiệu hệ IR cách hai vấn ñề ñồng nghĩa (synoymy) ña nghĩa (polysemy) [9]; so sánh tổng số văn liên quan ñược trả hai hệ VSM_IR • Việc giảm số chiều cải thiện ñáng kể chi phí lưu trữ thời gian thực thi Nhược ñiểm: • Việc tìm kiếm phải quét qua tất cột ma trận LSI nên tốn nhiều chi phí thời gian 2.6 ĐÁNH GIÁ CÁC MÔ HÌNH XẾP HẠNG 2.6.1 Đánh giá theo lý thuyết Do tính hiệu thấp mô hình Boolean, mô hình xác suất, nên mô hình VSM mô hình LSI ñang ñược nghiên cứu phục vụ cho việc xây dựng hệ thống IR ñại [6] Mô hình LSI ñược ñưa ñể khắc phục hạn chế mô hình VSM vấn ñề Footer Page 10 of 126 LSI_IR thử nghiệm tập câu truy vấn 2.6.2.2 Đánh giá dung lượng lưu trữ liệu mục Dung lượng nhớ RAM cho hệ IR lưu trữ liệu mục thực thi ñược ño ma trận mục Công thức tính sau: RAM = ( x ) x (sizeof( )) 2.6.2.3 Đánh giá thời gian thực thi thủ tục truy vấn 2.6.3 Xác ñịnh mô hình cài ñặt thử nghiệm Qua phân tích ñánh giá, ñề tài xác ñịnh mô hình cho việc cài ñặt thử nghiệm mô hình xếp hạng tài liệu pheo phương pháp mục ngữ nghĩa tiềm ẩn LSI Header Page 11 of 126 - 21 - - 22 - CHƯƠNG CÀI ĐẶT THỬ NGHIỆM HỆ IR THEO MÔ HÌNH LSI Tập văn Câu truy vấn 3.1 MÔ TẢ KIẾN TRÚC HỆ IR THEO MÔ HÌNH LSI Tạo Term_Index file Tạo Doc_Index file Hình 3.1 sau mô tả kiến trúc hệ tìm kếm theo mô hình LSI, gồm bước: • Xử lý văn tạo tập tin mục từ (Term_ Index.out) tập tin mục văn (Doc_ Index.out) Vector hoá Tạo Term – Document Matrix A • Tạo ma trận mục từ (Term – Document A) Tính SVD(A) • Tính SVD ma trận mục từ (Term – Document) A = UΣV T Chọn hệ số k • Chọn hệ số k • Tạo ma trận xấp xỉ Ak = U k Σ k VkT Tính ma trận xấp xỉ Ak • Xử lý truy vấn • Xếp hạng kết trả theo thứ tự giảm dần ñộ ño cosines 3.2 ĐẶT TẢ CÁC BƯỚC XÂY DỰNG HỆ LSI-IR 3.2.1 Xây dựng file từ mục 3.2.2 Xây dựng ma trận từ mục 3.2.3 Phân tích SVD ma trận từ mục A 3.2.4 Xác ñịnh hệ số k Xử lý truy vấn 3.2.5 Xây dựng ma trận xấp xỉ Ak 3.2.6 Thực truy vấn xếp hạng kết trả Tập kết trả Xếp hạng kết trả Hình 3.1 Kiến trúc hệ LSI-IR Footer Page 11 of 126 Term_Index file Doc_Index file Uk_Matrix file Sk_Matrix file Vk_Matrix file Header Page 12 of 126 - 23 - - 24 10 003 79% 004 74% 005 78% 006 93% 007 88% 008 94% 009 100% 010 94% Precision trung bình 81% Qua kết thử nghiệm tập liệu 1400 văn 3763 3.3 BỘ DỮ LIỆU THỬ NGHIỆM VÀ MÔI TRƯỜNG PHÁT TRIỂN 3.3.1 Bộ liệu thử nghiệm Bộ liệu phục vụ thử nghiệm hệ thống: tập Cranfield collection ñược lấy từ Internet [24] với kích thước • Tập văn (docummetn collection):1.400 văn bản, kích thước 1.57MB • Tập truy vấn (query): 365 câu truy vấn, kích thước 28KB từ mục với 20 câu truy vấn vào bảng ñánh giá ñộ liên • Bảng ñánh giá ñộ liên quan câu truy vấn văn quan, kết ñạt ñược ñộ ño precision trung bình 81% • 3763 từ mục tập văn bản, kích thước 1.98MB • Hệ số k cho mô hình LSI: k=185 Hệ số ñã ñược kiểm Với việc thử nghiệm tập câu truy vấn cho hai hệ IR, thời gian cho thủ tục tìm kiếm LSI_IR nhanh thử có hiệu tập CRAN [24] 30 lần so với VSM_IR Hệ VSM thời gian tìm kiếm 13.344 3.3.2 Môi trường cài ñặt hệ thống giây, hệ LSI 0.407 giây 3.4 KẾT QUẢ THỬ NGHIỆM Dung lượng nhớ RAM cho hệ IR lưu trữ liệu 3.4.2 Ma trận từ mục mục thực thi ñược ño ma trận mục • Với hệ VSM_IR, ma trận mục A (1400 x 3763) phần 3.4.3 Bộ câu hỏi thực truy vấn tử ma trận có kiểu float java chiếm byte 3.4.1 Bộ liệu 3.4.4 Bảng ñánh giá ñộ liên quan câu hỏi tập liệu thử nghiệm 3.4.5 Đánh giá kết thử nghiệm Kết thử nghiệm ñộ ño Precision tập liệu 1400 văn RAM = (1400 x 3763) x 4(byte) = 20MB • RAM =(3763 x 185 + 185 x 185 + 185 x 1400) x 4(byte) = 3.8 MB 3763 từ mục với 20 câu truy vấn Chọn hệ số k = 185 cho mô hình LSI Bảng 3.2 Độ ño Precision trung bình mô hình LSI với k=185 STT Câu truy vấn Precision LSI 001 75% 002 56% Footer Page 12 of 126 T Với LSI_IR lưu ba ma trận U3763x185, Σ185*185 , V185 *1400 Với kết trên: thấy dung lượng lưu trữ liệu mục mô hình LSI giảm 90% so với VSM Điều cho thấy thông qua kỹ thuật phân huỷ VSD chi phí lưu trữ giảm ñi nhiều Header Page 13 of 126 - 25 - - 26 - KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN phương pháp, trước thực tính Cosines vector truy vấn với vector văn ma trận Ak ta tiến hành gom Kết luận Đề tài “Nghiên cứu, thử nghiệm ñánh giá phương pháp cụm văn trước ma trận Ak Kết hợp LSI vào toán gom cụm văn xếp hạng kết tìm kiếm” ñã tập trung nghiên cứu phương pháp Đối với mô hình LSI hiệu truy tìm hệ thống xếp hạng tài liệu theo mô hình khác như: mô hình không hiệu dung lượng lưu trữ thời gian tìm kiếm phụ thuộc vào gian vector VSM, mục ngữ nghĩa LSI, công thức cách kết việc chọn hệ số k Bài toán ñang toán mở hợp công thức phục vụ cho việc tính trọng số từ chưa có lời giải tổng quát, giải thực nghiệm tập mục Từ nghiên cứu lý thuyết ñã ñưa ñược kiến trúc liệu cụ thể Hướng phát triển tương lai sử dụng công cụ hệ IR dựa mô hình LSI toán học tối ưu hoá ñể giải toán chọn hệ số k cho hệ Đánh giá hiệu thực thi hai mô hình tiêu chí hiệu truy tìm, thời gian dung lượng nhớ cần thiết lưu trữ liệu số hoá cho mô hình Từ ñó, thấy ñược hiệu mô hình ngữ nghĩa LSI cao so với mô hình không gian vector nhiều Từ kết này, hỗ trợ cho việc xây dựng hệ IR thực tế có hiệu truy tìm cao Những kết ñạt ñược làm sở lý thuyết thực nghiệm cho việc xây dựng hệ IR thực tế hoạt ñộng hiệu sau Hướng phát triển Trong mô hình LSI, việc phân tích SVD cho ma trận từ mục mô hình không gian vector làm giảm ñi số chiều ma trận A nhiều việc giải ñược quan hệ ngữ nghĩa văn liên quan ñến câu truy vấn mà ñược xem ñiểm yếu mô hình không gian vector, nên mô hình LSI ñược ñánh giá cao Tuy vậy, ñể trả văn liên quan phải ñi so sánh với tất văn ma trận xấp xỉ Ak Điều dẫn ñến việc hạn chế tốc ñộ tìm kiếm giải thuật Để khắc phục ñiều này, ñề nghị Footer Page 13 of 126 thống hoạt ñộng tối ưu mô hình LSI ... 126 Nội dung tìm hiểu phương pháp, mô hình xếp hạng kết tìm kiếm So sánh, ñánh giá phương pháp xếp hạng Chương – Cài ñặt thử nghiệm Mô tả kiến trúc cài ñặt thử nghiệm hệ tìm kiếm thông tin theo... ñích nghiên cứu Các khái niệm tìm kiếm thông tin Mục ñích ñề tài tìm hiểu, ñánh giá phương pháp xếp hạng tài liệu ñể chọn lựa phương pháp xếp hạng phù hợp sau ñó Các khái niệm Ma trận, giá trị... – Các phương pháp xếp hạng kết tìm kiếm tiến hành thực nghiệm phương pháp xếp hạng ñã lựa chọn Để hoàn thành mục ñích ñề cần nghiên cứu nội dung sau: • Về mặt lý thuyết: Tìm hiểu kiến thức tìm