Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 13 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
13
Dung lượng
170,21 KB
Nội dung
-1- -2- BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG Cơng trình hồn thành ĐẠI HỌC ĐÀ NẴNG NGÔ THỊ HIỀN TRANG Người hướng dẫn khoa học: TS Huỳnh Công Pháp NGHIÊN CỨU, THỬ NGHIỆM VÀ ĐÁNH GIÁ CÁC PHƯƠNG PHÁP XẾP HẠNG Phản biện 1: TS Trương Ngọc Châu KẾT QUẢ TÌM KIẾM Phản biện 2: TS Trương Công Tuấn Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Luận văn bảo vệ Hội ñồng chấm Luận văn tốt nghiệp Thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày 04 tháng 03 năm 2012 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT * Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng Đà Nẵng - Năm 2012 - Trung tâm Học liệu, Đại học Đà Nẵng -3MỞ ĐẦU -4• Về mặt thực nghiệm: ñánh giá phương pháp xếp hạng chọn lựa thực nghiệm phương pháp tốt Lý chọn ñề tài Đối tượng phạm vi nghiên cứu Hiện nay, Công nghệ Thông tin ñược ứng dụng rộng rãi • Đối tượng nghiên cứu phương pháp xếp hạng tài liệu nhiều lĩnh vực ñời sống xã hội Dữ liệu ñược thu thập lưu trữ • Phạm vi nghiên cứu thực nghiệm xếp hạng kết tìm trình ứng dụng cơng nghệ thơng tin ngày tích kiếm đơn ngữ luỹ nhiều lên Theo thống kê ñến tháng 4/2010 số lượng máy chủ Phương pháp nghiên cứu 46 triệu máy, cài đặt 240 triệu website [12] Theo tính tốn khác, ñến cuối năm 2009, ñã có 20 tỷ trang Web Google đánh mục [13] Tìm kiếm thơng tin nhu cầu thiết thực tất người • Phương pháp phân tích: Thu thập đánh giá ñộ liên quan câu truy vấn liệu • Phương pháp thực nghiệm: Thực việc cài ñặt, thử nghiệm phương pháp xếp hạng tài liệu; Đánh giá kết ñạt ñược Tuy nhiên, người sử dụng gặp nhiều khó khăn tiếp nhận kết theo bảng ñánh giá ñộ liên quan ñã xây dựng trả Để hỗ trợ người dùng, máy tìm kiếm thực việc xếp Ý nghĩa khoa học thực tiễn ñề tài hạng (ranking) tài liệu để xếp theo thứ tự ưu tiên Có nhiều Sau thực nghiên cứu ñánh giá hiệu phương phương pháp ñưa ñể thực việc xếp hạng tài liệu chưa pháp xếp hạng kết trả làm sở cho việc lựa chọn mơ hình có đánh giá thực nhằm phân tích tính hiệu xếp hạng phù hợp việc xây dựng hệ truy tìm thơng tin phương pháp Với lý vậy, tơi chọn đề tài “Nghiên cứu, Cấu trúc luận văn thử nghiệm ñánh giá phương pháp xếp hạng kết tìm kiếm” Nội dung luận văn ñược chia thành ba chương: làm sở cho việc chọn lựa phương pháp xếp hạng phù hợp Chương – Cơ sở lý thuyết Mục đích nghiên cứu Các khái niệm tìm kiếm thơng tin Mục đích đề tài tìm hiểu, ñánh giá phương pháp xếp hạng tài liệu ñể chọn lựa phương pháp xếp hạng phù hợp sau Các khái niệm Ma trận, giá trị riêng Chương – Các phương pháp xếp hạng kết tìm kiếm tiến hành thực nghiệm phương pháp xếp hạng lựa chọn Để hồn thành mục đích ñề cần nghiên cứu nội dung sau: • Về mặt lý thuyết: Tìm hiểu kiến thức tìm kiếm thơng tin (Information Retrieval), vai trị xếp hạng (ranking) hệ thống tìm kiếm thơng tin, phương pháp xếp hạng tài liệu; tiêu chí đánh giá kết xếp hạng Nội dung tìm hiểu phương pháp, mơ hình xếp hạng kết tìm kiếm So sánh, ñánh giá phương pháp xếp hạng Chương – Cài đặt thử nghiệm Mơ tả kiến trúc cài đặt thử nghiệm hệ tìm kiếm thơng tin theo mơ hình mục ngữ nghĩa ngầm LSI -5- -6trong di tài liệu thứ i sưu tập tài liệu (document CHƯƠNG CƠ SỞ LÝ THUYẾT collection), tj thuật ngữ thứ j chứa tài liệu thể thuật ngữ tj có chứa tài liệu di ngược lại Các số bảng 1.1.CÁC KHÁI NIỆM CƠ BẢN thay số lần xuất thuật ngữ tài liệu 1.1.1 Tài liệu - Document Trong đó, mục ngược (inverted index), thuật ngữ Tài liệu giữ vai trò trung tâm sản phẩm q trình tìm kiếm, chứa thơng tin cần thiết Việc tìm kiếm thực sưu tập tài liệu (document collection) 1.1.2 Thuật ngữ - Term Mỗi tài liệu biểu diễn cách lơ-gic tập hợp tương ứng với danh sách tài liệu chứa t1 d1 d3 d51 t2 d2 d10 d61 d100 d1001 d3000 d151 d2011 d3001 d5001 … thuật ngữ (term) Các hệ thống tìm kiếm có cách tiếp cận khác Một tài liệu tương ứng với tập hợp từ, hay cụm từ tm 1.1.4 Ma trận từ mục – Term - Document chứa Một tập văn có n văn ñược biểu diễn m từ mục 1.1.3 Lập mục cho tài liệu – Index Lập mục cho tài liệu phương pháp thực quét lần vector hóa thành ma trận A – ma trận ñược gọi ma trận file văn lưu lại danh sách thuật ngữ (từ, cụm từ) từ mục (term document) Trong ñó n văn tập văn có file thơng tin kèm với thuật ngữ ñược biểu diễn thành n vector cột, m từ mục ñược biểu diễn thành (term) (vị trí, tần suất, độ quan trọng, …) Các thơng tin m dịng Phần tử dij ma trận A trọng số từ mục i tổ chức theo cấu trúc liệu riêng ñược gọi mục Lúc xuất văn j Thông thường, tập văn số từ thao tác tìm kiếm tiến hành dựa mục thay mục lớn nhiều so với văn m >> n ñược thực trực tiếp file văn 1.1.5 Trọng số thuật ngữ - Term – weight Chỉ mục tài liệu (index) tương ứng với tập hợp thuật Dựa vào số lần xuất thuật ngữ tài liệu (term count), tính tần suất xuất thuật ngữ (term frequency), với ngữ chứa Các tài liệu biểu diễn dạng: t1 t2 t3 t4 tm d1 1 0 … 0 dn 0 0 ký hiệu tft Giá trị dft (document frequency) tương ứng với số lượng tài liệu chứa thuật ngữ t -8- -7Tần số nghịch ñảo tài liệu (inverse document frequency), ñược người dùng ñưa vào câu truy vấn, hệ thống tìm kiếm thơng tin xử lý tính cơng thức: idft = log( ) Trong ñó, N tổng số tài liệu, câu truy vấn thành ngôn ngữ mục mô tả yếu tố thông tin dft số tài liệu chứa thuật ngữ t cần tìm kiếm thực đối chiếu với mục tài liệu để tìm N df t Dựa giá trị tf idf, giá trị trọng số (term-weight) tài liệu liên quan Cuối cùng, tài liệu liên quan ñược trả cho thuật ngữ tài liệu ñược xác định cơng thức: wt,d = người dùng theo danh sách ñược xếp theo ñộ ưu tiên tft,d*idft xác giảm dần (ranked list) Giá trị trọng số ñược sử dụng ma trận từ mục, giá trị khác ma trận thể trọng số thuật ngữ tài liệu 1.1.6 Truy vấn - Query Truy vấn (query) cách biểu diễn yêu cầu thông tin từ người 1.2.2 Cách thức hoạt động hệ tìm kiếm thơng tin 1.2.3 Các phận cấu thành hệ tìm kiếm thơng tin Một hệ thống tìm kiếm thơng tin hoạt động mơi trường mạng (internet) hay mơi trường máy tính cá nhân (PC) gồm có thành phần sau: sử dụng Thơng thường chứa thuật ngữ toán tử kết hợp 1.2.3.1 Bộ thu thập thông tin - Crawler thuật ngữ AND, OR, LIKE, NEAR 1.2.3.2 Bộ lập mục – Index 1.1.7 Sự phù hợp - Relevant 1.2.3.3 Bộ tìm kiếm thơng tin – Search Engine Một tài liệu ñược coi phù hợp người sử dụng ñánh giá 1.2.4 Mục tiêu hệ tìm kiếm thơng tin chứa thơng tin có giá trị phù hợp với nhu cầu tìm kiếm thơng 1.2.5 Tách từ tin Bên cạnh phụ thuộc vào tính chủ quan người sử dụng, có 1.3 ĐÁNH GIÁ CÁC HỆ THỐNG TÌM KIẾM THƠNG TIN nhiều kiểu phù hợp dựa nguồn tư liệu, cách biểu diễn yêu cầu 1.3.1 Nền tảng ñánh giá hệ tìm kiếm thơng tin ngữ cảnh tìm kiếm (context of the search) 1.3.2 Khái niệm ñộ liên quan câu truy vấn tài liệu 1.2 HỆ TÌM KIẾM THƠNG TIN – Information Retrieval Độ liên quan khái niệm đa khía cạnh (multifaceted), đa 1.2.1 Tổng quan tìm kiếm thơng tin hệ thống tìm kiếm chiều (multidimension) Theo nghiên cứu có nhiều loại độ liên quan thơng tin Độ liên quan mang tính chủ quan, phụ thuộc vào tính cá nhân Tìm kiếm thơng tin (Information Retrieval - IR) tìm kiếm tài nhân tố thời gian nguyên tập lớn liệu phi cấu trúc ñược lưu trữ Có hai loại độ liên quan: máy tính nhằm thỏa mãn nhu cầu thơng tin.[2] • Độ liên quan nhị phân (binary relevance): ñộ liên quan Để tìm kiếm thơng tin, trước hết, hệ thống tìm kiếm xử lý tài liệu thơ thành tài liệu ñược tách từ, phân ñoạn (tokennized documents) sau lập mục (index) dựa vị trí từ Khi có giá trị: có liên quan (relevant _ 1), khơng có liên quan (not relevant _ 0) -9- - 10 - • Độ liên quan nhiều mức ñộ (ñộ liên quan ña cấp ñộ): ñộ liên quan ñược xét nhiều mức ñộ, có nhiều giá trị CHƯƠNG XẾP HẠNG TRONG CÁC MƠ HÌNH TÌM KIẾM THƠNG TIN Trong hầu hết thử nghiệm đánh giá hệ thống tìm kiếm thơng tin người ta thường quan tâm ñộ liên quan nhị phân (tài liệu có Các mơ hình bao gồm: mơ hình so khớp (Boolean model), mô liên quan (1) liên quan (0)) hình tính điểm trọng số(term-weight), mơ hình khơng gian vec-tơ 1.3.2 Các tiêu chí đánh giá hiệu hệ truy tìm thơng tin (Vector Space Model), mơ hình mục ngữ nghĩa ngầm (Latent Để đánh giá hiệu hệ truy tìm thơng tin dựa theo tiêu chuẩn sau [5]: Sematic Indexing), mơ hình xác suất (Probabilistic model) Trừ mơ hình Boolean, mơ hình khác sử dụng cơng thức xếp • Dựa hai độ đo : hạng, cho phép người sử dụng nhập câu truy vấn nhận ñược danh Độ xác (Precision): ñược ño tỉ lệ tài liệu trả sách tài liệu ñược xếp hạng theo mức ñộ phù hợp [8] xác tổng tài liệu nhận ñược Độ bao phủ (Recall): ñược ño tỉ lệ tài liệu trả xác tổng tài liệu có liên quan • Hiệu thực thi hệ thống(Execution efficiency) 2.1 MƠ HÌNH SO KHỚP CHÍNH XÁC – Boolean Model 2.1.1 Giới thiệu Đây mơ hình sử dụng ngun tắc so sánh xác tìm kiếm tài liệu Hệ thống yêu cầu người sử dụng cung cấp câu truy vấn ño thời gian thực thủ tục tìm kiếm văn liên quan đến hình thức từ khố kèm theo tốn tử AND, OR, NOT câu truy vấn cho 2.1.2 Cách tổ chức liệu • Hiệu lưu trữ ñược ño dung lượng nhớ cần thiết Một tập văn có n văn biểu diễn m từ mục ñể lưu trữ liệu vector hóa thành ma trận A – ma trận ñược gọi ma trận 1.4 ĐẠI SỐ TUYẾN TÍNH từ mục (term document) Trong n văn tập văn 1.4.1 Định nghĩa loại ma trận ñược biểu diễn thành n cột, m từ mục ñược biểu diễn thành m 1.4.2 Các phép tốn ma trận dịng Phần tử dij ma trận A hai giá trị Một ma trận 1.4.3 Tính định thức Ma trận nhị phân mục từ với giá trị biểu diễn mục từ ki có tài liệu di 1.4.4 Tính hạng Ma trận ngược lại 1.4.5 Giải HPTTT phương pháp GAUSS Antony Julius The 1.4.6 Tính trị riêng vector riêng Ma trận and Caesar Tempest 1.4.6.1 Định nghĩa Cleopatra 1.4.6.2 Cách tính trị riêng vector riêng Antony Hamlet Othello Macbeth … 0 … - 11 - - 12 - Brutus 1 0 … Caesar 1 1 … Mercy 1 1 … Worser 1 1 … … … … … … … … … Nhược điểm: • Chuyển câu truy vấn sang dạng boolean khơng đơn giản; • Văn trả khơng quan tâm đến thứ tự quan hệ với câu truy vấn 2.2 MƠ HÌNH TÍNH ĐIỂM VÀ TRỌNG SỐ CHO MỤC TỪ TERM WEIGHT Hình 2.1 Ví dụ ma trận mục từ cho tác phẩm Shakespeare 2.1.3 Truy vấn mơ hình Boolean Trong mơ hình Boolean, câu truy vấn thiết lập cách mục từ kết hợp với toán tử AND, OR, NOT Ví dụ: 2.2.1 Giới thiệu Mơ hình so khớp xác trả giá trị logic có khơng có tài liệu tìm kiếm, kết trả khơng có thứ hạng Để cải tiến mơ hình này, người ta áp dụng cách tính ñiểm cho kết trả về, dựa trọng số mục từ tài liệu Brutus AND Caesar AND NOT Calpurnia Để truy vấn mô Mỗi mục từ ma trận từ mục ñược gán trọng số, hình Boolean: dựa ma trận nhị phân mục từ câu truy vấn thực giá trị phụ thuộc vào số lần xuất mục từ tài liệu lấy vector mục từ so khớp theo toán tử bit chứa mục từ tập tài liệu Tính kết độ liên quan câu truy Giả sử có ma trận nhị phân mục từ hình 2.1 Để trả lời cho câu truy vấn Brutus AND Caesar AND NOT Calpurnia, thực lấy vector so khớp theo toán tử bit sau: Vector mục từ Brutus ma trận tương ñương: 110100 Tương tự Caesar tương ñương: 110111, Calpurnia: 010000 Thực so khớp tốn tử bít sau: Brutus AND vấn văn sau xếp kết trả 2.2.2 Cách tổ chức liệu Một ma trận mục từ ñược xây dựng với n cột tương ứng với n văn tập tài liệu, m dòng tương ứng với m mục từ Phần tử dij ma trận A thay có giá trị mơ hình Boolean thay trọng số mục từ (term weight) Caesar AND NOT Calpurnia Tương ñương với: 110100 AND Trọng số mục từ tính công thức (2.1) 110111 AND NOT 010000 = 100100 2.2.3 Cơng thức tính trọng số từ mục Sau thực so khớp giá trị tương ñương với cột thứ i (văn thứ i) ma trận mục từ thoả mãn ñiều kiện Như kết trả lời Antony and Cleopatra (d1) Hamlet (d4) 2.1.4 Đánh giá mơ hình Boolean Ưu điểm: • Đơn giản dễ sử dụng Định nghĩa hàm tính trọng số từ mục sau: wij = lij * gi * nj (2.1) Trong đó: lij : hàm đếm số lần xuất từ mục VB gi trọng số toàn cục từ mục i - hàm ñếm số lần xuất từ mục toàn tập văn - 13 - - 14 - nj hệ số chuẩn hố văn j - hệ số cân chiều dài văn tập văn 2.2.3.1 Các cơng thức tính trọng số cục lij 2.3 MƠ HÌNH KHƠNG GIAN VECTOR – Vector Space Model 2.2.3.2 Các cơng thức tính trọng số tồn cục gi 2.2.4 Cách truy vấn mơ hình tính điểm, trọng số mục từ Điểm số tài liệu d tổng ñiểm mục từ câu truy vấn q có mặt tài liệu d Truy vấn mơ hình tính điểm ∑ wq ij Ví dụ 2.2: với 1000 tài liệu có 100 tài liệu chứa mục từ “tin” 150 tài liệu chứa mục từ “học”, giả sử tài liệu thứ d có lần xuất mục từ “tin” lần xuất mục từ “học”, điểm số câu truy vấn q=tin học tài liệu d là: Score(q,d) = tftin,d – idftin + tfhọc,d – idfhọc N = tftin,d * log df tin N + tfhọc,d * log df h = * log(1000/100) + * log(1000/150) =6.23 2.2.5 Đánh giá mơ hình tính điểm, trọng số mục từ Ưu điểm: • Trọng số từ mục không giới hạn hai trị 1, trọng số sử dụng để tính tốn độ ño tương tự văn với câu truy vấn Kết trả có quan tâm đến thứ tự xuất Nhược điểm: • Kết tính trọng số chưa xét vai trò mục từ câu truy vấn Có thể số lượng mục từ vai trị khác hồn tồn Mơ hình khơng gian vector phát triển Gerard Salton, tài liệu câu truy vấn biểu diễn dạng vector 2.2.3.3 Cơng thức tính hệ số chuẩn hố nj trọng số tính theo công thức: Score(q,di )= 2.3.1 Giới thiệu Một văn d ñược biểu diễn vector từ mục d = (t1 , t ,K, t n ) Tương tự, câu truy vấn ñược biểu diễn vector q = t1 , t , K , t n Sau biểu diễn tập văn câu truy vấn thành vector không gian vector, sử dụng độ đo cosin để tính độ đo tương tự vector văn vector truy vấn Kết sau tính tốn dùng để xếp hạng ñộ liên quan văn câu truy vấn 2.3.2 Số hoá tập văn 2.3.2.1 Cách tổ chức liệu – Ma trận từ mục Trong mơ hình khơng gian vector, tập văn có n văn biểu diễn m từ mục vector hóa thành ma trận A – ma trận ñược gọi ma trận từ mục (term document) Trong n văn tập văn ñược biểu diễn thành n vector cột, m từ mục biểu diễn thành m dịng Do phần tử dij ma trận A trọng số từ mục i xuất văn j 2.3.2.2 Cơng thức tính trọng số từ mục Trong ma trận từ mục, phần tử ma trận trọng số từ mục i tập văn tính công thức: wij =lij * gi * nj 2.3.3 Truy vấn mơ hình khơng gian vector Trong mơ hình khơng gian vector, câu truy vấn xem tập từ mục ñược biểu diễn văn tập văn Số lượng từ mục câu truy vấn ngắn so với số - 16 - - 15 lượng từ mục nên có nhiều từ mục tập văn không Cho câu truy vấn người dùng q văn d tập văn xuất câu truy vấn, có nghĩa hầu hết thành phần Mơ hình xác suất tính xác suất mà văn d liên quan ñến cấu vector truy vấn Thủ tục truy vấn tìm văn truy vấn người dùng Mơ hình giả thiết xác suất liên quan tập văn liên quan với câu truy vấn hay gọi văn có văn với câu truy vấn phụ thuộc cách biểu diễn chúng Tập ñộ ño tương tự “cao” với câu truy vấn Theo cách biểu diễn hình học, văn kết xem liên quan có tổng xác suất liên quan văn ñược chọn văn gần với câu truy vấn theo với câu truy vấn lớn [11] độ đo (measure) Độ ño thường ñược sử dụng ñộ 2.4.2 Mơ hình tìm kiếm nhị phân độc lập - Binary independence đo cosin góc vector truy vấn vector văn tính retrieval -BIR theo cơng thức: 2.4.3 Mơ hình mức độ đáng kể (eliteness) ∑ T cos θ j = dj q dj q = ∑ m m i =1 d i =1 ij 2.4.4 Công thức BM25 d ij qi ∑ m q i =1 i Trong dij giá trị trọng số phần tử ma trận từ mục; qi giá trị trọng số phần tử thứ i vector câu truy 2.4.5 Đánh giá mơ hình xác suất 2.5 MƠ HÌNH CHỈ MỤC NGỮ NGHĨA NGẦM - LSI 2.5.1 Giới thiệu Latent Semantic Indexing (LSI) phương pháp tạo mục ngữ nghĩa ngầm dựa khái niệm ñể khắc phục hai hạn chế tồn vấn mơ hình khơng gian vector chuẩn vấn đề đồng nghĩa 2.3.4 Đánh giá mơ hình khơng gian vector Ưu điểm: • (synoymy) đa nghĩa (polysemy) [14] Với synoymy, nhiều từ sử dụng để biểu diễn khái niệm, hệ thống không Đưa khái niệm phù hợp phần; công thức xếp hạng thể trả văn liên quan đến câu truy vấn người dùng cơ-sin cho phép ñồng thời xác ñịnh phù hợp phục vụ xếp họ sử dụng từ câu truy vấn ñồng nghĩa với từ danh sách kết văn Với polysemy, từ có nhiều nghĩa, hệ Nhược điểm: • Số chiều biểu diễn cho tập văn lớn nên tốn nhiều không gian lưu trữ; • Không xét quan hệ ngữ nghĩa với câu truy vấn 2.4 MƠ HÌNH XÁC SUẤT - Probabilistic model 2.4.1 Giới thiệu thống trả văn không liên quan Điều thực tế thường xảy văn tập văn ñược viết nhiều tác giả, với cách dùng từ khác Một cách tiếp cận tốt cho phép người dùng truy vấn văn dựa khái niệm (concept) hay nghĩa (meaning) văn Mơ hình LSI khắc phục hai hạn chế mơ hình khơng gian vector cách mục khái niệm ñược tạo phương - 17 - - 18 - pháp phân tích giá trị đơn (Single Value Decomposition - SVD) từ mục sử dụng kiểm ñịnh thống kê ñể chọn hệ số k tốt dãy ma trận từ mục (term – document A) hệ số k ñược chọn thử nghiệm 2.5.2 Phân tích giá trị đơn (Single Value Decomposition - SVD) 2.5.4 Truy vấn mơ hình LSI Để truy vấn mơ hình LSI: Tính độ đo cosines của ma trận từ mục Vấn ñề mơ hình LSI dùng kỹ thuật phân huỷ giá góc vector truy vấn q vector văn ma trận xấp xỉ trị ñơn SVD ma trận từ mục ñể tạo ma trận ngữ nghĩa Ak (Độ đo cơ-sin tính theo cơng thức mơ hình khơng gian Mục đích việc phân tích SVD phát mối quan hệ ngữ vector) Hoặc văn so sánh với cách nghĩa cách dùng từ toàn văn A = UΣV T giảm số chiều ma trận sau phân tích tính độ đo cosines vector văn “khơng gian văn bản” (document space) – so sánh vector cột ma trận Đầu tiên, từ tập liệu xây dựng ma trận từ mục ñược biểu diễn dịng tương ứng với từ mục (term) xác ñịnh quan hệ (số lần xuất hiện, hay trọng số) thuật ngữ ñối với tài liệu Tương tự, cột biểu diễn cho 01 tài liệu Tiếp theo, LSI áp dụng kỹ thuật phân hủy giá trị ñơn (SVD) ma trận từ mục Ma trận từ mục A bị phân hủy thành sản phẩm ba ma trận khác: A = UΣV T Khi rút gọn ma trận ∑, giữ lại số k phần tử ñầu tiên rút T gọn tương ứng ma trận U V , tạo xấp xỉ gần ñúng cho ma trận từ mục A 2.5.3 Chọn hệ số k mơ hình LSI VkT Một câu truy vấn q ñược xem văn giống vector cột ñược thêm vào ma trận VkT Để thêm q cột vào VkT ta phải chiếu q vào không gian văn k chiều Từ công thức: A=U Σ VT ⇒ AT= (U Σ VT)T = V Σ UT ⇔ ATU Σ −1 = V Σ UTU Σ −1 ⇒ V=ATU Σ −1 Ma trận V gồm n dòng (n>1), dòng ma trận V thể 01 vector tài liệu d: d=dTU Σ −1 Việc giảm chiều không gian k chiều, vector d viết lại sau: d=dTUk Σ k −1 Trong mơ hình LSI, việc chọn hệ số k ñể xây dựng ma trận xấp Một câu truy vấn q ñược xem văn giống xỉ việc quan trọng đến hiệu thuật tốn Theo vector cột ñược thêm vào ma trận VkT Để thêm q cột tài liệu nghiên cứu LSI [6] qua thực nghiệm tập vào VkT ta phải chiếu q vào không gian văn k chiều: liệu văn cụ thể, tác giả chọn k từ 50 ñến 100 cho tập q=qTUk Σ k liệu nhỏ từ 100 ñến 300 cho tập liệu lớn Một phương pháp ñề nghị chọn hệ số k gần ñây (2003) ñược ñưa Miles Efron tài liệu [26], tác giả sử dụng phương pháp phân tích giá trị riêng (Eigenvalue) ma trận từ −1 Tính độ liên quan vector truy vấn q vector tài liệu di ma trận VkT công thức sau: −1 −1 sim(q,d)=sim(qTUk Σ k ,dTUk Σ k )= q.d | q |.| d | - 19 Sắp kết trả theo giảm dần ñộ liên quan 2.5.5 Cập nhật giá trị mơ hình LSI Thơng tin ln ln thêm vào hay bị xóa đi, điều - 20 đồng nghĩa đa nghĩa Hiệu mơ hình LSI đánh giá cao so với mơ hình VSM [6], [7] 2.6.2 Đánh giá theo thử nghiệm hai mơ hình VSM LSI có nghĩa ma trận mục ln bị biến động Trong mơ Như trình bày chương 1, hiệu hệ IR hình LSI, có văn thêm vào hay bị xóa đánh giá dựa tiêu chuẩn: hiệu truy tìm, hiệu ảnh hưởng đến việc tính tốn lại giá trị ma trận từ mục lưu trữ liệu mục; Thời gian thực thủ tục truy vấn ma trận xấp xỉ thông qua kỹ thuật phân tích SVD Đối với ma 2.6.2.1 Đánh giá hiệu truy tìm trận lớn, việc tính tốn lại tốn nhiều chi phí thời gian Trên thực tế việc sử dụng hai ñộ ño precision recall ñể ñánh 2.5.5.1 Cập nhật văn (SVD- Updating document) giá hiệu hệ thống khó, thực tế khơng thể xác 2.5.5.2 Cập nhật từ mục (SVD- Updating terms): ñịnh ñược số văn liên quan ñến câu truy vấn cụ thể tập văn 2.5.5.3 Xoá từ mục(Downdating) lớn bao nhiêu, thực điều tập văn nhỏ, 2.5.6 Đánh giá mơ hình LSI chọn lựa phân loại chi tiết Một khó khăn gặp phải Ưu điểm: • việc đánh giá kết trả tập văn liên quan ñến câu LSI phương pháp tạo mục tự ñộng dựa khái truy vấn phụ thuộc nhiều vào tính chủ quan người đánh giá niệm để khắc phục hạn chế tồn mơ hình khơng gian vector nhu cầu Vì đánh giá so sánh hiệu hệ IR cách hai vấn ñề ñồng nghĩa (synoymy) ña nghĩa (polysemy) [9]; so sánh tổng số văn liên quan trả hai hệ VSM_IR • Việc giảm số chiều cải thiện đáng kể chi phí lưu trữ thời gian thực thi Nhược điểm: • Việc tìm kiếm phải quét qua tất cột ma trận LSI nên tốn nhiều chi phí thời gian 2.6 ĐÁNH GIÁ CÁC MƠ HÌNH XẾP HẠNG 2.6.1 Đánh giá theo lý thuyết Do tính hiệu thấp mơ hình Boolean, mơ hình xác suất, nên mơ hình VSM mơ hình LSI ñang ñược nghiên cứu phục vụ cho việc xây dựng hệ thống IR đại [6] Mơ hình LSI ñược ñưa ñể khắc phục hạn chế mơ hình VSM vấn đề LSI_IR thử nghiệm tập câu truy vấn 2.6.2.2 Đánh giá dung lượng lưu trữ liệu mục Dung lượng nhớ RAM cho hệ IR lưu trữ liệu mục thực thi ñược ño ma trận mục Cơng thức tính sau: RAM = ( x ) x (sizeof( )) 2.6.2.3 Đánh giá thời gian thực thi thủ tục truy vấn 2.6.3 Xác định mơ hình cài ñặt thử nghiệm Qua phân tích ñánh giá, ñề tài xác định mơ hình cho việc cài đặt thử nghiệm mơ hình xếp hạng tài liệu pheo phương pháp mục ngữ nghĩa tiềm ẩn LSI - 21 - - 22 - CHƯƠNG CÀI ĐẶT THỬ NGHIỆM HỆ IR THEO MƠ HÌNH LSI Tập văn Câu truy vấn 3.1 MÔ TẢ KIẾN TRÚC HỆ IR THEO MƠ HÌNH LSI Tạo Term_Index file Tạo Doc_Index file Hình 3.1 sau mơ tả kiến trúc hệ tìm kếm theo mơ hình LSI, gồm bước: • Xử lý văn tạo tập tin mục từ (Term_ Index.out) tập tin mục văn (Doc_ Index.out) Vector hố Tạo Term – Document Matrix A • Tạo ma trận mục từ (Term – Document A) Tính SVD(A) • Tính SVD ma trận mục từ (Term – Document) A = UΣV T Chọn hệ số k • Chọn hệ số k • Tạo ma trận xấp xỉ Ak = U k Σ k VkT Tính ma trận xấp xỉ Ak • Xử lý truy vấn • Xếp hạng kết trả theo thứ tự giảm dần ñộ ño cosines 3.2 ĐẶT TẢ CÁC BƯỚC XÂY DỰNG HỆ LSI-IR 3.2.1 Xây dựng file từ mục 3.2.2 Xây dựng ma trận từ mục 3.2.3 Phân tích SVD ma trận từ mục A 3.2.4 Xác ñịnh hệ số k Xử lý truy vấn 3.2.5 Xây dựng ma trận xấp xỉ Ak 3.2.6 Thực truy vấn xếp hạng kết trả Tập kết trả Xếp hạng kết trả Hình 3.1 Kiến trúc hệ LSI-IR Term_Index file Doc_Index file Uk_Matrix file Sk_Matrix file Vk_Matrix file - 23 - - 24 10 003 79% 004 74% 005 78% 006 93% 007 88% 008 94% 009 100% 010 94% Precision trung bình 81% Qua kết thử nghiệm tập liệu 1400 văn 3763 3.3 BỘ DỮ LIỆU THỬ NGHIỆM VÀ MÔI TRƯỜNG PHÁT TRIỂN 3.3.1 Bộ liệu thử nghiệm Bộ liệu phục vụ thử nghiệm hệ thống: tập Cranfield collection lấy từ Internet [24] với kích thước • Tập văn (docummetn collection):1.400 văn bản, kích thước 1.57MB • Tập truy vấn (query): 365 câu truy vấn, kích thước 28KB từ mục với 20 câu truy vấn vào bảng đánh giá độ liên • Bảng ñánh giá ñộ liên quan câu truy vấn văn quan, kết ñạt ñược ñộ đo precision trung bình 81% • 3763 từ mục tập văn bản, kích thước 1.98MB • Hệ số k cho mơ hình LSI: k=185 Hệ số ñã ñược kiểm Với việc thử nghiệm tập câu truy vấn cho hai hệ IR, thời gian cho thủ tục tìm kiếm LSI_IR nhanh thử có hiệu tập CRAN [24] 30 lần so với VSM_IR Hệ VSM thời gian tìm kiếm 13.344 3.3.2 Mơi trường cài đặt hệ thống giây, hệ LSI 0.407 giây 3.4 KẾT QUẢ THỬ NGHIỆM Dung lượng nhớ RAM cho hệ IR lưu trữ liệu 3.4.2 Ma trận từ mục mục thực thi ñược ño ma trận mục • Với hệ VSM_IR, ma trận mục A (1400 x 3763) phần 3.4.3 Bộ câu hỏi thực truy vấn tử ma trận có kiểu float java chiếm byte 3.4.1 Bộ liệu 3.4.4 Bảng ñánh giá ñộ liên quan câu hỏi tập liệu thử nghiệm 3.4.5 Đánh giá kết thử nghiệm Kết thử nghiệm ñộ ño Precision tập liệu 1400 văn RAM = (1400 x 3763) x 4(byte) = 20MB • RAM =(3763 x 185 + 185 x 185 + 185 x 1400) x 4(byte) = 3.8 MB 3763 từ mục với 20 câu truy vấn Chọn hệ số k = 185 cho mơ hình LSI Bảng 3.2 Độ đo Precision trung bình mơ hình LSI với k=185 STT Câu truy vấn Precision LSI 001 75% 002 56% T Với LSI_IR lưu ba ma trận U3763x185, Σ185*185 , V185 *1400 Với kết trên: thấy dung lượng lưu trữ liệu mục mơ hình LSI giảm 90% so với VSM Điều cho thấy thông qua kỹ thuật phân huỷ VSD chi phí lưu trữ giảm nhiều - 25 - - 26 - KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN phương pháp, trước thực tính Cosines vector truy vấn với vector văn ma trận Ak ta tiến hành gom Kết luận Đề tài “Nghiên cứu, thử nghiệm ñánh giá phương pháp cụm văn trước ma trận Ak Kết hợp LSI vào toán gom cụm văn xếp hạng kết tìm kiếm” ñã tập trung nghiên cứu phương pháp Đối với mơ hình LSI hiệu truy tìm hệ thống xếp hạng tài liệu theo mơ hình khác như: mơ hình khơng hiệu dung lượng lưu trữ thời gian tìm kiếm phụ thuộc vào gian vector VSM, mục ngữ nghĩa LSI, công thức cách kết việc chọn hệ số k Bài tốn tốn mở hợp công thức phục vụ cho việc tính trọng số từ chưa có lời giải tổng quát, giải thực nghiệm tập mục Từ nghiên cứu lý thuyết ñã ñưa ñược kiến trúc liệu cụ thể Hướng phát triển tương lai sử dụng công cụ hệ IR dựa mơ hình LSI tốn học tối ưu hố để giải toán chọn hệ số k cho hệ Đánh giá hiệu thực thi hai mơ hình tiêu chí hiệu truy tìm, thời gian dung lượng nhớ cần thiết lưu trữ liệu số hố cho mơ hình Từ đó, thấy hiệu mơ hình ngữ nghĩa LSI cao so với mơ hình khơng gian vector nhiều Từ kết này, hỗ trợ cho việc xây dựng hệ IR thực tế có hiệu truy tìm cao Những kết ñạt ñược làm sở lý thuyết thực nghiệm cho việc xây dựng hệ IR thực tế hoạt ñộng hiệu sau Hướng phát triển Trong mơ hình LSI, việc phân tích SVD cho ma trận từ mục mơ hình khơng gian vector làm giảm ñi số chiều ma trận A nhiều việc giải ñược quan hệ ngữ nghĩa văn liên quan ñến câu truy vấn mà xem điểm yếu mơ hình khơng gian vector, nên mơ hình LSI đánh giá cao Tuy vậy, ñể trả văn liên quan phải so sánh với tất văn ma trận xấp xỉ Ak Điều dẫn đến việc hạn chế tốc độ tìm kiếm giải thuật Để khắc phục ñiều này, ñề nghị thống hoạt động tối ưu mơ hình LSI ... chí đánh giá kết xếp hạng Nội dung tìm hiểu phương pháp, mơ hình xếp hạng kết tìm kiếm So sánh, đánh giá phương pháp xếp hạng Chương – Cài ñặt thử nghiệm Mơ tả kiến trúc cài đặt thử nghiệm hệ tìm. .. liệu ñể chọn lựa phương pháp xếp hạng phù hợp sau Các khái niệm Ma trận, giá trị riêng Chương – Các phương pháp xếp hạng kết tìm kiếm tiến hành thực nghiệm phương pháp xếp hạng lựa chọn Để hồn thành... lựa phương pháp xếp hạng phù hợp Chương – Cơ sở lý thuyết Mục đích nghiên cứu Các khái niệm tìm kiếm thơng tin Mục đích đề tài tìm hiểu, đánh giá phương pháp xếp hạng tài liệu ñể chọn lựa phương