1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện ngữ nghĩa tiềm ẩn bằng mô hình lsi

31 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 31
Dung lượng 1,26 MB

Nội dung

Báo cáo đồ án tốt nghiệp TRƢỜNG ĐẠI HỌC VINH KHOA CÔNG NGHỆ THÔNG TIN NGUYỄN THỊ TRANG BÁO CÁO ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Tên đồ án: PHÁT HIỆN NGỮ NGHĨA TIỀM ẨN BẰNG MƠ HÌNH LSI Nghệ An, tháng 01 năm 2016 SV: Nguyễn Thị Trang - Lớp: 52K3 - Khoa: CNTT Báo cáo đồ án tốt nghiệp TRƢỜNG ĐẠI HỌC VINH KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Tên đồ án: PHÁT HIỆN NGỮ NGHĨA TIỀM ẨN BẰNG MƠ HÌNH LSI Sinh viên thực hiện: Nguyễn Thị Trang - 1151073703 Lớp: 52K3 Giáo viên hướng dẫn: TS Trần Văn Cảnh Nghệ An, tháng 01 năm 2016 SV: Nguyễn Thị Trang - Lớp: 52K3 - Khoa: CNTT Báo cáo đồ án tốt nghiệp LỜI CẢM ƠN Hiện nay, công nghệ thông tin đƣợc ứng dụng rộng rãi nhiều lĩnh vực đời sống xã hội Tìm kiếm thơng tin nhu cầu thiết thực tất ngƣời Tuy nhiên, ngƣời sử dụng gặp khó khăn tiếp nhận kết trả Để hỗ trợ ngƣời dùng, thuật tốn tìm kiếm thực việc xếp hạng tài liệu xếp theo thứ tự ƣu tiên Có nhiều phƣơng pháp đƣa để thực việc xếp hạng tài liệu nhƣ thuật toán giảm số chiều Latent Semantic Index (LSI), Centrid, Orthogonal Centroid Đồ án tìm hiểu xây dựng chƣơng trình thử nghiệm dựa thuật toán phát ngữ nghĩa tiềm ẩn mơ hình LSI Trong q trình học tập xây dựng đồ án nhận đƣợc giúp đỡ nhiệt tình từ giảng viên khoa cơng nghệ thơng tin Nhân dịp xin gửi lời cảm ơn đến thầy cô tạo hội cho học hỏi, rèn luyện kỹ cần thiết Đặc biệt xin gửi lời cảm ơn đến giảng viên TS Trần Văn Cảnh quan tâm góp ý kiến giúp tơi hồn thành đồ án tốt nghiệp Trong q trình làm đồ án khơng tránh khỏi sai sót, tơi mong nhận đƣợc ý kiến đóng góp quý báu quý thầy cô bạn để đƣợc hồn thiện Tơi xin chân thành cảm ơn! SV: Nguyễn Thị Trang - Lớp: 52K3 - Khoa: CNTT Báo cáo đồ án tốt nghiệp MỤC LỤC LỜI CẢM ƠN MỤC LỤC CHƢƠNG GIỚI THIỆU BÀI TOÁN 1.1 Giới thiệu 1.2 Mục tiêu 1.3 Phạm vi nghiên cứu CHƢƠNG CƠ SỞ LÝ THUYẾT 2.1 Text corpus 2.2 Lập mục cho tài liệu - Index 2.3 Ma trận từ mục - Term Document 2.4 Trọng số thuật ngữ - Term weight CHƢƠNG MỘT SỐ MƠ HÌNH CỦA HỆ TRUY XUẤT THƠNG TIN 3.1 Mơ hình Boolean 3.2 Mô hình khơng gian vector (Vector Space Model) 3.3 Mơ hình Latent Semantic Index (LSI) 16 CHƢƠNG CÀI ĐẶT CHƢƠNG TRÌNH VÀ THỬ NGHIỆM 22 4.1 Cài đặt chƣơng trình 22 4.2 Kết thử nghiệm 22 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 27 i Kết luận 27 ii Đánh giá mặt làm đƣợc chƣa làm đƣợc 27 iii Hƣớng phát triển 27 TÀI LIỆU THAM KHẢO 29 SV: Nguyễn Thị Trang - Lớp: 52K3 - Khoa: CNTT Báo cáo đồ án tốt nghiệp CHƢƠNG GIỚI THIỆU BÀI TOÁN 1.1 Giới thiệu Hệ thống truy xuất thông tin (Information Retrieval) hệ thống đƣợc xây dựng để giải cho tốn tìm kiếm thông tin liên quan đến nhu cầu ngƣời dùng lĩnh vực Quy trình hệ truy xuất thông tin nhƣ sau:  Ngƣời dùng muốn tìm tài liệu liên quan đến chủ đề  Ngƣời dùng cung cấp mơ tả chủ đề dƣới dạng câu truy vấn  Từ câu truy vấn này, hệ thống lọc cụm từ mục  Những cụm từ mục đƣợc so khớp với từ mục văn đƣợc xử lý  Hệ thống trả văn có độ liên quan cao Hình 1.1 dƣới mơ tả kiến trúc hệ truy xuất thông tin: Ngƣời dùng Câu truy vấn vấn Vector truy vấn Tập văn xếp hạng Xử lý văn bản, câu truy vấn Số hoá câu truy vấn Truy tìm văn Xếp hạng Tập văn Số hoá văn Index file Tập văn trả Hình 1.1 Kiến trúc hệ truy xuất thơng tin Theo truyền thống, việc tìm kiếm thơng tin đƣợc thực thủ cơng Ví dụ thƣờng thấy việc tìm kiếm tài liệu thƣ viện hay bảng mục lục sách… Những mẫu liệt kê hay bảng mục lục thƣờng chứa số lƣợng nhỏ từ SV: Nguyễn Thị Trang - Lớp: 52K3 - Khoa: CNTT Báo cáo đồ án tốt nghiệp mục nhƣ: tiêu đề, tác giả số mục Ngày nay, hệ truy xuất thơng tin đóng vai trò quan trọng hầu hết lĩnh vực - đặc biệt với xuất hệ thống Internet mạng toàn cầu Trong 10 năm gần đây, số lƣợng thông tin dạng mẫu khác trang điện tử tăng vọt theo hàm mũ Thơng tin văn bản, ảnh số, video, thƣ viện phần mềm, bách khoa toàn thƣ trực tuyến, thông tin thƣơng mại, v.v… từ kho liệu Hệ truy xuất thông tin xuất thời điểm cách mạng điều kiện cần thiết cho việc ứng dụng khoa học máy tính vào tất lĩnh vực tồn cầu, điển hình nhƣ hệ truy tìm đƣợc ngƣời dùng quan tâm nhiều google, yahoo, v.v Thành phần mơ hình kiến trúc hệ truy tìm thơng tin (Hình 1.1) việc số hóa văn bản, thành phần có nhiệm vụ chuyển tập văn ngôn ngữ tự nhiên thành tập tin mục có cấu trúc Một mơ hình đƣợc áp dụng phổ biến mơ hình khơng gian vector 1.2 Mục tiêu Mục tiêu hệ truy xuất thơng tin truy tìm văn tập văn hệ thống liên quan đến thông tin mà ngƣời sử dụng hệ thống cần Thông tin đƣợc ngƣời dùng đƣa vào hệ thống câu truy vấn (query) Những tài liệu - văn “liên quan” (relevant) với câu truy vấn đƣợc hệ thống trả Nhƣ vậy, mục đích hệ truy tìm thơng tin để tự động hóa quy trình kiểm tra tài liệu cách tính độ đo tƣơng quan câu truy vấn tài liệu 1.3 Phạm vi nghiên cứu Đồ án tìm hiểu sở lý thuyết phƣơng pháp cài đặt hệ thống phát ngữ nghĩa tiềm ẩn tài liệu mơ hình LSI (Latent Sematic Indexing) Nội dung đồ án nhƣ sau: - - Tìm hiểu cách xây dựng ma trận mục từ tập tài liệu (corpus) Tìm hiểu mơ hình boolean, mơ hình khơng gian vector, mơ hình LSI Tìm hiểu kỹ thuật thu giảm chiều cách phân tích giá trị riêng (Singular value decomposition – SVD) từ ma trận mục Cài đặt thử nghiệm mơ hình LSI (Latent Sematic Indexing) Do hạn chế thời gian nên thuật tốn cịn số hạn chế định, nhiên đồ án đạt đƣợc yêu cầu đề Những kết đạt đƣợc làm sở lý thuyết thực nghiệm cho việc xây dựng hệ truy xuất thông tin thực tế hoạt động hiệu sau SV: Nguyễn Thị Trang - Lớp: 52K3 - Khoa: CNTT Báo cáo đồ án tốt nghiệp CHƢƠNG CƠ SỞ LÝ THUYẾT 2.1 Text corpus a Khái niệm Corpus: Corpus tập hợp văn đƣợc số hố Ví dụ corpus nhƣ “các tập thơng tin liên quan đến lĩnh vực y tế” hay “các tập thông tin liên quan đến lĩnh vực Công nghệ thơng tin”, v.v Trong lĩnh vực IR, corpus đóng vai trị quan trọng Từ corpus ta thực hiện: Chiết suất cách tự động quy tắc ngữ pháp ngơn ngữ corpus Có thể tính tốn đƣợc xác suất, tần suất xuất từ Để đảm bảo tính xác cho kết luận trên, corpus phải đảm bảo số thuộc tính quan trọng nhƣ sau: a Tính đại diện: Các thành phần corpus phải có tính phổ qt, đa dạng phong phú b Kích thước: Kích thƣớc corpus lớn đƣợc đánh giá cao Dựa vào mục đích, cách xây dựng corpus, ngƣời ta chia corpus thành loại sau: Corpus thô (raw corpus): Đơn giản tập hợp liệu mà khơng có xử lý thêm Corpus đƣợc gắn nhãn (tagged corpus): Các liệu corpus đƣợc xử lý nhƣ phân tích từ, phân tích cú pháp, gắn nhãn từ loại, … Parallel Corpus: Đƣợc sử dụng nhiều ứng dụng dịch máy Ngoài cách chia trên, ta chia corpus theo cấu tạo nó: Corpus biệt lập: Dữ liệu lấy vào cách ngẫu nhiên, biệt lập không phân biệt với Corpus theo danh mục: Dựa vào danh mục để chia liệu corpus thành nhóm Corpus trùng lặp: Các liệu corpus nhiều nhóm lúc Corpus theo thời gian: Các liệu xếp theo thời gian thu thập thời gian xuất SV: Nguyễn Thị Trang - Lớp: 52K3 - Khoa: CNTT Báo cáo đồ án tốt nghiệp b Cấu trúc corpus: Corpus chia thành hai loại chính: Corpus hẹp corpus rộng Corpus hẹp corpus thể lĩnh vực cụ thể Ví dụ: Corpus lĩnh vực công nghệ thông tin hay lĩnh vực y tế, v.v Ngƣợc lại corpus rộng tập hợp lớn văn điện tử liên quan đến nhiều lĩnh vực đời sống 2.2 Lập mục cho tài liệu - Index Lập mục cho tài liệu phƣơng pháp thực duyệt lần tệp văn lƣu lại danh sách thuật ngữ (từ, cụm từ) có tệp nhƣ thông tin kèm với thuật ngữ (term) nhƣ vị trí, tần suất, độ quan trọng, Các thông tin đƣợc tổ chức theo cấu trúc liệu riêng đƣợc gọi mục Lúc thao tác tìm kiếm đƣợc tiến hành dựa mục thay đƣợc thực trực tiếp tệp văn Có nhiều phƣơng pháp xây dựng mục, ví dụ: Mơ hình Boolean, mơ hình đếm (count) mơ hình mục ngƣợc Thông thƣờng cấu trúc mục đƣợc biểu diễn dƣới dạng ma trận số hàng biểu diễn số từ, số cột biểu diễn document Bảng 2.1 Biểu diễn liệu dƣới dạng Boolean t1 t2 t3 t4 tm d1 1 0 0 dn 0 Trong bảng 2.1 di tài liệu thứ i sƣu tập tài liệu (document collection), tj từ khóa thứ j chứa tài liệu, giá trị (di, tj) Giá trị thể từ khóa tj có chứa tài liệu di ngƣợc lại Trong bảng 2.2 biểu diễn mục ngƣợc (inverted index), từ khóa tƣơng ứng với danh sách tài liệu chứa SV: Nguyễn Thị Trang - Lớp: 52K3 - Khoa: CNTT Báo cáo đồ án tốt nghiệp Bảng 2.2 Biểu diễn tài liệu chứa từ khóa t1 d1 d3 d31 d151 d2011 t2 d2 d10 d61 tm d100 d1001 d3000 d3001 d5001 Để biểu diễn số lần xuất từ tài liệu, ta sử dụng mơ hình đếm (count) nhƣ bảng 2.3 Trong giá trị (di, tj) thể từ khóa tj xuất lần tài liệu di Bảng 2.3 Biểu diễn tài liệu chứa từ khóa t1 t2 t3 t4 tm d1 2 dn 0 2.3 Ma trận từ mục - Term Document Một tập văn có n văn đƣợc biểu diễn m từ mục đƣợc vector hóa thành ma trận A - ma trận đƣợc gọi ma trận từ mục (term document) Trong n văn tập văn đƣợc biểu diễn thành n vector cột, m từ mục đƣợc biểu diễn thành m dịng Phần tử dij ma trận A trọng số từ mục i xuất văn j Thông thƣờng, tập văn số từ mục lớn nhiều so với văn (m » n) 2.4 Trọng số thuật ngữ - Term weight TF-IDF (Term Frequency - Inverse Document Frequency) từ giá trị thu đƣợc qua thống kê thể mức độ quan trọng từ văn Đặt mối tƣơng quan với tài liệu khác tập văn đƣợc xét SV: Nguyễn Thị Trang - Lớp: 52K3 - Khoa: CNTT Báo cáo đồ án tốt nghiệp TF (Term frequency) tần số xuất từ văn Cách tính nhƣ sau: Trong đó: - tf(t,d) số lần xuất từ t văn d - max{f(w,d):w d} số lần xuất nhiều từ văn IDF (Inverse Document Frequency) tần số nghịch đảo từ tập văn Giá trị giúp giảm trọng số từ phổ biến Mỗi từ có giá trị IDF tập văn IDF đƣợc tính nhƣ sau: |D| tổng số văn tập D |{d }| số văn chứa Trong trƣờng hợp từ khơng xuất văn tập D mẫu số dẫn đến phép chia cho không hợp lệ, ngƣời ta thƣờng thay mẫu thức: 1+ |{d }| Cơ số logarit cơng thức tính IDF không thay đổi giá trị từ mà thu hẹp khoảng giá trị từ Vì thay đổi số dẫn đến việc giá trị từ thay đổi số định tỷ lệ trọng lƣợng với không thay đổi Nói cách khác, thay đổi số không ảnh hƣởng đến tỷ lệ giá trị IDF Tuy nhiên việc thay đổi khoảng giá trị giúp tỷ lệ IDF TF tƣơng đồng để dùng cho công thức TF-IDF nhƣ dƣới đây: Những từ có giá trị TF-IDF cao từ xuất nhiều văn này, xuất văn khác Việc giúp lọc từ phổ biến giữ lại từ có giá trị cao (từ khố văn đó) SV: Nguyễn Thị Trang - Lớp: 52K3 - Khoa: CNTT Báo cáo đồ án tốt nghiệp T3: bread T4: cake T5: pastr(y, ies) T6: pie Với văn từ mục ta biểu diễn ma trận mục từ A6x5 nhƣ sau: 1  1 1 A 0 0  0  0 0 0 1 1 0 1 0  1 0  0 1  0  Hình 3.3 Biểu diễn ma trận mục từ 3.2.2.4 Truy vấn văn Trong mơ hình khơng gian vector, việc truy vấn tập liệu văn để tìm văn liên quan với câu truy vấn dựa vào kỹ thuật tính tốn mơ hình khơng gian vector Một câu truy vấn đƣợc xem nhƣ tập từ mục đƣợc biểu diễn nhƣ văn tập văn bản.Vì câu truy vấn ngắn nên có nhiều từ mục tập văn không xuất câu truy vấn, có nghĩa hầu hết thành phần vector truy vấn khơng Thủ tục truy vấn tìm văn tập văn liên quan với câu truy vấn hay gọi văn có độ đo tƣơng tự “cao” với câu truy vấn Theo cách biểu diễn hình học, văn đƣợc chọn văn gần với câu truy vấn theo độ đo (measure) Độ đo thƣờng đƣợc sử dụng độ đo cosine góc vector truy vấn vector văn Nếu biểu diễn ma trận mục từ (Hình 3.3) có cột đƣợc ký hiệu dj , j = 1, …, n n độ đo cosine vector truy vấn q với n văn tập văn đƣợc tính theo cơng thức:  m T cos  j  dj q dj q  i 1  m d i 1 ij SV: Nguyễn Thị Trang - Lớp: 52K3 - Khoa: CNTT d ij qi  m q i 1 i (1) 15 Báo cáo đồ án tốt nghiệp 3.2.2.5 Hệ VSM_IR (Vector Space Model Information Retrieval System) Câu truy vấn Tập văn Tạo term_Index file Tạo doc_Index file Vector hoá Tạo Term – Document Matrix A Xử lý truy vấn Term_Index file Doc_Index file Term_Doc_Matrix file Tập văn trả Xếp hạng kết trả Hình 3.4 Kiến trúc VSM_IR Hình 3.4 kiến trúc hệ VSM_IR gồm module: - Xử lý văn tạo term_Index file, doc_Index file - Tạo ma trận mục A - Xử lý truy vấn - Xếp hạng kết trả theo thứ tự giảm dần độ đo cosine 3.3 Mơ hình Latent Semantic Index (LSI) 3.3.1 Giới thiệu Trong mơ hình khơng gian vector nhƣ số lƣợng từ mục tăng lớn kích thƣớc ma trận từ mục (Hình 3.3) tăng theo lớn Hơn độ đo Cosine vector truy vấn vector văn phải khác tồn từ mục vector SV: Nguyễn Thị Trang - Lớp: 52K3 - Khoa: CNTT 16 Báo cáo đồ án tốt nghiệp Latent Semantic Indexing (LSI ) phƣơng pháp tạo mục tự động dựa khái niệm để khắc phục hai hạn chế tồn mơ hình khơng gian vector chuẩn hai vấn đề đồng nghĩa (synoymy) đa nghĩa (polysemy) Với synoymy, nhiều từ đƣợc sử dụng để biểu diễn khái niệm, hệ thống khơng thể trả văn liên quan đến câu truy vấn ngƣời dùng họ sử dụng từ câu truy vấn đồng nghĩa với từ văn Với polysemy, từ có nhiều nghĩa, hệ thống trả văn không liên quan Điều thực tế thƣờng xảy văn tập văn đƣợc viết nhiều tác giả, với cách dùng từ khác Một cách tiếp cận tốt cho phép ngƣời dùng truy vấn văn dựa khái niệm (concept) hay nghĩa (meaning) văn Mơ hình LSI cố gắng khắc phục hai hạn chế mơ hình khơng gian vector cách mục khái niệm đƣợc tạo phƣơng pháp thống kê thay cho việc sử dụng từ mục đơn Mơ hình LSI dựa giả thiết có ngữ nghĩa tiềm ẩn (latent semantic) việc sử dụng từ: có nhiều từ biểu diễn cho khái niệm khái niệm đƣợc biểu diễn nhiều từ Mơ hình LSI sử dụng phân tích SVD (Singular Value Decomposition) ma trận từ mục (Hình 3.3) để phát quan hệ ngữ nghĩa cách dùng từ toàn văn 3.3.2 Phân tích Singular Value Decomposition (SVD) Vấn đề mơ hình LSI phân tích SVD ma trận mục từ Ý tƣởng SVD xuất phát từ lý thuyết đại số Với ma trận Am×n ta ln phân tích đƣợc ba ma trận nhƣ sau: Am×n= Um×r × ∑r×r × VTr×n Trong đó: - Um×r ma trận trực giao cấp m × r (m số từ mục) vector dòng U vector từ mục - r×r ma trận đƣờng chéo cấp r × r có giá trị suy biến (singular value)        r , với r = rank(A) - VTr×n ma trận trực giao cấp r × n (n số văn tập văn bản) - vector cột V vector văn T Ma trận xấp xỉ Ak  U k  kVk với k

Ngày đăng: 01/08/2021, 11:26

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Ngô Thị Hiền Trang, Nghiên cứu, thử nghiệm và đánh giá các phương pháp xếp hạng kết quả tìm kiếm, Luận văn cao học, Trường đại học Đà Nẵng, 2013 Sách, tạp chí
Tiêu đề: Nghiên cứu, thử nghiệm và đánh giá các phương pháp xếp hạng kết quả tìm kiếm
[2]. Đỗ Bích Hiệp, Phân loại văn bản dựa trên mô hình đồ thị, Luận văn cao học, Trường Đại học Tổng hợp New South Wales - Australia, 2004 Sách, tạp chí
Tiêu đề: Phân loại văn bản dựa trên mô hình đồ thị
[3]. Đỗ Thanh Tịnh, Một thuật toán máy vector hỗ trợ đơn giản và nhanh chóng cho việc khai thác dữ liệu, FAIR-05, 2005 Sách, tạp chí
Tiêu đề: Một thuật toán máy vector hỗ trợ đơn giản và nhanh chóng cho việc khai thác dữ liệu
[4]. Cheong Hee Park, Haesun Park, A Comparison of Generalized Linear Discriminant Analysis Algorithms, CSE Technical Reports, GT-CSE-06-14, Georgia Institute of Technology, 2006 Sách, tạp chí
Tiêu đề: A Comparison of Generalized Linear Discriminant Analysis Algorithms
[5]. Two Crows, Introduction to Data Mining and Knowledge Discovery, Third Edition, http://www.twocrows.com/booklet.htm Sách, tạp chí
Tiêu đề: Introduction to Data Mining and Knowledge Discovery
[6]. Katarina Blom, (1999), Information Retrieval Using the Singular Value Decomposition and Krylov Subspace, Department of Mathematics Chalmers University of Technology S-412 Goteborg, Sewden Sách, tạp chí
Tiêu đề: Information Retrieval Using the Singular Value Decomposition and Krylov Subspace
Tác giả: Katarina Blom
Năm: 1999

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w