Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 62 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
62
Dung lượng
1,75 MB
Nội dung
KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO NGHIÊN CỨU KHOA HỌC KỸ THUẬT TÁCH TỪ TRONG CÂU TIẾNG VIỆT VÀ ỨNG DỤNG TÌM KIẾM THƠNG TIN TRÊN WEBSITE Giảng viên hướng dẫn : ThS Đặng Văn Thành Nhân Sinh viên thực hiện: Trần Văn Đan Trường – 91011801418 Võ Phước Sang – 81011801421 TP Hồ Chí Minh, 2020 MỤC LỤC MỤC LỤC TÓM TẮT ĐỀ TÀI DANH MỤC CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ TÁCH TỪ TIẾNG VIỆT 1.1 Giới thiệu tìm kiếm thông tin 1.1.1 Quy trình xây dựng hệ thống tìm kiếm thơng tin 1.1.2 Các phận cấu thành hệ thống tìm kiếm thơng tin .11 1.1.3 Các bước xây dựng hệ thống tìm kiếm thơng tin .11 1.2 Một số mô hình xây dựng hệ thống tìm kiếm thơng tin 12 1.2.1 Mơ hình tìm kiếm Boolean 13 1.2.2 Mơ hình tính điểm trọng số cho mục từ - Term weight 13 1.2.3 Mơ hình khơng gian vector – Vector Space Model (VSM) 14 1.2.4 Mơ hình xác suất – Probabilistic model 15 1.2.5 Mơ hình mục ngữ nghĩa ngầm – LSI .15 1.3 Một số hệ thống tìm kiếm thơng tin 16 1.3.1 Google Search 16 1.3.2 Bing Yahoo .17 1.3.3 Cốc Cốc 17 1.3.4 Một số hệ thống tìm kiếm thơng tin khác 17 1.4 Khó khăn xây dựng hệ thống tài liệu thông tin tiếng Việt .18 1.4.1 Khó khăn việc tách từ tiếng Việt 18 1.4.2 Khó khăn bảng mã tiếng Việt 18 1.4.3 Một số khó khăn khác 18 CHƯƠNG QUY TRÌNH XÂY DỰNG HỆ THỐNG TÌM KIẾM THÔNG TIN TÁCH TỪ TIẾNG VIỆT 19 2.1 Giới thiệu Crawler .19 2.2 Cơ hoạt động Crawler 20 2.2.1 Tập tin Robot.txt 21 2.2.2 Robots Meta Tag 23 2.3 Các kỹ thuật xây dựng Crawler 23 2.3.1 Cấu trúc liệu URL Frontier 25 2.3.2 Bộ lọc địa .26 2.3.3 Chiến lược thu thập phân tích trang Web (Fetching & parsing) 26 2.3.4 Trích xuất URL chuẩn hóa 27 2.3.5 Mô hình thẻ HTML dạng 28 2.3.6 Crawler đa tiến trình 29 2.4 Một số giải thuật Crawler .31 2.4.1 Thuật tốn tìm kiếm theo chiều rộng (Breadth-First) 32 2.4.2 Thuật tốn tìm kiếm tối ưu (Best-First) .33 CHƯƠNG CÁC KỸ THUẬT LƯU TRỮ 35 3.1 Một số kỹ thuật tách từ tiếng Việt 35 3.1.1 fnTBL (Fast Transformation-based learning) 35 3.1.2 Longest Matching 36 3.1.3 Mơ hình tách từ WFST mạng Neural .37 3.1.4 Phương pháp dựa thống kê từ Internet thuật toán di truyền 37 3.2 Phương pháp lập mục 38 3.2.1 Xác định từ mục 38 3.2.2 Xây dựng ma trận từ mục (Term – Document) A 38 3.2.2.1 Các cơng thức tính trọng số cục từ mục lij 39 3.2.2.2 Các cơng thức tính trọng số tồn cục từ mục gi 40 3.2.2.3 Cơng thức tính hệ số chuẩn hố nj 41 3.2.3 Phân tích giá trị đơn (Singular Value Decomposition - SVD) 41 3.2.4 Xây dựng ma trận xấp xỉ Ak 44 3.2.5 Chọn hệ số k mơ hình LSI 45 3.3 Tập tin nghịch đảo tài liệu 46 3.3.1 Phân biệt tập tin nghịch đảo tập tin trực tiếp 46 3.3.2 Sử dụng tập tin nghịch đảo để lập mục 47 3.4 Truy vấn xếp hạng thông tin 47 CHƯƠNG ÁP DỤNG VÀO TÌM KIẾM THƠNG TIN TRÊN WEB 51 4.1 Giới thiệu toán 51 4.2 Chức chương trình 52 4.3 Lập mục 52 4.3.1 Lớp lập mục 52 4.3.2 Giao diện lập mục 53 4.4 Tách từ 54 4.4.1 Lớp tách từ 54 4.4.2 Các hàm .54 4.4.3 Giao diện tách từ 56 4.5 Tìm kiếm .56 4.5.1 Các hàm chính: 56 4.5.2 Giao diện tìm kiếm 57 4.6 Kết thực nghiệm .57 KẾT LUẬN VÀ KIẾN NGHỊ 59 Kết luận .59 Khuyến nghị 60 TÀI LIỆU THAM KHẢO 61 TÓM TẮT ĐỀ TÀI Đề tài nghiên cứu: Kỹ thuật tách từ câu tiếng Việt Ứng dụng tìm kiếm thơng tin website Tóm tắt: Tìm hiểu kỹ thuật tách từ tiếng Việt lập mục cho văn Lựa chọn phương pháp tối ưu để tìm kiếm thơng tin Áp dụng với tốn tách từ tìm kiếm thơng tin tiếng Việt website DANH MỤC CÁC CHỮ VIẾT TẮT IR HTML LSI sim SVD Tdf Tf URL VSM WWW XML Information Retrieval HyperText Markup Language Latent Semantic Indexing Similar Singular Value Decomposition Term document frequency Term frequency Uniform Resource Locator Vector Space Model Word Wide Web eXtensible Markup Language DANH MỤC CÁC BẢNG Bảng 3.1: Bảng tính hàm trọng số cục lij 39 Bảng 3.2: Bảng hàm trọng số toàn cục gi 41 Bảng 3.3: Cách tập tin nghịch đảo lưu trữ .46 Bảng 3.4: Cách tập tin trực tiếp lưu trữ 46 Bảng 3.5: Thêm tài liệu vào tập tin nghịch đảo 47 DANH MỤC CÁC HÌNH VẼ Hình 1.1: Mơ hình hoạt động hệ thống tìm kiếm thơng tin 10 Hình 1.2: Các phận máy tìm kiếm .11 Hình 2.1: Hành trình Crawler 20 Hình 2.2: Quy trình hoạt động Crawler 24 Hình 2.3: Mơ hình tương ứng với mã nguồn URL 28 Hình 2.4: Mơ hình đa tiến trình Crawler .30 Hình 2.5: Mơ hình Crawler dị tìm theo chiều rộng 32 Hình 2.6: Mơ hình hoạt động thuật tốn Breadth-First 32 Hình 2.7: Mơ hình Crawler dị tìm theo (Best-First) .33 Hình 2.8: Thuật tốn tìm kiếm tối ưu (Best-First) .34 Hình 3.1: Biểu diễn ma trận xấp xỉ Ak có hạng k 44 Hình 4.1: Sơ đồ hệ thống tìm kiếm có sử dụng tách từ tiếng Việt 51 Hình 4.2: Màn hình tạo mục 53 Hình 4.3: Màn hình lấy liệu index 54 Hình 4.4: Màn hình chi tiết tách từ 56 Hình 4.5: Màn hình tìm kiếm 57 MỞ ĐẦU Ngày nay, lịch sử nhân loại bước sang trang nhờ bùng nổ công nghệ thông tin Những thành tựu ngành công nghệ thông tin vô to lớn, chi phối làm thay đổi mặt đời sống xã hội, làm cho sống người văn minh, đại Sự đời Internet bước tiến vĩ loại, yếu tố quan trọng bậc chi phối sống ngày Nhờ có Internet giới trở nên ‘phẳng’ hơn, nơi trái đất học tập tìm kiếm thơng tin Theo guồng quay sống, giới Internet ngày rộng lớn phong phú Cứ phút trôi qua có thêm hàng triệu trang web sinh để làm giàu cho vốn tài nguyên tri thức nhân loại Tuy nhiên, khó khăn người gặp phải việc khai thác thông tin khả tìm xác thơng tin họ cần web Để trợ gúp công việc này, hệ thống tìm kiếm web phát triển nhằm phục vụ cho nhu cầu tìm kiếm thơng tin người sử dụng Phổ biến hệ thống tìm kiếm theo từ khóa Hiện có nhiều hệ thống hoạt động hiệu Internet Google, Cốc Cốc, Baidu, Yandex, Bing, Yahoo…Tuy nhiên, phần lớn cơng cụ tìm kiếm sản phẩm thương mại mã nguồn giữ bí mật Việc tìm kiếm thơng tin tiếng Việt web chưa xác cao Do đó, nhu cầu phải có cơng cụ tìm kiếm “hiểu” xử lý tốt văn tiếng Việt web chủ đề nhiều người quan tâm Mục tiêu đề tài nhằm xây dựng hệ thống tìm kiếm thơng tin tiếng Việt web có sử dụng kết xử lý ngôn ngữ tự nhiên tự động để xác định mục xếp hạng tìm kiếm từ tiếng Việt CHƯƠNG TỔNG QUAN VỀ TÁCH TỪ TIẾNG VIỆT Nội dung chương nhằm giới thiệu tổng quan tìm kiếm thơng tin Giới thiệu quy trình xây dựng hệ thống tìm kiếm thơng tin Một số mơ hình tìm kiếm thông tin Web phổ biến Đồng thời tóm lược số khó khăn xây dựng hệ thống tìm kiếm thơng tin tiếng Việt 1.1 Giới thiệu tìm kiếm thơng tin Tìm kiếm thơng tin Information Retrieval (IR) tìm kiếm tài nguyên tập lớn liệu phi cấu trúc lưu trữ máy tính nhằm thỏa mãn nhu cầu thơng tin Tìm kiếm thơng tin ngành khoa học liên quan đến việc phân tích, thiết kế triển khai hệ thống máy tính nhằm biểu diễn, tổ chức truy cập khối lượng lớn thông tin số hố Nền tảng khoa học thông tin (Information Science), nghiên cứu việc "tập hợp, tổ chức, lưu trữ, truy cập, phân loại thông tin" Mục đích tìm kiếm thơng tin trả lại cho người dùng tập thông tin thỏa mãn nhu cầu họ Chúng ta định nghĩa thông tin cần thiết “câu truy vấn” (query) thông tin chọn “tài liệu” (documents) Mỗi cách tiếp cận tìm kiếm thơng tin bao gồm hai phần chính: kỹ thuật để biểu diễn thông tin (câu truy vấn, tài liệu) hai phương pháp so sánh cách biểu diễn Mục đích để thực tự động qui trình kiểm tra tài liệu cách tính độ tương quan câu truy vấn tài liệu Quy trình thành cơng trả kết người dùng tạo so sánh câu truy vấn với tài liệu Các nghiên cứu lĩnh vực IR nhắm tới mục tiêu nâng cao chất lượng giai đoạn tìm kiếm, bao gồm 1) Tiếp nhận phân tích yêu cầu từ người dùng; 2) Thực việc tìm kiếm; 3) Gửi trả kết cho người dùng Các mơ hình khác nghiên cứu, xây dựng nhằm tái biểu diễn câu truy vấn tài liệu tìm kiếm, sau áp dụng chiến lược tìm kiếm phù hợp 1.1.1 Quy trình xây dựng hệ thống tìm kiếm thơng tin Cách hoạt động hệ thống tìm kiếm thơng tin cổ điển 3.3.2 Sử dụng tập tin nghịch đảo để lập mục Trong hệ thống tìm kiếm thơng tin, tập tin nghịch đảo có ý nghĩa lớn, giúp việc truy cập đến mục thơng tin nhanh chóng Giả sử người dùng nhập câu truy vấn, hệ thống tách thành từ “từ 1” “từ 2” Dựa vào tập tin nghịch đảo, ta dễ dàng xác định tài liệu có liên quan đến từ để trả cho người tìm kiếm Tuy nhiên, khó khăn tập tin nghịch đảo thêm tài liệu mới, tất từ có liên quan đến tài liệu phải cập nhật lại Ví dụ thêm tài liệu có chứa từ “từ 3” “từ 4” vào tập tin nghịch đảo Bảng 3.5: Thêm tài liệu vào tập tin nghịch đảo Tài liệu Tài liệu Tài liệu Tài liệu Từ 1 Từ 1 0 Từ 1 Từ 1 1 Rõ ràng việc tốn chi phí lớn tập tin nghịch đảo lớn Trong thực tế, tập tin nghịch đảo tài liệu chứa hàng trăm ngàn từ Tuy nhiên, hệ thống tìm kiếm thơng tin, người ta cập nhật lại tập tin khoảng thời gian định kỳ Vì vậy, tập tin nghịch đảo sử dụng để lập mục 3.4 Truy vấn xếp hạng thơng tin Đây q trình người dùng nhập câu hỏi yêu cầu tìm kiếm, câu hỏi mà người dùng nhập vào xử lý, nghĩa ta thực tách từ cho câu hỏi Sau đó, hệ thống tìm kiếm tập tin mục để xác định tài liệu liên quan đến câu hỏi người dùng Để truy vấn mơ hình LSI, vector truy vấn q so sánh với vector cột ma trận xấp xỉ Ak ma trận term – document A Gọi ej vector đơn vị thứ j có số chiều n (cột thứ j ma trận đơn vị n x n), vector cột thứ j ma trận Ak Akej Độ đo cosines góc vector truy vấn q vector văn ma trận Ak tính: 𝑇 cos 𝜃𝑗 = (𝐴𝑘 𝑒𝑗 ) 𝑞 ‖𝐴𝑘 𝑒𝑗 ‖2 ‖𝑞‖2 𝑇 = (𝑈𝑘 𝑆𝑘 𝑉𝑘𝑇 𝑒𝑗 ) 𝑞 ‖𝑈𝑘 𝑆𝑘 𝑉𝑘𝑇 𝑒𝑗 ‖2 ‖𝑞‖2 = 𝑒𝑗𝑇 𝑉𝑘 𝑆𝑘 (𝑈𝑘𝑇 𝑞) ‖𝑆𝑘 𝑉𝑘𝑇 𝑒𝑗 ‖2 ‖𝑞‖2 (3.12) Có cách tiếp cận khác cho thủ tục truy vấn mơ hình LSI, văn so sánh với cách tính độ đo cosines vector văn 47 “khơng gian văn bản” (document space) – so sánh vector cột ma trận 𝑉𝑘𝑇 Một câu truy vấn q xem văn giống vector cột thêm vào ma trận 𝑉𝑘𝑇 Để thêm q cột vào 𝑉𝑘𝑇 ta phải chiếu q vào không gian văn k chiều Từ công thức ma trận 𝐴𝑘 = 𝑈𝑘 𝑆𝑘 𝑉𝑘𝑇 ta suy 𝑆𝑘−1 𝑈𝑘𝑇 𝐴𝑘 = 𝑉𝑘𝑇 (vì 𝑈𝑘 𝑈𝑘𝑇 = 𝐼𝑘 ta có 𝑉𝑘 = 𝐴𝑇𝑘 𝑈𝑘 𝑆𝑘−1 Áp dụng tương tự cho vector truy vấn q: 𝑞𝑘 = 𝑞 𝑇 𝑈𝑘 𝑆𝑘−1 Tính độ liên quan vector truy vấn q vector tài liệu 𝑑𝑖 ma trận 𝑉𝑘𝑇 công thức sau: 𝑠𝑖𝑚(𝑞, 𝑑) = 𝑠𝑖𝑚(𝑞𝑇 𝑈𝑘 𝑆𝑘−1 , 𝑑 𝑇 𝑈𝑘 𝑆𝑘−1 ) = 𝑞 𝑑 |𝑞| |𝑑| (3.13) Sắp kết trả theo giảm dần độ liên quan Ví dụ 3.2: Mơ tả q trình lập mục từ tập văn cho trước, tính tốn độ liên quan câu truy vấn kết trả Cho tập văn sau: d1: Shipment of gold damaged in a fire d2: Delivery of silver arrived in a silver truck d3: Shipment of gold arrived in a truck Câu truy vấn q: gold silver truck Bước 1: Xây dựng ma trận team-document A sau: Bước 2: Phân tích SVD ma trận A: 𝐴 = 𝑈𝑆𝑉 𝑇 48 Bước 3: Chọn hệ số k để tính ma trận xấp xỉ 𝐴𝑘 Giả sử k =2 Bước 4: Thực truy vấn kết Các vector tài liệu d ma trận 𝑉𝑘𝑇 , cột thể 01 vector tương ứng: 𝑑1 (−0.4945, 0.6492) 49 𝑑2 (−0.6458, −0.7194) 𝑑3 (−0.5817, 0.2469) Áp dụng công thức q: 𝑞 = 𝑞 𝑇 𝑈𝑘 𝑆𝑘−1 −0.4201 −0.2995 −0.1206 −0.1576 −0.1206 = [0 0 0 0 1] −0.2626 −0.4201 −0.4201 −0.2626 −0.3151 [−0.2995 0.0748 −0.2001 0.2749 −0.3046 0.0000 0.2749 4.0989 ] 0.3749 [ 0.0748 0.0000 2.3616 0.0748 0.3794 −0.6093 −0.2001] 𝑞 = 𝑞 𝑇 𝑈𝑘 𝑆𝑘−1 = [−0.2140 −0.1821] Áp dụng cơng thức (3.13) Tính độ liên quan vector q với vector tài liệu: 𝑠𝑖𝑚(𝑞, 𝑑1 ) = (−0.2140).(−0.4945)+(0.1821).(0.6492) √(−0.2140)2 +(−0.1821)2 √(−0.4935)2 +(0.6492)2 𝑠𝑖𝑚(𝑞, 𝑑2 ) = 0.9910 𝑠𝑖𝑚(𝑞, 𝑑3 ) = 0.4487 Sắp độ liên quan giảm dần: 𝑑2 > 𝑑3 > 𝑑1 50 = − 0.0541 CHƯƠNG ÁP DỤNG VÀO TÌM KIẾM THƠNG TIN TRÊN WEB 4.1 Giới thiệu tốn Chương trình xây dựng hệ thống tìm kiếm thơng tin có sử dụng tách từ tiếng việt nhằm giải tốn tách từ tìm kiếm thơng tin tiếng việt Web Hình 4.1: Sơ đồ hệ thống tìm kiếm có sử dụng tách từ tiếng Việt Đầu vào: Gồm từ điển lưu trữ máy tính dạng khơng nén, liệu lấy từ Web crawler Đầu ra: Danh sách tập văn chứa từ hay cụm từ câu truy vấn, tách từ tiếng Việt Nhập câu tách từ câu tìm kiếm từ đơn từ ghét câu có lên đoạn chứa từ cần tìm tơ đậm Web Với đầu vào đầu tốn chương trình phải đáp ứng yêu cầu sau: Chương trình cho phép thu thập tạo mục tài liệu; Cho phép cập nhật lại mục có tài liệu đưa vào hệ thống 51 Cho phép người dùng nhập vào câu truy vấn, sau dùng phương pháp tách từ để tách câu vừa nhập vào Cho phép người dùng nhập vào câu truy vấn, sau thực tìm kiếm tài liệu liên quan đến câu truy vấn Sắp xếp tài liệu theo thứ tự giảm dần độ tương quan tài liệu câu truy vấn, sau hiển thị kết cho người dùng Chương trình sử dụng ngơn ngữ lập trình C#, Server Explorer Cơng cụ lập trình Visual Studio 2019 Lưu trữ liệu: Web Crawler Hệ thống tìm kiếm xây dựng theo mơ hình Boolean, khơng gian Vector VSM tính trọng số Các tài liệu tiếng Việt câu truy vấn tách từ theo phương pháp kỹ thuật Longest Matching 4.2 Chức chương trình Chương trình xây dựng với chức sau: Lập mục cho từ tạo nên tài liệu Chọn lọc từ có giá trị phân biệt cao làm mục Tách từ từ tài liệu Cập nhật lại mục thêm tài liệu Hiển thị kết tìm kiếm cho người dùng 4.3 Lập mục 4.3.1 Lớp lập mục Đầu vào lớp lập mục nội dung trang Web, kết danh sách mục lưu vào sở liệu Các hàm chính: Lấy danh sách trang Web từ địa Websites GetListUrlFromWeb (địa Website) { // Đọc qua nội dung trang Web lưu lại tất địa } Tạo mục cho trang Web 52 CreateIndex (địa trang Web) { // Đọc nội dung trang Web tách từ sau lưu lại thành mục } Lưu mục xuống sở liệu SaveIndex (danh sách mục) { // Lưu danh sách mục xuống sở liệu } 4.3.2 Giao diện lập mục Hình 4.2: Màn hình tạo mục 53 Hình 4.3: Màn hình lấy liệu index 4.4 Tách từ Tách từ quan trọng chương trình thực xác việc phân loại hay khơng nhờ kết việc tách từ hay sai 4.4.1 Lớp tách từ Lớp tách từ có nhiệm vụ tách từ nhập vào người dùng Lớp tạo mục: Đọc liệu từ trang Web nhập vào người dùng, sau phân tích tạo mục cho từ lưu lại vào sở liệu 4.4.2 Các hàm Hàm tách câu tìm kiếm thành từ: Thuật tốn: void TachTu (câu văn bản) { // Loại bỏ dấu chấm, dấu phẩy văn // Tạo danh sách từ ngữ cách chia văn dựa khoảng trắng từ // Loại bỏ từ rỗng While (duyệt qua danh sách từ) { // Gán từ danh sách từ tìm // Kiểm tra từ vừa tìm từ xem có tồn từ điển hay khơng // Nếu tồn tiếp tục vòng lặp 54 // Nếu khơng tồn thêm từ tìm trước vào danh sách kết tách từ // Gọi hàm XacDinhTu }} Ví dụ: Chuỗi đầu vào: “Sinh viên VN: động lực cho sáng tạo mới, tầm nhìn mới” Chuỗi đầu vào =“Sinh viên VN: động lực cho sáng tạo mới, tầm nhìn mới” trả mảng chuỗi chứa tiếng ={“động”, “lực”, “cho”, “những”, “sáng”, “tạo”, “mới”} - Hàm XacDinhTu(): gộp tiếng lại thành từ, so sánh từ điển tiếng việt ta lưu lại từ vào mảng từ - Thuật toán: void XacDinhTu (mảng tiếng) { B1: gán từ = tiếng B2: So sánh từ có từ điển hay khơng B3: Nếu từ có từ điển có tiếng trở lên ta lưu lại B4: Nếu mảng tiếng cịn thì: từ: = từ + tiếng Ngược lại kết thúc hàm B5: Quay lại B2 } 55 4.4.3 Giao diện tách từ Hình 4.4: Màn hình chi tiết tách từ 4.5 Tìm kiếm Lớp tìm kiếm có nhiệm vụ tách từ câu hỏi, loại bỏ từ danh sách Stopword, sau tìm từ khóa câu hỏi người dùng nhập vào, cuối tìm kiếm sở liệu mục tương ứng hiển thị cho người dùng xem kết 4.5.1 Các hàm chính: Đọc danh sách từ điển ReadDictionaryData() { Đọc danh sách từ file xml } Hàm tách từ WordDivision() { } Hàm tìm kiếm SearchFromDatabase() { 56 // Đọc liệu từ sở liệu kiểm tra với danh sách tách từ để lấy kết tìm kiếm hiển thị cho người dùng } 4.5.2 Giao diện tìm kiếm Hình 4.5: Màn hình tìm kiếm 4.6 Kết thực nghiệm 57 58 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Kỹ thuật tách từ tiếng việt vấn đề mang tính thời Cơng nghệ thơng tin Đề tài hồn thành yêu cầu đề Về lý thuyết Tách từ tìm kiếm thơng tin tiếng việt tốn khó thú vị Khó vấn đề văn cần phải xử lý ngơn ngữ tiếng việt, mà biết, ngôn ngữ tự nhiên mn hình, phong phú từ vựng, cú pháp phức tạp ngữ nghĩa Nhưng tốn thú vị với ngơn ngữ khác phải thực cách xử lý khác ngôn ngữ Đề tài đề cập số vấn đề mang tính chất sở số kỹ thuật tách từ tìm kiếm thơng tin theo nội dung tài liệu mơ hình Boolean, khơng gian vector có tính trọng số Những vấn đề liên quan đến đề tài phương pháp tách từ phương pháp lập mục nghiên cứu công phu theo chiều rộng chiều sâu.Về lý thuyết: Tìm kiếm thơng tin tiếng Việt web tốn khó thú vị Khó vấn đề văn cần phải xử lý ngôn ngữ, mà biết, ngơn ngữ tự nhiên mn hình, phong phú từ vựng, cú pháp phức tạp ngữ nghĩa Nhưng toán thú vị với ngơn ngữ khác phải thực cách xử lý khác ngôn ngữ Bản luận văn đề cập số vấn đề mang tính chất sở: crawler dị tìm thơng tin, phương pháp tách từ, phương pháp lập mục kết trả về, số mơ hình tìm kiếm thơng tin Về thực nghiệm: Đề tài xây dựng chương trình thực nghiệm tìm kiếm thơng tin tiếng Việt web với đầy đủ tính năng: Crawler dị tìm thơng tin web, lập mục kỹ thuật tìm kiếm thơng tin mơ hình lập Chương trình hỗ trợ giao diện Web cho người sử dụng tìm kiếm, phát triển môi trường Visual Studio 2019 Nhìn chung: đề tài hồn thành yêu cầu đề có số ưu điểm sau: Nghiên cứu cách thức hoạt động hệ thống tìm kiếm thơng tin có sử dụng tách từ tiếng Việt Hệ thống tách từ tiếng Việt xác Các yêu cầu liên quan đến lập mục tra cứu 59 Tìm kiếm nhanh: tài liệu trả xếp xác Tóm tắt nội dung trả Giao diện thân thiện, dễ dùng Khuyến nghị Đây đề tài có tính thực tế cao Với nhiệm vụ nghiên cứu, đề tài đáp ứng số yêu cầu đặt Tuy nhiên, việc ứng dụng mục ngữ nghĩa ngầm LSI cho hiệu tốn mở Do hướng phát triển đề tài sau: Xây dựng tính truy tìm thơng tin web theo định kỳ Xây dựng từ điển có độ xác cao Thêm chức cập nhật Singular Value Decomposition (SVD) Nghiên cứu tính tự động hóa chọn hệ số k cho tính tốn 𝐴𝑘 60 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đinh Điền (2004), “Xử lý ngôn ngữ tự nhiên” , Đại học khoa học Tự nhiên Tp Hồ Chí Minh Tiếng Anh: [2] Cherukuri Aswani Kumar, Suripeddi Srinivas (2006), “Latent Semantic Indexing Using Eigenvalue Analysis for Efficient Information Retrieval”, Comput Sci, Int J Appl Math., Vol 16, No 4, pp 551–558 [3] Canfora, G and L Cerulo (2004), “A Taxonomy of Information Retrieval Models and Tools”, Journal of Computing and Information Technology, 12 (3): p 175-194 [4] Filippo Menczer, Gautam Pain, Padmini Srinivasan (November - 2004), Topical Web Crawlers: Evaluating Adaptive Algorithms, Indiana University [5] Christopher D Manning, Prabhakar Raghavan and Schütze (2008) “Introduction Information Retrieval”, Cambridge University Press [6] Jerri Ledford (2009), Search Engine Optimization Bible, Second Edition, published by Wiley Publishing, Inc [7] Kontostathis (2007), "Essential Dimensions of latent sematic indexing (LSI)", Proceedings of the 40th Hawaii International Conference on System Sciences [8] Gautam Pant, Padmini Srinivasan, and Filippo Menczer (2004), Crawling the Web, The University of Iowa, Iowa City IA 52242, USA [9] Marc Najork, Allan Heydon (2001), High-Performance Web Crawling, 130 Lytton Avenue Palo Alto, California 94301 [10] Maron, M.E., Kuhns, J.L (1960), "On Relevance, Probabilistic Indexing and Information Retrieval", J ACM 7, 216-244 [11] Michael W Berry, Zlatko Drmac, Elizabeth R Jessup (1999), "Matrix, Vector Space, and Information Retrieval", Siam Review, Vol 41, No 2, pp 335 – 352 61 ... TẮT ĐỀ TÀI Đề tài nghiên cứu: Kỹ thuật tách từ câu tiếng Việt Ứng dụng tìm kiếm thơng tin website Tóm tắt: Tìm hiểu kỹ thuật tách từ tiếng Việt lập mục cho văn Lựa chọn phương pháp tối ưu để tìm. .. trung vào phân tích kỹ phương pháp lập mục cho tài liệu tiếng Việt theo mô hình mục ngữ nghĩa ngầm LSI 3.1 Một số kỹ thuật tách từ tiếng Việt Tách từ giai đoạn hệ thống tài liệu thông tin Tách từ. .. Tài liệu Tài liệu Tài liệu Từ 1 Từ 1 Từ 1 Từ 1 Bảng 3.4: Cách tập tin trực tiếp lưu trữ Tài liệu Tài liệu Tài liệu Tài liệu Từ 1 1 Từ 1 Từ 1 46 3.3.2 Sử dụng tập tin nghịch đảo để lập mục Trong