Báo cáo nghiên cứu khoa học kỹ thuật tách từ trong câu tiếng việt và ứng dụng tìm kiếm thông tin trên website

KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO NGHIÊN CỨU KHOA HỌC n go i Sa te In at rn KỸ THUẬT TÁCH TỪ TRONG CÂU TIẾNG VIỆT ni lU na io VÀ ỨNG DỤNG TÌM KIẾM THƠNG TIN TRÊN WEBSITE Sinh viên thực hiện: ty i rs ve Giảng viên hướng dẫn : ThS Đặng Văn Thành Nhân  Trần Văn Đan Trường – 91011801418  Võ Phước Sang – 81011801421 TP Hồ Chí Minh, 2020 MỤC LỤC MỤC LỤC TÓM TẮT ĐỀ TÀI DANH MỤC CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ TÁCH TỪ TIẾNG VIỆT 1.1 Giới thiệu tìm kiếm thơng tin i Sa 1.1.1 Quy trình xây dựng hệ thống tìm kiếm thông tin go 1.1.2 Các phận cấu thành hệ thống tìm kiếm thông tin .11 1.1.3 Các bước xây dựng hệ thống tìm kiếm thơng tin .11 n In 1.2 Một số mơ hình xây dựng hệ thống tìm kiếm thơng tin 12 te 1.2.1 Mơ hình tìm kiếm Boolean 13 at rn 1.2.2 Mơ hình tính điểm trọng số cho mục từ - Term weight 13 1.2.3 Mơ hình khơng gian vector – Vector Space Model (VSM) 14 io na 1.2.4 Mơ hình xác suất – Probabilistic model 15 lU 1.2.5 Mơ hình mục ngữ nghĩa ngầm – LSI .15 ni 1.3 Một số hệ thống tìm kiếm thơng tin 16 ve 1.3.1 Google Search 16 rs 1.3.2 Bing Yahoo .17 ity 1.3.3 Cốc Cốc 17 1.3.4 Một số hệ thống tìm kiếm thơng tin khác 17 1.4 Khó khăn xây dựng hệ thống tài liệu thơng tin tiếng Việt .18 1.4.1 Khó khăn việc tách từ tiếng Việt 18 1.4.2 Khó khăn bảng mã tiếng Việt 18 1.4.3 Một số khó khăn khác 18 CHƯƠNG QUY TRÌNH XÂY DỰNG HỆ THỐNG TÌM KIẾM THÔNG TIN TÁCH TỪ TIẾNG VIỆT 19 2.1 Giới thiệu Crawler .19 2.2 Cơ hoạt động Crawler 20 2.2.1 Tập tin Robot.txt 21 2.2.2 Robots Meta Tag 23 2.3 Các kỹ thuật xây dựng Crawler 23 2.3.1 Cấu trúc liệu URL Frontier 25 2.3.2 Bộ lọc địa .26 2.3.3 Chiến lược thu thập phân tích trang Web (Fetching & parsing) 26 2.3.4 Trích xuất URL chuẩn hóa 27 2.3.5 Mơ hình thẻ HTML dạng 28 2.3.6 Crawler đa tiến trình 29 2.4 Một số giải thuật Crawler .31 i Sa 2.4.1 Thuật tốn tìm kiếm theo chiều rộng (Breadth-First) 32 go 2.4.2 Thuật tốn tìm kiếm tối ưu (Best-First) .33 n CHƯƠNG CÁC KỸ THUẬT LƯU TRỮ 35 In 3.1 Một số kỹ thuật tách từ tiếng Việt 35 rn te 3.1.1 fnTBL (Fast Transformation-based learning) 35 3.1.2 Longest Matching 36 at io 3.1.3 Mơ hình tách từ WFST mạng Neural .37 na 3.1.4 Phương pháp dựa thống kê từ Internet thuật toán di truyền 37 lU 3.2 Phương pháp lập mục 38 ni 3.2.1 Xác định từ mục 38 ve 3.2.2 Xây dựng ma trận từ mục (Term – Document) A 38 rs 3.2.2.1 Các công thức tính trọng số cục từ mục lij 39 ity 3.2.2.2 Các công thức tính trọng số tồn cục từ mục gi 40 3.2.2.3 Cơng thức tính hệ số chuẩn hoá nj 41 3.2.3 Phân tích giá trị đơn (Singular Value Decomposition - SVD) 41 3.2.4 Xây dựng ma trận xấp xỉ Ak 44 3.2.5 Chọn hệ số k mơ hình LSI 45 3.3 Tập tin nghịch đảo tài liệu 46 3.3.1 Phân biệt tập tin nghịch đảo tập tin trực tiếp 46 3.3.2 Sử dụng tập tin nghịch đảo để lập mục 47 3.4 Truy vấn xếp hạng thông tin 47 CHƯƠNG ÁP DỤNG VÀO TÌM KIẾM THƠNG TIN TRÊN WEB 51 4.1 Giới thiệu toán 51 4.2 Chức chương trình 52 4.3 Lập mục 52 4.3.1 Lớp lập mục 52 4.3.2 Giao diện lập mục 53 4.4 Tách từ 54 4.4.1 Lớp tách từ 54 4.4.2 Các hàm .54 4.4.3 Giao diện tách từ 56 4.5 Tìm kiếm .56 i Sa 4.5.1 Các hàm chính: 56 go 4.5.2 Giao diện tìm kiếm 57 n 4.6 Kết thực nghiệm .57 In KẾT LUẬN VÀ KIẾN NGHỊ 59 rn te Kết luận .59 Khuyến nghị 60 at ity rs ve ni lU na io TÀI LIỆU THAM KHẢO 61 TÓM TẮT ĐỀ TÀI Đề tài nghiên cứu: Kỹ thuật tách từ câu tiếng Việt Ứng dụng tìm kiếm thơng tin website Tóm tắt: Tìm hiểu kỹ thuật tách từ tiếng Việt lập mục cho văn Lựa chọn phương pháp tối ưu để tìm kiếm thơng tin Áp dụng với tốn tách từ tìm kiếm thơng tin tiếng Việt website n go i Sa ity rs ve ni lU na io at rn te In DANH MỤC CÁC CHỮ VIẾT TẮT IR HTML LSI sim SVD Tdf Tf URL VSM WWW XML Information Retrieval HyperText Markup Language Latent Semantic Indexing Similar Singular Value Decomposition Term document frequency Term frequency Uniform Resource Locator Vector Space Model Word Wide Web eXtensible Markup Language n go i Sa ity rs ve ni lU na io at rn te In DANH MỤC CÁC BẢNG Bảng 3.1: Bảng tính hàm trọng số cục lij 39 Bảng 3.2: Bảng hàm trọng số toàn cục gi 41 Bảng 3.3: Cách tập tin nghịch đảo lưu trữ .46 Bảng 3.4: Cách tập tin trực tiếp lưu trữ 46 Bảng 3.5: Thêm tài liệu vào tập tin nghịch đảo 47 n go i Sa ity rs ve ni lU na io at rn te In DANH MỤC CÁC HÌNH VẼ Hình 1.1: Mơ hình hoạt động hệ thống tìm kiếm thơng tin 10 Hình 1.2: Các phận máy tìm kiếm .11 Hình 2.1: Hành trình Crawler 20 Hình 2.2: Quy trình hoạt động Crawler 24 Hình 2.3: Mơ hình tương ứng với mã nguồn URL 28 Hình 2.4: Mơ hình đa tiến trình Crawler .30 Hình 2.5: Mơ hình Crawler dị tìm theo chiều rộng 32 Hình 2.6: Mơ hình hoạt động thuật tốn Breadth-First 32 Hình 2.7: Mơ hình Crawler dị tìm theo (Best-First) .33 i Sa Hình 2.8: Thuật tốn tìm kiếm tối ưu (Best-First) .34 go Hình 3.1: Biểu diễn ma trận xấp xỉ Ak có hạng k 44 n Hình 4.1: Sơ đồ hệ thống tìm kiếm có sử dụng tách từ tiếng Việt 51 te In Hình 4.2: Màn hình tạo mục 53 rn Hình 4.3: Màn hình lấy liệu index 54 at Hình 4.4: Màn hình chi tiết tách từ 56 ity rs ve ni lU na io Hình 4.5: Màn hình tìm kiếm 57 MỞ ĐẦU  Ngày nay, lịch sử nhân loại bước sang trang nhờ bùng nổ công nghệ thông tin Những thành tựu ngành công nghệ thông tin vơ to lớn, chi phối làm thay đổi mặt đời sống xã hội, làm cho sống người văn minh, đại Sự đời Internet bước tiến vĩ loại, yếu tố quan trọng bậc chi phối sống ngày Nhờ có Internet giới trở nên ‘phẳng’ hơn, nơi trái đất học tập tìm kiếm thơng tin  Theo guồng quay sống, giới Internet ngày rộng lớn phong phú Cứ phút trôi qua có thêm hàng triệu trang web sinh để làm giàu cho i Sa vốn tài nguyên tri thức nhân loại Tuy nhiên, khó khăn go người gặp phải việc khai thác thơng tin khả tìm xác thơng tin họ n cần web Để trợ gúp công việc này, hệ thống tìm kiếm web te In phát triển nhằm phục vụ cho nhu cầu tìm kiếm thơng tin người sử dụng Phổ biến hệ thống tìm kiếm theo từ khóa Hiện có nhiều hệ thống hoạt rn at động hiệu Internet Google, Cốc Cốc, Baidu, Yandex, Bing, Yahoo…Tuy io nhiên, phần lớn cơng cụ tìm kiếm sản phẩm thương mại mã na nguồn giữ bí mật Việc tìm kiếm thơng tin tiếng Việt web chưa lU xác cao Do đó, nhu cầu phải có cơng cụ tìm kiếm “hiểu” xử lý tốt văn ni tiếng Việt web chủ đề nhiều người quan tâm Mục tiêu đề tài nhằm xây dựng hệ thống tìm kiếm thông tin tiếng ve  ity rs Việt web có sử dụng kết xử lý ngôn ngữ tự nhiên tự động để xác định mục xếp hạng tìm kiếm từ tiếng Việt CHƯƠNG  TỔNG QUAN VỀ TÁCH TỪ TIẾNG VIỆT Nội dung chương nhằm giới thiệu tổng quan tìm kiếm thơng tin Giới thiệu quy trình xây dựng hệ thống tìm kiếm thơng tin Một số mơ hình tìm kiếm thơng tin Web phổ biến Đồng thời tóm lược số khó khăn xây dựng hệ thống tìm kiếm thơng tin tiếng Việt 1.1 Giới thiệu tìm kiếm thơng tin  Tìm kiếm thơng tin Information Retrieval (IR) tìm kiếm tài nguyên tập lớn liệu phi cấu trúc lưu trữ máy tính nhằm thỏa mãn nhu cầu thơng tin Tìm kiếm thông tin ngành khoa học liên quan đến việc phân tích, thiết kế triển i Sa  go khai hệ thống máy tính nhằm biểu diễn, tổ chức truy cập khối lượng lớn thông n tin số hố Nền tảng khoa học thơng tin (Information Science), nghiên Mục đích tìm kiếm thông tin trả lại cho người dùng tập thông tin thỏa rn te  In cứu việc "tập hợp, tổ chức, lưu trữ, truy cập, phân loại thông tin" mãn nhu cầu họ Chúng ta định nghĩa thông tin cần thiết “câu truy vấn” at io (query) thông tin chọn “tài liệu” (documents) Mỗi cách tiếp cận na tìm kiếm thơng tin bao gồm hai phần chính: kỹ thuật để biểu diễn thông lU tin (câu truy vấn, tài liệu) hai phương pháp so sánh cách biểu diễn Mục ni đích để thực tự động qui trình kiểm tra tài liệu cách tính độ tương ve quan câu truy vấn tài liệu Quy trình thành cơng trả kết rs người dùng tạo so sánh câu truy vấn với tài liệu Các nghiên cứu lĩnh vực IR nhắm tới mục tiêu nâng cao chất lượng giai ity  đoạn tìm kiếm, bao gồm 1) Tiếp nhận phân tích yêu cầu từ người dùng; 2) Thực việc tìm kiếm; 3) Gửi trả kết cho người dùng Các mô hình khác nghiên cứu, xây dựng nhằm tái biểu diễn câu truy vấn tài liệu tìm kiếm, sau áp dụng chiến lược tìm kiếm phù hợp 1.1.1 Quy trình xây dựng hệ thống tìm kiếm thông tin  Cách hoạt động hệ thống tìm kiếm thơng tin cổ điển 3.3.2 Sử dụng tập tin nghịch đảo để lập mục  Trong hệ thống tìm kiếm thơng tin, tập tin nghịch đảo có ý nghĩa lớn, giúp việc truy cập đến mục thơng tin nhanh chóng Giả sử người dùng nhập câu truy vấn, hệ thống tách thành từ “từ 1” “từ 2” Dựa vào tập tin nghịch đảo, ta dễ dàng xác định tài liệu có liên quan đến từ để trả cho người tìm kiếm Tuy nhiên, khó khăn tập tin nghịch đảo thêm tài liệu mới, tất từ có liên quan đến tài liệu phải cập nhật lại Ví dụ thêm tài liệu có chứa từ “từ 3” “từ 4” vào tập tin nghịch đảo Bảng 3.5: Thêm tài liệu vào tập tin nghịch đảo Tài liệu Tài liệu Tài liệu 1 1 0 1 1 1 Từ Từ rn te In  Từ n Từ go i Sa Tài liệu Rõ ràng việc tốn chi phí lớn tập tin nghịch đảo lớn Trong thực tế, at io tập tin nghịch đảo tài liệu chứa hàng trăm ngàn từ Tuy nhiên, hệ na thống tìm kiếm thơng tin, người ta cập nhật lại tập tin khoảng thời gian lU định kỳ Vì vậy, tập tin nghịch đảo sử dụng để lập mục ve  ni 3.4 Truy vấn xếp hạng thông tin ity rs Đây trình người dùng nhập câu hỏi yêu cầu tìm kiếm, câu hỏi mà người dùng nhập vào xử lý, nghĩa ta thực tách từ cho câu hỏi Sau đó, hệ thống tìm kiếm tập tin mục để xác định tài liệu liên quan đến câu hỏi người dùng Để truy vấn mơ hình LSI, vector truy vấn q so sánh với vector cột ma trận xấp xỉ Ak ma trận term – document A Gọi ej vector đơn vị thứ j có số chiều n (cột thứ j ma trận đơn vị n x n), vector cột thứ j ma trận Ak Akej Độ đo cosines góc vector truy vấn q vector văn ma trận Ak tính:   𝑇 cos 𝜃𝑗 =  (𝐴𝑘 𝑒𝑗 ) 𝑞 ‖𝐴𝑘 𝑒𝑗 ‖2 ‖𝑞‖2 𝑇 = (𝑈𝑘 𝑆𝑘 𝑉𝑘𝑇 𝑒𝑗 ) 𝑞 ‖𝑈𝑘 𝑆𝑘 𝑉𝑘𝑇 𝑒𝑗 ‖2 ‖𝑞‖2 = 𝑒𝑗𝑇 𝑉𝑘 𝑆𝑘 (𝑈𝑘𝑇 𝑞) ‖𝑆𝑘 𝑉𝑘𝑇 𝑒𝑗 ‖2 ‖𝑞‖2 (3.12) Có cách tiếp cận khác cho thủ tục truy vấn mơ hình LSI, văn so sánh với cách tính độ đo cosines vector văn 47 “không gian văn bản” (document space) – so sánh vector cột ma trận 𝑉𝑘𝑇 Một câu truy vấn q xem văn giống vector cột thêm vào ma trận 𝑉𝑘𝑇 Để thêm q cột vào 𝑉𝑘𝑇 ta phải chiếu q vào không gian văn k chiều  Từ công thức ma trận 𝐴𝑘 = 𝑈𝑘 𝑆𝑘 𝑉𝑘𝑇 ta suy 𝑆𝑘−1 𝑈𝑘𝑇 𝐴𝑘 = 𝑉𝑘𝑇 (vì 𝑈𝑘 𝑈𝑘𝑇 = 𝐼𝑘 ta có 𝑉𝑘 = 𝐴𝑇𝑘 𝑈𝑘 𝑆𝑘−1  Áp dụng tương tự cho vector truy vấn q: 𝑞𝑘 = 𝑞 𝑇 𝑈𝑘 𝑆𝑘−1  Tính độ liên quan vector truy vấn q vector tài liệu 𝑑𝑖 ma trận 𝑉𝑘𝑇 công thức sau: i Sa 𝑠𝑖𝑚(𝑞, 𝑑) = 𝑠𝑖𝑚(𝑞𝑇 𝑈𝑘 𝑆𝑘−1 , 𝑑 𝑇 𝑈𝑘 𝑆𝑘−1 ) = (3.13) go  𝑞 𝑑 |𝑞| |𝑑| Sắp kết trả theo giảm dần độ liên quan n  Ví dụ 3.2: Mơ tả q trình lập mục từ tập văn cho trước, tính tốn độ liên In te quan câu truy vấn kết trả Cho tập văn sau: at rn d1: Shipment of gold damaged in a fire d2: Delivery of silver arrived in a silver truck io Câu truy vấn q: gold silver truck lU na d3: Shipment of gold arrived in a truck  Bước 1: Xây dựng ma trận team-document A sau: ity rs ve ni  Bước 2: Phân tích SVD ma trận A: 𝐴 = 𝑈𝑆𝑉 𝑇 48 n go i Sa In ity rs ve ni lU na io at rn te  Bước 3: Chọn hệ số k để tính ma trận xấp xỉ 𝐴𝑘 Giả sử k =2  Bước 4: Thực truy vấn kết Các vector tài liệu d ma trận 𝑉𝑘𝑇 , cột thể 01 vector tương ứng: 𝑑1 (−0.4945, 0.6492) 49 𝑑2 (−0.6458, −0.7194) 𝑑3 (−0.5817, 0.2469)  Áp dụng công thức q: 𝑞 = 𝑞 𝑇 𝑈𝑘 𝑆𝑘−1 i Sa −0.4201 −0.2995 −0.1206 −0.1576 −0.1206 = [0 0 0 0 1] −0.2626 −0.4201 −0.4201 −0.2626 −0.3151 [−0.2995 𝑞 = 𝑞 𝑇 𝑈𝑘 𝑆𝑘−1 = [−0.2140 −0.1821] go Áp dụng cơng thức (3.13) Tính độ liên quan vector q với vector tài liệu: n  In (−0.2140).(−0.4945)+(0.1821).(0.6492) √(−0.2140)2 +(−0.1821)2 √(−0.4935)2 +(0.6492)2 io 𝑠𝑖𝑚(𝑞, 𝑑3 ) = 0.4487 at 𝑠𝑖𝑚(𝑞, 𝑑2 ) = 0.9910 = − 0.0541 rn te 𝑠𝑖𝑚(𝑞, 𝑑1 ) = Sắp độ liên quan giảm dần: 𝑑2 > 𝑑3 > 𝑑1 ity rs ve ni lU na  0.0748 −0.2001 0.2749 −0.3046 0.0000 0.2749 4.0989 ] 0.3749 [ 0.0748 0.0000 2.3616 0.0748 0.3794 −0.6093 −0.2001] 50 CHƯƠNG ÁP DỤNG VÀO TÌM KIẾM THƠNG TIN TRÊN WEB 4.1 Giới thiệu tốn  Chương trình xây dựng hệ thống tìm kiếm thơng tin có sử dụng tách từ tiếng việt nhằm giải toán tách từ tìm kiếm thơng tin tiếng việt Web n go i Sa ni lU na io at rn te In ve Hình 4.1: Sơ đồ hệ thống tìm kiếm có sử dụng tách từ tiếng Việt ity rs  Đầu vào: Gồm từ điển lưu trữ máy tính dạng khơng nén, liệu lấy từ Web crawler  Đầu ra: Danh sách tập văn chứa từ hay cụm từ câu truy vấn, tách từ tiếng Việt  Nhập câu tách từ câu tìm kiếm từ đơn từ ghét câu có lên đoạn chứa từ cần tìm tơ đậm Web  Với đầu vào đầu toán chương trình phải đáp ứng yêu cầu sau:  Chương trình cho phép thu thập tạo mục tài liệu;  Cho phép cập nhật lại mục có tài liệu đưa vào hệ thống 51  Cho phép người dùng nhập vào câu truy vấn, sau dùng phương pháp tách từ để tách câu vừa nhập vào  Cho phép người dùng nhập vào câu truy vấn, sau thực tìm kiếm tài liệu liên quan đến câu truy vấn  Sắp xếp tài liệu theo thứ tự giảm dần độ tương quan tài liệu câu truy vấn, sau hiển thị kết cho người dùng  Chương trình sử dụng ngơn ngữ lập trình C#, Server Explorer  Cơng cụ lập trình Visual Studio 2019  Lưu trữ liệu: Web Crawler  Hệ thống tìm kiếm xây dựng theo mơ hình Boolean, khơng gian Vector i Sa VSM tính trọng số go  Các tài liệu tiếng Việt câu truy vấn tách từ theo phương pháp kỹ thuật n Longest Matching In te 4.2 Chức chương trình Chương trình xây dựng với chức sau: at rn  io  Lập mục cho từ tạo nên tài liệu  Cập nhật lại mục thêm tài liệu rs ity 4.3 Lập mục 4.3.1 Lớp lập mục  ve  Hiển thị kết tìm kiếm cho người dùng ni lU  Tách từ từ tài liệu na  Chọn lọc từ có giá trị phân biệt cao làm mục Đầu vào lớp lập mục nội dung trang Web, kết danh sách mục lưu vào sở liệu  Các hàm chính: Lấy danh sách trang Web từ địa Websites  GetListUrlFromWeb (địa Website) { // Đọc qua nội dung trang Web lưu lại tất địa } Tạo mục cho trang Web 52 CreateIndex (địa trang Web) { // Đọc nội dung trang Web tách từ sau lưu lại thành mục } Lưu mục xuống sở liệu SaveIndex (danh sách mục) { // Lưu danh sách mục xuống sở liệu } 4.3.2 Giao diện lập mục n go i Sa 53 ity rs ve ni lU na io at rn te In Hình 4.2: Màn hình tạo mục Hình 4.3: Màn hình lấy liệu index i Sa 4.4 Tách từ go  Tách từ quan trọng chương trình thực xác việc n te In phân loại hay không nhờ kết việc tách từ hay sai 4.4.1 Lớp tách từ rn Lớp tách từ có nhiệm vụ tách từ nhập vào người dùng  Lớp tạo mục: Đọc liệu từ trang Web nhập vào người dùng, sau io at  lU na phân tích tạo mục cho từ lưu lại vào sở liệu 4.4.2 Các hàm  Thuật tốn: rs ve Hàm tách câu tìm kiếm thành từ: ni  ity void TachTu (câu văn bản) { // Loại bỏ dấu chấm, dấu phẩy văn // Tạo danh sách từ ngữ cách chia văn dựa khoảng trắng từ // Loại bỏ từ rỗng While (duyệt qua danh sách từ) { // Gán từ danh sách từ tìm // Kiểm tra từ vừa tìm từ xem có tồn từ điển hay khơng // Nếu tồn tiếp tục vòng lặp 54 // Nếu khơng tồn thêm từ tìm trước vào danh sách kết tách từ // Gọi hàm XacDinhTu }}  Ví dụ: Chuỗi đầu vào: “Sinh viên VN: động lực cho sáng tạo mới, tầm nhìn mới”  Chuỗi đầu vào =“Sinh viên VN: động lực cho sáng tạo mới, tầm nhìn mới” trả mảng chuỗi chứa tiếng ={“động”, “lực”, “cho”, “những”, “sáng”, “tạo”, “mới”} - Hàm XacDinhTu(): gộp tiếng lại thành từ, so sánh từ điển tiếng việt ta lưu lại từ vào mảng từ i Sa - Thuật toán: n { go void XacDinhTu (mảng tiếng) In B1: gán từ = tiếng rn te B2: So sánh từ có từ điển hay khơng B3: Nếu từ có từ điển có tiếng trở lên ta lưu lại at io B4: Nếu mảng tiếng cịn thì: Ngược lại kết thúc hàm ni B5: Quay lại B2 lU na từ: = từ + tiếng ity rs ve } 55 4.4.3 Giao diện tách từ n go i Sa Lớp tìm kiếm có nhiệm vụ tách từ câu hỏi, loại bỏ từ danh sách Stopword, io at  rn 4.5 Tìm kiếm te In Hình 4.4: Màn hình chi tiết tách từ na sau tìm từ khóa câu hỏi người dùng nhập vào, cuối tìm kiếm lU sở liệu mục tương ứng hiển thị cho người dùng xem kết Đọc danh sách từ điển rs ve  ni 4.5.1 Các hàm chính: ReadDictionaryData() ity { Đọc danh sách từ file xml } Hàm tách từ WordDivision() { } Hàm tìm kiếm SearchFromDatabase() { 56 // Đọc liệu từ sở liệu kiểm tra với danh sách tách từ để lấy kết tìm kiếm hiển thị cho người dùng } 4.5.2 Giao diện tìm kiếm n go i Sa te In ity rs ve ni lU na io 4.6 Kết thực nghiệm at rn Hình 4.5: Màn hình tìm kiếm 57 n go i Sa ity rs ve ni lU na io at rn te In 58 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận  Kỹ thuật tách từ tiếng việt vấn đề mang tính thời Công nghệ thông tin Đề tài hoàn thành yêu cầu đề  Về lý thuyết Tách từ tìm kiếm thơng tin tiếng việt tốn khó thú vị Khó vấn đề văn cần phải xử lý ngôn ngữ tiếng việt, mà biết, ngơn ngữ tự nhiên mn hình, phong phú từ vựng, cú pháp phức tạp ngữ nghĩa Nhưng tốn thú vị với ngơn ngữ khác phải thực cách xử lý khác ngôn ngữ Đề tài đề cập số vấn đề mang tính chất sở số kỹ thuật tách từ tìm kiếm thơng tin i Sa theo nội dung tài liệu mơ hình Boolean, khơng gian vector có tính trọng số go Những vấn đề liên quan đến đề tài phương pháp tách từ phương pháp lập n mục nghiên cứu công phu theo chiều rộng chiều sâu.Về lý In te thuyết: Tìm kiếm thơng tin tiếng Việt web tốn khó thú vị Khó rn vấn đề văn cần phải xử lý ngôn ngữ, mà biết, ngơn ngữ tự at nhiên mn hình, phong phú từ vựng, cú pháp phức tạp ngữ nghĩa na io Nhưng toán thú vị với ngơn ngữ khác phải thực cách xử lý khác ngôn ngữ Bản luận văn đề cập số vấn lU đề mang tính chất sở: crawler dị tìm thơng tin, phương pháp tách từ, phương pháp  ve ni lập mục kết trả về, số mơ hình tìm kiếm thông tin Về thực nghiệm: Đề tài xây dựng chương trình thực nghiệm tìm kiếm thơng tin rs ity tiếng Việt web với đầy đủ tính năng: Crawler dị tìm thơng tin web, lập mục kỹ thuật tìm kiếm thơng tin mơ hình lập Chương trình hỗ trợ giao diện Web cho người sử dụng tìm kiếm, phát triển mơi trường Visual Studio 2019  Nhìn chung: đề tài hoàn thành yêu cầu đề có số ưu điểm sau:  Nghiên cứu cách thức hoạt động hệ thống tìm kiếm thơng tin có sử dụng tách từ tiếng Việt  Hệ thống tách từ tiếng Việt xác  Các yêu cầu liên quan đến lập mục tra cứu 59  Tìm kiếm nhanh: tài liệu trả xếp xác  Tóm tắt nội dung trả  Giao diện thân thiện, dễ dùng Khuyến nghị  Đây đề tài có tính thực tế cao Với nhiệm vụ nghiên cứu, đề tài đáp ứng số yêu cầu đặt Tuy nhiên, việc ứng dụng mục ngữ nghĩa ngầm LSI cho hiệu toán mở Do hướng phát triển đề tài sau:  Xây dựng tính truy tìm thơng tin web theo định kỳ  Xây dựng từ điển có độ xác cao i Sa  Thêm chức cập nhật Singular Value Decomposition (SVD) n go  Nghiên cứu tính tự động hóa chọn hệ số k cho tính tốn 𝐴𝑘 ity rs ve ni lU na io at rn te In 60 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đinh Điền (2004), “Xử lý ngôn ngữ tự nhiên” , Đại học khoa học Tự nhiên Tp Hồ Chí Minh Tiếng Anh: [2] Cherukuri Aswani Kumar, Suripeddi Srinivas (2006), “Latent Semantic Indexing Using Eigenvalue Analysis for Efficient Information Retrieval”, Comput Sci, Int J Appl Math., Vol 16, No 4, pp 551–558 [3] Canfora, G and L Cerulo (2004), “A Taxonomy of Information Retrieval Models and Tools”, Journal of Computing and Information Technology, 12 (3): p 175-194 i Sa [4] Filippo Menczer, Gautam Pain, Padmini Srinivasan (November - 2004), go Topical Web Crawlers: Evaluating Adaptive Algorithms, Indiana University n [5] Christopher D Manning, Prabhakar Raghavan and Schütze (2008) “Introduction te In Information Retrieval”, Cambridge University Press at by Wiley Publishing, Inc rn [6] Jerri Ledford (2009), Search Engine Optimization Bible, Second Edition, published na io [7] Kontostathis (2007), "Essential Dimensions of latent sematic indexing (LSI)", Proceedings of the 40th Hawaii International Conference on System lU Sciences ve ni [8] Gautam Pant, Padmini Srinivasan, and Filippo Menczer (2004), Crawling the Web, The University of Iowa, Iowa City IA 52242, USA rs [9] Marc Najork, Allan Heydon (2001), High-Performance Web Crawling, 130 Lytton ity Avenue Palo Alto, California 94301 [10] Maron, M.E., Kuhns, J.L (1960), "On Relevance, Probabilistic Indexing and Information Retrieval", J ACM 7, 216-244 [11] Michael W Berry, Zlatko Drmac, Elizabeth R Jessup (1999), "Matrix, Vector Space, and Information Retrieval", Siam Review, Vol 41, No 2, pp 335 – 352 61

Định dạng
Số trang	62
Dung lượng	1,97 MB