Tự động sửa đổi và gợi ý truy vấn tìm kiếm dựa trên các phương pháp đối sánh chuỗi xấp xỉ

96 125 0
Tự động sửa đổi và gợi ý truy vấn tìm kiếm dựa trên các phương pháp đối sánh chuỗi xấp xỉ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TRẦN THÚY NHUNG Tự ĐộNG SửA ĐổI VÀ GợI Ý TRUY VấN TÌM KIếM DựA TRÊN CÁC PHƯƠNG PHÁP ĐốI SÁNH CHUỗI XấP Xỉ Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số chuyên ngành: 60 48 0101 TÓM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC TS Phan Xuân Hiếu Thái Nguyên - 2015 i LỜI CAM ĐOAN Tên em Trần Thúy Nhung, học viên lớp Cao học K12E, chun ngành Khoa học máy tính, khóa học 2013 – 2015 Em xin cam đoan luận văn: “TỰ ĐỘNG SỬA ĐỔI VÀ GỢI Ý TRUY VẤN TÌM KIẾM DỰA TRÊN CÁC PHƯƠNG PHÁP ĐỐI SÁNH CHUỖI XẤP XỈ” Dưới hướng dẫn TS Phan Xuân Hiếu - Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, với nội dung trình bày trích dẫn đầy đủ từ nguồn tài liệu tham khảo thống (báo khoa học, sách có quyền), nội dung trình bày luận văn hồn tồn trung thực Và cơng trình nghiên cứu thân kết hợp với hướng dẫn TS Phan Xuân Hiếu tạo lập Nếu có nội dung chụp lại khơng phải thân tạo ra, em xin hoàn toàn chịu tránh nhiệm chịu hình thức kỷ luật Phú Thọ, ngày tháng năm 2015 HỌC VIÊN Trần Thúy Nhung LỜI CẢM ƠN Điều em xin gửi lời cảm ơn tới Thầy, Cô Trường Đại học Công nghệ thông tin Truyền thông Thái Nguyên thời gian vừa qua cung cấp truyền đạt chương trình học với mơn học có nội dung bổ ích Thơng qua chương trình học, em lĩnh hội nhiều kiến thức chuyên môn, phương pháp tiếp cận toán tin học Em xin gửi lời cảm ơn sâu sắc tới TS Phan Xuân Hiếu, người Thầy hướng dẫn, bảo, giám sát, theo dõi, cung cấp phương pháp, nguồn liệu tiếp cận toán để em hồn thành luận văn Em xin cảm ơn Ban Giám hiệu trường Cao đẳng Kinh tế - Kỹ thuật Phú Thọ đồng nghiệp Trường, xin cảm ơn Khoa Công nghệ thông tin – Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội tạo điều kiện giúp đỡ để em hồn thành chương trình học tập luận văn tốt nghiệp Điều cuối em xin cảm ơn gia đình, bạn bè ln nhiệt tình ủng hộ, động viên, giúp đỡ vật chất lẫn tinh thần thời gian học tập nghiên cứu Trong trình thực luận văn, có nhiều cố gắng khơng tránh khỏi thiếu sót Kính mong nhận cảm thơng tận tình bảo Thầy, Cơ bạn Em xin trân trọng cảm ơn! Phú Thọ, ngày …… tháng năm 2015 HỌC VIÊN Trần Thúy Nhung MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC BẢNG v DANH MỤC CÁC HÌNH v MỞ ĐẦU CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN 1.1 Giới thiệu toán Tự động sửa đổi gợi ý truy vấn tìm kiếm 1.1.2 Hỗ trợ truy vấn tìm kiếm sửa đổi gợi ý 1.1.3 Hỗ trợ truy vấn tìm kiếm xấp xỉ Tiếng Việt 10 1.2 Các cách tiếp cận giải toán 11 1.2.1 Cách tiếp cận thông thường 11 1.2.2 Cách tiếp cận theo thuật tốn chuỗi chung có độ dài lớn nhất.13 1.2.3 Cách cách tiếp cận theo thuật toán Similar Text 14 1.3 Cách tiếp cận đối sánh chuỗi xấp xỉ 14 1.3.1 Bài toán đối sánh chuỗi xấp xỉ 14 1.3.2 Ứng dụng đối sánh chuỗi xấp xỉ 16 CHƯƠNG 2: ĐỐI SÁNH CHUỖI XẤP XỈ CHO VẤN ĐỀ TỰ ĐỘNG SỬA ĐỔI VÀ GỢI Ý TRUY VẤN 19 2.1 Các phương pháp đối sánh chuỗi xấp xỉ 19 2.1.1 Khoảng Hamming 19 2.1.2 Khoảng cách Episode 21 2.1.3 Khoảng cách Longest Common Sequence (LSC) 21 2.2 Phương pháp đối sánh theo độ đo Levenshtein (string edit distance) 23 2.2.1 Độ đo Levenshtein 23 2.2.2 Giải thuật tính độ đo Levenshtein 24 2.2.3 Mô tả giải thuật 26 2.2.4 Trình tự bước thơng qua ví dụ cụ thể 27 2.3 Tự động sửa đổi gợi ý truy vấn dựa độ đo Levenshtein 31 2.3.1 Đánh mục truy vấn tìm kiếm có (lịch sử) 31 2.3.2 Thu gọn không gian đối sánh 36 2.3.3 Đối sánh chuỗi với độ đo Levenshtein 39 2.3.4 Đối sánh với độ đo Cosine 40 2.3.5 Đối sánh với độ đo KL 41 2.3.6 Áp dụng độ đo Levenshtine vào thực tiễn luận văn 41 CHƯƠNG 3: THỰC NGHIỆM, ĐÁNH GIÁ VÀ ỨNG DỤNG 45 3.1 Thực nghiệm đánh giá đối sánh cặp chuỗi đơn lẻ 47 3.2 Thực nghiệm đánh giá đối sánh đa chuỗi 50 3.3 Thực nghiệm đánh giá thu gọn không gian đối sánh 51 3.3.1 Một số điểm tương đồng ký tự Tiếng Việt ký tự La Tinh 52 3.3.2 Thực nghiệm đánh giá 54 3.4 Thực nghiệm đánh giá tự động sửa đổi gợi ý truy vấn 62 3.5 Ứng dụng sửa đổi gợi ý truy vấn tự động 65 KẾT LUẬN VÀ KIẾN NGHỊ 69 TÀI LIỆU THAM KHẢO 71 DANH MỤC CÁC BẢNG Bảng 2.1: Bảng mơ tả khoảng cách Hamming hai chuỗi có độ dài .19 Bảng 2.2: Độ đo Levenshtein hai chuỗi S T .24 Bảng 2.3: Kỹ thuật đánh mục xuôi 32 Bảng 2.4: Đánh số ngược 34 Bảng 3.1: Các từ/chuỗi xây dựng làm thực nghiệm thu gọn không gian đối sánh 54 DANH MỤC CÁC HÌNH Hình 1.1 Mơ hình truy vấn tìm kiếm .5 Hình 2.1: Thuật tốn Hamming .21 Hinh 2.2: Độ lệch pha Cosine vector A vector B .41 Hình 3.1: Hệ thống thực nghiệm thuật tốn Levenshtein .46 Hình 3.2 Đối sánh chuỗi đơn lẻ 48 Hình 3.3: Đối sánh với cặp chuỗi ―Công nghệ‖ ―Công nghệ‖ 49 Hình 3.4: Đối sánh đa chuỗi 51 Hình 3.5: Thu gọn khơng gian với từ khóa ―Hệ thống‖ D=15 K=15 56 Hình 3.6: Thu gọn khơng gian với từ khóa ―Hệ thống‖ D=10 K=15 .57 Hình 3.7: Thu gọn khơng gian với chuỗi ―Hệ thống‖có D = 5, K = 58 Hình 3.8: Thu hẹp không gian với chuỗi ―Hệ thống thông tin‖ với D=30;K=20 59 Hình 3.9: Thu gọn khơng gian với chuỗi ―hệ thống thông tin‖ với D=10; K=15 60 Hình 3.10: Thu gọn khơng gian với ―chuỗi hệ thống thơng tin‖ D=5 K=5 .61 Hình 3.11: Hệ thống sửa từ cho từ ―Cổng‖ .63 Hình 3.12: Hệ thống sửa đổi từ cho từ khóa ―Tộngn‖ 64 Hình 3.13: Hệ thống sửa đổi với từ khóa ―Gợi‖ 64 Hình 3.14: Gợi ý chuỗi ―Gựi ý truy vấn‖ .66 Hình 3.15: Kết chuỗi gợi ý ―Hệ thống thơng tin‖ .67 Hình 3.16: Kết chuỗi gợi ý ―Phần mểmm‖ .67 Hình 3.17: Kết chuỗi gợi ý ―Phần mểm‖ 68 MỞ ĐẦU Lý chọn đề tài Ngày nay, tìm kiếm thơng tin vấn đề nghiên cứu ứng dụng nhận nhiều quan tâm cộng đồng khoa học máy tính cơng nghệ thơng tin Trong bối cảnh bùng nổ liệu, cần có cơng cụ tìm kiếm thơng tin tự động để hỗ trợ người dùng Một tính quan trọng hệ thống tìm kiếm khả tự động sửa đổi gợi ý truy vấn tìm kiếm Đối với hệ thống tìm kiếm lớn Google, Bing, … việc gợi ý truy vấn đúng, xác giúp người dùng thao tác nhanh tìm kết theo ý muốn chí với truy vấn gần Luận văn hướng đến khảo sát, nghiên cứu, xây dựng thử nghiệm mô đun tự động sửa đổi gợi ý truy vấn tiếng Việt dựa vào phương pháp thuật toán đối sánh mẫu xấp xỉ Việc đối sánh để tìm truy vấn để gợi ý cần phải thực nhanh khía cạnh mà đề tài cần tập trung nghiên cứu Bài tốn sánh mẫu khơng có miền liệu văn mà có miền liệu đa phương tiện khác (ảnh, video, âm thanh, …) Trên thực tế có nhiều ứng dụng sánh mẫu như: chế sánh mẫu hệ điều hành (chẳng hạn, lệnh grep, fgrep hệ điều hành UNIX), chế kiểm tra file nhiễm virus (sánh mẫu – xâu đặc tả virus - với nội dung file), máy tìm kiếm (search engine) Internet, xác định mẫu gene bệnh xuất đoạn gene người Trong thời đại tốc độ lượng thông tin tăng gấp đôi sau chu kỳ 18 tháng, tốc độ khả lưu trữ máy tính tăng nhanh vấn đề nghiên cứu, phát triển nâng cao hiệu thuật tốn sánh mẫu ln chủ đề nghiên cứu thời Trong thuật tốn mơn khoa học máy tính, khái niệm Khoảng cách Levenshtein thể khoảng cách khác biệt chuỗi kí tự Khoảng cách Levenshtein chuỗi T chuỗi P số bước biến chuỗi S thành chuỗi T thông qua phép biến đổi là: - Xố kí tự - Thêm kí tự - Thay kí tự kí tự khác Khoảng cách đặt theo tên Vladimir Levenshtein, người đề khái niệm vào năm 1965 Nó sử dụng việc tính tốn giống khác chuỗi, chương trình kiểm tra lỗi tả winword spellchecker Ví dụ: Khoảng cách Levenshtein chuỗi "kiten" "sitting" 3, phải dùng lần biến đổi kitten -> sitten (thay "k" "s") sitten -> sittin (thay "e" "i") sittin -> siting (thêm kí tự "g") Tìm hiểu, nghiên cứu tốn tự động sửa đổi gợi ý truy vấn tìm kiếm; đồng thời nghiên cứu phương pháp đối sánh chuỗi xấp xỉ đặt trọng tâm vào phương pháp đối sánh theo độ đo Levenshtein; ứng dụng vào sửa đổi gợi ý truy vấn tự động Là mà luận văn mong muốn đạt Tính thực tiễn đề tài Như trình bày trên, có nhiều tình xảy tiến hành tìm kiếm thơng tin dạng chuỗi, như: gõ sai kí tự, gõ thừa kí tự,… Để khắc phục hạn chế mang lại kết xác cho người sử dụng nên em chọn đề tài ―Tự động sửa đổi gợi ý truy vấn tìm kiếm dựa phương pháp đối sánh chuỗi xấp xỉ.‖ Đặc biệt, đề tài hướng đến khảo sát, nghiên cứu, thử nghiệm với liệu truy vấn tiếng Việt Việc xây dựng mô đun tự động sửa đổi gợi ý truy vấn với chất lượng cao (chính xác, độ phủ cao, tốc độ nhanh, …), bổ sung tính tốt cho khâu tìm kiếm site thương mại điện tử, du lịch, y học, … 59 Hình 3.8: Thu hẹp khơng gian với chuỗi “Hệ thống thông tn” với D=30;K=20 Với thực nghiệm thu hẹp không gian D = 30 K = 20, hệ thống trả cho chuỗi gợi ý ―Hệ thống thông tin‖ với kết 14 chuỗi thích hợp phù hợp hệ thống có - Thu hẹp: Từ khóa: ―Hệ thống thông tin‖ với thông số D = 10 K = 15 60 Hình 3.9: Thu gọn khơng gian với chuỗi “hệ thống thông tn” với D=10; K=15 Dựa vào hình 3.4, 3.5 3.6 cho thấy ý tưởng nhận xét: Không gian đối sánh giảm làm cho hệ thống chạy hiệu (đối sánh với chuỗi có độ dài khoảng cách phù hợp, loại bỏ chuỗi không phù hợp tham gia đối sánh) Nếu cho D, K lớn tương tưng ứng với nhiều chuỗi đối sánh có nhiều kết trả về, phương pháp phù hợp cho hệ thống hỗ trợ gợi ý Nếu D, K nhỏ kết hơn, phù hợp cho hệ thống sửa đổi từ sai tả - Chọn D = 5; K = 5; Từ khóa: ―Hệ thống thơng tin‖ với kết quả: 61 Hình 3.10: Thu gọn khơng gian với “chuỗi hệ thống thông tn” D=5 K=5 Thu gọn với với không gian hẹp D=5 K=5, hệ thống trả kết * Đánh giá thu hẹp không gian: - Khoảng cách Levenshtein chuỗi T đối sánh với chuỗi P nhỏ chuỗi T giống chuỗi P Trong trường hợp đặc biệt khoảng cách T P trùng Như khoảng cách lớn T P thể độ xấp xỉ nhỏ - Nếu khoảng Levenshtein nhỏ áp dụng cho sửa lỗi từ khóa Còn với câu khơng thể sử dụng Lý đơn giản từ Tiếng Việt tương ứng với độ dài 1, 2, 3, 4, 5, kí tự muốn trả kết gợi ý cần phải thay đổi khoảng cách độ đo Lenvenshtein nằm khoảng [1,6] trí dài hơn, sử dụng đến khoảng [1 12] 62 - Nếu khoảng cách Levenshtein lớn kết đối sánh cho hệ thống nhiều Nhưng hệ thống gợi ý lại điểm cần ý Lý đơn giản, hệ thống gợi ý bao gồm gợi ý từ gợi ý câu Với gợi ý câu mà lại dùng độ đo nhỏ không hợp lý kết trả câu (khơng có vài câu), trường hợp phải sử dụng khoảng cách độ đo lớn gợi ý từ nhiều kết 3.4 Thực nghiệm đánh giá tự động sửa đổi gợi ý truy vấn Hệ thống thực môi trường ứng dụng Web, xây dựng ứng dụng tự động sửa từ gợi ý truy vấn tìm kiếm (hình 3.1) Hệ thống với giao diện đơn giản bao gồm thành phần thực nghiệm với giao diện: - Ô văn thực cung cấp câu truy vấn tìm kiếm - Nút nhấn thực chuyển truy vấn tới hệ thống - Hệ thống thực thuật toán Leveshtein cung cấp từ trả từ có cần sửa không Nếu cần sửa cung cấp từ gần cho việc sửa từ Từ gần từ có độ đo nhỏ từ tìm kiếm * Thuật tốn: Ý tưởng: Thực sửa đổi gợi ý truy vấn cho từ Khi từ nhập vào viết sai tả hệ thống tiến hành sửa đưa gợi ý từ ―gần giống‖ để thay cho từ cung cấp (gần giống: dựa vào khoảng cách D) Input: từ Output: Danh sách từ gần giống với từ cung cấp ban đầu B1: Cung cấp từ B2: Tính D theo thuật tốn: D = 0: từ nhập vào đúng, sửa chuyển sang B3 63 D!=0: tiến hành sửa từ chuyển B3 B3: Đối sánh từ cung cấp với từ từ điển (trong hệ thống), có sử dụng thu hẹp khơng gian đối sánh để tìm từ gần giống với từ cung cấp (Các từ xếp theo giá trị D tăng dần) B4: Hiển thị kết theo D - Thực nghiệm với từ ―Cổng‖: Hình 3.11: Hệ thống sửa từ cho từ “Cổng” - Thực nghiệm với từ khóa ―Tộngn‖ 64 Hình 3.12: Hệ thống sửa đổi từ cho từ khóa “Tộngn” Với từ khóa cung cấp Từ bị sai hệ thống tiến hành sửa thành từ ―Rộng‖ Các từ tham gia đối sánh sửa ―rộng‖, ―tống‖,‖tổng‖, ―từng‖, ―Thống‖, ―trồng‖, ―trọng‖, ―động‖ - Thực nghiệm với từ : ―Gợi‖ Hình 3.13: Hệ thống sửa đổi với từ khóa “Gợi” 65 Hệ thống tìm từ sửa ―Gợi‖, từ thay ―gợi‖, ―gọi‘, ―gối‖, ―gửi‖, ―lợi‖, ‗giải‘, ―giỏi‖, ―giới‖, ―đợi‖, ―ngồi‖ * Đánh giá hệ thống sửa đổi từ: Hệ thống dựa từ điển từ xây dựng sẵn Hệ thống tiến hành đối sánh xấp xỉ tìm từ cần sửa hệ thống từ Nếu tìm thấy từ đối sánh có khoảng cách theo thuật tốn Levenshtein từ khơng phải sửa Ngược lại khoảng cách khác 0, hệ thống tìm từ có khoảng cách nhỏ Từ tìm kiếm hệ thống từ điển Hệ thống cho kết tốt, tốc độ chạy chấp nhận (kết trả tối đa 2s) 3.5 Ứng dụng sửa đổi gợi ý truy vấn tự động Hệ thống gợi ý truy vấn tự động với giao diện mơ tả hình vẽ (hình 3.1) Với thực dựa ứng dụng Web Chức gợi ý dựa chuỗi cung cấp chuỗi tương tự, hệ thống tiến hành theo trình tự sau: - Cung cấp chuỗi dựa giao diện người sử dụng - Tiến hành đối sánh chuỗi với chuỗi hệ thống (dữ liệu hệ thống) - Trả chuỗi có khoảng cách đối sánh nhỏ Hệ thống thực xếp kết tăng dần theo khoảng cách đối sánh Hệ thống có giao diện: - Ô gõ văn bản: Ô thực hỗ trợ người dùng nhập câu truy vấn để tiến hành cho chức gợi ý Mỗi thực nhấn phím hệ thống thực lấy câu truy vấn từ giao diện gửi tới server - Server thực giải thuật Levenshtein với thư viện từ câu hệ thống Tiến hành lấy kết và thơng báo kết trả phía Client - Thực nghiệm với hệ thống gợi ý với chuỗi: Gựi ý truy vấn 66 Hình 3.14: Gợi ý chuỗi “Gựi ý truy vấn” Khi thực hệ thống tự động tìm kiếm người dùng gõ ký tự vào giao diện Khi người dùng ngừng gõ, hệ thống đưa kết cuối Mỗi người dùng ngừng gõ hệ thống ngừng tìm kiếm Theo hình 3.15, hệ thống thực gợi ý tối đa 08 kết chuỗi có độ đo độ tương đồng xếp theo thứ tự Các kết từ ―Gựi ý truy vấn‖, kết tìm thấy ―gợi ý truy vấn‖, ―gợi ý câu truy vấn‖, ―Gợi ý từ truy vấn‖, ―Gợi ý từ truy‖, ―Gợi ý chuỗi truy vấn‖, ―Hệ thống truy vấn‖ - Thực nghiệm hệ thống gợi ý truy vấn với chuỗi truy vấn: ―Hệ thống thơng tin‖ 67 Hình 3.15: Kết chuỗi gợi ý “Hệ thống thông tin” Với chuỗi truy vấn ―Hệ thống thông tin‖, hệ thống thực đối sánh danh sách liệu câu, hệ thống tiến hành cung cấp kết ―hệ thống thông tin‖, ―Hệ thống truy vấn‖, ―Hệ thống mạng‖, ―hệ thống máy tính‖, ―Cơng nghệ thơng tin‖, ―Hệ thống điện‖, ―Hệ thống gợi ý‖, ―Hệ thống tìm kiếm‖ - Thực nghiệm hệ thống với câu truy vấn ―Phần mềmm‖ Hình 3.16: Kết chuỗi gợi ý “Phần mềmm” 68 Hệ thống gợi ý với từ khóa ―Phần mềmm‖ Hệ thống gợi ý chuỗi ―phần mềm‖, ―Phần cứng‖, ―phần‖, ―phần ‖, ―Kỹ sư phần mềm‖, ―hệ thống phần mềm‖ - Thực nghiệm hệ thống với câu truy vấn ―Phần mểm‖ Hình 3.17: Kết chuỗi gợi ý “Phần mểm” * Đánh giá hệ thống: Hệ thống gợi ý chuỗi truy vấn, với chuỗi xây dựng khiêm tốn, số lượng Với chuỗi cung cấp từ giao diện, hệ thống tiến hành đối sánh với chuỗi có từ điển Hệ thống tìm tối đa kết cho phù hợp với kết đối sánh dựa thuật toán Hệ thống chạy ổn định xác với nhiều trường hợp khác Hệ thống chạy nhanh (tối đa giây cho kết quả), với kết trả phù hợp với mong đợi người sử dụng Kết luận chương 3: Thơng qua kết tìm hiểu thuật toán lý thuyết thực nghiệm, em xây dựng ứng dụng cho phép thực nghiệm hệ thống máy tính với kết xác 69 KẾT LUẬN VÀ KIẾN NGHỊ Kết đạt đề tài: Thông qua luận văn em lĩnh hội số vấn đề sau: - Tìm hiểu cách tiếp cận đối sánh chuỗi xấp xỉ theo chiều nghiên cứu khoa học - Tìm hiểu thuật toán cụ thể đối sánh chuỗi xấp xỉ (Thuật toán Levenshtein) - Thực nghiệm đối sánh chuỗi xấp xỉ với thuật toán nghiên cứu - Xây dựng hệ thống ứng dụng thuật toán khoa học vào thực tiễn với chức năng: + Chức sửa từ: Tiến hành sửa từ từ bị sai, cách kiểm tra từ sai, từ theo thuật toán + Chức gợi ý truy vấn: Trước tìm kiếm hệ thống thực gợi ý chuỗi gần, tương tự với chuỗi gõ nhằm nâng cao hiệu hệ thống Thực chức gợi ý Tiếng Việt đặc thù ngành công nghệ thông tin Việt Nam - Thực nghiệm thu hẹp không gian đối sánh theo phương pháp đơn giản Cho phép hệ thống tăng tính hiệu toán Hạn chế đề tài: Tuy nhiên, trình thực nội dung luận văn tồn số hạn chế như: Hệ thống liệu đơn giản từ câu, kỹ thuật thu gọn không gian chưa thật tối ưu Nhiều thuật toán đối sánh xấp xỉ đại cho hiệu cao chưa áp dụng thực tế Hệ thống giao diện hệ thống đơn giản Trong thời gian tới em thực hoàn thiện thêm 70 hệ thống về: tự động tổ hợp từ từ điển, tự động tổ hợp câu từ điển 70 Thay đổi hệ thống với giao diện thân thiện với người dùng, đặc biệt ý với đối sánh chuỗi xấp xỉ Tiếng Việt Hướng phát triển đề tài: Nếu điều kiện cho phép, em tiếp tục mở rộng phần thực nghiệm ứng dụng thuật toán Levenshtein việc kiểm tra chuỗi AND Gen, kiểm tra lỗi tả,… 71 TÀI LIỆU THAM KHẢO [1] GonzaloNavarro, ―ApproximateTextSearching‖, A Thesis presented to the University of Chile – 2011 [2] Petteri Jokinen, Jorma Tarhio, and Esko Ukkone, ―A Comparison of Approximate String Matching Algorithms‖, SOFTWARE—PRACTICE AND EXPERIENCE, VOL 1(1), 1–4 (JANUARY 1988) [3] Navarro, Gonzalo, "A guided tour to approximate string matching" (PDF) ACM Computing Surveys 33 (1): 31–88, 2001 [4] Wagner, Robert A, Fischer, Michael J, ―The String-to-String Correction Problem‖, Journal of the ACM 21 (1): 168–173, 1974 [5] Baeza-Yates R, Navarro G, ―A faster algorithm for approximate string matching‖ In Dan Hirchsberg, Gene Myers Combinatorial Pattern Matching (CPM'96), LNCS 1075 Irvine, CA pp 1–23, 1996 [6] Wagner R, Fischer M, ―The string-to-string correction problem‖ Journal of the ACM 21: 168–73, 1974 [7] [Cosin vector]Sidorov, Grigori; Gelbukh, Alexander; Gómez-Adorno, Helena; Pinto, David, ―Sof Similarity and Soft Cosine Measure: Similarity of Features in Vector Space Model‖ Computación y Sistemas 18 (3): 491–504, Retrieved October 2014 [8] A Amir, D Keselman, G M Landau, M Lewenstein, N Lewenstein, and M Rodeh, ―Indexing and dictionary matching with one error In Proceedings of Workshop on Algorithms and Data Structures‖, pages 181–192, 1999 [9] H Dalianis, ―Evaluating a spelling support in a search engine In Proceedings of NLDB-2002, the 7th International Workshop on the Applications of Natural Language to Information Systems‖, June 2002 72 [10] Black, Paul E, ―Inverted index, Dictionary of Algorithms and Data Structures‖, U.S National Institute of Standards and Technology Oct 2006 Verified Dec 2006 [11] Clarke, Cormack, ―Dynamic Inverted Indexes for a Distributed Full- Text Retrieval System‖ TechRep MT-95-01, University of Waterloo, February 1995 [12] Rubner, Y, Tomasi, C, and Guibas, L J, ―The earth mover's distance as a metric for image retrieval, International Journal of Computer Vision‖, 99– 121, 2001 [13] Press, W.H, Teukolsky, S.A, Veterling, W.T, Flannery, B.P, ―Kullback– Leibler Distance Numerical Recipes: The Art of Scientific Computing (3rd ed.)‖, Cambridge University Press, 2007 [14] Tommi Hirvola, Jorma Tarhio, ―Approximate Online Matching of Circular Strings‖, 315-325, SEA 2014 [15] Navarro, Gonzalo , ―A guided tour to approximate string matching‖, 31– 88, 2009 [16] I Dagan, L Lee, F Pereira, ―Similarity-based models of word cooccurrence probabilities‖, Machine Learning, 43-69, 1999 ... vào sửa đổi gợi ý truy vấn tự động Phạm vi nghiên cứu - Tìm hiểu khái niệm liên quan đến tốn tự động sửa đổi gợi ý truy vấn tìm kiếm - Tìm hiểu số phương pháp đối sánh chuỗi xấp xỉ - Đi sâu tìm. .. 1.3.2 Ứng dụng đối sánh chuỗi xấp xỉ 16 CHƯƠNG 2: ĐỐI SÁNH CHUỖI XẤP XỈ CHO VẤN ĐỀ TỰ ĐỘNG SỬA ĐỔI VÀ GỢI Ý TRUY VẤN 19 2.1 Các phương pháp đối sánh chuỗi xấp xỉ 19 2.1.1... tài tìm hiểu, nghiên cứu toán tự động sửa đổi gợi ý truy vấn tìm kiếm; đồng thời nghiên cứu phương pháp đối sánh chuỗi xấp xỉ đặt trọng tâm vào phương pháp đối sánh theo độ đo Levenshtein Và ứng

Ngày đăng: 06/01/2019, 22:26

Tài liệu cùng người dùng

Tài liệu liên quan