Tự động sửa đổi và gợi ý truy vấn tìm kiếm dựa trên các phương pháp đối sánh chuỗi xấp xỉ

79 324 0
Tự động sửa đổi và gợi ý truy vấn tìm kiếm dựa trên các phương pháp đối sánh chuỗi xấp xỉ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TRẦN THÚY NHUNG Tự ĐộNG SửA ĐổI VÀ GợI Ý TRUY VấN TÌM KIếM DựA TRÊN CÁC PHƯƠNG PHÁP ĐốI SÁNH CHUỗI XấP Xỉ Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số chuyên ngành: 60 48 0101 TÓM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC TS Phan Xuân Hiếu Thái Nguyên - 2015 i LỜI CAM ĐOAN Tên em Trần Thúy Nhung, học viên lớp Cao học K12E, chuyên ngành Khoa học máy tính, khóa học 2013 – 2015 Em xin cam đoan luận văn: “TỰ ĐỘNG SỬA ĐỔI VÀ GỢI Ý TRUY VẤN TÌM KIẾM DỰA TRÊN CÁC PHƢƠNG PHÁP ĐỐI SÁNH CHUỖI XẤP XỈ” Dƣới hƣớng dẫn TS Phan Xuân Hiếu - Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội, với nội dung trình bày đƣợc trích dẫn đầy đủ từ nguồn tài liệu tham khảo thống (báo khoa học, sách có quyền), nội dung trình bày luận văn hoàn toàn trung thực Và công trình nghiên cứu thân kết hợp với hƣớng dẫn TS Phan Xuân Hiếu tạo lập Nếu có nội dung chụp lại thân tạo ra, em xin hoàn toàn chịu tránh nhiệm chịu hình thức kỷ luật Phú Thọ, ngày tháng năm 2015 HỌC VIÊN Trần Thúy Nhung ii LỜI CẢM ƠN Điều em xin gửi lời cảm ơn tới Thầy, Cô Trƣờng Đại học Công nghệ thông tin Truyền thông Thái Nguyên thời gian vừa qua cung cấp truyền đạt chƣơng trình học với môn học có nội dung bổ ích Thông qua chƣơng trình học, em đƣợc lĩnh hội nhiều kiến thức chuyên môn, phƣơng pháp tiếp cận toán tin học Em xin gửi lời cảm ơn sâu sắc tới TS Phan Xuân Hiếu, ngƣời Thầy hƣớng dẫn, bảo, giám sát, theo dõi, cung cấp phƣơng pháp, nguồn liệu tiếp cận toán để em hoàn thành đƣợc luận văn Em xin cảm ơn Ban Giám hiệu trƣờng Cao đẳng Kinh tế - Kỹ thuật Phú Thọ đồng nghiệp Trƣờng, xin cảm ơn Khoa Công nghệ thông tin – Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội tạo điều kiện giúp đỡ để em hoàn thành chƣơng trình học tập luận văn tốt nghiệp Điều cuối em xin cảm ơn gia đình, bạn bè nhiệt tình ủng hộ, động viên, giúp đỡ vật chất lẫn tinh thần thời gian học tập nghiên cứu Trong trình thực luận văn, có nhiều cố gắng nhƣng không tránh khỏi thiếu sót Kính mong nhận đƣợc cảm thông tận tình bảo Thầy, Cô bạn Em xin trân trọng cảm ơn! Phú Thọ, ngày …… tháng năm 2015 HỌC VIÊN Trần Thúy Nhung iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC BẢNG v DANH MỤC CÁC HÌNH v MỞ ĐẦU CHƢƠNG 1: GIỚI THIỆU BÀI TOÁN 1.1 Giới thiệu toán Tự động sửa đổi gợi ý truy vấn tìm kiếm 1.1.2 Hỗ trợ truy vấn tìm kiếm sửa đổi gợi ý 1.1.3 Hỗ trợ truy vấn tìm kiếm xấp xỉ Tiếng Việt 10 1.2 Các cách tiếp cận giải toán 11 1.2.1 Cách tiếp cận thông thƣờng 11 1.2.2 Cách tiếp cận theo thuật toán chuỗi chung có độ dài lớn 13 1.2.3 Cách cách tiếp cận theo thuật toán Similar Text 14 1.3 Cách tiếp cận đối sánh chuỗi xấp xỉ 14 1.3.1 Bài toán đối sánh chuỗi xấp xỉ 14 1.3.2 Ứng dụng đối sánh chuỗi xấp xỉ 16 CHƢƠNG 2: ĐỐI SÁNH CHUỖI XẤP XỈ CHO VẤN ĐỀ TỰ ĐỘNG SỬA ĐỔI VÀ GỢI Ý TRUY VẤN 19 2.1 Các phƣơng pháp đối sánh chuỗi xấp xỉ 19 2.1.1 Khoảng Hamming 19 2.1.2 Khoảng cách Episode 21 2.1.3 Khoảng cách Longest Common Sequence (LSC) 21 2.2 Phƣơng pháp đối sánh theo độ đo Levenshtein (string edit distance) 23 2.2.1 Độ đo Levenshtein 23 iv 2.2.2 Giải thuật tính độ đo Levenshtein 24 2.2.3 Mô tả giải thuật 26 2.2.4 Trình tự bƣớc thông qua ví dụ cụ thể 27 2.3 Tự động sửa đổi gợi ý truy vấn dựa độ đo Levenshtein 31 2.3.1 Đánh mục truy vấn tìm kiếm có (lịch sử) 31 2.3.2 Thu gọn không gian đối sánh 36 2.3.3 Đối sánh chuỗi với độ đo Levenshtein 39 2.3.4 Đối sánh với độ đo Cosine 40 2.3.5 Đối sánh với độ đo KL 41 2.3.6 Áp dụng độ đo Levenshtine vào thực tiễn luận văn 41 CHƢƠNG 3: THỰC NGHIỆM, ĐÁNH GIÁ VÀ ỨNG DỤNG 45 3.1 Thực nghiệm đánh giá đối sánh cặp chuỗi đơn lẻ 47 3.2 Thực nghiệm đánh giá đối sánh đa chuỗi 50 3.3 Thực nghiệm đánh giá thu gọn không gian đối sánh 51 3.3.1 Một số điểm tƣơng đồng ký tự Tiếng Việt ký tự La Tinh 52 3.3.2 Thực nghiệm đánh giá 54 3.4 Thực nghiệm đánh giá tự động sửa đổi gợi ý truy vấn 62 3.5 Ứng dụng sửa đổi gợi ý truy vấn tự động 65 KẾT LUẬN VÀ KIẾN NGHỊ 69 TÀI LIỆU THAM KHẢO 71 v DANH MỤC CÁC BẢNG Bảng 2.1: Bảng mô tả khoảng cách Hamming hai chuỗi có độ dài nhƣ 19 Bảng 2.2: Độ đo Levenshtein hai chuỗi S T 24 Bảng 2.3: Kỹ thuật đánh mục xuôi 32 Bảng 2.4: Đánh số ngƣợc 34 Bảng 3.1: Các từ/chuỗi đƣợc xây dựng làm thực nghiệm thu gọn không gian đối sánh 54 DANH MỤC CÁC HÌNH Hình 1.1 Mô hình truy vấn tìm kiếm Hình 2.1: Thuật toán Hamming 21 Hinh 2.2: Độ lệch pha Cosine vector A vector B 41 Hình 3.1: Hệ thống thực nghiệm thuật toán Levenshtein 46 Hình 3.2 Đối sánh chuỗi đơn lẻ 48 Hình 3.3: Đối sánh với cặp chuỗi ―Công nghệ‖ ―Công nghệ‖ 49 Hình 3.4: Đối sánh đa chuỗi 51 Hình 3.5: Thu gọn không gian với từ khóa ―Hệ thống‖ D=15 K=15 56 Hình 3.6: Thu gọn không gian với từ khóa ―Hệ thống‖ D=10 K=15 57 Hình 3.7: Thu gọn không gian với chuỗi ―Hệ thống‖có D = 5, K = 58 Hình 3.8: Thu hẹp không gian với chuỗi ―Hệ thống thông tin‖ với D=30;K=20 59 Hình 3.9: Thu gọn không gian với chuỗi ―hệ thống thông tin‖ với D=10; K=15 60 Hình 3.10: Thu gọn không gian với ―chuỗi hệ thống thông tin‖ D=5 K=5 61 Hình 3.11: Hệ thống sửa từ cho từ ―Cổng‖ 63 Hình 3.12: Hệ thống sửa đổi từ cho từ khóa ―Tộngn‖ 64 Hình 3.13: Hệ thống sửa đổi với từ khóa ―Gợi‖ 64 Hình 3.14: Gợi ý chuỗi ―Gựi ý truy vấn‖ 66 Hình 3.15: Kết chuỗi gợi ý ―Hệ thống thông tin‖ 67 Hình 3.16: Kết chuỗi gợi ý ―Phần mểmm‖ 67 Hình 3.17: Kết chuỗi gợi ý ―Phần mểm‖ 68 MỞ ĐẦU Lý chọn đề tài Ngày nay, tìm kiếm thông tin vấn đề nghiên cứu ứng dụng nhận đƣợc nhiều quan tâm cộng đồng khoa học máy tính công nghệ thông tin Trong bối cảnh bùng nổ liệu, cần có công cụ tìm kiếm thông tin tự động để hỗ trợ ngƣời dùng Một tính quan trọng hệ thống tìm kiếm khả tự động sửa đổi gợi ý truy vấn tìm kiếm Đối với hệ thống tìm kiếm lớn nhƣ Google, Bing, … việc gợi ý truy vấn đúng, xác giúp ngƣời dùng thao tác nhanh tìm đƣợc kết theo ý muốn chí với truy vấn gần Luận văn hƣớng đến khảo sát, nghiên cứu, xây dựng thử nghiệm mô đun tự động sửa đổi gợi ý truy vấn tiếng Việt dựa vào phƣơng pháp thuật toán đối sánh mẫu xấp xỉ Việc đối sánh để tìm đƣợc truy vấn để gợi ý cần phải thực nhanh khía cạnh mà đề tài cần tập trung nghiên cứu Bài toán sánh mẫu miền liệu văn mà có miền liệu đa phƣơng tiện khác (ảnh, video, âm thanh, …) Trên thực tế có nhiều ứng dụng sánh mẫu nhƣ: chế sánh mẫu hệ điều hành (chẳng hạn, lệnh grep, fgrep hệ điều hành UNIX), chế kiểm tra file nhiễm virus (sánh mẫu – xâu đặc tả virus - với nội dung file), máy tìm kiếm (search engine) Internet, xác định mẫu gene bệnh xuất đoạn gene ngƣời Trong thời đại tốc độ lƣợng thông tin tăng gấp đôi sau chu kỳ 18 tháng, tốc độ khả lƣu trữ máy tính tăng nhanh vấn đề nghiên cứu, phát triển nâng cao hiệu thuật toán sánh mẫu chủ đề nghiên cứu thời Trong thuật toán môn khoa học máy tính, khái niệm Khoảng cách Levenshtein thể khoảng cách khác biệt chuỗi kí tự Khoảng cách Levenshtein chuỗi T chuỗi P số bƣớc biến chuỗi S thành chuỗi T thông qua phép biến đổi là: - Xoá kí tự - Thêm kí tự - Thay kí tự kí tự khác Khoảng cách đƣợc đặt theo tên Vladimir Levenshtein, ngƣời đề khái niệm vào năm 1965 Nó đƣợc sử dụng việc tính toán giống khác chuỗi, nhƣ chƣơng trình kiểm tra lỗi tả winword spellchecker Ví dụ: Khoảng cách Levenshtein chuỗi "kitten" "sitting" 3, phải dùng lần biến đổi kitten -> sitten (thay "k" "s") sitten -> sittin (thay "e" "i") sittin -> sitting (thêm kí tự "g") Tìm hiểu, nghiên cứu toán tự động sửa đổi gợi ý truy vấn tìm kiếm; đồng thời nghiên cứu phƣơng pháp đối sánh chuỗi xấp xỉ đặt trọng tâm vào phƣơng pháp đối sánh theo độ đo Levenshtein; ứng dụng vào sửa đổi gợi ý truy vấn tự động Là mà luận văn mong muốn đạt đƣợc Tính thực tiễn đề tài Nhƣ trình bày trên, có nhiều tình xảy tiến hành tìm kiếm thông tin dƣới dạng chuỗi, nhƣ: gõ sai kí tự, gõ thừa kí tự,… Để khắc phục hạn chế mang lại kết xác cho ngƣời sử dụng nên em chọn đề tài ―Tự động sửa đổi gợi ý truy vấn tìm kiếm dựa phƣơng pháp đối sánh chuỗi xấp xỉ.‖ Đặc biệt, đề tài hƣớng đến khảo sát, nghiên cứu, thử nghiệm với liệu truy vấn tiếng Việt Việc xây dựng đƣợc mô đun tự động sửa đổi gợi ý truy vấn với chất lƣợng cao (chính xác, độ phủ cao, tốc độ nhanh, …), bổ sung tính tốt cho khâu tìm kiếm site thƣơng mại điện tử, du lịch, y học, … 3 Nội dung nghiên cứu Mục tiêu nghiên cứu đề tài tìm hiểu, nghiên cứu toán tự động sửa đổi gợi ý truy vấn tìm kiếm; đồng thời nghiên cứu phƣơng pháp đối sánh chuỗi xấp xỉ đặt trọng tâm vào phƣơng pháp đối sánh theo độ đo Levenshtein Và ứng dụng vào sửa đổi gợi ý truy vấn tự động Phạm vi nghiên cứu - Tìm hiểu khái niệm liên quan đến toán tự động sửa đổi gợi ý truy vấn tìm kiếm - Tìm hiểu số phƣơng pháp đối sánh chuỗi xấp xỉ - Đi sâu tìm hiểu nghiên cứu phƣơng pháp đối sánh theo độ đo Levenshtein - Thực nghiệm, đánh giá ứng dụng tự động sửa đổi gợi ý truy vấn Phƣơng pháp nghiên cứu - Tìm hiểu tài liệu vấn đề liên quan - Tham gia thảo luận trình bày xemina - Thực nghiệm, đánh giá ứng dụng Bố cục luận văn Luận văn bao gồm: mục lục, phần mở đầu - Chƣơng 1: Giới thiệu toán - Chƣơng 2: Đối sánh chuỗi xấp xỉ cho vấn đề Tự động sửa đổi gợi ý truy vấn - Chƣơng 3: Thực nghiệm, đánh giá, ứng dụng Kết luận kiến nghị 58 Hình 3.7: Thu gọn không gian với chuỗi “Hệ thống”có D = 5, K = Với kết thực nghiệm D = K = thấy tìm đƣợc chuỗi thích hợp cho đối sánh ―Hệ thống‖ ―thống‖ Nhƣ rút kết luận là: Nếu nhƣ không gian nhỏ kết trả hệ thống theo thuật toán đối sánh chuỗi cho kết quả, kết chuỗi có độ xấp xỉ cao, phù hợp cho hệ thống sửa đổi từ Nếu nhƣ không gian đối sánh nhỏ có kết cho hệ thống gợi ý truy vấn tìm kiếm - Thu hẹp: Từ khóa: ―Hệ thống thông tin‖ với thông số D = 30 K = 15 59 Hình 3.8: Thu hẹp không gian với chuỗi “Hệ thống thông tin” với D=30;K=20 Với thực nghiệm thu hẹp không gian D = 30 K = 20, hệ thống trả cho chuỗi gợi ý ―Hệ thống thông tin‖ với kết 14 chuỗi thích hợp phù hợp hệ thống có - Thu hẹp: Từ khóa: ―Hệ thống thông tin‖ với thông số D = 10 K = 15 60 Hình 3.9: Thu gọn không gian với chuỗi “hệ thống thông tin” với D=10; K=15 Dựa vào hình 3.4, 3.5 3.6 cho thấy đƣợc ý tƣởng nhận xét: Không gian đối sánh đƣợc giảm làm cho hệ thống chạy hiệu (đối sánh với chuỗi có độ dài khoảng cách phù hợp, loại bỏ chuỗi không phù hợp tham gia đối sánh) Nếu cho D, K lớn tƣơng tƣng ứng với nhiều chuỗi đối sánh có nhiều kết trả về, phƣơng pháp phù hợp cho hệ thống hỗ trợ gợi ý Nếu D, K nhỏ kết hơn, phù hợp cho hệ thống sửa đổi từ sai tả - Chọn D = 5; K = 5; Từ khóa: ―Hệ thống thông tin‖ với kết quả: 61 Hình 3.10: Thu gọn không gian với “chuỗi hệ thống thông tin” D=5 K=5 Thu gọn với với không gian hẹp D=5 K=5, hệ thống trả kết * Đánh giá thu hẹp không gian: - Khoảng cách Levenshtein chuỗi T đối sánh với chuỗi P nhỏ chuỗi T giống chuỗi P Trong trƣờng hợp đặc biệt khoảng cách T P trùng Nhƣ khoảng cách lớn T P thể độ xấp xỉ nhỏ - Nếu khoảng Levenshtein nhỏ áp dụng cho sửa lỗi từ khóa Còn với câu sử dụng đƣợc Lý đơn giản từ Tiếng Việt tƣơng ứng với độ dài 1, 2, 3, 4, 5, kí tự nhƣ muốn trả kết gợi ý cần phải thay đổi khoảng cách độ đo Lenvenshtein nằm khoảng [1,6] trí dài hơn, sử dụng đến khoảng [1 12] 62 - Nếu khoảng cách Levenshtein lớn kết đối sánh cho hệ thống nhiều Nhƣng hệ thống gợi ý lại điểm cần ý Lý đơn giản, hệ thống gợi ý bao gồm gợi ý từ gợi ý câu Với gợi ý câu mà lại dùng độ đo nhỏ không hợp lý kết trả câu (không có vài câu), trƣờng hợp phải sử dụng khoảng cách độ đo lớn gợi ý từ nhiều kết 3.4 Thực nghiệm đánh giá tự động sửa đổi gợi ý truy vấn Hệ thống đƣợc thực môi trƣờng ứng dụng Web, xây dựng ứng dụng tự động sửa từ gợi ý truy vấn tìm kiếm (hình 3.1) Hệ thống với giao diện đơn giản bao gồm thành phần thực nghiệm với giao diện: - Ô văn thực cung cấp câu truy vấn tìm kiếm - Nút nhấn thực chuyển truy vấn tới hệ thống - Hệ thống đƣợc thực thuật toán Leveshtein cung cấp từ trả từ có cần sửa không Nếu cần sửa cung cấp từ gần cho việc sửa từ Từ gần từ có độ đo nhỏ từ tìm kiếm đƣợc * Thuật toán: Ý tƣởng: Thực sửa đổi gợi ý truy vấn cho từ Khi từ nhập vào viết sai tả hệ thống tiến hành sửa đƣa gợi ý từ ―gần giống‖ để thay cho từ cung cấp (gần giống: dựa vào khoảng cách D) Input: từ Output: Danh sách từ gần giống với từ cung cấp ban đầu B1: Cung cấp từ B2: Tính D theo thuật toán:  D = 0: từ nhập vào đúng, sửa chuyển sang B3 63  D!=0: tiến hành sửa từ chuyển B3 B3: Đối sánh từ cung cấp với từ từ điển (trong hệ thống), có sử dụng thu hẹp không gian đối sánh để tìm từ gần giống với từ cung cấp (Các từ đƣợc xếp theo giá trị D tăng dần) B4: Hiển thị kết theo D - Thực nghiệm với từ ―Cổng‖: Hình 3.11: Hệ thống sửa từ cho từ “Cổng” - Thực nghiệm với từ khóa ―Tộngn‖ 64 Hình 3.12: Hệ thống sửa đổi từ cho từ khóa “Tộngn” Với từ khóa đƣợc cung cấp Từ bị sai hệ thống tiến hành sửa thành từ ―Rộng‖ Các từ tham gia đối sánh sửa ―rộng‖, ―tống‖,‖tổng‖, ―từng‖, ―Thống‖, ―trồng‖, ―trọng‖, ―động‖ - Thực nghiệm với từ : ―Gợi‖ Hình 3.13: Hệ thống sửa đổi với từ khóa “Gợi” 65 Hệ thống tìm từ sửa ―Gợi‖, từ thay ―gợi‖, ―gọi‘, ―gối‖, ―gửi‖, ―lợi‖, ‗giải‘, ―giỏi‖, ―giới‖, ―đợi‖, ―ngồi‖ * Đánh giá hệ thống sửa đổi từ: Hệ thống dựa từ điển từ đƣợc xây dựng sẵn Hệ thống tiến hành đối sánh xấp xỉ tìm đƣợc từ cần sửa hệ thống từ Nếu tìm thấy từ đối sánh có khoảng cách theo thuật toán Levenshtein từ sửa Ngƣợc lại khoảng cách khác 0, hệ thống tìm đƣợc từ có khoảng cách nhỏ Từ đƣợc tìm kiếm hệ thống từ điển Hệ thống cho kết tốt, tốc độ chạy chấp nhận đƣợc (kết trả tối đa 2s) 3.5 Ứng dụng sửa đổi gợi ý truy vấn tự động Hệ thống gợi ý truy vấn tự động với giao diện đƣợc mô tả nhƣ hình vẽ (hình 3.1) Với thực dựa ứng dụng Web Chức gợi ý dựa chuỗi cung cấp chuỗi tƣơng tự, hệ thống tiến hành theo trình tự sau: - Cung cấp chuỗi dựa giao diện ngƣời sử dụng - Tiến hành đối sánh chuỗi với chuỗi hệ thống (dữ liệu hệ thống) - Trả chuỗi có khoảng cách đối sánh nhỏ Hệ thống thực xếp kết tăng dần theo khoảng cách đối sánh Hệ thống có giao diện: - Ô gõ văn bản: Ô thực hỗ trợ ngƣời dùng nhập câu truy vấn để tiến hành cho chức gợi ý Mỗi thực nhấn phím hệ thống thực lấy câu truy vấn từ giao diện gửi tới server - Server thực giải thuật Levenshtein với thƣ viện từ câu hệ thống Tiến hành lấy kết và thông báo kết trả phía Client - Thực nghiệm với hệ thống gợi ý với chuỗi: Gựi ý truy vấn 66 Hình 3.14: Gợi ý chuỗi “Gựi ý truy vấn” Khi thực hệ thống tự động tìm kiếm ngƣời dùng gõ ký tự vào giao diện Khi ngƣời dùng ngừng gõ, hệ thống đƣa kết cuối Mỗi ngƣời dùng ngừng gõ hệ thống ngừng tìm kiếm Theo hình 3.15, hệ thống thực gợi ý tối đa 08 kết chuỗi có độ đo độ tƣơng đồng đƣợc xếp theo thứ tự Các kết từ ―Gựi ý truy vấn‖, kết đƣợc tìm thấy ―gợi ý truy vấn‖, ―gợi ý câu truy vấn‖, ―Gợi ý từ truy vấn‖, ―Gợi ý từ truy‖, ―Gợi ý chuỗi truy vấn‖, ―Hệ thống truy vấn‖ - Thực nghiệm hệ thống gợi ý truy vấn với chuỗi truy vấn: ―Hệ thống thông tin‖ 67 Hình 3.15: Kết chuỗi gợi ý “Hệ thống thông tin” Với chuỗi truy vấn ―Hệ thống thông tin‖, hệ thống thực đối sánh danh sách liệu câu, hệ thống tiến hành cung cấp kết ―hệ thống thông tin‖, ―Hệ thống truy vấn‖, ―Hệ thống mạng‖, ―hệ thống máy tính‖, ―Công nghệ thông tin‖, ―Hệ thống điện‖, ―Hệ thống gợi ý‖, ―Hệ thống tìm kiếm‖ - Thực nghiệm hệ thống với câu truy vấn ―Phần mềmm‖ Hình 3.16: Kết chuỗi gợi ý “Phần mềmm” 68 Hệ thống gợi ý với từ khóa ―Phần mềmm‖ Hệ thống gợi ý đƣợc chuỗi ―phần mềm‖, ―Phần cứng‖, ―phần‖, ―phần ‖, ―Kỹ sƣ phần mềm‖, ―hệ thống phần mềm‖ - Thực nghiệm hệ thống với câu truy vấn ―Phần mểm‖ Hình 3.17: Kết chuỗi gợi ý “Phần mểm” * Đánh giá hệ thống: Hệ thống gợi ý chuỗi truy vấn, với chuỗi đƣợc xây dựng khiêm tốn, số lƣợng Với chuỗi đƣợc cung cấp từ giao diện, hệ thống tiến hành đối sánh với chuỗi có từ điển Hệ thống tìm tối đa kết đƣợc cho phù hợp với kết đối sánh dựa thuật toán Hệ thống chạy ổn định xác với nhiều trƣờng hợp khác Hệ thống chạy nhanh (tối đa giây cho kết quả), với kết đƣợc trả phù hợp với mong đợi ngƣời sử dụng Kết luận chƣơng 3: Thông qua kết tìm hiểu thuật toán lý thuyết thực nghiệm, em xây dựng ứng dụng cho phép thực nghiệm hệ thống máy tính với kết xác 69 KẾT LUẬN VÀ KIẾN NGHỊ Kết đạt đƣợc đề tài: Thông qua luận văn em lĩnh hội đƣợc số vấn đề sau: - Tìm hiểu đƣợc cách tiếp cận đối sánh chuỗi xấp xỉ theo chiều nghiên cứu khoa học - Tìm hiểu đƣợc thuật toán cụ thể đối sánh chuỗi xấp xỉ (Thuật toán Levenshtein) - Thực nghiệm đối sánh chuỗi xấp xỉ với thuật toán nghiên cứu đƣợc - Xây dựng đƣợc hệ thống ứng dụng thuật toán khoa học vào thực tiễn với chức năng: + Chức sửa từ: Tiến hành sửa từ từ bị sai, cách kiểm tra từ sai, từ theo thuật toán + Chức gợi ý truy vấn: Trƣớc tìm kiếm hệ thống thực gợi ý chuỗi gần, tƣơng tự với chuỗi gõ nhằm nâng cao hiệu hệ thống Thực chức gợi ý Tiếng Việt đặc thù ngành công nghệ thông tin Việt Nam - Thực nghiệm thu hẹp không gian đối sánh theo phƣơng pháp đơn giản Cho phép hệ thống tăng tính hiệu toán Hạn chế đề tài: Tuy nhiên, trình thực nội dung luận văn tồn số hạn chế nhƣ: Hệ thống liệu đơn giản từ câu, kỹ thuật thu gọn không gian chƣa thật tối ƣu Nhiều thuật toán đối sánh xấp xỉ đại cho hiệu cao chƣa áp dụng thực tế Hệ thống giao diện hệ thống đơn giản Trong thời gian tới em thực hoàn thiện thêm hệ thống về: tự động tổ hợp từ từ điển, tự động tổ hợp câu từ điển 70 Thay đổi hệ thống với giao diện thân thiện với ngƣời dùng, đặc biệt ý với đối sánh chuỗi xấp xỉ Tiếng Việt Hƣớng phát triển đề tài: Nếu điều kiện cho phép, em tiếp tục mở rộng phần thực nghiệm ứng dụng thuật toán Levenshtein việc kiểm tra chuỗi AND Gen, kiểm tra lỗi tả,… 71 TÀI LIỆU THAM KHẢO [1] GonzaloNavarro, ―ApproximateTextSearching‖, A Thesis presented to the University of Chile – 2011 [2] Petteri Jokinen, Jorma Tarhio, and Esko Ukkone, ―A Comparison of Approximate String Matching Algorithms‖, SOFTWARE—PRACTICE AND EXPERIENCE, VOL 1(1), 1–4 (JANUARY 1988) [3] Navarro, Gonzalo, "A guided tour to approximate string matching" (PDF) ACM Computing Surveys 33 (1): 31–88, 2001 [4] Wagner, Robert A, Fischer, Michael J, ―The String-to-String Correction Problem‖, Journal of the ACM 21 (1): 168–173, 1974 [5] Baeza-Yates R, Navarro G, ―A faster algorithm for approximate string matching‖ In Dan Hirchsberg, Gene Myers Combinatorial Pattern Matching (CPM'96), LNCS 1075 Irvine, CA pp 1–23, 1996 [6] Wagner R, Fischer M, ―The string-to-string correction problem‖ Journal of the ACM 21: 168–73, 1974 [7] [Cosin vector]Sidorov, Grigori; Gelbukh, Alexander; Gómez-Adorno, Helena; Pinto, David, ―Soft Similarity and Soft Cosine Measure: Similarity of Features in Vector Space Model‖ Computación y Sistemas 18 (3): 491–504, Retrieved October 2014 [8] A Amir, D Keselman, G M Landau, M Lewenstein, N Lewenstein, and M Rodeh, ―Indexing and dictionary matching with one error In Proceedings of Workshop on Algorithms and Data Structures‖, pages 181–192, 1999 [9] H Dalianis, ―Evaluating a spelling support in a search engine In Proceedings of NLDB-2002, the 7th International Workshop on the Applications of Natural Language to Information Systems‖, June 2002 72 [10] Black, Paul E, ―Inverted index, Dictionary of Algorithms and Data Structures‖, U.S National Institute of Standards and Technology Oct 2006 Verified Dec 2006 [11] Clarke, Cormack, ―Dynamic Inverted Indexes for a Distributed FullText Retrieval System‖ TechRep MT-95-01, University of Waterloo, February 1995 [12] Rubner, Y, Tomasi, C, and Guibas, L J, ―The earth mover's distance as a metric for image retrieval, International Journal of Computer Vision‖, 99– 121, 2001 [13] Press, W.H, Teukolsky, S.A, Vetterling, W.T, Flannery, B.P, ―Kullback– Leibler Distance Numerical Recipes: The Art of Scientific Computing (3rd ed.)‖, Cambridge University Press, 2007 [14] Tommi Hirvola, Jorma Tarhio, ―Approximate Online Matching of Circular Strings‖, 315-325, SEA 2014 [15] Navarro, Gonzalo , ―A guided tour to approximate string matching‖, 31– 88, 2009 [16] I Dagan, L Lee, F Pereira, ―Similarity-based models of word cooccurrence probabilities‖, Machine Learning, 43-69, 1999 [...]... sai Dựa trên tập các câu hệ thống thu thập đƣợc, cho phép gợi ý dựa vào các câu trong hệ thống Các câu đƣợc lựa chọn để gợi ý là các câu có độ xấp xỉ với câu đƣợc cung cấp bởi giao diện ngƣời dùng 19 CHƢƠNG 2: ĐỐI SÁNH CHUỖI XẤP XỈ CHO VẤN ĐỀ TỰ ĐỘNG SỬA ĐỔI VÀ GỢI Ý TRUY VẤN 2.1 Các phƣơng pháp đối sánh chuỗi xấp xỉ Trong chƣơng này sẽ giới thiệu về một số phƣơng pháp liên quan đến đối sánh chuỗi xấp. .. năng tìm từ và sửa đổi từ sai Tiến hành thu thập và tạo dựng thƣ viện các câu, nhằm mục đích thực nghiệm bài toán gợi ý truy vấn cho chuỗi truy vấn Hệ thống sẽ tiến hành đối sánh để tìm ra các chuỗi đối sánh sao cho phù hợp đối với chuỗi cung cấp 1.2.1.2 Thực hiện cài đặt thuật toán Các từ và chuỗi đƣợc cung cấp, hệ thống sẽ tiến hành đối sánh với thƣ viện các từ và các câu dựa trên thuật toán đối sánh. .. giới thiệu các cách tiếp cận đối sánh xấp xỉ với giải thuật đối sánh xấp xỉ dựa trên độ đo khoảng cách xấp xỉ của Levenshtein.[1][2][3] 1.1 Giới thiệu bài toán Tự động sửa đổi và gợi ý truy vấn tìm kiếm 1.1.1 Mô hình truy vấn tìm kiếm Với sự phát triển của khoa học về công nghệ thông tin, sự bùng nổ cả về số lƣợng, chất lƣợng của dữ liệu và ứng dụng Để có thể sử dụng một cách hiệu quả hơn nữa các hệ thống... gia đối sánh phải có một phần nội dung của chuỗi truy vấn Ví dụ nếu với chuỗi truy vấn Tìm kiếm xấp xỉ thì một phần của chuỗi ứng viên nên chứa ít nhất là các từ Tìm , kiếm , xấp , xỉ , dĩ nhiên chứa càng nhiều phần thì càng tốt - Phù hợp về khoảng cách xấp xỉ: Các chuỗi đƣợc tham gia đối sánh có khoảng cách xấp xỉ phù hợp thể hiện ở chỗ: để một chuỗi là ứng cử viên thì khoảng cách độ đo xấp xỉ. .. quan đến các phƣơng pháp đối sánh chuỗi xấp xỉ Với mục tiêu cung cấp các thông tin và các giải thuật đối sánh chuỗi xấp xỉ đƣợc áp dụng trong luận văn này Với các nội dung chính đƣợc đề cập tới bao gồm: Giới thiệu chung về máy tìm kiếm với mô hình đơn giản và trình tự các bƣớc cơ bản cần phải có để thực hiện tìm kiếm Giới thiệu về phƣơng pháp đối sánh mẫu, đối sánh chính xác so với đối sánh xấp xỉ[ 1];... hành tìm kiếm Các kỹ thuật đƣợc trình bày cụ thể ở phần 1.1.2 1.1.2 Hỗ trợ truy vấn tìm kiếm bằng sửa đổi và gợi ý 1.1.2.1 Tự động sửa đổi truy vấn Với câu truy vấn q cung cấp tới máy tìm kiếm thì các dữ liệu văn bản gồm các từ, về mặt ngữ pháp có thể xảy ra trƣờng hợp các từ cung cấp sai chính tả (từ sai) trong câu truy vấn Hệ thống sẽ thực hiện nhiệm vụ sửa lại các từ bị sai này để có một câu truy vấn. .. này chủ động nghiên cứu phƣơng pháp đối sánh chuỗi xấp xỉ làm trung tâm, và kết hợp với các thuật toán thu gọn không gian với phƣơng pháp chỉ ra văn bản tƣơng đồng để có sự lựa chọn tốt nhất cho các chức năng mà hệ thống cần phải đáp ứng 1.3 Cách tiếp cận đối sánh chuỗi xấp xỉ 1.3.1 Bài toán đối sánh chuỗi xấp xỉ Đối sánh (so sánh) chuỗi đƣợc chia thành hai loại hình đối sánh khác nhau đó là đối sánh. .. ra các chuỗi có độ dài nhƣ các chuỗi ―máy tìm hoặc ―máy tìm kiếm xấp xỉ để làm các ứng viên tham gia đối sánh Hệ thống sẽ không đƣa ra các chuỗi dạng ―máy‖, ―máy tìm kiếm theo độ đo xấp xỉ [15] Vì lý do nó quá ngắn và quá dài dẫn tới thuật toán độ xấp xỉ trả ra là sẽ lớn hơn - Phù hợp về nội dung: Các chuỗi đƣợc tổ hợp đối sánh nhằm khống chế trƣớc về khoảng cách đối sánh Một phần nội dung của chuỗi. .. chuỗi thật sự phù hợp Chuỗi nào có độ dài chuỗi con trùng với chuỗi truy vấn nhiều nhất thì đƣợc chọn Bƣớc 3: Cung cấp một vài chuỗi tƣơng đồng nhất Sau khi thực hiện đƣợc các bƣớc, lấy về các chuỗi phù hợp gợi ý, hệ thống tiến hành xử lý các chuỗi và lấy ra một số chuỗi phù hợp nhất Hệ thống có thể cài đặt tùy chọn cung cấp số chuỗi gợi ý cụ thể 1.1.3 Hỗ trợ truy vấn tìm kiếm xấp xỉ bằng Tiếng Việt 11... sử dụng hệ thống tìm kiềm, đáp ứng dữ liệu của ngƣời dùng một cách hữu dụng và bổ ích Hệ thống sẽ biết chính xác dữ liệu ngƣời dùng muốn cung cấp là gì Kỹ thuật này đƣợc thực hiện nhƣ sau: - Tổ hợp các chuỗi truy vấn tƣơng tự nhau - Cung cấp các chuỗi truy vấn tƣơng tự với chuỗi truy vấn mà ngƣời dùng cung cấp Trong kỹ thuật gợi ý truy vấn, em sẽ sử dụng thuật toán đối sánh xấp xỉ dựa trên giải thuật

Ngày đăng: 07/03/2016, 11:06

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan