Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
701,09 KB
Nội dung
Science & Technology Development, Vol 18, No Q3 - 2015 XÂY DỰNG HỆ THỐNG THÔNG TIN TRA CỨU TỪ ĐIỂN CHUYÊN NGÀNH CÓ NGỮ CẢNH BUILDING A INFORMATION SYSTEM FOR LOOKING UP CONTEXTUAL TECHNICAL DICTIONARY Hồ Trung Thành, Trần Thị Ánh Trường Đại học Kinh tế - Luật, ĐHQG HCM - Email: thanhht@uel.edu.vn Nguyễn Khánh Hoà Trường Đại học RMIT (Bài báo nhận ngày 28 tháng 07 năm 2015, hoàn chỉnh sửa chữa ngày 12 tháng 09 năm 2015) TÓM TẮT Ngữ cảnh từ điển chuyên ngành quan trọng Ngữ cảnh phần thông tin văn giúp cho người tra từ hiểu rõ nội dung ý nghĩa từ khoá nhằm giúp việc sử dụng từ vào trường hợp cụ thể văn chuyên ngành, đặc biệt học tập, nghiên cứu Tuy nhiên, hệ thống tra cứu từ thường tập trung hỗ trợ tra cứu từ giải thích từ mà chưa quan tâm đến ngữ cảnh từ Khi có ngữ cảnh từ, câu hỏi đặt làm để tìm kiếm xác ngữ cảnh hiển thị kết tìm kiếm gợi ý có liên quan đến từ khoá kho liệu văn ngữ cảnh? Trong báo này, đề xuất xây dựng phương pháp mơ hình tra từ điển chun ngành có ngữ cảnh sở phân tích, đánh giá lựa chọn giải thuật tối ưu phương pháp so khớp văn Sau đó, chúng tơi áp dụng giải thuật vào kỹ thuật tra từ hệ thống Tích hợp mơ hình đề xuất hệ thống website thực nghiệm 1500 từ chuyên ngành với ngữ cảnh thuộc lĩnh vực Hệ thống thông tin quản lý Thương mại điện tử Hệ thống hỗ trợ lúc việc tra từ điển tiếng Anh tiếng Việt Từ khoá: Giải thuật so khớp mẫu, hệ thống thông tin, từ điển, chuyên ngành, ngữ cảnh ABSTRACT The context of technical terms is very important It is part of information in text which supports users in understanding the exact meaning of technical terms in particular specialized circumstances, especially in education and research However, most of current dictionary systems only focus on the lookup function and the standard meaning of terms without considering related contexts In this paper, we proposed the model for searching technical terms and context of terms based on analyzing, evaluating and choosing an optimal algorithm in pattern matching technique Then, the model was integrated on a dictionary system and experimented on 1500 terms in the context of information system and electronic commerce This dictionary system supports searching with technical terms both in Vietnamese and English Keywords: Pattern - matching algorithm, information system, dictionary, technical term, context GIỚI THIỆU Dựa tảng phát triển Internet, có nhiều công cụ hỗ trợ việc tra cứu Trang 82 nghĩa từ tiếng Anh nhiều ngôn ngữ khác Tại Việt Nam, dễ dàng tìm thấy nhiều sách từ điển Anh - Việt xuất bản, TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 18, SỐ Q3 - 2015 phần mềm tra cứu Lạc Việt1, hay nhiều website hỗ trợ tra cứu online như: Vdict2, Google translate3, tratu.soha4, oxford dictionaries.com , Dictionary.com … Các website cung cấp đầy đủ từ điển mà người dùng cần Đa phần website có cấu trúc tương đối giống với giao diện thân thiện, dễ sử dụng Các hệ thống website hỗ trợ tra cứu nhiều từ điển như: Anh - Việt, Việt - Anh, Anh - Anh số ngôn ngữ khác như: Trung Quốc, Nhật, Pháp… Các hệ thống website từ điển hầu hết hỗ trợ dịch nghĩa từ đoạn văn dài Người dùng truy cập vào hệ thống, thực tra từ hệ thống cung cấp danh sách nghĩa từ, kể từ đồng nghĩa, từ liên quan, Trong số website tra từ điển tác giả khảo sát trên, số website cho phép tra cứu từ chuyên ngành thefreedictionary.com, whatis.techtarget.com, cambridge.org7… Các website có cơng cụ lọc theo lĩnh vực chuyên ngành cụ thể Trong đó, whatis.techtarget.com website hỗ trợ tra cứu cho kết định nghĩa từ liên quan đến kỹ thuật công nghệ; tudienthuoc.net8 ykhoanet.com website từ điển chuyên ngành thuốc, y khoa; latin-phrases.co.uk/9 từ điển câu thành ngữ; fetp, tratu.soha website hỗ trợ tra từ chuyên ngành kinh tế; www.lawyerintl.com/law-dictionary10 chuyên lĩnh vực luật học; số website tratu.soha, Vdict, hỗ trợ tra từ thuộc nhiều lĩnh vực tin học, kinh tế, luật,… Tuy http://tratu.coviet.vn/ http://vdict.com/ https://translate.google.com.vn/?hl=vi&tab=wT&authuser =0 http://tratu.soha.vn/ http://www.oxforddictionaries.com/ http://dictionary.reference.com/ http://dictionary.cambridge.org/ http://www.tudienthuoc.net www.lawyerintl.com/law-dictionary 10 http://www.lawyerintl.com/law-dictionary/ nhiên, chưa có hệ thống website hỗ trợ tra từ điển Anh - Việt, Việt - Anh thuộc chuyên ngành thương mại điện tử hệ thống thông tin quản lý, đóng góp chúng tơi nghiên cứu Bên cạnh đó, website hỗ trợ tra từ dừng lại mức độ giải thích nghĩa từ hay định nghĩa từ mà chưa quan tâm đến ngữ cảnh từ chuyên ngành giúp hiểu rõ cách sử dụng từ trường hợp cụ thể Để hiểu rõ từ chuyên ngành, đề xuất xây dựng hệ thống liệu ngữ cảnh văn tương ứng với từ chuyên ngành Tuy nhiên, việc xây dựng hệ thống liệu ngữ cảnh từ làm hạn chế tốc độ xử lý hệ thống website tra từ điển phải tìm kiếm hệ thống liệu ngữ cảnh để trả lời kết cho yêu cầu tìm kiếm từ người dùng Vì thế, ngồi yếu tố ảnh hưởng đến kết tìm kiếm phần cứng, băng thơng, thiết kế… yêu cầu đặt hệ thống tìm kiếm tốc độ xử lý xác Chúng quan tâm đến việc xử lý bên hệ thống để có kết xác Để xử lý ngữ liệu tiếng Việt (gồm từ chuyên ngành ngữ cảnh từ) trình tìm kiếm, chúng tơi phải tìm liên kết từ dựa ngữ cảnh khác Vì thế, giải thuật tìm kiếm yếu tố quan trọng để đáp ứng yêu cầu tốc độ tra cứu từ Trong nghiên cứu này, dựa chế tìm kiếm từ có ngữ cảnh hay nói cách khác tìm kiếm từ văn bản, chúng tơi lựa chọn tốn so sánh mẫu để giải yêu cầu tìm kiếm đặt Các giải thuật tìm kiếm KMP [5], Nạve [7], Rubin – Karp [12] khảo sát so sánh để tìm giải thuật phù hợp việc giải yêu cầu Chi tiết việc khảo sát so sánh thuật giải trình bày phần Trang 83 Science & Technology Development, Vol 18, No Q3 - 2015 Mục tiêu hệ thống tìm kiếm từ điển chuyên ngành chúng tơi hỗ trợ chức tìm từ chuyên ngành có liên quan Để đạt mục tiêu này, ngồi phương pháp sử dụng giải thuật, sử dụng câu truy vấn thông thường SQL Tuy nhiên việc phải so sánh từ chuyên ngành với số lượng ngữ cảnh lớn dẫn đến tốc độ xử lý chậm trình tìm kiếm [5][11][15] Việc trả liệu không cần thiết (nếu không tìm thấy từ khóa ngữ cảnh) nguyên nhân khiến câu truy vấn chậm [5] Chính vậy, trước đưa liệu vào trình tìm kiếm, chúng tơi phải thực trước việc lọc từ stopwords11 để cải thiện tốc độ tìm kiếm Phần báo trình bày nghiên cứu liên quan Trong phần 2, giải thuật so sánh giải thuật phù hợp chọn Trong phần 3, đề xuất mơ hình phương pháp tra từ có ngữ cảnh Phần trình bày việc thử nghiệm thảo luận kết Cuối kết luận hướng phát triển nghiên cứu CÁC NGHIÊN CỨU LIÊN QUAN Trong phần này, tập trung khảo sát kỹ thuật phương pháp liên quan đến tìm kiếm so sánh mẫu từ văn tiếng Việt Từ đó, chúng tơi lựa chọn kỹ thuật phù hợp áp dụng mơ hình đề suất cho hệ thống tra từ chuyên ngành có ngữ cảnh Phương pháp so sánh chuỗi phương pháp tìm kiếm tất lần xuất chuỗi mẫu (pattern) chuỗi khác [1], [2], [8], [15], [17], [20] Quá trình so sánh chuỗi hoạt động diễn thường xuyên chương trình chỉnh sửa văn bản, trình duyệt web, máy tìm kiếm, hệ thống gợi ý trang thương mại điện tử [9][16] Trong nghiên cứu này, khảo sát 11 Stopwords từ, cụm từ phổ biến hay nói chung chung khơng có ý nghĩa kết tìm kiếm Trang 84 giải thuật so sánh chuỗi cho toán hệ thống từ điển chuyên ngành có ngữ cảnh Bài tốn đặt ra, với liệu từ điển có số lượng từ khóa lớn, kèm theo ngữ cảnh trường hợp sử dụng từ, để xác định mối liên hệ từ với nhau? Ngoài ra, việc tra từ có ngữ cảnh địi hỏi phương pháp tra từ phải làm việc lượng liệu lớn văn (ngữ cảnh) Vậy để tra từ nhanh trả nghĩa ngữ cảnh từ tìm kiếm xác? Để giải vấn đề trên, phần tập trung khảo sát phương pháp, giải thuật so khớp mẫu với ba giải thuật để từ chọn phương pháp hỗ trợ tốt cho việc xây dựng hệ thống từ điển chuyên ngành có ngữ cảnh Cụ thể, khảo sát giải thuật Naive [7], giải thuật Rabin - Karp [3], [12] giải thuật Knuth – Morris - Pratt (KMP)[5] dựa mô tả tốn sau: “Cho mẫu P có độ dài M văn S có độ dài N bảng chữ A Tìm (hoặc tất cả) lần xuất mẫu P S” Với việc xuất toán so sánh mẫu trên, giải thuật phù hợp để giải toán với thời gian tìm kiếm có giới hạn? Trong tốn trên, giả sử ta có tập văn S’= [S, S1, S2…Sn], lúc toán thực cặp [P,S] [P,S1] [P,S2]… Trong trường hợp độ dài N văn Sx lớn tập S’ có n phần tử (n lớn) thời gian tìm kiếm tốn Do đó, việc tìm hiểu giải thuật để giải vấn đề cần thiết Dựa vào việc phân tích, thiết kế, xây dựng liệu, chúng tơi có số nhận xét sau: Độ dài N văn Sx (phần tử tập ngữ cảnh) không lớn Tập S’ gồm khoảng 1000 phần tử (và phát triển nhiều hơn) TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 18, SỐ Q3 - 2015 2.1 Giải thuật Naive Đây giải thuật đơn giản nhất, sử dụng nguyên lý vét cạn Giải thuật Naive [7] kiểm tra tất khả chuỗi mẫu P[1 m] nằm chuỗi S[1 n] cách duyệt từ đầu tới cuối chuỗi S Giải thuật Naive Algorithm [7] NAIVE-STRING-MATCHER(S, P) n = S.length m = P.length for s = to n-m j = while (j m) “Tìm thấy mẫu với độ dịch chuyển s” Nhận xét: Vòng lặp while bên chạy tối đa m lần, vòng lặp for bên chạy tối đa n-m+1 lần Do vậy, thời gian chạy giải thuật S(n) = O((n-m+1)*m) = O(n*m) Rõ ràng, giải thuật không hiệu bỏ qua thơng tin hữu ích có q trình so sánh chuỗi giá trị S 2.2 Giải thuật Rabin - Karp Giải thuật Rabin Karp đề xuất [3][12] Giải thuật với độ phức tạp O(m) để tiền xử lý liệu nhập, thời gian chạy tệ O((n-m+1)m) Mặc dù vậy, trung bình trường hợp tiêu tốn thời gian Ta nhận thấy chuỗi S số hóa thành số Ví dụ S = {0,1,2 ,9}, S = “1234” ta sử dụng hàm digit(S) = 1,234 Gọi p giá trị số hóa P, hay nói cách khác p giá trị thập phân tương ứng P Gọi ts giá trị thập phân tương ứng T[s+1,…,s+m] , s and P[q + 1] ≠ S [i ] Trang 86 q ← π[q] //Ký tự không trùng if P[q + 1] = S [i ] then q ← q + //Ký tự trùng 10 if q = m //Nếu kiểm tra toàn chuỗi P 11 then print “Mẫu xuất với độ dịch chuyển” i – m 12 q ← π[q] //Tìm ký tự trùng Giải thuật Compute – Prefix - Function[5] Compute - Prefix - Function(P) m ← length[P] π[1] ← k ← for q ← to m while k > and P[k + 1] ≠ P[q] k ← π[k] if P[k + 1] = P[q] then k ← k + π[q] ← k 10 return π Nhận xét: Độ phức tạp giải thuật tiền xử lý Compute – Prefix - Function O(m) vịng lặp while bên không thực m lần Tương tự, giải thuật tìm kiếm KMP - Matcher có độ phức tạp O(n) 2.4 Đánh giá giải thuật Sau phân tích giải thuật trên, cần đánh giá lựa chọn giải thuật phù hợp với yêu cầu đặt cách tổng quát sau: Bảng Kết đánh giá giải thuật Tên giải thuật Naïve Thực tiền xử lý No Độ phức tạp O((n-m+1)*m) = O(n*m) Rubin-Karp Yes O((n-m+1)*m) KMP Yes O(n) TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 18, SỐ Q3 - 2015 Xét độ phức tạp nhận thấy rằng, KMP có độ phúc tạp thấp với giải thuật cịn lại Thơng qua phân tích so sánh trên, nghiên cứu chọn giải thuật KMP để làm sở giải toán đặt cho việc tìm kiếm từ điển ngữ cảnh từ ĐỀ XUẤT MƠ HÌNH KHAI THÁC NGỮ CẢNH VÀ TÌM TỪ GỢI Ý Trong phần này, chúng tơi trình bày toán khai thác ngữ cảnh từ điển Chúng ta xét toán cụ thể sau, giả sử ta có từ khóa cần tìm “tiếp thị”, có ngữ cảnh có liên quan đến từ “tiếp thị” sau : Ngữ cảnh (1) có chứa cụm từ “tiếp thị trực tiếp”: “Thị trường sản phẩm dịch vụ Dell doanh nghiệp từ nhỏ đến trung bình người tiêu dùng qua kênh quảng cáo truyền hình Internet, qua phương tiện truyền thông in ấn, cách gởi ấn phẩm tiếp thị trực tiếp, mẩu quảng cáo, catalog, tin khách hàng Tại địa điểm định, chúng đưa vào cửa hàng Dell hay ki-ốt nằm trung tâm mua sắm Điều cho phép khách hàng xem sản phẩm mua hàng trực tuyến với trợ giúp chuyên gia Dell” Ngữ cảnh (2) có chứa cụm từ “tiếp thị tương tác”: “Một tính quan trọng tính tương tác truyền thơng tiếp thị chúng thiết kế cho cá nhân, khơng giống phương tiện truyền thông truyền thống, nơi thơng điệp có xu hướng phát sóng đến tất người Quá trình thiết kế riêng gọi cá nhân hóa khía cạnh quan trọng việc đạt quản lý quan hệ khách hàng trực tuyến” Hai nội dung ngữ cảnh liên quan đến từ khóa “tiếp thị”, nhiên lại theo ngữ cảnh ý nghĩa khác thuộc lĩnh vực: “tiếp thị trực tiếp”, “tiếp thị tương tác” Vậy, sở đưa cách giải toán dựa vào ngữ cảnh từ, từ người dùng hiểu cách sử dụng từ khóa cần tìm trường hợp, gia đình từ (word family) từ khóa Một ý nghĩa quan trọng mơ hình đề xuất (xem giải thuật 4) khai thác ngữ cảnh để tìm từ gợi ý giúp cho người tra từ mở rộng thêm kiến thức liên quan đến từ tra cứu Giải thuật Khai thác ngữ cảnh từ điển chuyên ngành tìm từ gợi ý Đầu vào: từ khóa ngữ cảnh từ Đầu ra: thơng tin liên quan từ khố, tập từ khóa gợi ý có chứa từ khóa đầu vào ngữ cảnh từ Xử lý: Bài toán tra từ điển có ngữ cảnh tìm từ gợi ý chuyển dạng toán kinh điển giải thuật so sánh mẫu Ý tưởng, người dùng nhập từ khóa gồm hai chữ nhiều hai chữ, quy trình xử lý sau: Bước 1: Lọc từ khơng có ý nghĩa, sau tìm kiếm theo từ lại Việc xảy trường hợp có nhiều từ có ý nghĩa Bước 2: Thực tách từ tìm kiếm Bước 2.1: Nếu ngữ cảnh có tất từ tách trả kết từ gợi ý hay gọi từ tương đương Qua bước 2.3 Bước 2.2: Nếu từ tách không xuất ngữ cảnh, kết khơng trả từ gợi ý hay từ tương đương Quan bước Bước 2.3: Bổ sung danh sách từ gợi ý có liên quan hiển thị ngữ cảnh từ Bước 3: Kết thúc tìm kiếm từ Trang 87 Science & Technology Development, Vol 18, No Q3 - 2015 Hình trình bày quy trình khai thác ngữ cảnh tìm kiếm từ gợi ý, gồm bốn thành phần: (1) trình bày từ khố cần tìm, (2) trình bày nội dung ngữ cảnh có liên quan đến từ (1) Từ khóa cần tìm (2) chun ngành cần tìm, (3) gồm từ chun ngành có chứa từ khố cần tìm (4) trình bày kết tìm kiếm từ liên quan đến từ khố có chứa từ khố cần tìm (3) Ngữ cảnh từ khóa Từ khóa Ngữ cảnh có chứa từ khóa cần tìm Từ khóa Ngữ cảnh khơng chứa từ khóa cần tìm … Ngữ cảnh có chứa từ khóa cần tìm Từ khóa Ngữ cảnh khơng chứa từ khóa cần tìm … (4) Kết Từ khóa Từ khóa Hình Quy trình khai thác ngữ cảnh tìm kiếm từ gợi ý Trên thực tế tốn so sánh mẫu nhằm xác định vị trí “từ” “cụm từ” đoạn văn cho trước Với cách xác định này, sử dụng giải thuật để xác định ngữ cảnh có chứa từ khóa, từ đưa từ gợi ý Bên cạnh đó, dạng phổ biến tốn so khớp chuỗi sau: cho trước nguồn tìm kiếm tập D văn Cho q từ, cụm từ, tìm tất văn thuộc D mà có chứa q Để thực toán, hệ thống phải kiểm tra văn xem q có cụm từ thuộc văn thuộc tập D hay không đưa văn gợi ý Trong phần tiếp theo, chúng tơi áp dụng mơ hình, ý tưởng đề xuất sử dụng kỹ thuật để xây dựng hệ thống thông tin website hỗ trợ tra cứu từ điển chuyên ngành có ngữ cảnh Trang 88 THỬ NGHIỆM VÀ THẢO LUẬN KẾT QUẢ 4.1 Dữ liệu từ điển ngữ cảnh từ Mục tiêu đặt xây dựng từ điển chuyên ngành có ngữ cảnh lĩnh vực HTTTQL TMĐT Dữ liệu xây dựng từ giáo trình, sách viết thức chuyên ngành Trong trình xây dựng liệu phục vụ cho việc tìm kiếm từ điển, sử dụng “bản thuật ngữ” sách chuyên ngành HTTTQL TMĐT [6], [10], [13], [18] Tất sách viết tiếng Anh Với từ tiếng Anh, “bản thuật ngữ” cung cấp giải thích ý nghĩa từ tiếng Anh Tuy nhiên, để phục vụ nhu cầu tra từ theo nghĩa tiếng Việt, cần tiến hành dịch thuật giải thích tiếng Anh nêu sang tiếng Việt Quá trình tìm hiểu ngữ nghĩa từ, cụm từ thuật ngữ chuyên ngành không dựa sở ngữ nghĩa TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 18, SỐ Q3 - 2015 “bản thuật ngữ” cung cấp mà cịn địi hỏi phải có hiểu biết định chuyên ngành Do đó, trình dịch thuật, bên cạnh tìm hiểu thơng tin liên quan đến từ, cụm từ thuật ngữ giáo trình liên quan Internet, chúng tơi nhận hỗ trợ lớn từ chuyên gia ngôn ngữ chuyên gia lĩnh vực chuyên ngành Hiện tại, liệu xây dựng với 1500 từ với nghĩa từ 1500 ngữ cảnh (bằng văn bản) tương ứng từ Mỗi từ cung cấp thông tin cần thiết cho nhu cầu tra từ có ngữ cảnh từ tiếng Anh, từ tiếng Việt, giải thích nghĩa tiếng Anh, giải thích nghĩa tiếng Việt, từ viết tắt ngữ cảnh từ Hệ thống từ tổ chức quản lý Hệ quản trị CSDL SQL Server 2012 Hình Giao diện hệ thống tra từ điển chuyên ngành Bước 3: Người dùng nhấn nút “Search” để tra cứu từ (hình 3) Hệ thống xử lý truy vấn từ CSDL hiển thị kết tìm kiếm giao diện chi tiết Trong trình xử lý truy vấn kết quả, hệ thống ứng dụng giải thuật tìm kiếm KMP (hình 4) Trong phần tiếp theo, chúng tơi trình bày kết xây dựng hệ thống thơng tin website tìm kiếm từ điển chuyên ngành có ngữ cảnh 4.2 Hệ thống website từ điển chuyên ngành Trong phần này, chúng tơi trình bày kết xây dựng hệ thống website theo bước thực tra từ hệ thống Bước 1: Truy cập vào hệ thống website12 để tra từ điển chuyên ngành… Bước 2: Người dùng nhập từ vào khung tìm kiếm (xem hình 3) Hệ thống xử lý để đưa dự đoán từ người dùng chưa nhập hoàn chỉnh từ nhằm giúp cho người dùng chọn nhanh từ cần tra Website chúng tơi q trình hồn thiện hạ tầng kỹ thuật bảo mật kiểm định sở liệu từ điển Bên cạnh đó, chúng tơi phát triển tiếp ứng dụng tiện ích liên quan tích hợp website tiến hành đưa website cơng bố lên Internet 12 Hình Giao diện chi tiết trình bày kết tra từ điển chuyên ngành Bước 4: Người dùng xem kết trả hình Kết tìm kiếm thể hình bao gồm nội dung: (1) nghĩa từ tra, (2) ngữ cảnh từ tra Ngữ cảnh thể hai ngôn ngữ tiếng Việt tiếng Anh Phần ngữ cảnh giúp cho việc phân tích để tìm từ điển bổ sung vào danh sách từ gợp ý có liên quan đến từ Trang 89 Science & Technology Development, Vol 18, No Q3 - 2015 Ngoài phần bên phải hình 4, thể danh sách từ thường người dùng tìm kiếm “Most popular”, người dùng chọn xem chi tiết ngữ cảnh từ danh sách Hệ thống xử lý trả kết chi tiết tra cứu liên quan đến từ, đồng thời gợi ý tiếp từ liên quan trình bày mơ hình đề xuất phần để thực khai thác ngữ cảnh từ đưa từ gợi ý liên quan đến từ cần tìm nhằm giúp người dùng hiểu rõ rộng ý nghĩa từ tra Trên hình thể chức cho người dùng thảo luận Mục đích chúng tơi xây dựng chức nhằm giúp người dùng trao đổi từ điển, từ người dùng đóng góp ý kiến cho nội dung liên quan đến từ điển hệ thống tra từ Bên cạnh hỗ trợ tra từ điển chuyên ngành tìm kiếm từ gợi ý trình bày hình hình Trên hệ thống website, chúng tơi cịn xây dựng thêm chức tiện ích khác nhằm giúp cho người dùng tìm hiểu thêm vấn đề, thông tin liên quan đến ngành nghề trang tin tức, thảo luận (hình 5) Hình Giao diện trang tin tức chuyên ngành HTTTQL TMĐT Ngồi ra, tính quan trọng khác xây dựng hệ thống website chức giúp người dùng tham gia bổ sung từ Trang 90 chuyên ngành, chỉnh sửa nội dung liên quan đến từ chuyên ngành 4.3 Thảo luận kết Ngoài yếu tố ảnh hưởng đến kết tìm kiếm phần cứng, băng thông, thiết kế,… yêu cầu đặt cơng cụ tìm kiếm tốc độ xử lý xác Vì vậy, việc xử lý bên kết tốt quan trọng Để xử lý tập ngữ liệu lớn tìm liên kết từ dựa sở ngữ cảnh, giải thuật tính đến giải pháp đạt hiệu cao Với sở tìm kiếm dựa ngữ cảnh, tốn so sánh mẫu chọn để giải yêu cầu đặt ra, giải thuật tìm kiếm KMP chúng tơi áp dụng ưu điểm linh hoạt tìm kiếm mà giải thuật mang lại Dù chưa phải lựa chọn tối ưu việc áp dụng giải thuật KMP mang lại hiệu định nghiên cứu Bằng việc kết hợp với công cụ tìm kiếm tối ưu trang bị từ Microsoft SQL Server SQL Full Text Search hay gọi FTS [4][5], kỹ thuật áp dụng nhằm tùy biến kết tìm kiếm, đáp ứng yêu cầu đặt tìm kiếm xác từ theo ngữ cảnh Việc đánh giá tính xác kết thực mơ hình hệ thống đề xuất, thực theo phương pháp kiểm tra trực tiếp để đối chiếu liệu kết với liệu lưu trữ hệ thống từ điển Bên cạnh đó, chúng tơi kiểm tra kết cách thực kỹ thuật truy vấn trực tiếp liệu để so sánh với kết tìm kiếm hệ thống website Kết cho độ xác 100% kết thực mơ hình đề xuất hệ thống website so sánh với kiểm tra trực tiếp liệu Tóm lại, dựa mơ hình phương pháp đề xuất, việc sử dụng SQL Full Text Search [11] để tìm kiếm từ khóa ban đầu, đồng thời TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 18, SỐ Q3 - 2015 kết hợp giải thuật KMP để đưa từ gợi ý dựa sở ngữ cảnh ý tưởng việc xử lý tìm kiếm từ cụm từ hệ thống liệu từ điển chuyên ngàh Hệ thống thông tin quản lý Thương mại điện tử đạt hiệu tốt tốc độ xử lý tính xác liệu Được xây dựng nhằm hỗ trợ tra cứu thuật ngữ thuộc chuyên ngành HTTTQL TMĐT, hệ thống CSDL dùng cho hệ thống website tra cứu từ điển chuyên ngành tương đối đáp ứng yêu cầu tra từ theo chuyên ngành HTTTQL TMĐT, bao gồm tra từ theo loại từ điển Anh - Việt, Việt - Anh, Anh Anh, tất cả, tra từ viết tắt hỗ trợ lưu trữ hình ảnh minh họa trực quan cho từ KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong báo này, tập trung nghiên cứu giải bốn vấn đề nhằm đạt mục tiêu đặt xây dựng hệ thống tra từ chuyên ngành có ngữ cảnh lĩnh vực Thương mại điện tử Hệ thống thông tin quản lý, đóng góp chúng tơi nghiên cứu, bao gồm: (1) xây dựng 1500 từ điển chuyên ngành với hệ thống liệu ngữ cảnh từ, (2) thiết kế index cho cột thường xuyên truy vấn, xử lý câu truy vấn cho trả kết mong muốn khả truy xuất liệu tốt đặc biệt liệu thật lớn, (3) phân tích đánh giá giải thuật để lựa chọn giải thuật KMP áp dụng phần xử lý hệ thống tìm kiếm, (4) xây dựng triển khai hệ thống website tra từ chuyên ngành có ngữ cảnh thuộc lĩnh vực Hệ thống thơng tin quản lý Thương mại điện tử Hiện tại, hệ thống website q trình hồn thiện hạ tầng kỹ thuật bảo mật kiểm định sở liệu từ điển Chúng tiến hành sớm đưa website lên Internet để công bố rộng rãi đến người dùng Trong nghiên cứu tiếp theo, tiếp tục cải thiện hệ thống tra từ điển chuyên ngành để mở rộng lĩnh vực tra cứu tốc độ xử lý giải thuật cải tiến có kết tìm kiếm nhanh để hướng đến mở rộng sở liệu từ điển ngữ cảnh từ Chúng bổ sung từ ngữ cảnh từ, đồng thời phát triển việc khai thác ngữ cảnh cách thu thập liệu từ Internet để có kết đa dạng nhiều lĩnh vực ứng với từ chuyên ngành cụ thể Bên cạnh đó, việc phát triển hệ thống website giúp truy cập ứng dụng điện thoại thông minh nhằm tạo điều kiện dễ dàng cho người dùng cần tra cứu quan tâm TÀI LIỆU THAM KHẢO [1] Akinul Islam Jony, Analysis of Multiple String Pattern Matching Algorithms, International Journal of Advanced Computer Science and Information Technology (IJACSIT), Vol 3, No 4, 2014, pp 344-353 (2014) [2] Akhtar Rasool Amrita Tiwari, et al, String Matching Methodologies:A Comparative Analysis, International Journal of Computer Science and Information Technologies, Vol (2) ,3394-3397 (2012) [3] Cormen, Thomas H.; Leiserson, Charles E.; Rivest, Ronald L.; Stein, Clifford [1990] The RabinKarp algorithm Introduction to Algorithms (2nd ed.) Cambridge, Massachusetts: MIT Press pp 911-916 ISBN 978-0-262-03293-3 (2001) [4] D.E KNUTH, J.H MORRIS, V.R PRATT, Fast Pattern Matching in Strings SIAM Journal of Computing 6, 2, 323-350 (1977) Trang 91 Science & Technology Development, Vol 18, No Q3 - 2015 [5] Dana Shapira, et al, Adapting the Knuth–Morris–Pratt algorithm for pattern matching in Huffman encoded texts, Information Processing and Management 42, 429-439 (2006) [6] Dave Chaffey, E-book: E–Business and E–Commerce Management, Prentice Hall, ISBN: 9780273752011 (2010) [7] Domingos, Pedro; Pazzani, Michael, On the optimality of the simple Bayesian classifier under zero-one loss Machine Learning 29: 103-137 (1997) [8] D Sunday, Very Fast Substring Search Algorithm, Comm ACM, vol 33, issue 8, pp 132-142 (1990) [9] Ellard, Daniel J String Searching S-Q Course Book [Online] [Cited: 06 10, 2011.] http://www.eecs.harvard.edu/~ellard/Q-97/HTML/root/root.html (2011) [10] Jane P.Laudon & Kenneth C.Laudon, E-book: Essentials of Management Information Systems, PEARSON, ISBN: 978-0136025818 (2010) [11] http://msdn.microsoft.com/en-us/library/ms142571.aspx, Full-Text Search (SQL Server) [12] Karp, Richard M.; Rabin, Michael O Efficient randomized pattern-matching algorithms IBM Journal of Research and Development 31 (2), pp 249-260 (March 1987) [13] Laudon, E-book: E–Commerce, Pearson Education, ISBN-13: 978-0135090787 (2010) [14] Michael Coles, Hilary Cotter, Pro Full-Text Search in SQL Server 2008, Spinger-Verlag New York, Inc (2009) [15] Muhammad, Rashid Bin String Matching Agorithm Design and Analysis of Computer Algorithms [Online] Kent State University [Cited: 06 20, 2011.] http://www.personal.kent.edu/~rmuhamma/Algorithms/algorithm.html [16] R Boyer, J Moore, A fast string searching algorithm, Comm ACM vol 20, pp 762-772 (1977) [17] Siam J Comput, et al, Fast pattern matching in strings, donald e Knuth, Vol 6, No 2, (June 1977) [18] Ralph Stair & George Reynolds, E-book: Principle of Information Systems, Cengage Learning, ISBN: 0324665288 (2009) [19] Vidya SaiKrishna, et al, String Matching and its Applications in Diversified Fields, IJCSI International Journal of Computer Science Issues, Vol 9, Issue 1, No 1, January 2012 (2012) [20] Yanbing Liu et al, A factor-searching-based multiple string matching algorithm for intrusion detection, Communications (ICC), 2014 IEEE International Conference, pp 653-658 (2014) Trang 92