Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
1,58 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Đức Khoa NGHIÊN CỨU MÁY TÌM KIẾM QUA HỆ THỐNG GREENSTONE KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng Nghệ Thơng Tin HÀ NỘI - 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mở Đầu…………….…………….…………….…………….……………………….1 Chương Giới thiệu…………….…………….…………….………………… 1.1 Bài toán tìm kiếm…………….…………….…………….…………….……….3 1.2 Sơ lược phát triển hệ thống tìm kiếm…………….………… 1.3 Tình hình nghiên cứu, ứng dụng máy tìm kiếm Việt Nam………….5 1.3.1 Tình hình nghiên cứu…………….…………….…………….…………….… 1.3.2 Tình hình ứng dụng …………….…………….…………….………………….8 1.4 Động mục tiêu luận văn…………….…………….…………… Chương Các vấn đề hệ thống máy tìm kiếm…………….…………….…………….…………….…………….………………10 2.1 Tiến trình lập mục (Indexing) …………….…………….…………….10 2.1.1 Lập mục…………….…………….…………….…………….………… 10 2.1.2 Các loại mục…………….…………….…………….…………….………10 2.1.2.1 Chỉ mục tệp đảo…………….…………….…………….…………….…11 2.1.2.2 Chỉ mục tệp ký số…………….…………….…………….…………… 12 2.1.2.3 Đánh giá kết luận…………….…………….…………….………… 15 2.2 Tiến trình tìm kiếm thơng tin (Searching) …………….…………….… 16 2.3 Xếp hạng tài liệu liên quan (Ranking) …………….…………….……….17 2.3.1 Các khái niệm bản…………….…………….…………….…………….…17 2.3.2 Xếp hạng tài liệu…………….…………….…………….…………….…… 18 Chương 3: Hệ thống Greenstone…………….…………….…………… 21 3.1 Giới thiệu chung Greenstone…………….…………….……………… 21 3.1.1 Các tài liệu…………….…………….…………….…………….……… 21 3.1.2 Tìm kiếm thơng tin…………….…………….…………….…………….……22 3.1.3 Định dạng liệu…………….…………….…………….…………….…… 23 3.1.4 Các tài liệu đa phương tiện đa ngôn ngữ…………….…………….………23 3.1.5 Chức phân phối phầm mềm…………….…………….…………….23 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.2 Kiến trúc hệ thống Greenstone…………….…………….………… 24 3.3 Xây dựng sưu tập…………….…………….…………….……………….26 3.3.1 Khái niệm…………….…………….…………….…………….…………….26 3.3.2 Thực nghiệm xây dựng sưu tập…………….…………….………………29 3.3.2.1 Chương trình mkcol.pl…………….…………….…………………… 30 3.3.2.2 Chương trình import.pl…………….…………….…………….………31 3.3.2.3 Chương trình buildcol.pl…………….…………….…………….…… 32 3.3.2.4 - Cấu trúc sưu tập…………….…………….……………….33 3.3.3 Hiển thị collection lên website……………………………………………….35 3.3.3.1 Thư mục etc…………….…………….…………….………………… 35 3.3.3.2 Thư mục index…………….…………….…………….……………… 38 Chương 4: Thực nghiệm xây dựng máy tìm kiếm tiếng Việt……41 4.1 Vấn đề tìm kiếm tiếng Việt tiếp cận…………….…………….……….41 4.2 Hệ thống Lucene…………….…………….…………….…………………….42 4.3 Phần mềm VietSearch…………….…………….…………….…………… 44 4.3.1 Hệ thống lập mục…………….…………….…………….………………44 4.3.2 Hệ thống tìm kiếm…………….…………….…………….………………… 46 4.3.3 Mơ hình tương tự …………….…………….…………….………………… 46 4.3.3.1 Hệ số Cosine…………….…………….…………….…………….…….47 4.3.3.2 Khoảng cách Euclidean…………….…………….…………….……….47 4.3.3.3 Khoảng cách Manhattan…………….…………….…………….………47 4.3.4 Bộ phân loại tự động…………….…………….…………….……………… 48 4.3.5 Tìm kiếm tài liệu liên quan…………….…………….…………….…… 49 4.4 Kết đánh giá…………….…………….…………….……………… 49 KẾT LUẬN…………….…………….…………….…………….……………… 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com BẢNG CÁC TỪ VIẾT TẮT Kí hiệu Từ Tiếng Anh Giải thích IFID SFID IF IL CSDL SF Inverted file index Signature file index Inverted file Inverted list Chỉ mục tệp đảo Chỉ mục tệp ký số Tệp đảo Danh sách đảo Cơ sở liệu Tệp ký số Signature file LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Máy tìm kiếm (Search Engine) phát triển hoàn thiện nước phát triển Ở Việt Nam, nghiên cứu ứng dụng máy tìm kiếm giai đoạn phát triển ban đầu Luận văn đặt vấn đề nghiên cứu tìm hiểu kỹ thuật cơng nghệ xây dựng máy tìm kiếm đồng thời áp dụng cho tiếng Việt Mơ hình hệ thống mà luận văn đặt trọng tâm nghiên cứu hệ thống GreenStone, hệ thống tìm kiếm hữu dụng phổ biến giải pháp cho nhiều thư viện số Trong luận văn này, chúng tơi tìm hiểu sâu vào cơng nghệ quan trọng máy tìm kiếm: lập mục (indexing), tìm kiếm (searching), xếp hạng (ranking) Đồng thời nghiên cứu kiến trúc hệ thống engine sẵn có phục vụ mục đích xây dựng hệ tìm kiếm cho tiếng Việt Bên cạnh đó, nhiệm vụ quan trọng luận văn việc làm để áp dụng cho tìm kiếm cho đặc trưng tiếng Việt (áp dụng kết phân đoạn từ) Áp dụng thành tựu khoa học máy tính để hồn thiện cỗ máy tìm kiếm cơng việc quan trọng Bởi tìm kiếm thứ tốt phục vụ cho cơng việc sống nhu cầu cần thiết người LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bố cục luận văn gồm: Chương 1: Giới thiệu Chương 2: Các vấn đề hệ thống máy tìm kiếm Chương 3: Hệ thống GreenStone Chương 4: Thực nghiệm xây dựng máy tìm kiếm tiếng Việt LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG Giới Thiệu 1.1 Bài tốn tìm kiếm Tìm kiếm thơng tin có lịch sử lâu đời gắn liền với thư viện trung tâm tìm kiếm thơng tin Trước đây, mà máy tính internet chưa đời, người có nhu cầu thơng tin ngồi việc nhờ trợ giúp thơng tin từ bạn bè, người thân cịn tìm đến thư viện trung tâm thơng tin để tìm kiếm thơng tin cần thiết Khi máy tính Internet đời, bước đột phá mặt công nghệ Thông tin lưu trữ truyền cách nhanh chóng Các tài liệu số hố đưa lên mạng Internet trở thành kho tài ngun vơ tận Việc tìm kiếm kho tài ngun hay Internet để có thơng tin nhanh tốt có thể, nhu cầu cần thiết Trước thực tế đó, máy tìm kiếm đời với mơ hình cài đặt thuật tốn giúp cho việc tìm kiếm với liệu lớn trở nên nhanh chóng Tài liệu biểu diễn dạng tập hợp mục đại diện cho tài liệu Yêu cầu tìm kiếm thơng tin biểu diễn dạng câu truy vấn có cấu trúc khơng cấu trúc Kết yêu cầu tập hợp tài liệu phù hợp với câu truy vấn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Những năm 90 kỷ trước, tìm kiếm thơng tin gần đồng nghĩa với tìm kiếm tài liệu/văn Từ năm 2000, viễn cảnh ứng dụng ứng dụng trả lời câu hỏi (question answering), ứng dụng nhận dạng chủ đề (topic detection), hay ứng dụng lưu vết (tracking) trở thành lĩnh vực hoạt động mạnh mẽ nghiên cứu tìm kiếm thơng tin Hiện nay, máy tìm kiếm, nghiên cứu tập trung cho Web có ngữ nghĩa (Semantic Web) Web có ngữ nghĩa mở rộng Web mà thông tin định nghĩa rõ ràng cho người máy tính làm việc với cách hiệu Tìm kiếm thơng tin người dùng không biểu diễn thông tin từ khố mà cịn biểu diễn thực thể có tên đề cập đến tài liệu Tại nước khác nhau, máy tìm kiếm mang đặc trưng riêng ngơn ngữ nước Đối với nước ta, xử lý ngơn ngữ tự nhiên có bước phát triển nhanh chóng vào hồn thiện Để phục vụ tốt cho nhu cầu nước ta, giới hạn phạm vi đề tài tìm kiếm thơng tin văn 1.2 Sơ lược phát triển hệ thống tìm kiếm Công cụ sử dụng cho việc tìm kiếm Internet ghi nhận cho "Archie” –được tạo Alan Emtage – sinh viên đại học McGill, Montreal Archie sục sạo lưu trữ web, thiết lập mục cho tên file tìm Người sử dụng truy vấn từ khóa phù hợp với tiêu đề tên file nhận danh sách địa có chứa file phù hợp đó, sau họ kết nối với máy tính tra sốt xem có liệu họ cần khơng Tiếp theo đó, năm 1991 McCahill đại học Minnesota sáng tạo "Gopher" Giống Archie, Gopher đánh mục tên tệp tin tiêu đề Hai chương trình "Veronica" "Jughead" tạo sau tìm kiếm tệp tin hệ thống mục Gopher Cả Archie, Veronica đểu thiếu khả ngữ nghĩa chúng khơng mục vào tồn văn mà tới tiêu đề tài liệu Điều có nghĩa người tìm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com kiếm phải biết phải suy luận tiêu đề tài liệu mà người tìm Khi Internet phát triển mạnh cơng cụ tìm kiếm phải nâng lên tương xứng Máy dò hay robot giải vấn đề Máy dò loại robot tự động lập mục cho trang web, chạy khắp mạng cách hệ thống để thu thập trang web trang web xuất ngày nhiều tự động điền thêm vào hệ thống dị tìm Máy dị tìm tạo Matthew Gray, sinh viên trường MIT vào năm 1993 có tên World Wide Web Wanderer Do băng thông nhỏ thời ấy, nên Gray phải ngắt bỏ nhện web (crawler), cài đặt thuật tốn theo chiều ngang để mở rộng nhiều trang trước tìm kiếm Quy trình hiệu cịn sử dụng ngày Máy dò sớm bị công cụ mạnh thay Một cơng cụ webcrawler nhà nghiên cứu thuộc đại học Washington tên Brain Pinkerton phát triển Webcrawler đóng vai trị quan trọng cách mạng tìm kiếm chương trình mục tồn văn tài liệu trang web tìm Năm 1993, Excite giới thiệu sinh viên trướng đại học Stanford Hệ thống sử dụng phân tích thống kê mối quan hệ từ để trợ giúp cho trình search Chỉ sau năm, Excite tích hợp đưa lên online vào tháng 12 năm 1995 đến phần công ty AskJeeves Jerry Yang and David Filo tạo Yahoo vào năm 1994, khởi đầu danh sách website yêu thích có đường dẫn URL mơ tả nội dung trang Trong vịng năm sau đó, cơng ty Yahoo đời Lycos giới thiệu vào năm 1994 Đây search engine lớn, index 60 triệu documents vào năm 1996 – lượng liệu lớn tất search engine thời kỳ Năm 1995 Alta Vista đời Đây search engine cho phép sử dụng truy vấn ngơn ngữ tự nhiên có cơng nghệ tìm kiếm ưu việt Người ta nói tạo Altavista.com kỳ tích Tập đồn Digital LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Equipment Corp (DEC) vừa mắt xử lý Alpha siêu tốc tìm cách chứng minh sức mạnh xử lý Louis Moninter, nhà nghiên cứu thuộc Trung tâm Western DEC Palo Alto, bang California đề xuất xây dựng cơng cụ tìm kiếm tải toàn mạng Internet (cơ sở liệu dung lượng lớn) xuống máy tính tích hợp xử lý Alpha, sau tạo chương trình ứng dụng tốc độ xử lý Alpha (đó máy tìm kiếm) Altavista đời từ Mặc dù thất bại sau Alta vista thực ấn tượng vài lý So với nay, Alta vista Google thời Inktomi khởi đầu vào năm 1996 UC Berkeley Vào tháng năm1999, Inktomi giới thiệu directory search engine dựa công nghệ "concept induction" Theo giới thiệu cơng ty "concept induction" có khả tiến hành phân tích thói quen người sử dụng để đưa trang gợi ý Inktomi bán cho Yahoo vào năm 2003 Năm 1997 Google mắt dự án nghiên cứu trường Đại học Stanford hai nhà sáng lập Sergey Brin Larry Page Máy tìm kiếm Google mang đến bật với kết tốt cho nhiều tìm kiếm Sự cách tân này, PageRank Giải thuật này, xắp xếp trang web dựa số lượng PageRank các trang web khác liên kết đến trang Giải thuật dựa giải thuyết trang tốt trang quan tâm có nhiều liên kết tới trang khác Năm 2000, Yahoo cung cấp dịch vụ tìm kiếm dựa máy tìm kiếm Inktomi Yahoo mua Inktomi vào năm 2002 Overture (chính AlltheWeb AltaVista) vào năm 2003 Yahoo chuyển sang máy tìm kiếm Google đến tận năm 2004, mà Yahoo triển khai máy tìm kiếm dựa công nghệ tập hợp Microsoft triển khai MSN Search vào năm 1998 sử dụng kết tìm kiếm Inktomi Vào đầu năm 1999, trang web bắt đầu hiển thị kết tìm kiếm từ Looksmart lẫn kết Inktomi ngoại trừ khoảng thời gian ngắn năm 1999 kết từ Alta Vista sử dụng để thay Hiện nay, Google máy tìm kiếm phổ biến Ở quốc gia, thị trường nước, có cơng ty cạnh tranh máy tìm kiếm 10 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com + dc.Title,dls.Title dc.Subject,dls.Subject dc.Language,dls.Language dc.Organization,dls.Organization 3.3.3.2 Thư mục index: Thư mục index tạo cách chép toàn thư mục building xây dựng xong Bởi thư mục building thư mục lưu trữ kết xây dựng collection, tránh ảnh hưởng đến thư mục index – thư mục kết collection trước Thêm file buildConfig.xml: + //số lượng document index 11 mgpp + : //tên collection gs2mgppdemo giúp cho việc truyền query đến collection 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com : // thực việc mapping đến thuộc tính document lưu thư mục index 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com : : 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Thực nghiệm xây dựng máy tìm kiếm tiếng Việt 4.1 Vấn đề tìm kiếm tiếng Việt tiếp cận Do Tiếng Việt ngôn ngữ đơn lập Đặc điểm bao quát tiếng Việt mặt ngữ âm, ngữ nghĩa, ngữ pháp Khác với ngơn ngữ Ấn-Âu, từ nhóm ký tự có nghĩa cách khoảng trắng Cịn tiếng Việt, ngơn ngữ đơn lập khác, khoảng trắng để nhận diện tiếng Các tiếng kết hợp với tạo nên từ Từ hoàn chỉnh mặt nội dung, đơn vị nhỏ để đặt câu.Vì tách từ khâu quan trọng trình lập mục Chúng nhận thấy việc tách từ tiếng Việt tốn khó nguyên nhân sau đây: - Từ dạng nguyên thể, hình thức ý nghĩa từ độc lập với cú pháp - Từ bao gồm nhiều tiếng - Từ bao gồm từ đơn (từ tiếng) từ phức (n tiếng , với n tơi u_thích học mơn_tốn Whitespace Các Document tiếng Việt sau qua LM, việc tách từ Analysis trở nên đơn giản hơn, lúc khoảng trắng dấu phân cách từ FilterStopword Nếu tài liệu tiếng Anh loại bỏ từ Stopword tiếng Anh EnglishAnalysis Sử dụng PositionalPorterStopFilter 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.3.2 Hệ thống tìm kiếm Hình 4-2 Searching System Hệ thống nhận câu truy vấn người sử dụng, lowercase câu truy vấn Nếu người sử dụng chọn tách từ theo tiếng Việt, chức VNFilter gọi VNFilter tách từ lọc stopword tiếng Việt Sau câu truy vấn chuyển dạng câu truy vấn chuẩn hệ thống Lucene Chức Search Index thiết lập đối tượng tìm kiếm, người sử dụng chọn tiếng Việt WhiteSpace Analysis chọn, chọn tiếng Anh PositionalPorterStopFilter đựơc chọn 4.3.3 Mơ hình tương tự Trong phần này, xem xét ba phương pháp khác nhau, dùng để xác định mức độ tương đồng hai vector đặc trưng va vb Trong v w , w i i1 i2 , , w in i a, b , wij , j 1,2, , n , n tổng số đặc trưng vector 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Có ba phương pháp xác định mức độ tương đồng hai vector này, dùng: Hệ số Cosine, Khoảng cách Euclidean Manhattan 4.3.3.1 Hệ số Cosine Hệ số cosine hệ số dùng phổ biến để xác định mức độ tương đồng vector đặc trưng hai văn Nếu hệ số cosine hai văn lớn mức độ tương đồng chúng lớn Cho hai vector va vb, mức độ tương đồng hai vector xác định công thức: n w w a b bi i 1 cos_sim v , v n w n i 1 w bi i 1 4.3.3.2 Khoảng cách Euclidean Khoảng cách Euclidean phương pháp phổ biến để xác định mức độ tương đồng vector đặc trưng hai văn Cho hai vector va vb, khoảng cách Euclidean định nghĩa sau: euc_dist Vì euc_dist v , v a b n w w bi i 1 v , v a b nằm khoảng 1, mức độ tương đồng n hai vector xác định công thức sau: euc _ sim v a , vb euc_dist v , v a n b = 1 n n w w bi i 1 4.3.3.3 Khoảng cách Manhattan: Khoảng cách Manhattan phương pháp thứ ba dùng để xác định mức độ tương đồng vector đặc trưng hai văn Cho hai vector va vb, khoảng cách Manhattan định nghĩa sau: 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com n man _dist Vì man _dist v , v w a b i 1 wbi v , v a b nằm khoảng 1, mức độ tương đồng n hai vector xác định công thức sau: man _ sim va , vb man _dist v , v n a b = 1 n w wbi n i 1 4.3.4 Bộ phân loại tự động Dữ liệu chuẩn cho phân loại tự động thư mục theo category Các thư mục chứa liệu liên quan đến lĩnh vực Các tài liệu category phải bao trùm hết khía cạnh category Lập mục cho liệu này, để thiết lập sở liệu cho phân loại tự động Bộ phân loại tự động khởi tạo tải tài liệu lập mục, trích chọn lấy từ khoá quan trọng, đặc trưng cho tài liệu vào category Kết category có từ khố thể đặc trưng category Kèm với từ khố số lần xuất tất văn thuộc category Khi cần phân loại cho văn bản, hệ thống trích chọn từ khố thể đặc trưng văn Văn thể chuỗi từ khoá số lần xuất chúng văn Quyết định văn thuộc category nào, việc so sánh hai vector category với văn Ở chúng tơi dùng hệ số cosine để tính tốn tìm category phù hợp Trong phần mềm VietSearch, có hai category kinh-doanh vi-tinh Việc thực phân loại tự động cho kết tốt Khả phân loại vào khoảng 92% 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.3.5 Tìm kiếm tài liệu liên quan Khi người sử dụng nhập vào câu truy vấn, hệ thống tìm kiếm trả kết chuỗi tài liệu thoả mãn Người sử dụng lại muốn đưa lên yêu cầu, tìm tài liệu liên quan tài liệu số tài liệu thoả mãn Nhận yêu cầu từ người sử dụng Hệ thống tải tài liệu lên trích chọn từ khoá đặc trưng cho văn tiến hành xây dựng câu truy vấn vào hệ thống Câu truy vấn mang nghĩa, tìm tất tài liệu liên quan đến từ khoá đặc trưng cho văn 4.4 Kết đánh giá Dữ liệu dùng để xây dựng mục 1Gigabyte Đây liệu biên tập thủ công, phân hai category kinh-doanh vi-tinh Thời gian lập mục 5h (trên máy Dou Core 1.8, ram 1G) kết liệu mục 100 Megabyte Do hệ thống phải tách từ cho tài liệu tiếng Việt nên thời gian có tăng Nhìn vào liệu , ta thấy tốc độ chạy hệ thống tốt Khi người dùng nhập câu truy vấn vào hệ thống, thời gian chạy câu truy vấn thường 20 milliseconds Ví dụ có câu truy vấn: Tìm hiểu hệ thống Greenstone Tách từ chọn Tiếng Việt Vì câu truy vấn là: tìm_hiểu hệ_thống greenstone Hệ thống tìm tệp đảo với cách từ khố: tìm_hiểu, hệ_thống, greentone Kết câu truy vấn trả 491 tài liệu 16 miliseconds Đối với tài liệu có chức Đó xem nội dung tài liệu tìm tài liệu liên quan tới tài liệu 53 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 4-3 Giao diện tìm kiếm hệ thống Khi sử dụng hệ thống, bạn chọn tách từ theo tiếng Việt tách từ theo tiếng Anh Bạn giới hạn tìm kiếm lĩnh vực Ở đây, có hai lĩnh vực kinh-doanh vi-tinh Phần mềm hỗ trợ phân trang Mỗi lần đưa 10 trang câu truy vấn Người dùng yêu cầu hiển thị 10 trang số hàng trăm kết trả Hình 4-4 Giao diện tài liệu liên quan hệ thống Bạn lập mục tài liệu mà bạn vừa sưu tầm vào hệ thống cách sử dụng chức Administator: 54 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 4-5 Giao diện lập mục hệ thống Bạn cần cho tài liệu vào thư mục E:\test\data\, gõ đường dẫn vào form Nếu bạn để thư mục nữa, nghĩa bạn chọn category cho tài liệu Cịn khơng, hệ thống sử dụng phân loại tự động để phân loại tài liệu cho bạn 55 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com KẾT LUẬN Qua luận văn này, thấy quan trọng máy tìm kiếm phát triển đất nước toàn nhân loại Các chức quan trọng máy tìm kiếm lập mục, tìm kiếm tài liệu, xếp hạng tài liệu, phân loại tự động tài liệu làm rõ thực nghiệm thành cơng Đây đóng góp quan trọng luận văn Định hướng tương lai mặt ứng dụng : Phát triển hoàn thiện chức phân loại tự động văn , thuật toán tách từ để nâng cao hiệu Triển khai chức quan trọng khác MapReduce, BigTable, … 56 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... tìm hiểu kỹ thuật cơng nghệ xây dựng máy tìm kiếm đồng thời áp dụng cho tiếng Việt Mơ hình hệ thống mà luận văn đặt trọng tâm nghiên cứu hệ thống GreenStone, hệ thống tìm kiếm hữu dụng phổ biến... mong muốn nghiên cứu tìm hiểu cỗ máy tìm kiếm xây dựng máy tìm kiếm dựa đặc trưng tiếng Việt, nhận thấy luận văn đặt trọng tâm vào mục tiêu sau đây: Tìm hiểu kiến trúc cơng nghệ máy tìm kiếm Đó... lập mục, tiến tình tìm kiếm, xếp hạng tài liệu Tìm hiểu kiến trúc hệ thống Greenstone, để biết cơng nghệ kiến trúc máy tìm kiếm Ứng dụng công nghệ Lucene để xây dựng máy tìm kiếm tiếng Việt