Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
1,55 MB
Nội dung
1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Đức Khoa NGHIÊN CỨU MÁY TÌMKIẾMQUAHỆTHỐNGGREENSTONE KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin HÀ NỘI - 2009 2 Mở Đầu…………….…………….…………….…………….……………………….1 Chương 1. Giới thiệu…………….…………….…………….………………… 3 1.1. Bài toán tìm kiếm…………….…………….…………….…………….……….3 1.2. Sơ lược sự phát triển của các hệthốngtìm kiếm…………….………… 4 1.3. Tình hình nghiên cứu, ứng dụng máytìmkiếm tại Việt Nam………….5 1.3.1 Tình hình nghiên cứu…………….…………….…………….…………….… 5 1.3.2 Tình hình ứng dụng …………….…………….…………….………………….8 1.4. Động cơ và mục tiêu của luận văn…………….…………….…………… 8 Chương 2. Các vấn đề cơ bản trong một hệthốngmáytìm kiếm…………….…………….…………….…………….…………….………………10 2.1. Tiến trình lập chỉ mục (Indexing) …………….…………….…………….10 2.1.1 Lập chỉ mục…………….…………….…………….…………….………… 10 2.1.2 Các loại chỉ mục…………….…………….…………….…………….………10 2.1.2.1 Chỉ mục tệp đảo…………….…………….…………….…………….…11 2.1.2.2 Chỉ mục tệp ký số…………….…………….…………….…………… 12 2.1.2.3 Đánh giá và kết luận…………….…………….…………….………… 15 2.2. Tiến trình tìmkiếmthông tin (Searching) …………….…………….… 16 2.3. Xếp hạng tài liệu liên quan (Ranking) …………….…………….……….17 2.3.1 Các khái niệm cơ bản…………….…………….…………….…………….…17 2.3.2 Xếp hạng tài liệu…………….…………….…………….…………….…… 18 Chương 3: Hệthống Greenstone…………….…………….…………… 21 3.1. Giới thiệu chung về Greenstone…………….…………….……………… 21 3.1.1 Các bộ tài liệu…………….…………….…………….…………….……… 21 3.1.2 Tìmkiếmthông tin…………….…………….…………….…………….……22 3.1.3 Định dạng dữ liệu…………….…………….…………….…………….…… 23 3.1.4 Các tài liệu đa phương tiện và đa ngôn ngữ…………….…………….………23 3.1.5 Chức năng phân phối của phầm mềm…………….…………….…………….23 3 3.2. Kiến trúc của hệthống Greenstone…………….…………….………… 24 3.3. Xây dựng bộ sưu tập…………….…………….…………….……………….26 3.3.1 Khái niệm…………….…………….…………….…………….…………….26 3.3.2 Thực nghiệm xây dựng bộ sưu tập…………….…………….………………29 3.3.2.1 Chương trình mkcol.pl…………….…………….…………………… 30 3.3.2.2 Chương trình import.pl…………….…………….…………….………31 3.3.2.3 Chương trình buildcol.pl…………….…………….…………….…… 32 3.3.2.4 - Cấu trúc của một bộ sưu tập…………….…………….……………….33 3.3.3 Hiển thị collection lên website……………………………………………….35 3.3.3.1 Thư mục etc…………….…………….…………….………………… 35 3.3.3.2 Thư mục index…………….…………….…………….……………… 38 Chương 4: Thực nghiệm xây dựng máytìmkiếm tiếng Việt……41 4.1. Vấn đề tìmkiếm tiếng Việt và tiếp cận…………….…………….……….41 4.2. Hệthống Lucene…………….…………….…………….…………………….42 4.3. Phần mềm VietSearch…………….…………….…………….…………… 44 4.3.1 Hệthống lập chỉ mục…………….…………….…………….………………44 4.3.2 Hệthốngtìm kiếm…………….…………….…………….………………… 46 4.3.3 Mô hình tương tự …………….…………….…………….………………… 46 4.3.3.1 Hệ số Cosine…………….…………….…………….…………….…….47 4.3.3.2 Khoảng cách Euclidean…………….…………….…………….……….47 4.3.3.3 Khoảng cách Manhattan…………….…………….…………….………47 4.3.4 Bộ phân loại tự động…………….…………….…………….……………… 48 4.3.5 Tìmkiếm các tài liệu liên quan…………….…………….…………….…… 49 4.4. Kết quả và đánh giá…………….…………….…………….……………… 49 KẾT LUẬN…………….…………….…………….…………….……………… 52 4 BẢNG CÁC TỪ VIẾT TẮT Kí hiệu Từ Tiếng Anh Giải thích IFID Inverted file index Chỉ mục tệp đảo SFID Signature file index Chỉ mục tệp ký số IF Inverted file Tệp đảo IL Inverted list Danh sách đảo CSDL Cơ sở dữ liệu SF Signature file Tệp ký số 5 MỞ ĐẦU Máytìmkiếm (Search Engine) đã phát triển khá hoàn thiện ở các nước phát triển. Ở Việt Nam, nghiên cứu và ứng dụng máytìmkiếm đang trong giai đoạn phát triển ban đầu. Luận văn đặt vấn đề nghiên cứutìm hiểu các kỹ thuật cơ bản và công nghệ trong xây dựng máytìmkiếm đồng thời áp dụng cho tiếng Việt. Mô hình hệthống mà luận văn đặt trọng tâm nghiên cứu là hệthống GreenStone, một hệthốngtìmkiếm hữu dụng phổ biến và là giải pháp cho nhiều thư viện số. Trong luận văn này, chúng tôi tìm hiểu sâu vào các công nghệ quan trọng của máytìm kiếm: bộ lập chỉ mục (indexing), bộ tìmkiếm (searching), bộ xếp hạng (ranking). Đồng thời nghiên cứu kiến trúc các hệthống và engine sẵn có phục vụ mục đích xây dựng một hệtìmkiếm cho tiếng Việt. Bên cạnh đó, một nhiệm vụ quan trọng nữa của luận văn là việc làm thế nào để áp dụng cho tìmkiếm cho đặc trưng tiếng Việt (áp dụng kết quả của phân đoạn từ). Áp dụng những thành tựu của khoa học máy tính để hoàn thiện cỗ máytìmkiếm là một công việc quan trọng . Bởi tìmkiếm những thứ tốt nhất phục vụ cho công việc và cuộc sống là một nhu cầu rất cần thiết của mỗi người. 6 Bố cục của luận văn gồm: Chương 1: Giới thiệu Chương 2: Các vấn đề cơ bản trong một hệthốngmáytìmkiếm Chương 3: HệthốngGreenStone Chương 4: Thực nghiệm xây dựng máytìmkiếm tiếng Việt 7 CHƯƠNG 1. Giới Thiệu 1.1. Bài toán tìmkiếmTìmkiếmthông tin có một lịch sử lâu đời gắn liền với các thư viện và trung tâm tìmkiếmthông tin. Trước đây, khi mà máy tính và internet chưa ra đời, những người có nhu cầu thông tin ngoài việc nhờ sự trợ giúp thông tin từ bạn bè, người thân còn có thể tìm đến thư viện hoặc các trung tâm thông tin để tìmkiếmthông tin cần thiết. Khi máy tính và Internet ra đời, đó là một bước đột phá về mặt công nghệ. Thông tin được lưu trữ và truyền đi một cách nhanh chóng. Các tài liệu được số hoá và đưa lên mạng. Internet trở thành một kho tài nguyên vô tận. Việc tìmkiếm trong một kho tài nguyên hay Internet để có được thông tin nhanh nhất và tốt nhất có thể, là một nhu cầu cần thiết. Trước thực tế đó, máytìmkiếm ra đời với mô hình cài đặt và thuật toán giúp cho việc tìmkiếm với dữ liệu lớn trở nên nhanh chóng. Tài liệu được biểu diễn dưới dạng tập hợp các chỉ mục đại diện cho tài liệu đó. Yêu cầu tìmkiếmthông tin được biểu diễn dưới dạng câu truy vấn có cấu trúc hoặc không cấu trúc. Kết quả của yêu cầu là tập hợp các tài liệu phù hợp nhất với câu truy vấn. 8 Những năm 90 của thế kỷ trước, tìmkiếmthông tin gần như đồng nghĩa với tìmkiếm tài liệu/văn bản. Từ năm 2000, các viễn cảnh ứng dụng mới như ứng dụng trả lời câu hỏi (question answering), ứng dụng nhận dạng chủ đề (topic detection), hay ứng dụng lưu vết (tracking) trở thành các lĩnh vực hoạt động mạnh mẽ trong nghiên cứutìmkiếmthông tin. Hiện nay, đối với máytìm kiếm, những nghiên cứu tập trung cho Web có ngữ nghĩa (Semantic Web). Web có ngữ nghĩa là sự mở rộng của Web hiện tại mà trong đó thông tin được định nghĩa rõ ràng sao cho con người và máy tính có thể cùng làm việc với nhau một cách hiệu quả hơn. Tìmkiếmthông tin của người dùng không chỉ biểu diễn thông tin bằng từ khoá mà còn được biểu diễn bằng thực thể có tên được đề cập đến trong tài liệu. Tại mỗi nước khác nhau, máytìmkiếm mang những đặc trưng riêng của ngôn ngữ nước đó. Đối với nước ta, xử lý ngôn ngữ tự nhiên đã có những bước phát triển nhanh chóng và đang đi vào hoàn thiện. Để phục vụ tốt cho nhu cầu hiện tại ở nước ta, chúng tôi giới hạn phạm vi đề tài là tìmkiếmthông tin trên văn bản. 1.2. Sơ lược sự phát triển của các hệthốngtìmkiếm Công cụ đầu tiên được sử dụng cho việc tìmkiếm trên Internet được ghi nhận cho "Archie” –được tạo bởi Alan Emtage – một sinh viên đại học McGill, Montreal. Archie sục sạo các lưu trữ trên web, và thiết lập chỉ mục cho từng tên file tìm được. Người sử dụng truy vấn bằng những từ khóa phù hợp với tiêu đề của tên file rồi nhận được một danh sách các địa chỉ có chứa file phù hợp nào đó, sau đó họ kết nối với máy tính và tra soát trong đó xem có dữ liệu họ đang cần không. Tiếp theo đó, năm 1991 McCahill của đại học Minnesota đã sáng tạo ra "Gopher". Giống như Archie, Gopher đánh chỉ mục các tên tệp tin và tiêu đề của nó. Hai chương trình "Veronica" và "Jughead" được tạo ra sau đó tìmkiếm các tệp tin trong hệthống chỉ mục của Gopher. Cả Archie, Veronica đểu thiếu khả năng về ngữ nghĩa bởi vì chúng không chỉ mục vào toàn văn bản mà chỉ tới tiêu đề của tài liệu. Điều đó có nghĩa người tìm 9 kiếm phải biết hoặc phải suy luận được tiêu đề của tài liệu mà người đó đang tìm. Khi Internet phát triển mạnh thì công cụ tìmkiếm cũng phải được nâng lên tương xứng. Máy dò hay robot đã giải quyết được vấn đề này. Máy dò là một loại robot tự động lập chỉ mục cho các trang web, nó chạy khắp trên mạng một cách hệthống để thu thập các trang web và khi các trang web xuất hiện ngày một nhiều thì nó cũng tự động điền thêm vào hệthống dò tìm. Máy dò tìm đầu tiên được tạo ra bởi Matthew Gray, một sinh viên trường MIT vào năm 1993 có tên là World Wide Web Wanderer. Do băng thông nhỏ và hiếm thời ấy, nên Gray phải ngắt bỏ nhện web (crawler), cài đặt nó bằng thuật toán theo chiều ngang để mở rộng nhiều trang trước khi tìm kiếm. Quy trình này hiệu quả hơn và hiện vẫn còn đang được sử dụng ngày nay. Máy dò sớm bị các công cụ mạnh hơn thay thế. Một trong những công cụ đầu tiên đó là webcrawler được một nhà nghiên cứu thuộc đại học Washington tên là Brain Pinkerton phát triển. Webcrawler đã đóng vai trò quan trọng trong cuộc cách mạng về tìmkiếm vì đây là chương trình đầu tiên chỉ mục toàn văn tài liệu trên trang web tìm được. Năm 1993, Excite được giới thiệu bởi 6 sinh viên trướng đại học Stanford. Hệthống này sử dụng sự phân tích thống kê mối quan hệ từ để trợ giúp cho quá trình search. Chỉ sau 1 năm, Excite đã được tích hợp và đưa lên online vào tháng 12 năm 1995 và đến nay vẫn là một phần của công ty AskJeeves. Jerry Yang and David Filo đã tạo ra Yahoo vào năm 1994, khởi đầu như một danh sách các website yêu thích có đường dẫn URL và mô tả nội dung trang. Trong vòng 2 năm sau đó, công ty Yahoo ra đời. Lycos cũng được giới thiệu vào năm 1994. Đây là một search engine lớn, đã index được hơn 60 triệu documents vào năm 1996 – lượng dữ liệu lớn nhất trong tất cả các search engine thời kỳ đó. Năm 1995 Alta Vista ra đời. Đây là search engine đầu tiên cho phép sử dụng các truy vấn là ngôn ngữ tự nhiên và có công nghệ tìmkiếm ưu việt. Người ta nói rằng tạo ra Altavista.com là một kỳ tích. Tập đoàn Digital 10 Equipment Corp (DEC) khi đó vừa ra mắt bộ xử lý Alpha siêu tốc và tìm cách chứng minh sức mạnh của bộ xử lý này. Louis Moninter, một nhà nghiên cứu thuộc Trung tâm Western của DEC tại Palo Alto, bang California đã đề xuất xây dựng một công cụ tìmkiếm có thể tải toàn bộ mạng Internet (cơ sở dữ liệu dung lượng lớn) xuống máy tính tích hợp bộ xử lý Alpha, sau đó tạo ra một chương trình có thể ứng dụng tốc độ xử lý của Alpha (đó là máytìm kiếm). Altavista ra đời từ đó. Mặc dù thất bại sau này nhưng Alta vista vẫn thực sự ấn tượng do một vài lý do. So với hiện nay, Alta vista là một Google thời bấy giờ. Inktomi được khởi đầu vào năm 1996 tại UC Berkeley. Vào tháng 6 năm1999, Inktomi giới thiệu một directory search engine dựa trên công nghệ "concept induction". Theo như giới thiệu của công ty này thì "concept induction" có khả năng tiến hành phân tích thói quen của người sử dụng để đưa ra các trang gợi ý. Inktomi được bán cho Yahoo vào năm 2003. Năm 1997 Google ra mắt như một dự án nghiên cứu tại trường Đại học Stanford bởi hai nhà sáng lập Sergey Brin và Larry Page. Máytìmkiếm Google mang đến một sự nổi bật với những kết quả tốt hơn cho rất nhiều sự tìm kiếm. Sự cách tân này, chính là PageRank. Giải thuật này, xắp xếp các trang web dựa trên số lượng và PageRank của các các trang web khác liên kết đến trang này. Giải thuật này dựa trên giải thuyết những trang tốt hoặc trang được quan tâm có nhiều sự liên kết tới hơn những trang khác. Năm 2000, Yahoo đã cung cấp dịch vụ tìmkiếm dựa trên máytìmkiếm của Inktomi. Yahoo đã mua được Inktomi vào năm 2002 và Overture (chính là AlltheWeb và AltaVista) vào năm 2003. Yahoo đã chuyển sang máytìmkiếm Google đến tận năm 2004, khi mà Yahoo triển khai máytìmkiếm của mình dựa trên những công nghệ tập hợp được. Microsoft cũng triển khai MSN Search vào năm 1998 sử dụng kết quảtìmkiếm của Inktomi. Vào đầu năm 1999, trang web này bắt đầu hiển thị kết quảtìmkiếm từ Looksmart lẫn kết quả Inktomi ngoại trừ khoảng thời gian ngắn trong năm 1999 khi kết quả từ Alta Vista được sử dụng để thay thế. Hiện nay, Google đang là máytìmkiếm phổ biến nhất. Ở mỗi quốc gia, đối với thị trường trong nước, đều có các công ty cạnh tranh máytìmkiếm [...]... pháp tìmkiếmthông thường Nghiên cứu xây dựng máytìmkiếm của trường ĐH Bách Khoa TPHCM, có hai hướng Đầu tiên, máytìmkiếm liên hợp (meta search engine), không giống như máytìmkiếmthông thường, nó gửi câu truy vấn tới các máytìmkiếm khác (tạm gọi là máytìmkiếm nguồn) như Google, Yahoo và sau đó xử lý kết quả trả về từ các máytìmkiếm này trước khi trả ra kết quả cho người dùng Máytìm kiếm. .. Tìm hiểu kiến trúc công nghệ cơ bản của máytìmkiếm Đó là tiến trình lập chỉ mục, tiến tình tìm kiếm, xếp hạng tài liệu Tìm hiểu kiến trúc hệthống Greenstone, để biết được công nghệ và kiến trúc của máytìmkiếm là như thế nào Ứng dụng công nghệ Lucene để xây dựng máytìmkiếm tiếng Việt Đưa tách từ (word segmentation) vào máytìmkiếm tiếng Việt 13 Chương 2 Các vấn đề cơ bản trong một hệ thống. .. một máytìmkiếm phổ biến nhất ở Trung Quốc 1.3 Tình hình nghiên cứu, ứng dụng máytìmkiếm tại Việt Nam 1.3.1 Tình hình nghiên cứu Nghiên cứu máy tìmkiếm bắt đầu ở Việt Nam từ năm 1997 Bắt đầu với sự xuất hiện Vinaseek(2000) của công ty Tinh Vân và Netnam(2001) của Viện công nghệ thông tin Cả hai đều đã gây ra tiếng vang lớn thời bấy giờ Đến nay, có rất nhiều các công trình nghiên cứu về máy tìm kiếm. .. nhạc, tìm blog, tìm dịch vụ…), đã chứng tỏ một cách tiếp cận khôn ngoan khi đối diện với Google Đó là các loại dịch vụ tìmkiếm theo 12 chiều dọc với khả năng đưa ra thị trường nhanh nhất và phù hợp nhất với người dùng Việt Nam 1.4 Động cơ và mục tiêu của luận văn Với mong muốn nghiên cứutìm hiểu cỗ máytìmkiếm và xây dựng máytìmkiếm dựa trên những đặc trưng của tiếng Việt, chúng tôi nhận thấy luận. .. cỗ máytìmkiếm Như cỗ máy chuyên tìmkiếm nhạc, video là www.baamboo.com, mp3.zing.vn hay các website tìmkiếmthông tin tổng hợp, âm nhạc, hình ảnh như www.monava.vn, www.7sac.com, www.socbay.com, www.xalo.vn Sự đối đầu trực tiếp với Google như Monava, 7sac, là không nên Sự thành công của baamboo, mp3.zing khi tiếp cận theo hướng “vertical search” (tìm kiếm trong các lĩnh vực chuyên biệt như tìm. .. máytìmkiếm video, ảnh sử dụng Concept ở đây dùng để chỉ tìmkiếm ở mức ngữ nghĩa, ví dụ bạn gõ vào airplane thì sẽ tìm được các shot có liên quan đến airplane Đặc điểm thứ hai, đó là sự hỗ trợ person search Nghĩa là người dùng đưa vào tên, và hệthống sẽ trả về các video shots có nhân vật đó xuất hiện Đặc điểm ba, đó là hỗ trợ exploratory search Nghĩa là cho phép những người dùng chưa có ý định tìm. .. đây, chúng tôi đưa ra ba hướng nghiên cứu đáng chú ý hiện nay của các trường đại học trên cả nước Tìmkiếm tài liệu, dữ liệu dựa trên Ontology của trường ĐH Công Nghệ và ĐH Bách Khoa Hà Nội Trong đó, một Ontology là một mô hình dữ liệu biểu diễn một lĩnh vực và được sử dụng để suy luận về các đối tượng trong lĩnh vực đó và mối quan hệ giữa chúng Trong hệ hống tìmkiếm này, có hai module: module sinh... K chiều, K . nghiên cứu tìm hiểu các kỹ thuật cơ bản và công nghệ trong xây dựng máy tìm kiếm đồng thời áp dụng cho tiếng Việt. Mô hình hệ thống mà luận văn đặt trọng tâm nghiên cứu là hệ thống GreenStone, . TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Đức Khoa NGHIÊN CỨU MÁY TÌM KIẾM QUA HỆ THỐNG GREENSTONE KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin . Bố cục của luận văn gồm: Chương 1: Giới thiệu Chương 2: Các vấn đề cơ bản trong một hệ thống máy tìm kiếm Chương 3: Hệ thống GreenStone Chương 4: Thực nghiệm xây dựng máy tìm kiếm tiếng Việt
BẢNG CÁC TỪ VIẾT TẮT (Trang 4)
Hình 2
1 Văn bản mẫu; mỗi dòng là một tài liệu (Trang 15)
Hình 2
2 IF mức từ đối với văn bản của hình 2-1 (Trang 16)
Hình 2
3 – Bảng mã hash các term (Trang 17)
Hình 2
4 Ký số tổng hợp (Trang 18)
Hình 2
6 Giá trị của các phép toán trong SFID (Trang 19)
Hình 3
1 Kiến trúc hệ thống Greenstone (Trang 29)
Hình 3
3 Cấu trúc thư mục index của mỗi bộ sưu tập (Trang 38)
ng
chỉ mục sẽ giúp cho các tài liệu được tìm thấy bởi các từ khoá (keyword) (Trang 48)
Hình 4
2 Searching System (Trang 50)
Hình 4
4 Giao diện tài liệu liên quan của hệ thống (Trang 54)
Hình 4
3 Giao diện tìm kiếm của hệ thống (Trang 54)
Hình 4
5 Giao diện lập chỉ mục của hệ thống (Trang 55)