1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tìm hiểu các hệ thống search engine và xây dựng a simple search engine

51 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 51
Dung lượng 1,33 MB

Nội dung

TRƯỜNG ĐẠI HỌC VINH KHOA CÔNG NGHỆ THÔNG TIN _* _ ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ THÔNG TIN TÌM HIỂU CÁC HỆ THỐNG SEARCH ENGINE VÀ XÂY DỰNG A SIMPLE SEARCH ENGINE Sinh viên thực : Tăng Ngọc Phú Lớp : 46K1-CNTT Giáo viên hướng dẫn : THS.Phan Anh Phong VINH 5-2010 Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin TÓM TẮT NỘI DUNG ĐỀ TÀI Một yếu tố quan trọng góp phần vào thành cơng mạng internet hệ thống search engine Mục đích tác giả làm đề tài tìm hiểu hệ thống search engine, cấu trúc cách thức hoạt động chúng, từ xây dựng lên hệ thống search engine đơn giản mơ hình lại hệ thống search engine thực tế Trong hệ thống xây dựng tác giả áp dụng thêm giải thuật phân vùng tài liệu để góp phần đem đến cho người sử dụng hệ thống kết tìm kiếm gần với mong muốn Chương một, trình bày cấu túc tổng thể hệ thống search engine, thành phần, cách thức hoạt động hệ thống Các vấn đề việc xây dựng phát triển hệ thống search engine Ở chương hai bàn phương pháp tiếp cận để xây dựng lên hệ thống search engine mô tả lại hệ thống search engine thực: Cách thức xử lý ngơn ngữ hệ thống tìm kiếm, mơ hình không gian vector thư viện mã nguồn mở Lucene Trên sở mơ hình khơng gian vector, chương ba, trình bày phương pháp giúp người dùng tìm kiếm kết gần với mong muốn Đó việc phân cụm tài liệu Chương bốn nói tới việc xây dựng hệ thống search engine thử nghiệm mơ hình lại hệ thống search engine thực tế Các thành phần, cấu trúc liệu giải thuật liên quan Chương cuối trình bày đánh giá thực đề tài Những kết luận toán mà đề tài giải định hướng phát triển Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin Mục lục TÓM TẮT NỘI DUNG ĐỀ TÀI…………………………………… ……………… Chương I Tổng quan hệ thống search engine……………………… …………….5 Giới thiệu Các thức thành phần hệ thống Search Engine 2.1 Web crawle 2.2 Bộ phận index 10 2.3 Search 13 Các vấn đề xây dựng hệ thống search engine: 14 Chương II Phương pháp tiếp cận………………………………………… ……… 16 Các bước xử lý ngơn ngữ thơng thường tìm kiếm 16 1.1 Loại bỏ từ dừng (stop word) 16 1.2 Đưa từ từ gốc (sterming) 16 Mơ hình khơng gian vector 17 3.1 Khái niệm 17 2.2 Hàm tương tự hai vector không gian 20 2.3 Ứng dụng mơ hình khơng gian vector hệ thống tìm kiếm 21 Các thư viện hỗ trợ Microsoft Net FrameWork 24 3.1 Thư viện System.threading 24 3.2 Thư viện System.net 24 Thư viện mã nguồn mở Lucene 25 Chương III Phân nhóm tài liệu…………………………………………………… 28 Mô tả phương án 28 Ví dụ 29 Chương IV Thử nghiệm: Simple Search Engine…………………… …………… 34 Mơ hình cách thức hoạt động tổng quát hệ thống 34 Xây dựng module Crawler 35 2.1 Mơ hình module Crawler 35 Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin 2.2 Các vấn đề gặp phải trình xây dựng hệ thống Crawl 36 Xây dựng module Index 39 3.1 Mơ hình cách thức hoạt động module Index 39 3.2 Cách thức xây dựng module Topic Define: 40 Xây dựng module Search 42 Cấu trúc liệu 43 Chương V Đánh giá kết thực hiện……………… ………………… ……… 48 Đánh giá tổng quan hệ thống 48 Kết luận 48 Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin Chương I Tổng quan hệ thống search engine Giới thiệu Trong bối cành nay, người ta cho thông tin tài nguyên quan trọng cho đời sống kinh tế xã hội Thông tin thực đầu vào nhiều ngành kinh tế đặc biệt ngành cơng nghệ cao dịch vụ Vì việc sử dụng khai thác thông tin cho hiệu đặt Trong khai thác sử dụng thơng tin hai q trình quan trọng tìm kiếm xếp Phần lớn thuật tốn cơng trình tiêu biểu cơng nghệ thông tin xoay quanh hai chủ đề này[1] Sự đời internet dẫn đến hai đặc trưng thông tin nay:  Tốc độ gia tăng nhanh  Tốc độ thay đổi nhanh Loài người thực đứng trước vấn đề đặt trước vài thập kỷ: “ngợp thơng tin” Con người cần cơng cụ làm việc internet, tìm kiếm, tập hợp thơng tin, sau lưu trữ , xếp để sử dụng cần thiết Đó lí đời hệ thống tìm kiếm tổng quát (All- Purpose Search Engine-APSE) APSE đời ALIWEB (Archie Like Indexing for the WEB ) Martijn Koster giới thiệu vào tháng 11/1993 Sau hàng loạt tên tuổi lớn khác: Altavista (1995), Google (1998), Yahoo! Search (2004), MSN Search (2005) Hiện theo số liệu comScore Google tên tuổi số một, chiếm khoảng 64% thị phần người dùng Internet Mỹ, thương hiệu có giá trị hành tinh Số tài liệu mà cơng cụ tìm kiếm lưu trữ tăng lên tỉ lệ thuận với tốc độ thay đổi transistor chip điện tử theo định luật Moore: “Số lượng Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin transistor đơn vị inch vuông tăng lên gấp đôi sau 18 tháng” Năm 1998 đời Google quản lý số tài liệu cỡ 106 , mười năm sau vào năm 2008 họ thơng báo có số tài liệu lên tới 109 Để lưu trữ, xếp, tìm kiếm số tài liệu khổng lồ nhà phát triển khơng phải tiến hành xây dựng giải thuật hiệu mà cấu hình phần cứng họ khơng ngừng tăng lên tương ứng Năm 2000 Google tuyên bố chuyển sang công nghệ Google 2.0 , họ tiết lộ vài số kĩ thuật hệ thống Google 1.0 [3]:  Cluster of PCs với 6.000 xử lý  Hệ thống lưu trữ dùng RAID: có 12.000 đĩa cứng ~ 1petabyte (1triệu GB)  site Silicon Valley, 1site Virginia Mỗi site kết nối với Internet qua OC48 (2488Mbps) Cùng với hệ điều hành (Operating System), hệ thống tìm kiếm hệ thống tin học lớn mà người xây dựng, hệ thống sử dụng nhiều Có ba lĩnh vực nghiên cứu liên quan mật thiết tới hệ thống tìm kiếm[1]:  Information retrieval  Data mining đặc biệt web mining  Natural language processing Tại Việt Nam, vào thời điểm mà tác giả viết báo cáo này, có khơng cơng cụ tìm kiếm Tiếng Việt đầu tư, nghiên cứu xây dựng Đó Socbay.com, Xalo.vn, Zing.vn, Bamboo.com Các hệ thống lưu trữ cỡ 108 tài liệu tiếng Việt Động lực để nhà đầu tư bỏ hàng triệu USD để xây dựng chúng Hàn Quốc Trung Quốc hệ thống tìm kiếm Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin địa chiến thắng Google với lí tập trung vào xử lý tiếng Hàn tiếng Trung tốt Các thức thành phần hệ thống Search Engine Search engine có phận là: Web crawler, Index, Search Cấu tạo cách thức hoạt động thành phần mơ tả sau: 2.1 Web crawler Là chương trình tự động thu thập tài nguyên internet Nó thiết kế để thu thập tài nguyên như: trang web, hình ảnh, video, tài liệu word, PDF hay PostScrips… lấy tài nguyên làm đầu vào cho máy đánh mục sau đó[10] Một Web Crawl giống “con bọ” Nó tập URL viếng thăm Gọi tập seeds ( tập khởi đầu) Có cách thức hoạt động bọ sau viếng thăm url đó, tìm kiếm đường link từ trang web lấy đẩy chúng vào tập URLs để viếng thăm, gọi crawl frontier ( tập biên) Các URL tập biên viếng thăm đệ quy gán sách crawl 2.1.1 Các sách Crawl Có đặc trưng quan trọng làm cho Web trở nên khó crawl[10]: - Số lượng trang web lớn - Tốc độ thay đổi nhanh - Việc sản sinh trang web động Một khối lượng lớn có nghĩa crawler lấy số lượng trang web có hạn thời điểm, việc lấy hết toàn trang web từ mạng internet thời điểm khơng thể Vì cần xác định độ ưu tiên cho Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin trang download Có thể hình dung việc thay đổi nhanh trong thời điểm crawl lấy trang cuối web site, có khả trang web khác thêm vào site đó, có trang cũ cập nhật bị xóa Số lượng trang web sản sinh phần mềm web server (ASP, PHP,…) làm cho việc crawl trở nên khó khăn để tránh lấy liệu trùng lặp Để giải đặc trưng trên, crawler cần xây dựng dựa sách - Crawling Policies:  Selection Policies: xác định địa cần Crawling dựa PageRank có máy chủ, dựa Content (địa mới)…  Re-visit Policies: xác định khoảng thời gian để hệ thống Crawling địa lần dựa PageRank, Content  Politeness Policies: xác định khu vực cấm Crawling: thông tin có giá trị thương mại, có quyền… xây dựng dựa giao thức robots exclusion protocol cho phép quản trị webserver cấu hình khu vực Crawler vào  Parallelization plicies: cho phép tổ chức Crawling song song phân tán Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin 2.1.2 Kiến trúc Web crawler Sau kiến trúc chung crawler: Hình 1.1 : Kiến trúc chuẩn Web Crawl Queue: Nhận danh sách địa cần phải Crawling, lưu trữ, chuẩn hóa chuyển cho Scheduler Scheduler:  Xác định thứ tự Crawling cho địa (ordering)  Phân bổ địa cho hệ thống Crawler phân tán (distributing)  Xác định thời gian để Re-crawling địa Một crawler khơng phải có chiến lược crawling tốt, phần trước bàn tới mà nên phải có cấu trúc tối ưu Shkapennyuk Suel nói : “ dễ dàng để xây dựng crawler chậm chạp download số lượng nhỏ trang web quản thời gian ngắn để xây dựng hệ thống hiệu cao download hàng trăm triệu trang web hàng tuần cần hàng loạt đòi Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin hỏi cao thiết kế vào ra, hiệu mạng, tự động hóa khả quản lý”.[10] 2.1.3 Chứng thực web crawler Các Web crawler sử dụng trường User-agent HTTP request để chứng thực với web server Các quản trị web site xem file nhật ký web server để xem có crawler viếng thăm web server mức độ thường xuyên viếng thăm Spambot Web crawler có hại khác thường khơng để lại thơng tin chứng thực trường User-agent, chúng chứng thực giống trình duyệt web web crawler khác Việc chứng thực Web-crawler đến quản trị web site quan trọng, giúp cho người quản trị website liên hệ với crawler lúc cần Một số ví dụ crawler: - Yahoo! Slurp tên yahoo search crawler - MsnBot tên Bing crawler - Googlebot, crawler google - Methabot web crawler viết C, đời chúng ISC 2.2 Bộ phận index Mục đích đánh mục nhằm tối ưu tốc độ hiệu thực truy vấn vào file tài liệu để tìm kết trả cho người dùng Nếu không đánh mục, trường hợp xấu seach search engine phải đọc tồn văn để tìm kết thích hợp Điều ảnh hưởng lớn đến hiệu hệ thống Ví dụ, đánh mục cho 10.000 văn khiến cho truy vấn cần vài mili Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin 10 đem so sánh với URL có trước Để tiến hành việc so sánh có hiệu Thay dùng danh sách đơn để chứa URL Simple Search Engine sử dụng nhị phân để chứa URL Cây nhị phân URL tạo thành nút URL ( Node URL) Trong Node URL chứa thơng tin bản:  Độ sâu URL ( Depth)  Trạng thái URL ( Status)  Greate ( Node có URL lớn URL node xét)  Small ( Node có URL bé URL node xét) Mỗi tiến hành thêm URL vào tree URL kiểm tra so sánh với URL có trước Việc so sánh tiến hành giải thuật nhị phân tiết kiệm nhiều tài nguyên thời gian so với việc so sánh với danh sách đơn 2.2.3 Viếng thăm lại trang web cập nhật nội dung website Một nhiệm vụ hệ thống Crawl việc download trang web website phải download trang cập nhật ( trang thêm mới) website Vậy để biết trang web website trang web có nội dung thay đổi đánh giá mức độ tần suất thay đổi nội dung trang web Đây toán dễ dàng giải Ở hệ thống Simple Search Engine tác giả đưa cách giải toán Đây cách giải chưa mang nhiều tính học thuật chưa tối ưu Nhưng góc độ Nó giải vấn đề cập nhật trang web website Đó là: Nhận xét: Với website cung cấp thơng tin có nội dung cập nhật liên tục.( ví dụ trang báo) thơng tin của website đem trang website Vậy thay việc phải Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin 37 thăm lại tất trang download website ta cần thăm lại trang trang web đủ Trong hệ thống Simple Search Engine trang đặt tên URL_master URL_Master trang website ( ví dụ : http://guardian.co.uk/ ) trang mục website ( ví dụ: http://www.guardian.co.uk/film ) định kỳ sau thời gian Fetch time URL_master nạp vào queue download để tìm kiếm URL tương ứng với trang web 2.2.4 Quá tải hệ thống Một vấn đề dễ nhận xây dựng hệ thống crawl tải hệ thống Với website số lượng web paper website từ vài chục web paper hàng chục nghìn web paper Việc lấy lưu trữ tất trang web của website điều hồn tồn khơng cần thiết lý sau: Lãng phí tài nguyên hệ thống Crawl: hệ thống Crawl phải dành - phần lớn băng thơng để download hết tất web paper website Trong web paper website có web paper chứa - đựng thơng tin cũ, khơng cịn có giá trị Việc lưu trữ web paper lãng phí tài ngun lưu trữ hệ thống - Việc crawler website liên tục ảnh hưởng đến webserver Trong hệ thống Simple Search Engine đưa cách giải quyết: gắn với Crawl tương ứng với độ sâu tối đa định Crawl lấy web paper tương ứng với url có độ sau khơng q độ sau tối đa Với URL có độ sâu lớn độ sâu tối đa tương ứng với Crawl khơng nạp vào hệ thống Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin 38 Xây dựng module Index Module Index hệ thống Simple Search Engine xây dựng dựa thư viện mã nguồn mở Lucene.net để đánh index cho tài liệu dựa vào số liệu thống kê file index để xây dựng module Topic_Define dùng cho việc phân vùng tài liệu 3.1 Mơ hình cách thức hoạt động module Index Content Topic Define inf o Lucene Indexing ex Ind D tic oc um is at st en t Document Parse Content+topic Document Store Index Files Hình 4.3 Mơ hình module Index Cách thức hoạt động module Index sau:  Bước 1: Module TopicDefine lấy số liệu thống kê (statistc) từ file mục để xây dựng lên Topic_Map IDF_Map cho term  Bước 2: Module Document Parse lấy document từ Document Store, tách lấy nội dung document, chuyển nội dung cho module Topic Define  Bước 3: Module Topic Define dựa vào Topic_Map, IDF_Map xác định topic cho nội dung vừa chuyển tới, cập nhật Topic_Map Sau chuyển nội dung topic sang cho module Lucene Indexing  Bước 4: Module Lucene Idexing dùng hàm thư viện mã nguồn mở Lucene để terming tài liệu, loại bỏ stop word đánh mục cho nội dung topic vừa chuyển tới Kết đánh mục lưu vào Index Files Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin 39  Lặp lại bước 3.2 Cách thức xây dựng module Topic Define: Xây dựng IDF map: Bằng cách sử dụng hàm: Hàm lấy số lần xuất documents Term: Int IndexReader DocFreq(Term t); Hàm lấy số lượng document đánh index Int IndexReader.Maxdoc(); Chúng ta xây dựng thư viện IDF cho term qua công thức: idfi  log10 ( N ) Ni Với N số lượng document Ni số lấn xuất term I t rong document Xây dựng vector TF_IDF đại diện cho cụm liệu hệ thống: Bằng cách sử dụng hàm: Hàm lấy danh sách term document: Int[] TermFreqVector.GetTerms(); Hàm lấy số lần xuất term document: Int[] TermFreqVector GetTermFrequencies(); Chúng ta xây dựng vector cho document hệ thống qua công thức: Wit   Wtij nit Trong Wit trọng số vector topic t theo term i - W tij :Tổng trọng số tài liệu j thuộc phân mục t theo term i Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin 40 - nit : Tổng số tài liệu chứa từ i phân mục t Bằng phép lấy giá trị trung bình vector thuộc cụm tài liệu ta theo công thức Wit   Wtij nit Trong Wit trọng số vector topic t theo term i - W tij :Tổng trọng số tài liệu j thuộc phân mục t theo term i - nit : Tổng số tài liệu chứa từ i phân mục t Ta có vector đại diện cho cụm tài liệu cần xét Xác định topic cho document: Hàm xác định topic cho document: string GetTopic(string subject, string topicStr) Trong subject chuỗi nội dung document, topciStr topic gán document Nếu Document gán topic “Undefine” hệ thống tiến hành xác định topic cho document cách: Xây dựng vector TF-IDF cho document Sau đó, sử dụng hàm tương tự vector không gian ( hàm Cosin similary) để tính độ tương tự document vector đại diện cho topic ( hệ thống hàm ComputeAngle( topicVector, subjectVector)) Lấy giá trị lớn có So sánh với giá trị ngưỡng ( Threshold ) ta tìm topic cho document (nếu giá trị Max > Threshold) không xác định topic cho document (nếu Max < threshold) Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin 41 Xây dựng module Search c Result Paper Words+Topics Result Lucene Search Search InterFace Query Result Query Index Files Hình 4.4 Mơ hình Module Search Module search hoạt động sau: Đầu tiên người dùng nhập vào giao diện Search từ khóa topic cần tìm Các topic từ khóa tìm kiếm Search Interface chuyển thành câu truy vấn Các câu truy vấn sau chuyển cho module Lucene Search Lucene Search truy vấn vào file index tìm kiếm kết thích hợp, chuyển cho Search Interface Từ kết nhận Search Interface sản sinh trang kết hiển thị cho người sử dụng Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin 42 Cấu trúc liệu Các tài liệu sau lấy lưu vào sở liệu Sau cấu trúc bảng liệu sử dụng hệ thống Bảng URL No Field Name Url_ID Crawl_ID Depth Status Field Type Nvarchar smallInt tinyInt tinyInt Field Size 255 16 8 Description Địa url Crawl id url Độ sâu Url Trạng thái URL ( chưa download, download, bị lỗi) Description Crawl ID Crawl Topic ID crawl Url crawl Độ sâu tối đa cho url Thời gian viếng thăm lại crawl Số thread crawl dùng để download Thời gian cuối crawl hoạt động Crawl có cho phép hoạt động hay khơng Bảng Crawl No Field Name Crawl_ID Topic_ID Url_master Url_level Field Type smallInt Nvarchar Nvarchar tinyInt Field Size 16 255 255 Fetch_time Int 32 Thread_number tinyInt Last_crawl Date Time 32 Is_enable Bool Bảng Document No Field Name Doc_ID URL_ID Field Type Int Nvarchar Field Size 32 255 Description Document ID URL ID Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin 43 Topic_ID Nvarchar 255 Status tinyInt Title Nvarchar 255 Doc_content Nvarchar Max Last_crawl Date time 32 Last_Index Date time 32 Field type Nvarchar Nvarchar Field Size 255 255 Bảng Topic No Field Name Topic_ID Description document Topic ID document Trạng thái document ( Đã crawl, index) Tiêu đề document Nội dung download document Thời điểm crawl gần document Thời điểm đánh index gần document Description ID Topic Mô tả topic Các topic hệ thống nhận diện: Thể thao (Sport) Văn hóa (Culture ) Du lịch (Travel) Cơng nghệ (Technology) Ơ tô (Automotive) Sức khỏe (Health) Kinh tế (Economy) Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thơng Tin 44 Một vài hình ảnh hoạt động hệ thống Hình 4.5:Crawl tiến hành thu thập thơng tin Hình 4.6 :Queue crawl Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thơng Tin 45 Hình 4.7: Giao diện index xác định topic cho document Hình 4.8 Giao diện search Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thơng Tin 46 Hình 4.9 Giao diện search có kết hợp topic Hình 4.10: Giao diện cache Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin 47 Chương V Đánh giá kết thực Đánh giá tổng quan hệ thống Hệ thống search engine xây dựng đáp ứng u cầu sau: - Mơ hình lại hệ thông search engine thực - Đã áp dụng giải thuật phân chia tài liệu vào việc đánh mục cho tài liệu Tuy nhiên thời gian khả có hạn nên hệ thơng xây dựng cịn nhiều thiếu thiếu sót sau số hạn chế: - Do thiếu điều kiện kiểm thử nên hệ thống chạy thử với số lượng tài liệu nhỏ - Do chưa có tài liệu topic chuẩn tiếng anh nên việc phân nhóm liệu chưa thể đạt kết cao - Trong trình index chưa áp dụng thuật tốn trích xuất thơng tin có độ xác cao - Chưa áp dụng việc tính tốn xử lý song song vào hệ thống điểm quan trọng hệ thống Search Engine Kết luận Các kết đạt được: Tác giả thu nhiều kiến thức lập trình, khai thác tốt hỗ trợ ngơn ngữ lập trình C#, thư viện mã nguồn mở Lucene Đặc biệt củng cố kiến thức học có thêm kinh nghiệm, kiến thức q trình nghiên cứu tìm hiểu như: - Có thêm kiến thức Search Engine - Cách thức xây dựng hệ thống Crawl - Các kiến thức giải thuật xử lý ngôn ngữ Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin 48 Những hạn chế: Trong trình làm đề tài Tuy cố gắng, tác giả khơng thể tránh khỏi số thiếu sót hạn chế Đó hạn chế tác giả đề cập đến phần đánh giá hệ thống Hướng phát triển: - Tác giả thấy từ mơ hình Search Engine xây dựng tác giả hồn tồn phát triển thành hệ thống tổng hợp tin tức Ngồi có điều kiện tác giả nghiên cứu thêm giải thuật trích xuất thông tin, xử lý ngôn ngữ để áp dụng vào hệ thống - Xây dựng Search Engine xử lý ngôn ngữ tiếng Việt Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin 49 Tài liệu tham khảo: Web Search Engine – WikiPedia Bing Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents and Usage Data Springer, ISBN 3540378812 "Internet History - Search Engines" (from Search Engine Watch), Universiteit Leiden, Netherlands, September 2001 Cho, Junghoo; Hector Garcia-Molina (2002) "Parallel crawlers" Proceedings of the 11th international conference on World Wide Web Honolulu, Hawaii, USA: ACM pp 124– 135.doi:10.1145/511446.511464 ISBN 1-58113-449-5 Retrieved 2009-03-23 Kobayashi, M and Takeda, K (2000) "Information retrieval on the web" ACM Computing Surveys (ACM Press) 32 (2): 144– 173 doi:10.1145/358923.358934 Donald E Knuth The art of computer programming, volume 3: (2nd ed.) sorting and searching, Addison Wesley Longman Publishing Co Redwood City, CA, 1998 Basic Vector Space Search Engine Theory LA 2600 – January 2, 2004 - presented by Vidiot Lawrence, Steve; C Lee Giles (1999-07-08) "Accessibility of information on the web" Nature 400 (6740): 107 doi:10.1038/21987 PMID 10428673 Vector space mode –Wikipedia 10 Web Crawler- Wikipedia 11 Index (Search Engine) –Wikipedia 12 Lucene in action- Erik Hatcher and Otis Gospodnetić ,ISBN 1932394281 13 Web Search –Wikipedia 14 Baidu Search Engine - Wikipedia Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin 50 Danh mục thuật ngữ tiếng anh sử dụng báo cáo: English All purpose search engine Binary weight Crawler Crawling policy Data mining Forward Index Indexer Information Retrieval Inverted Index Lucene Parser Term Frequency Weight Vector space model Web crawler Web robot Web spider Web scutter Tiếng Việt Hệ thống tìm kiếm tổng quát Trọng số nhị phân Bộ thu thập thông tin Bộ quy tắc, giao thức để thu thập liệu Khai phá liệu Bộ mục chuyển tiếp Bộ lập mục Tìm kiếm thơng tin Bộ mục đảo ngược Thư viện để xây dựng Index Bộ phân tích câu truy vấn, tài liệu Trọng số theo tần suất Mơ hình khơng gian vector Bộ thu thập thơng tin web Bộ thu thâp thông tin web Bộ thu thâp thông tin web Bộ thu thâp thông tin web Sinh viên thực hiện: Tăng Ngọc Phú Lớp 46K1 Tổ Hệ Thống Thông Tin 51 ... search engine: Việc xây dựng hệ thống search engine khơng phải tốn dễ Sau số vấn đề giải xây dựng Search Engine - Xây dựng hệ thống crawl:  Làm để xác định tài liệu tài liệu cần download Trong... quan trọng góp phần vào thành cơng mạng internet hệ thống search engine Mục đích tác giả làm đề tài tìm hiểu hệ thống search engine, cấu trúc cách thức hoạt động chúng, từ xây dựng lên hệ thống. .. E.html:Health care, or healthcare, refers to the treatment and management of illness, and the preservation of health through services offered by the medical, pharmaceutical, dental, clinical laboratory

Ngày đăng: 15/10/2021, 00:01

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w