Tìm hiểu thư viện lucene và xây dựng ứng dụng search media
Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media LỜI CẢM ƠN Đầu tiên, chúng em xin gởi lời cảm ơn đến Thầy, Cô khoa Công nghệ Thông tin trường Đại học Khoa học Tự nhiên tận tình dạy dỗ, dìu dắt chúng em suốt bốn năm đại học Chúng em cảm ơn thầy Nguyễn Văn Khiết và thầy Bùi Tấn Lợc, tận tình hướng dẫn, giúp đỡ, động viên chúng em hoàn thành luận văn này Cuối cùng, chúng cảm ơn Ba, Mẹ và người thân khích lệ, đợng viên chúng thời gian học tập, nghiên cứu để có thành ngày Sinh viên Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………… …………………………………………………………………………………… Ngày…… tháng……năm Ký tên Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………… …………………………………………………………………………………… Ngày…… tháng……năm Ký tên ĐỀ CƯƠNG CHI TIẾT Tên Đề Tài: Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Giáo viên hướng dẫn: Ngũn Văn Khiết-Bùi Tấn Lợc Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Thời gian thực hiện: Sinh viên thực hiện: Nguyễn Thanh Nga-0512230,Trần Thanh Quỳnh-0512286 Loại đề tài: Xây dựng ứng dụng Nội Dung Đề Tài: (mô tả chi tiết nội dung đề tài, yêu cầu, phương pháp thực hiện, kết đạt được) Kế Hoạch Thực Hiện: Stt Nội dung công việc Thời gian thực hiện Thành viên thực hiệ Giai đoạn 1: tìm hiểu thư viện Lucene Tìm hiểu indexing lucene Nguyễn Thanh Nga (Chapter 2) Tìm hiểu loại Query hỗ trợ việc search lucene Tìm hiểu search và advance search lucene(Chapter và Chapter 5) Tìm hiểu bợ Analyzer(Chapter 4) Trần Thanh Quỳnh Tìm hiểu việc chuyển đởi định dạng liệu để index và tool xây dựng hỗ trợ cho Lucene Giai đoạn 2:xây dựng ứng dụng Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media 2.1 Tìm hiểu và sử dụng crawler(robot) tìm hiểu robot Jspider Trần Thanh Quỳnh Tìm hiểu robot WinHttrack Tìm hiểu cách crawler Nguyễn Thanh Nga chương trình Nutch Sử dụng WinHttrack để thu thập om,vnmusic.com… liệu trang web nghe nhạc: nhaccuatui 10 Sử dụng WinHttrack để thu thập Trần Thanh Quỳnh liệu trang web dạng phim: topphim.com,clip.vn 2.2 Xây dựng bộ đánh chỉ mục index 11 Phân tích trang music crawl index liệu Nguyễn Thanh Nga và Cài đặt lớp và hàm hỗ trợ việ 12 Phân tích trang video crawl Trần Thanh Quỳnh và Cài đặt lớp và hàm hỗ trợ việc index liệu 2.3 xây dựng ứng dụng tìm kiếm 13 Cài đặt lớp,hàm dựa vào thư Nguyễn Thanh Nga viện Lucene hỗ trợ việc search Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media liệu index 14 Thiết kế hệ thống trang web hỗ Trần Thanh Quỳnh trợ việc tìm kiếm Media 15 Triển khai ứng dụng lên host để lấy Trần Thanh đánh giá từ người dùng,ghi nhận Quỳnh,Nguyễn lỗi và fix lỗi Thanh Nga Giai đoạn 3:báo cáo và nâng cấp ứng dụng 16 Tìm hiểu bài luận,cách báo Nguyễn Thanh Nga cáo,bố cục báo cáo 17 Tởng hợp báo cáo phần tìm hiểu Trần Thanh Quỳnh thư viện Lucene 18 Tổng hợp báo cáo tìm hiểu Trần Thanh Quỳnh crawler(robot) và vấn đề gặp phải,phương pháp giải 19 Báo cáo index và search trang Nguyễn Thanh Nga web thu thập 20 Báo cáo xây dựng ứng dụng search 21 Tổng hợp lỗi,ghi nhận đánh gia Trần Thanh Quỳnh Nguyễn Thanh ́,thực hiện sửa lỗi và nâng cấp một số chức cho ứng dụng(xây Nga,Trần Thanh Quỳnh dựng Gui cho phần index,xây dựng thệm trang web dùng để thống kê ,xây dựng database lưu trữ Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media liệu cần thiết) Giai đoạn 4: tổng kết,đánh giá 22 Tởng kết toàn bợ q trình thực Ngũn Thanh hiện đề tài,lấy đánh giá,nhận xét và kết thúc Nga,Trần Thanh Quỳnh Xác nhận GVHD Ngày… tháng…năm… SV Thực MỤC LỤC ĐỀ CƯƠNG CHI TIẾT Phần : TÌM HIỂU thư viện Lucene .2 Chương 1: TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE Các bộ phận cấu thành hệ thống search engine 1.1 Bộ thu thập thông tin – Robot 1.2 Bộ lập chỉ mục – Index 1.3 Bợ tìm kiếm thơng tin – Search Engine Nguyên lý hoạt động Chương 2: THƯ VIỆN LUCENE Giới thiệu thư viện Lucene: Bộ lập chỉ mục – Indexing: 2.1 Quy trình đánh chỉ mục 2.1.1 Convert to text 2.1.2 Analysis 2.1.3 Wrting index 2.2 Các toán tử đánh chỉ mục 2.3 Khuếch đại tài liệu và trường ( Boosting Documents and Fields) 2.4 Điều khiển tiến trình đánh chỉ mục 2.5 Bợ nhớ trong q trình đánh chỉ mục : RAMDirectory .11 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media 2.6 Tối ưu hóa việc đánh chỉ mục 12 2.7 Tính đờng thời,an toàn tiến tình,ngăn chặn thực thi .12 Search- Chức tìm kiếm kết quả: 14 3.1 Bộ chuyển đổi câu truy vấn của người dùng : QueryParser 14 3.2 Các tốn tử luận lí 16 3.3 Cụm truy vấn(phrase queries) 17 3.4 Sử dụng lớp IndexSearcher 17 3.4.1 Tìm hiểu Hits 18 3.4.2 Phân trang thông qua Hits .18 3.5 Tìm hiểu loại Query 19 3.5.1 Tìm kiếm theo giới hạn : TermQuery 19 3.5.2 Tìm kiếm theo dãy :RangeQuery 19 3.5.3 Tìm kiếm dựa chuỗi :PrefixQuery 20 3.5.4 Kết hợp truy vấn : BooleanQuery 21 3.6 Tìm kiếm theo cụm: PhraseQuery .21 3.7 Tìm kiếm theo wildcard: WildcardQuery 22 3.8 Tìm kiếm theo từ giống nhau: FuzzyQuery .22 Bộ phân tích – Analyzer: 22 4.1 Using analyzers 23 4.1.1 Indexing analysis 24 4.1.2 QueryParser analysis .24 4.1.3 Parsing versus analysis : một analyzer không phù hợp 25 4.2 Analyzing the analyzer 25 4.2.1 Token là gì? 25 4.2.2 TokenStreams uncensored .26 4.2.3 Visualizing analyzers .28 4.3 Sử dụng bợ phân tích tích hợp sẵn Lucene 30 4.3.1 StopAnalyzer 30 4.3.2 StandardAnalyzwer .31 4.4 “Sounds like” querying 31 4.5 Language analysis issues 32 Kỹ thuật tìm kiếm nâng cao: 33 5.1 Sắp xếp theo độ xác 33 5.2 Sắp xếp theo độ thứ tự đánh chỉ mục(index order) 34 5.3 Sắp xếp theo Trường (Field) 34 5.4 Đảo ngược thứ tự đánh chỉ mục 34 5.5 Sắp xếp theo nhiều trường khác nhau(multiple fields) 34 Chuyển đổi kiểu liệu khác dạng liệu chung 35 6.1 Handling rich-text document 35 6.2 Indexing XML 36 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media 6.3 Indexing một DPF document .36 6.4 Indexing an HTML document 37 6.5 Indexing a Microsoft Word document 37 6.5.1 Using POI 37 6.5.2 Using TextMining.org’s API 37 6.6 Indexing an RTF document 38 6.7 Indexing a plain-text document 38 6.8 Creating a document – handling framwork 38 6.8.1 FileHandler interface .39 6.8.2 Extension FileHandler 40 6.8.3 FileIndexer drawbacks and how to extend the framework 40 6.9 Other text-extraction tools 41 Phần : THIẾT KẾ VÀ CÀI ĐẶT 41 Chương 1: THU THẬP THÔNG TIN 42 Giới thiệu Crawler 42 Crawler sử dụng .43 2.1 Các phần mềm chép tài nguyên website 43 2.2 Nutch .43 2.3 Jspider 44 2.4 Teleport và Httrack .44 Hướng dẫn sử dụng crawler lựa chọn HTTrack 45 Chương 2: xây dựng đánh chỉ mục index 51 Chương 3: xây dựng ứng dụng search 51 Chương 4: CÁC MODULE ,PACKAGE, LỚP CHÍNH CỦA CHƯƠNG TRÌNH 52 Phần : KẾT QUẢ, ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN 52 DANH SÁCH CÁC BẢNG 52 DANH SÁCH CÁC HÌNH VẼ .52 TÀI LIỆU THAM KHẢO .52 I Sách, ebook: 52 II Luận văn, luận án 52 III Bài báo 52 IV Website 52 Tìm hiểu Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt MỞ ĐẦU Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu người lĩnh vực Mỗi phút trôi qua hàng triệu triệu trang web đẩy lên nhằm làm giàu nguồn tài nguyên vô tận này Tuy nhiên tờn mợt nghịch lý là dù ví thư viện toàn cầu, internet không thoả mãn nhu cầu thông tin của người Xung quanh vấn đề này có nhiều nguyên nhân quan trọng nhất là sự thông hiểu người và công cụ tìm kiếm mạng – search engine – chưa đạt đến mức giao tiếp tốt với Hơn nữa, search engine mang đặc thù của ngôn ngữ mà hiển thị search engine Tiếng Việt phải giải vấn đề đặc trưng của Tiếng Việt, cụ thể là vấn đề bảng mã, ngữ pháp Tiếng Việt Nếu ta hiểu cách thức search engine tổ chức thông tin, thực thi một câu truy vấn và đặc trưng của ngôn ngữ mà search engine tiếp cận ta tối ưu hố hợi nhận thơng tin hữu ích Đây là mục tiêu của luận văn Lê Thuý Ngọc - 0012745 Đỗ Mỹ Nhung - 0012624 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Framwork components : 6.8.1 FileHandler interface FileHandler là một interface đơn giản giống là DocumentHandle Tuy nhiên , điểm khác là DocumentHandle dùng giống InputStream để làm loại liệu đưa vào , FileHandler interface định nghĩa File là loại liệu đưa vào ,điều làm việc dễ dàng 39 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media 6.8.2 Extension FileHandler ExtensionFileHandler chỉ thực thi với FileHandler interface và trả một Lucene Document chung FileHandler thực thi với bất kỳ gói , ngoại lệ thông qua FileHandlerException ExtensionFileHandler chỉ thực thi FileHandler interface Khi thực thi phương thức getDocument(File) sử dụng phần mở rộng của file để suy loại file và gọi hàm thi hành parser thích hợp Bởi tất phần thực thi parser tḥc phần chung DocumentHandler interface, ExtensionFileHandler dị đối tượng File đưa vào gói FileInputStream biết cần phải xử lý nào 6.8.3 FileIndexer drawbacks and how to extend the framework Framework bao parser xử lý loại file đưa vào :XML, PDF, HTML, Microsoft Word, RTF , Plain text Nhưng cần index và tạo file tìm kiếm với loại file mà framwork không hỗ trợ mở rợng framwork theo bước sau: 40 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media - Viết một parser cho loại file mong muốn và thực thi DocumentHandler interface Thêm class parser đến file handler.properties , ánh xạ thích hợp với phần mở rộng của loại file mong muốn Vẫn sử dụng FileIndexer 6.9 Other text-extraction tools Trong phần này ta thấy sự hiện diện của text rút trích từ , phần indexing của loại định dạng liệu phổ biến nhất PHẦN : THIẾT KẾ VÀ CÀI ĐẶT Ngôn ngữ lập trình Cơng cụ lập trình Web Server Hệ quản trị CSDL : Java, HTML : NetBean 6.5, DreamWeaver CS3 : Apache : Mysql 41 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Chương 1: THU THẬP THƠNG TIN Để xây dựng mợt ứng dụng Search Engine phải cần có mợt bợ thu thập thơng tin gọi là crawler (bọ tìm kiếm , web spider hay web robot) Giới thiệu Crawler Crawler là chương trình tự đợng tìm kiếm tài ngun internet trang web , hình ảnh , tài liệu word , pdf hay Postscripts, cho phép máy tìm kiếm đánh chỉ số sau Q trình thực hiện gọi là Web crawling hay spidering, rất nhiều cơng cụ tìm kiếm giới sử dụng spidering để cập nhật kho liệu website của Chẳng hạn google dùng để lấy thơng tin website ồi cập nhật vào sở liệu của giúp người dùng search trang theo ý muốn Web crawler là loại của gọi là bot (là tác tử thực hiện tự đợng, nghĩa giống spider) Đại loại, bắt đầu từ danh sách địa chỉ URL gọi là seeds (hạt giống) Nó vào địa chỉ này lọc thơng tin rời tìm địa chỉ URL khác thêm chúng vào danh sách địa chỉ duyệt qua gọi là crawl frontier Sau lại lặp lại q trình dụt qua URL Cứ thế, cứ thể lần qua rất nhiều địa chỉ website và thu thập rất nhiều nội dung khác giúp ta dễ dàng tìm kiếm thơng tin cần Mợt số bọ tìm kiếm phở biến của máy tìm kiếm : - Googlebot của Google - MSNBot của MSN - Slurp của Yahoo - Scooter của Alta Vista - Baidu của Baidu Vì điều cần thiết để tạo nên một cỗ máy tìm kiếm tụt hảo là có mợt crawler thơng minh và khả cập nhật liệu nhanh và tốt một khối lượng dự trữ cực lớn Sau tìm hiểu mợt số crawler mã ng̀n mở có mạng tìm JSpider, Crawler của Nutch Yêu cầu hiện để thực hiện luận văn là tìm và sử dụng đưowjc crawler có khả download file html từ website nhạc để lấy link media file html dùng để indexing cho Search Enginer Vì crawler là mợt yếu tố cực kỳ quan trọng chiến lược tìm kiếm của máy tìm kiếm danh tiếng Google, yahoo , Baidu… khả dùng crawler của cỗ máy tìm kiếm là khơng thể , mà việc index và search phải phụ thuộc vào crawler thu thập liệu Hiện có rất 42 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media nhiều phần mềm crawler bán có quyền bên cạnh phần mềm mã nguồn mở rất phong phú đa dạng giới thiệu Aspseek , arachnode.net ,DataparkSearch ,GNU Wget, GRUB , Heritrix , HTTrack ,ICDL Crawler , mnoGoSearch ,Nutch , Pavuk , YaCy … Crawler đã sử dụng Yêu cầu đặt cho crawler sử dụng luận văn là có khả tải hầu hết trang của một site media internet máy tính cục bợ dạng file html , có khả resum bị ngắt kết nối download chừng, có chức redownload liệu trang web bị thay đởi, có chức hẹn tự động cập nhật lại liệu Jspider sau tìm hiểu ví dụ khơng thấy khả quan trình tìm kiếm và download html từ trang web media bamboo.com , nhac8.com , nhaccuatui.com, www3.nhac.vui.vn, mp3.zing.vn, vnmusic.com, … Mã ng̀n mở Nutch tìm hiểu thấy rất khó để tách riêng liệu tải làm liệu để làm đầu vào để indexing riêng , rất nhiều phần mềm copy website sử dụng không đáp ứng yêu cầu Ngoài khảo sát chương trình khác : Webcopier, WebRipper_1.32 free , WebsiteWatcher4.42, WebDataExtractor_wde , Nutch, Jspider , telepot.pro 2.1 Các phần mềm chép tài ngun website Hiện có nhiều chương trình giúp tải mợt website với thành phần của hình ảnh, file văn bản, file html ví dụ phần mềm webcopier (http://www.maximumsoft.com/ ) , webRipper (http://download.cnet.com/WebRipper/3000-2071_4-10457425.html ) , WebsiteWatcher(http://www.lisisoft.com/free-download-version/8452websitewatcher.html ), webDataExtractor (http://redpiranha.sourceforge.net/doc/net/firstpartners/rp/back/extractor/WebDataExtractor.ht ml ) khả chép nguyên website theo yêu cầu máy local Đối với trang diễn đàn chương trình này có khả thu thập tốt thử sử dụng crawler website media đem lại kết khơng khả quan, rất dễ bị ngắt kết nối, liệu thu thập rất nên khơng sử dụng 2.2 Nutch Mã ng̀n mở: http://lucene.apache.org/nutch/ 43 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Hướng phát triển và tìm kiếm mợt phần mềm crawler là tìm phần mềm mã ng̀n mở dễ sử dụng , và có khả thu thập liệu tốt với website media Phần mềm crawler ứng dụng Nutch phát triển cùng tác giả của Lucence là phần mềm mã nguồn mở Đã dùng thu thập một số website media và thu số lượng liệu lớn liệu thu thập Nutch tổ chức lưu trữ liệu dùng Hadoop sử dụng công nghệ của GoogleFS, trình index và trình search Ban đầu hướng phát triển là dùng Nutch q trình tìm hiểu và phân tích mã ng̀n của Nutch thấy thời gian để phân rã và sử dụng mã ng̀n để viết mợt ứng dụng riêng theo u cầu riêng khơng làm kịp khoảng thời gian đặt cho phần tìm hiểu và sử dụng crawler Vì vậy, trước mắt cần tìm mợt crawler khác thu thập liệu tốt và Hướng phát triển lâu dài sử dụng Nutch để viết lại một crawler riêng để tạo chức theo yêu cầu đặt theo ý muốn 2.3 Jspider Mã nguồn mở : http://j-spider.sourceforge.net/ Mã nguồn mở Jspider viết ngôn ngữ java, khả tìm kiếm liệu website media thu liệu tốt hạn chế của chương trình là khơng hỗ trợ chức update và lưu lại trạng thái download bị ngắt kết nối ( continue interrupted download) 2.4 Teleport Httrack HTTrack và Teleport đáp ứng yêu cầu đặt có khả download website media tốt, có chức update, có chức tiếp tục download project bị ngắt kết nối chừng, có khả link tới website liên quan (khả spider), giới hạn định dạng download,có khả tải website máy local một phiên thứ với trang web yêu cầu - HTTrack : http://en.wikipedia.org/wiki/HTTrack HTTrack giới thiệu wiki , http://www.httrack.com/ website giới thiệu mã ng̀n Đây là chương trình mã ng̀n mở viết ngơn ngữ C - Teleport : http://www.tenmax.com/teleport/pro/home.htm là chương trình của hãng Tennyson Maxwell Information Systems Những yêu cầu đặt crawler đáp ứng tốt Teleport là phần mềm thương mại nên lâu dài việc lựa chọn HTTrack tốt HTTrack là phần mềm mã nguồn mở viết ngôn ngữ C mở rợng chức cần thiết 44 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Hướng dẫn sử dụng crawler đã lựa chọn HTTrack Download phần mềm : http://download.httrack.com/httrack-3.43-5.exe Ở lần chạy đầu tiên, HTTrack yêu cầu thiết lập Proxy và ngơn ngữ thức sử dụng chương trình Nên OK để đờng ý với hiệu chỉnh mặc định của và bắt đầu q trình tải website mong muốn của theo bước sau: Bước 1: Tạo project mới: Để thuận tiện cho người sử dụng, HTTrack lưu tất thông số mợt q trình tải website cần tải, nơi lưu site máy tính, scan rules vào mợt file project có dạng *.whtt Vì nên dễ dàng quản lý nhiều tác vụ tải site khác nhau, mở lại hay nâng cấp website tải Trên cửa sổ của chương trình, bấm Next và nhập tên project vào khung Project name Sau đó, chọn nơi cần lưu website máy cách bấm vào nút hình dấu cợng (+) Lưu ý, nên đặt tên project theo địa chỉ website cần tải, chẳng hạn mp3.zing.com (www.mp3.zing.com) để tiện phân biệt với project khác sau này Ở mục Action với project thiết lập dùng mợt năm u cầu ban đầu : • Download web site(s) (Mirroring Mode) Chủ yếu dùng chức này • Download web site(s) + questions ( Interactive Wizard Mode questions) • Get separated file ( File download) • Download all sites in pages (Link list Mode) • Test links in pages(bookmark test) (Link Testing Mode) 45 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Next để tiếp tục qua bước Bước 2: Thiết lập thông số cần thiết Đây là bước quan trọng nhất toàn bợ thao tác định website tải có và cách thức tải nào Đầu tiên, nhập vào địa chỉ website khung Web Addresses (URL), ví dụ www.mp3.zing.com , hoặc thêm link khác muốn.Nếu website cần tải có yêu cầu đăng nhập (Login), bấm nút Add URL và điền vào thông số cần thiết mật mã và tên tài khoản 46 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Sau hoàn tất phần địa chỉ website cần tải, bạn bấm tiếp vào nút Set options để có thêm mợt số hiệu chỉnh khác • Bộ lọc định dạng: Như nói trên, HTTrack cho phép thiết lập bộ lọc giúp xác định dạng file cần tải Để thực hiện điều này hộp thoại vừa hiện ra, bạn chuyển qua thẻ Scan Rules, sau bấm chọn vào dạng file cho sẵn của chương trình là gif,jpg,png muốn tải dạng file hình ảnh; zip,tar,tgz với dạng file nén và mov,mpg,mpeg file phim và nhạc số Lưu ý là thiết lập thêm dạng file khác cách nhập trực tiếp vào khung theo công thức sau: +*.dạng file để thêm vào dạng file cần tải và -*.dạng file để ngăn khơng cho HTTrack tải dạng file này Ví dụ cơng thức +*.pdf -*.txt có nghĩa là lấy 47 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media file pdf và bỏ file txt • Spider Trong phần hiệu chỉnh option có phần spider để quét trang web có liên kết với website hiện hành Phần này mục tiêu đặt không u cầu đặt lên đầu , với mức đợ của luận văn , chi phí và thời gian khơng đáp ứng nhiều, chỉ download trực tiếp website yêu cầu 48 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Trong ứng dụng cho mục đích phục vụ cho đề tài khóa luận và giới hạn vật chất cho phép nên chỉ sử dụng crawler website chỉ định sẵn , khơng thực hiện chức spider • Browser ID: Phần này cho phép chọn kiểu comment liệu tải hoặc tự tạo định dạng liệu riêng - %s : chèn đường link của trang html lấy - • Các chức khác: sử dụng mặc định Bước 3: Các thao tác với website tải Nếu chụn sn sẻ, có website mong muốn máy tính Cần biết là khơng phải website nào cho phép bạn tải xuống lý bảo mật Để duyệt website vừa tải, mở thư mục lưu site và bấm đúp chuột vào file index.html HTTrack cịn có thao tác rất hữu dụng hộp danh sách Action bước mà bạn nên tìm hiểu là: • Continue interrupted download: Tiếp tục lại mợt q trình tải site gặp trục trặc phải ngưng chừng • Update esixting download: Đờng bợ hóa website máy tính với website tương ứng Internet Các bước là bước thực hiện cấu hình cho chương trình crawler để tạo projet thu thập liệu website media 50 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Chương 2: XÂY DỰNG BỘ ĐÁNH CHỈ MỤC INDEX Chương 3: XÂY DỰNG ỨNG DỤNG SEARCH 51 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Chương 4: CÁC MODULE ,PACKAGE, LỚP CHÍNH CỦA CHƯƠNG TRÌNH PHẦN : KẾT QUẢ, ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN DANH SÁCH CÁC BẢNG DANH SÁCH CÁC HÌNH VẼ TÀI LIỆU THAM KHẢO I Sách, ebook: II Luận văn, luận án III Bài báo IV Website 52 ... viên thư? ?c hiệ Giai đoạn 1: tìm hiểu thư viện Lucene Tìm hiểu indexing lucene Nguyễn Thanh Nga (Chapter 2) Tìm hiểu loại Query hỗ trợ việc search lucene Tìm hiểu search và advance search lucene( Chapter... Đề Tài: Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Giáo viên hướng dẫn: Ngũn Văn Khiết-Bùi Tấn Lợc Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Thời... - 0012624 Tìm hiểu thư viện Lucene và xây dựng ứng dụng Search Media Phần : TÌM HIỂU THƯ VIỆN LUCENE Chương 1: TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE Các phận cấu thành hệ thống search engine