Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 80 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
80
Dung lượng
1,22 MB
Nội dung
ĐẠI HỌC1THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG Phùng Tuấn Anh TÌM KIẾM DỮ LIỆU WEB VỚI NGÔN NGỮ XML LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Tai ngay!!! Ban co the xoa dong chu nay!!! TĨM TẮT LUẬN VĂN Thơng tin chung: Tên đề tài: Tìm kiếm liệu Web với ngôn ngữ XML Giáo viên hƣớng dẫn: PGS TS Đỗ Trung Tuấn Học viên thực hiện: Phùng Tuấn Anh Lớp: Cao học K9A Cơ sở đào tạo: Trƣờng Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 60 48 01 Mục tiêu: - Tìm hiểu, làm rõ số nội dung ngôn ngữ XML khả sử dụng XML việc tìm kiếm liệu - Ứng dụng ngôn ngữ XML việc tìm kiếm liệu Web phục vụ cơng tác Quản lý nhà nƣớc lĩnh vực công thƣơng Nội dung chính: - Nghiên cứu tổng quan đặc tính XML ngơn ngữ truy vấn XML: Xparth, XQuery, XSL - Nhu cầu thực tế tìm kiếm liệu Web Internet - Xây dựng chƣơng trình đề mơ, ứng dụng XML để tìm kiếm thông tin Website cho ngƣời sử dụng Kết đạt đƣợc: Luận văn tìm hiểu vấn đề liên quan đến liệu sở liệu, đặc biệt ngôn ngữ XML sở liệu XML Trong phần đầu luận văn, số nhu cầu sử dụng liệu XML đƣợc trình bày Trong chƣơng hai, luận văn trình bày số khía cạnh ngôn ngữ XML, đặc biệt cú pháp tìm kiếm liệu XML Việc có ý nghĩa quan trong hệ thống văn Internet trở nên thơng dụng Ngồi tìm hiểu hệ thống XML, luận văn thử nghiệm với vài công việc thực tế Sở Công Thƣơng tỉnh Thái Nguyên Đã xây dựng chƣơng trình đề mơ, ứng dụng XML để tìm kiếm thơng tin Website cho ngƣời sử dụng MỤC LỤC MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ LỜI CẢM ƠN LỜI NÓI ĐẦU CHƢƠNG 11 DỮ LIỆU VÀ NHU CẦU XỬ LÝ DỮ LIỆU 11 1.1 Nhu cầu dịch vụ Web 11 1.2 Xử lý liệu nhờ hệ quản trị sở liệu 17 1.2.1 Giới thiệu 17 1.2.2 Quá trình phát triển hệ quản trị sở liệu (DBMS) 19 1.3 Nhu cầu sở liệu XML 22 1.3.1 Lý cần sở liệu XML 22 1.3.2 Vai trò thay sở liệu quan hệ XML 23 1.3.3 Các giải pháp sử dụng XML 23 1.3.4 Đánh giá chung vai trò XML 24 1.4 Kết luận 25 CHƢƠNG 26 XML VÀ NGÔN NGỮ TRUY VẤN DỮ LIỆU 26 2.1 Giới thiệu XML 26 2.1.1 Một số ngôn ngữ đánh dấu 26 2.1.2 Ngôn ngữ đánh dấu mở rộng XML 27 2.1.3 Sự khác XML HTML 27 2.1.4 Lịch sử hình thành phát triển XML 28 2.2 Đặc điểm XML 29 2.2.1 Các tệp XML 30 2.2.2 Sử dụng XML 31 2.3 Cấu trúc tài liệu XML 32 2.3.1.Thí dụ 32 2.3.2 Xem tài liệu XML trình duyệt 34 2.3.3 Trích liệu tài liệu XML 34 2.4 Tổ chức liệu XML 35 2.4.1 Tạo tài liệu XML khuôn dạng 36 2.4.2 Tạo tài liệu XML hợp lệ 36 2.5 Tạo tài liệu XML 37 2.5.1 Bộ ký tự mã hóa 37 2.5.2 Đánh dấu XML liệu XML 38 2.5.3 Ký tự trắng dấu xuống dòng 39 2.5.4 Tạo phần mở đầu 39 2.5.5 Tạo khai báo XML 39 2.5.6 Ghi tài liệu 40 2.5.7 Tạo thị xử lý 40 2.5.8 Tạo thẻ phần tử 40 2.5.9 Tạo tài liệu XML hợp khuôn dạng 43 2.5.10 Các ràng buộc hợp khuôn dạng: 46 2.5.11 Sử dụng không gian tên XML 48 2.5.12 Không gian tên mặc định 53 2.5.13 Cách ghi DTD 61 2.6 Các ngôn ngữ truy vấn XML 62 2.6.1 XPath 62 2.6.2 XQuery 62 2.6.3 XSL 63 2.7 Kết luận 66 CHƢƠNG 67 TÌM KIẾM THÔNG TIN VỚI XML 67 3.1 Nhu cầu tìm kiếm liệu Thái Nguyên 67 3.1.1 Đặc điểm công tác đơn vị 67 3.1.2 Xác định hệ thống thông tin quan 67 3.1.3 Mục đích tìm kiếm liệu Web 67 3.2 Đảm bảo kỹ thuật 68 3.2.1 Thiết kế hệ thống thu thập thông tin 68 3.2.2 Bộ lập mục 69 3.2.3 Bộ tìm kiếm thơng tin 69 3.2.4 Nguyên lý hoạt động Search Engine 70 3.3 Ứng dụng XML tìm kiếm thơng tin web đơn vị 70 3.3.1 Tìm kiếm thơng tin webiste 70 3.3.2 Thiết lập chƣơng trình tìm kiếm sử dụng cơng cụ robot 73 3.3.2 Chƣơng trình tìm kiếm 77 3.4 Kết luận 78 KẾT LUẬN 79 Kết luận khuyến nghị 79 Hƣớng phát triển mở rộng 79 TÀI LIỆU THAM KHẢO 80 DANH MỤC CÁC TỪ VIẾT TẮT 4th Dimension, ANTs Data Server, Dataphor, Daffodil database, FileMaker Pro, Informix, InterBase, Matisse, Microsoft Access, Mimer SQL, NonStop SQL, Sand Analytic Server , SmallSQL, Sybase ASA, Watcom SQL, Sybase, Sybase IQ, Teradata, ThinkSQL, VistaDB ASCII B2B B2C Cloudscape, Firebird, HSQLDB, Ingres, MaxDB, MonetDB, PostgreSQL, SQLite, tdbengine CNTT DB2 DBMS DTD ER GML HTML ICT IP ISO MVS (Multiple Virtual Storage) NXD RDBMS RFC SGML SQL SQL SERVER UCS URI WML XML Các hệ quản trị sở liệu thƣơng mại Bộ mã Business to business Business to customer Các hệ quản trị sở liệu mã mở Công nghệ Thông tin Hệ quản trị sở liệu IBM Hệ quản trị sở liệu Document Type Definition Mơ hình thực thể quan hệ Generalized Markup Language Hyper Text Markup Language Công nghệ Thông tin Truyền thông Giao thức IP International Standard Organisation Lƣu trữ ảo Native XML database (Cơ sở liệu XML nguyên gốc) Hệ quản trị sở liệu quan hệ Request for Comments Standard Generalized Markup Language Structured Query Language Hệ quản trị sở liệu SQL SERVER Universal Character System Uniform Resource Identifier Wireless Markup Language Ngôn ngữ đánh dấu mở rộng, XML DANH MỤC CÁC HÌNH VẼ Hình 1.1: Inetrnet giúp truy cập 11 Hình 1.2: Mua bán mạng 13 Hình 1.3: Thơng tin nội 14 Hình 1.4: Dịch vụ 24/ 24 15 Hình 1.5: Truyền thông linh hoạt 16 Hình 1.6: Ba tầng sở liệu 18 Hình 1.7: Mơ hình ER 19 Hình 1.8: SQL SERVER 21 Hình 2.1: Ngơn ngữ HTML 27 Hình 2.2: XML ngôn ngữ khác 27 Hình 2.3: Sơ đồ SGML 29 Hình 2.4: Mối quan hệ thành phần XML 63 Hình 3.1: Các máy chủ kiến trúc C/S 70 Hình 3.2: Một trang web chứa thông tin sở 71 Hình 3.3: Nội dung trang web dạng xHTML 72 Hình 3.4: Sơ đồ hoạt động công cụ robot 74 Hình 3.5: Sơ đồ thẻ xHTML tổ chức dƣới dạng 76 Hình 3.6: Giao diện trang tìm kiếm 77 Hình 3.7: Giao diện kết tìm kiếm 77 LỜI CẢM ƠN Tôi xin chân thành cảm ơn Ban giám hiệu, Thầy Cô trường Đại học Công nghệ thông tin Truyền thông Thái Ngun, đặc biệt thầy ngồi trường tận tình giảng dạy, trang bị cho tơi kiến thức cần thiết suốt năm học tập trường Em xin chân thành cảm ơn thầy Đỗ Trung Tuấn tận tình quan tâm, hướng dẫn giúp đỡ em thời gian qua để em hồn thành tốt luận văn Tơi xin chân thành cảm ơn anh chị bạn có nhận xét, đóng góp ý kiến, động viên, quan tâm giúp đỡ vượt qua khó khăn Cuối cùng, Tơi xin gửi lịng biết ơn sâu sắc đến cha mẹ, gia đình, Lãnh đạo Sở Công Thương tạo điều kiện thời gian, vật chất, tinh thần động viên, khích lệ hỗ trợ suốt thời gian qua./ Thái Nguyên, ngày 12 tháng năm 2012 LỜI NÓI ĐẦU Thế kỷ XXI, kỷ bùng nổ công nghệ thông tin, công nghệ tiên tiến phát triển nhƣ vũ bão, mang luồng gió thổi vào nhận thức ngƣời Song song đó, giới xu tồn cầu hóa, tất mang ý nghĩa hội nhập Lúc này, doanh nghiệp phủ khơng cạnh tranh với doanh nghiệp quốc gia mà cạnh tranh với doanh nghiệp, phủ khắp giới Vì thế, để tồn phát triển, mục tiêu mà doanh nghiệp hƣớng đến nâng cao chất lƣợng phục vụ khách hàng Khách hàng yếu tố sống doanh nghiệp kỷ XXI Một Chính phủ muốn quốc gia phát triển phải xem nhân dân doanh nghiệp khách hàng Doanh nghiệp làm cho khách hàng thỏa mãn, doanh nghiệp phát triển tốt, Chính phủ làm nhân dân hài lịng Chính phủ vững mạnh Trong bối cảnh phát triển mạnh mẽ Internet, thƣơng mại điện tử, Chính phủ điện tử đời phát triển nhanh, điều giới nhƣng Việt Nam Nhiều vấn đề đặt làm để ứng dụng công nghệ thông tin vào đời sống đƣợc hữu dụng Chính đề tài “Tìm kiếm liệu Web với ngơn ngữ XML” đƣợc đƣa nhằm giúp cho doanh nghiệp hay tổ chức nhà nƣớc, hỗ trợ cho ngƣời dùng đạt hiệu Với luận văn này, mong muốn xây dựng đƣợc hệ thống chƣơng trình phần mền "hệ thống tìm kiếm liệu WEB" để phục vụ cho việc tra cứu văn chuyên ngành Sở Cơng Thƣơng Thái Ngun Trong q trình tìm hiểu viết đặc tính XML khơng tránh khỏi sai sót hạn chế, mong đƣợc góp ý Hội đồng tồn thể đọc luận văn tôi, để luận văn tơi đƣợc hồn thiện 10 Luận văn đƣợc chuẩn bị theo chƣơng : Chƣơng trình bày nhu cầu xử lý liệu dẫn đến vai trò liệu XML thông tin Internet Các hệ thống quản trị sở liệu đƣợc đề cập để thấy đƣợc vai trị chúng Chƣơng trình bày số khía cạnh XML thách thức tốn tìm kiếm thơng tin Web Những kiến thức tìm hiểu sở để phát triển ứng dụng chƣơng sau Chƣơng trình bày ứng dụng thử nghiệm địa bàn Thái Nguyên Một số trang hình cho phép thể kết thử nghiệm Phần cuối kết luận, trình bày kết làm đƣợc định hƣớng nghiên cứu tiếp 66 Đây phƣơng pháp để định dạng phần tử thỏa điều kiện theo cách riêng biệt! 2.7 Kết luận Trên trình bày khía cạnh XML Nội dung tìm hiểu đơn giản, nhƣng địi hỏi học viên cố gắng nhiều để hiểu ngôn ngữ chƣa quen sử dụng Mặt khác, với mục đích thử nghiệm tìm kiếm thơng tin văn XML, Internet, vấn đề liên quan đến XML có ý nghĩa chƣơng tiếp theo, cho phép thử nghiệm với toán thực tế Thái Nguyên 67 CHƢƠNG TÌM KIẾM THƠNG TIN VỚI XML 3.1 Nhu cầu tìm kiếm liệu Thái Nguyên 3.1.1 Đặc điểm công tác đơn vị Đơn vị công tác đơn vị hành nhà nƣớc, đặc điểm cơng tác thi hành sách pháp luật ban hành văn liên quan đến sách pháp luật nhà nƣớc phục vụ đơn vị liên quan nhân dân Do để phục vụ đƣợc tốt nhu cầu tìm kiếm thơng tin ngƣời dân doanh nghiệp địi hỏi phải có giải pháp cơng nghệ kho sở liệu hoàn chỉnh phục vụ cho ngành, phục vụ tốt cho nhu cầu tra cứu, tìm kiếm thơng tin giải pháp áp dụng XML vào trang web đơn vị 3.1.2 Xác định hệ thống thông tin quan Hệ thống thông tin quan tƣơng đối đơn giản, không sử dụng máy chủ hay hệ thống tƣờng lửa để bảo mật an tồn thơng tin, hệ thống dừng lại mức mạng nội LAN đơn Tuy nhiên quan Sở chúng tơi có Website Server đƣợc đặt Trung tâm truyền số liệu VDC nhằm mục đích cung cấp thơng tin hoạt động đơn vị, dịch vụ hành công văn quy phạm pháp luật liên quan phục vụ ngƣời dân hoanh nghiệp 3.1.3 Mục đích tìm kiếm liệu Web Khi thực cơng việc tìm kiếm Web, ngƣời ta có đƣợc hàng trăm ngàn kết nhƣng thứ lại hồn tồn khơng liên quan với u cầu mà ngƣời ta đƣa Các cơng cụ tìm kiếm làm việc với văn đơn mà đƣợc ngữ cảnh văn Tuy nhiên, kết tìm kiếm có trang đƣợc tạo XML có khả chúng đáp ứng yêu cầu bạn Sở dĩ nhƣ thân tài liệu đƣợc lập trình ngữ cảnh nên việc tìm kiếm Web nhƣ thu thập tài liệu đƣợc xác 68 Để đạt điều này, tài liệu phải đƣợc gắn thẻ Thẻ thuộc tính đƣợc gán cho mẫu thông tin Document Type Definition (DTD) xác định loại thẻ đƣợc phép dùng với loại tài liệu Hãy tƣởng tƣợng DTD giống nhƣ quy tắc ngữ pháp, đƣợc áp dụng riêng cho tài liệu, quy định việc sử dụng thẻ tài liệu Nói cụ thể ta đề cập đến tài liệu văn bản, ngƣời ta dùng số văn bản, ngày phát hành, quan phát hành chủ đề để định DDT; sau biên dịch cho cơng cụ tìm kiếm thơng dịch văn đánh thẻ Emily Dickson số văn Thẻ có hình thức nhƣ sau: Emily Dickinson Vì ngƣời ta tìm kiếm Web Emily Dickinson, nhận kết cho Emily Dickinson - có khả lên đến số hàng ngàn Thay vào ngƣời ta nhận đƣợc tài liệu mà Emily Dickinson số văn Với ý tƣởng xây dựng hệ thống mạng thơng tin hồn chỉnh tiến tới phủ điện tử tƣơng lai, đơn vị quản lý nhà nƣớc nỗ lực phấn đấu hoàn thiện bƣớc sở vật chất, tri thức để việc ứng dụng công nghệ thông tin vào công tác đơn vị đạt hiệu Một vấn đề cần giải phải xây dựng phần mềm tìm kiếm diệu web phục vụ tốt cho công tác đơn vị cho ngƣời truy cập vào website có nhu cầu tra cứu văn hay tìm kiếm thơng tin đạt kết nhƣ mong muốn Chính tơi chọn đề tài “Tìm kiếm liệu web với ngơn ngữ XML” với mong muốn tạo đƣợc sản phẩm phần mềm có tính ứng dụng cao, phục vụ tốt cho công tác đơn vị 3.2 Đảm bảo kỹ thuật 3.2.1 Thiết kế hệ thống thu thập thông tin Hệ thống Robot chƣơng trình tự động duyệt qua cấu trúc siêu liên kết để thu thập tài liệu & cách đệ quy nhận tất tài liệu có liên kết với tài liệu Robot đƣợc biết đến dƣới nhiều tên gọi khác nhau: spider, web wanderer web worm,… Những tên gọi gây nhầm 69 lẫn, nhƣ từ „spider‟, „wanderer‟ làm ngƣời ta nghĩ robot tự di chuyển từ „worm‟ làm ngƣời ta liên tƣởng đến virus Về chất robot chƣơng trình duyệt thu thập thông tin từ site theo giao thức web Những trình duyệt thơng thƣờng khơng đƣợc xem robot thiếu tính chủ động, chúng duyệt web có tác động ngƣời 3.2.2 Bộ lập mục Hệ thống lập mục hay cịn gọi hệ thống phân tích xử lý liệu, thực việc phân tích, trích chọn thông tin cần thiết (thƣờng từ đơn, từ ghép, cụm từ quan trọng) từ liệu mà robots thu thập đƣợc tổ chức thành sở liệu riêng để tìm kiếm cách nhanh chóng, hiệu Hệ thống mục danh sách từ khoá, rõ từ khoá xuất trang nào, địa 3.2.3 Bộ tìm kiếm thơng tin Search engine cụm từ dùng toàn hệ thống bao gồm thu thập thông tin, lập mục & tìm kiếm thơng tin Các hoạt động liên tục từ lúc khởi động hệ thống, chúng phụ thuộc lẫn mặt liệu nhƣng độc lập với mặt hoạt động Search engine tƣơng tác với user thơng qua giao diện web, có nhiệm vụ tiếp nhận & trả tài liệu thoả mãn yêu cầu user Tìm kiếm từ tìm kiếm trang mà từ câu truy vấn (query) xuất nhiều nhất, ngoại trừ stopword (các từ thông dụng nhƣ mạo từ a, an, the,…) Một từ xuất nhiều trang trang đƣợc chọn để trả cho ngƣời dùng Và trang chứa tất từ câu truy vấn tốt trang khơng chứa từ Ngày nay, hầu hết search engine hỗ trợ chức tìm nâng cao, tìm từ đơn, từ ghép, cụm từ, danh từ riêng, hay giới hạn phạm vi tìm kiếm nhƣ đề mục, tiêu đề, đoạn văn giới thiệu trang web,… Ngồi chiến lƣợc tìm xác theo từ khố, search engine cịn cố gắng „hiểu„ ý nghĩa thực câu hỏi thông qua câu chữ ngƣời dùng cung cấp Điều đƣợc thể qua chức sửa lỗi tả, tìm hình 70 thức biến đổi khác từ Ví dụ : search engine tìm từ nhƣ speaker, speaking, spoke ngƣời dùng nhập vào từ speak 3.2.4 Nguyên lý hoạt động Search Engine Search engine điều khiển robots thu thập thông tin mạng thông qua siêu liên kết (hyperlink) Khi robots phát website mới, gửi tài liệu (web page) cho server để tạo sở liệu mục phục vụ cho nhu cầu tìm kiếm thơng tin Bởi thơng tin mạng ln thay đổi nên robots phải liên tục cập nhật website cũ Mật độ cập nhật phụ thuộc vào hệ thống search engine Khi search engine nhận câu truy vấn từ user, tiến hành phân tích, tìm sở liệu mục trả tài liệu thoả yêu cầu 3.3 Ứng dụng XML tìm kiếm thơng tin web đơn vị 3.3.1 Tìm kiếm thơng tin webiste Cơ quan Sở chúng tơi có Website Server đƣợc đặt Trung tâm truyền số liệu VDC nhằm mục đích cung cấp thơng tin hoạt động đơn vị, dịch vụ hành công văn quy phạm pháp luật liên quan phục vụ ngƣời dân hoanh nghiệp Hình 3.1: Các máy chủ kiến trúc C/S Với ý tƣởng xây dựng hệ thống mạng thơng tin hồn chỉnh tiến tới phủ điện tử tƣơng lai, đơn vị quản lý nhà nƣớc nỗ lực phấn đấu hoàn thiện bƣớc sở vật chất, tri thức để việc ứng dụng công nghệ thông tin vào cơng tác đơn vị đạt hiệu Một vấn đề cần giải phải xây dựng phần mềm tìm kiếm diệu web phục vụ 71 tốt cho công tác đơn vị cho ngƣời truy cập vào website đáp ứng nhu cầu tra cứu văn hay tìm kiếm thông tin đạt kết nhƣ mong muốn Website Sở đƣợc thiết kế theo chuẩn xHTML áp dụng phƣơng pháp truy vấn thơng tin XML để tìm kiếm thơng tin website cách xác Một trang web chứa liệu nhƣ sau: Hình 3.2: Một trang web chứa thông tin sở 72 Phần mã nguồn html trang đƣợc nhúng thông tin trang web theo mẫu DublinCore metadata Hình 3.3: Nội dung trang web dạng xHTML 73 Bản ghi DublinCore mô tả trang web nhƣ sau: 3.3.2 Thiết lập chương trình tìm kiếm sử dụng cơng cụ robot 3.3.2.1 Cơ chế hoạt động công cụ robot Đầu tiên robot tìm nội dung thơng tin trang xem có phù hợp với u cầu tìm kiếm hay khơng, sau thu thập tất liên kết (link) trang để tiếp tục tìm kiếm trang Robot dừng tìm kiếm theo điều kiện xác định cho trƣớc (có thể độ sâu link) Trong chƣơng trình robot tìm kiếm dựa meta data dƣới dạng chuẩn dublincore 74 Sau tìm đƣợc viết thỏa mãn tiêu chí, đánh giá mức độ phù hợp từ khóa Hệ thống lƣu lại kết database (đánh mục cho kết tìm kiếm) Với yêu cầu ngƣời dùng, hệ thống tìm kiếm thơng tin đƣợc đánh mục (tìm kiếm database) để tốc độ tìm kiếm đƣợc nhanh Do khơng tìm kiếm trực tiếp nội dung trang nên hệ thống sau thời gian đánh mục lại trang để làm nội dung Hệ thống mục danh sách từ khoá, rõ từ khoá xuất trang nào, địa Với tiêu chí tìm kiếm, hệ thống tìm phần biểu ghi dublincore đầu trang để xem nội dung tìm kiếm có phù hợp khơng? Trong phần chƣơng trình demo tác giả dừng lại việc kiểm tra xem từ khóa tìm kiếm có nằm nội dung tìm kiếm hay khơng Chƣa xử lý vấn đề tìm kiếm với Tiếng Việt Trƣớc trang web đƣợc đánh mục, tất trang web phải đƣợc lấy máy robot Để lấy đƣợc tất trang web, robot phải có chiến thuật Từ số trang web có sẵn, robot lọc danh sách liên kết, từ dị tìm trang khác Có chiến thuật tìm kiếm Heuristic sau : tìm kiếm theo chiều sâu, tìm kiếm theo chiều rộng tìm kiếm ngẫu nhiên Internet Lựa chọn Xác định cấu trúc URL thẻ xHTML Thu thập Truy vấn nội dung liệu Hiển thị liệu Kho liệu Hình 3.4: Sơ đồ hoạt động cơng cụ robot 75 3.3.2.2 Thuật toán áp dụng Trƣớc trang web đƣợc đánh mục, tất trang web phải đƣợc lấy máy robot Để lấy đƣợc tất trang web, robot phải có chiến thuật Từ số trang web có sẵn, robot lọc danh sách liên kết, từ dị tìm trang khác Có chiến thuật tìm kiếm Heuristic sau : tìm kiếm theo chiều sâu, tìm kiếm theo chiều rộng tìm kiếm ngẫu nhiên - Chiến thuật tìm kiếm theo chiều sâu Từ danh sách chứa liên kết cần duyệt, thực bƣớc sau : (1) Cho danh sách = {trang đầu tiên} (2) Lấy trang danh sách Nếu có qua (3) Nếu không qua (5) (3) Trang xét tới chƣa ? Nếu rồi, quay lại (2) Nếu chƣa, qua (4) (4) Đánh dấu tới Phân tích tìm xem liên kết có trang khơng? (4a) Nếu có, thêm liên kết vào đầu danh sách Quay lại (4) (4b) Nếu không, quay lại (2) (5) Kết thúc - Chiến thuật tìm kiếm theo chiều rộng Từ danh sách chứa liên kết cần duyệt, thực bƣớc sau : (1) Cho danh sách = {trang đầu tiên} (2) Lấy trang danh sách Nếu có qua (3) Nếu khơng qua (5) (3) Trang xét tới chƣa ? Nếu rồi, quay lại (2) Nếu chƣa, qua (4) (4) Đánh dấu tới Phân tích tìm xem liên kết có trang khơng? (4a) Nếu có, thêm liên kết vào cuối danh sách Quay lại (4) (4b) Nếu không, quay lại (2) (5) Kết thúc - Chiến thuật tìm kiếm theo ngẫu nhiên Từ danh sách chứa liên kết cần duyệt, thực bƣớc sau : (1) Cho danh sách = {trang đầu tiên} (2) Lấy ngẫu nhiên trang danh sách Nếu có qua (3) Nếu khơng qua (5) (3) Trang xét tới chƣa ? Nếu rồi, quay lại (2) Nếu chƣa, qua (4) (4) Đánh dấu tới Phân tích tìm xem liên kết có trang khơng? 76 Ở tác giả sử dụng thuật tốn tìm kiếm theo chiều sâu, mơ tả đơn giản cách áp dụng thuật toán kết hợp đệ quy nhƣ sau: Từ link, kết tìm kiếm trang nội dung phù hợp cộng kết tìm kiếm trang (đƣợc link tới) Với link thu thập đƣợc trang, lặp lại bƣớc Dùng đệ quy thỏa mãn điều kiện (độ sâu trang < m) Khi nội dung trang đƣợc thu thập lƣu vào sở liệu Có thể lƣu liệu dƣới dạng có cấu trúc, mục sử dụng sức mạnh hệ quản trị sở liệu cho việc tìm kiếm Ta sử dụng các giải thuật tím kiếm hiệu nhƣ sử dụng Trí tuệ nhân tạo hay mạng nơ ron để tìm kiếm liệu 3.3.2.3 Các bước hoạt động Bƣớc 1: Định luồng thông tin liệu lựa chọn URL từ Internet Bƣớc 2: Xác định cấu trúc thẻ xHTML Tất website Internet đƣợc xem nhƣ đồ thi lớn với nút trang web liên kết đƣờng xHTML head body title h4 ul text text li a text Hình 3.5: Sơ đồ thẻ xHTML tổ chức dƣới dạng Bƣớc 3: Khai phá cấu trúc thẻ xHTML Chƣơng trình vài nút hạt nhân sau theo cạnh để tới nút khác Quá trình tải trang web 77 trích liên kết tƣơng tự nhƣ việc mở rộng nút tốn tìm kiếm đồ thị Bƣớc 4: Chƣơng trình có chủ điểm cố gắng theo cạnh mà đƣợc kỳ vọng dẫn tới vị trí đồ thị hợp lệ với chủ đề Sau tới đƣợc chủ đề thích hợp, hệ thống bóc tách lấy phần liệu lƣu kho sở liệu Bƣớc 5: Hiển thị liệu tìm đƣợc nhƣ mong muốn user 3.3.2 Chương trình tìm kiếm Giao diện trang tìm kiếm Hình 3.6: Giao diện trang tìm kiếm Giao diện trang hiển thị kết tìm kiếm Hình 3.7: Giao diện kết tìm kiếm 78 Một số đánh giá : Các tiêu chí đạt đƣợc Áp dụng phƣơng pháp, kỹ thuật xử lý XML để lấy thơng tin Tìm kiếm xác từ khóa theo ngữ cảnh Thân thiện với cỗ máy tìm kiếm Những mặt tồn : Gặp hạn chế xử lý từ khóa tiếng việt có dấu khơng dấu Chƣa đánh đƣợc mục cho kết tìm kiếm 3.4 Kết luận Chƣơng trình bày số ứng dụng, sử dụng kiến thức tìm hiểu đƣợc chƣơng ngôn ngữ XML Xây dựng thuật tốn sử dụng cơng cụ robot vào tốn thực tế trang tin Internet liên quan đến đơn vị công tác đƣợc thử nghiệm 79 KẾT LUẬN Kết luận khuyến nghị Luận văn tìm hiểu vấn đề liên quan đến liệu sở liệu, đặc biệt ngôn ngữ XML sở liệu XML Trong phần đầu luận văn, số nhu cầu sử dụng liệu XML đƣợc trình bày Trong chƣơng 2, luận văn trình bày số khía cạnh ngơn ngữ XML, đặc biệt cú pháp tìm kiếm liệu XML Việc có ý nghĩa quan trong hệ thống văn Internet trở nên thơng dụng Ngồi tìm hiểu hệ thống XML, luận văn thử nghiệm với vài công việc thực tế Sở Công thƣơng tỉnh Thái Nguyên Luận văn đạt công việc đặt đề cƣơng làm luận văn tốt nghiệp, : Tìm hiểu XML, truy cập trang công ty IBM để học tập thêm hoạt động ứng dụng XML; Ứng dụng tìm kiếm liệu XML cho toán thực tế Hướng phát triển mở rộng Việc nghiên cứu sở liệu XML cần thiết, sau tìm hiểu liệu XML tìm kiếm thông tin hệ thống liệu Internet Trong thời gian tới, phần thời gian dành cho việc sử dụng sở liệu XML công việc tác nghiệp Thái Nguyên 80 TÀI LIỆU THAM KHẢO Tiếng việt: [1] Đỗ Trung Tuấn (2002), sở liệu, NXB Đại học Quốc gia Hà Nội [2] Lƣơng Văn Nghĩa (2005), Học XML 24 tiếng, NXB Trẻ TP HCM [3] Nguyễn Bá Tƣờng (2009), Cơ sở liệu phân tán, NXB Thống kê [4] Vũ Đức Thi (1998), Cơ sở liệu, NXB Thống kê Tiếng anh: [5] Eric T Ray (2011), Learning XML, Ed Oreilly [6] MOET (2011), Học XML với mười điểm ghi nhớ, Thƣ viện MOET [7] Steven Holzner (2011), Sams Teach Yourself XML in 21 Days, Ed SAM [8] Wrox Press LTD (2000), Professional XML Databases Website: [9] http://csharpvn.com , 2011 [10] http://vi.wikipedia.org/wiki/XML, 2011 [11] http://www.ibm.com/developpers, 2011 [12] http://www.ibm.vn/developer , 2011 [13] http://www.xml.org/ , 2011 [14] http://www.w3.org/ , 2011