1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm kiếm dữ liệu Web với ngôn ngữ XML

80 601 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Phùng Tuấn Anh TÌM KIẾM DỮ LIỆU WEB VỚI NGÔN NGỮ XML LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH 2 TÓM TẮT LUẬN VĂN 1. Thông tin chung: Tên đề tài: Tìm kiếm dữ liệu Web với ngôn ngữ XML Giáo viên hƣớng dẫn: PGS. TS Đỗ Trung Tuấn Học viên thực hiện: Phùng Tuấn Anh Lớp: Cao học K9A Cơ sở đào tạo: Trƣờng Đại học Công nghệ Thông tin và Truyền thông – Đại học Thái Nguyên Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 60 48 01. 2. Mục tiêu: - Tìm hiểu, làm rõ một số nội dung về ngôn ngữ XML và khả năng sử dụng XML trong việc tìm kiếm dữ liệu. - Ứng dụng ngôn ngữ XML trong việc tìm kiếm dữ liệu Web phục vụ công tác Quản lý nhà nƣớc về lĩnh vực công thƣơng. 3. Nội dung chính: - Nghiên cứu tổng quan về đặc tính XML và các ngôn ngữ truy vấn XML: Xparth, XQuery, XSL - Nhu cầu thực tế về tìm kiếm dữ liệu Web hiện nay trên Internet. - Xây dựng chƣơng trình đề mô, ứng dụng XML để tìm kiếm thông tin trên Website cho ngƣời sử dụng. 4. Kết quả đạt đƣợc: Luận văn đã tìm hiểu những vấn đề liên quan đến dữ liệu và cơ sở dữ liệu, đặc biệt ngôn ngữ XML và cơ sở dữ liệu XML. Trong phần đầu luận văn, một số nhu cầu về sử dụng dữ liệu XML đƣợc trình bày. Trong chƣơng hai, luận văn trình bày một số khía cạnh của ngôn ngữ XML, đặc biệt những cú pháp và tìm kiếm dữ liệu XML. Việc này có ý nghĩa quan trong trong hệ thống các văn bản Internet đã và đang trở nên thông dụng. Ngoài những tìm hiểu về hệ thống XML, luận văn đã thử nghiệm với một vài công việc thực tế tại Sở Công Thƣơng tỉnh Thái Nguyên. Đã xây dựng chƣơng trình đề mô, ứng dụng XML để tìm kiếm thông tin trên Website cho ngƣời sử dụng. 3 MỤC LỤC MỤC LỤC 3 DANH MỤC CÁC TỪ VIẾT TẮT 6 DANH MỤC CÁC HÌNH VẼ 7 LỜI CẢM ƠN 8 LỜI NÓI ĐẦU 9 CHƢƠNG 1 11 DỮ LIỆU VÀ NHU CẦU XỬ LÝ DỮ LIỆU 11 1.1. Nhu cầu về dịch vụ Web 11 1.2. Xử lý dữ liệu nhờ các hệ quản trị cơ sở dữ liệu 17 1.2.1. Giới thiệu 17 1.2.2. Quá trình phát triển của hệ quản trị cơ sở dữ liệu (DBMS). 19 1.3. Nhu cầu về cơ sở dữ liệu XML 22 1.3.1. Lý do cần cơ sở dữ liệu XML 22 1.3.2. Vai trò thay thế các cơ sở dữ liệu quan hệ của XML 23 1.3.3. Các giải pháp sử dụng XML 23 1.3.4. Đánh giá chung và vai trò của XML 24 1.4. Kết luận 25 CHƢƠNG 2 26 XML VÀ NGÔN NGỮ TRUY VẤN DỮ LIỆU 26 2.1. Giới thiệu XML 26 2.1.1. Một số ngôn ngữ đánh dấu 26 2.1.2. Ngôn ngữ đánh dấu mở rộng XML 27 2.1.3 Sự khác nhau giữa XML và HTML 27 2.1.4. Lịch sử hình thành và phát triển XML 28 2.2. Đặc điểm của XML 29 4 2.2.1. Các tệp XML 30 2.2.2. Sử dụng XML 31 2.3. Cấu trúc một tài liệu XML 32 2.3.1.Thí dụ 32 2.3.2. Xem tài liệu XML trên trình duyệt 34 2.3.3. Trích dữ liệu trong tài liệu XML 34 2.4. Tổ chức dữ liệu XML 35 2.4.1. Tạo tài liệu XML đúng khuôn dạng 36 2.4.2. Tạo tài liệu XML hợp lệ 36 2.5. Tạo tài liệu XML 37 2.5.1. Bộ ký tự mã hóa 37 2.5.2. Đánh dấu XML và dữ liệu XML 38 2.5.3. Ký tự trắng và dấu xuống dòng 39 2.5.4. Tạo phần mở đầu 39 2.5.5. Tạo khai báo XML 39 2.5.6. Ghi chú tài liệu 40 2.5.7. Tạo các chỉ thị xử lý 40 2.5.8. Tạo thẻ và phần tử 40 2.5.9. Tạo tài liệu XML hợp khuôn dạng 43 2.5.10. Các ràng buộc hợp khuôn dạng: 46 2.5.11. Sử dụng không gian tên trong XML 48 2.5.12. Không gian tên mặc định 53 2.5.13. Cách ghi chú trong DTD 61 2.6. Các ngôn ngữ truy vấn XML 62 5 2.6.1. XPath 62 2.6.2. XQuery 62 2.6.3. XSL 63 2.7. Kết luận 66 CHƢƠNG 3 67 TÌM KIẾM THÔNG TIN VỚI XML 67 3.1. Nhu cầu tìm kiếm dữ liệu tại Thái Nguyên 67 3.1.1. Đặc điểm công tác của đơn vị 67 3.1.2. Xác định hệ thống thông tin tại cơ quan 67 3.1.3. Mục đích của tìm kiếm dữ liệu Web 67 3.2. Đảm bảo kỹ thuật 68 3.2.1. Thiết kế hệ thống thu thập thông tin 68 3.2.2. Bộ lập chỉ mục 69 3.2.3. Bộ tìm kiếm thông tin 69 3.2.4. Nguyên lý hoạt động của Search Engine 70 3.3. Ứng dụng XML tìm kiếm thông tin web tại đơn vị 70 3.3.1. Tìm kiếm thông tin trên webiste 70 3.3.2. Thiết lập chƣơng trình tìm kiếm sử dụng công cụ robot 73 3.3.2. Chƣơng trình tìm kiếm 77 3.4. Kết luận 78 KẾT LUẬN 79 Kết luận và khuyến nghị 79 Hƣớng phát triển mở rộng 79 TÀI LIỆU THAM KHẢO 80 6 DANH MỤC CÁC TỪ VIẾT TẮT 4th Dimension, ANTs Data Server, Dataphor, Daffodil database, FileMaker Pro, Informix, InterBase, Matisse, Microsoft Access, Mimer SQL, NonStop SQL, Sand Analytic Server , SmallSQL, Sybase ASA, Watcom SQL, Sybase, Sybase IQ, Teradata, ThinkSQL, VistaDB Các hệ quản trị cơ sở dữ liệu thƣơng mại ASCII Bộ mã B2B Business to business B2C Business to customer Cloudscape, Firebird, HSQLDB, Ingres, MaxDB, MonetDB, PostgreSQL, SQLite, tdbengine. Các hệ quản trị cơ sở dữ liệu mã mở CNTT Công nghệ Thông tin DB2 Hệ quản trị cơ sở dữ liệu của IBM DBMS Hệ quản trị cơ sở dữ liệu DTD Document Type Definition ER Mô hình thực thể quan hệ GML Generalized Markup Language HTML Hyper Text Markup Language ICT Công nghệ Thông tin và Truyền thông IP Giao thức IP ISO International Standard Organisation MVS (Multiple Virtual Storage) Lƣu trữ ảo NXD Native XML database (Cơ sở dữ liệu XML nguyên gốc) RDBMS Hệ quản trị cơ sở dữ liệu quan hệ RFC Request for Comments SGML Standard Generalized Markup Language SQL Structured Query Language SQL SERVER Hệ quản trị cơ sở dữ liệu SQL SERVER UCS Universal Character System URI Uniform Resource Identifier WML Wireless Markup Language XML Ngôn ngữ đánh dấu mở rộng, XML 7 DANH MỤC CÁC HÌNH VẼ Hình 1.1: Inetrnet giúp truy cập 11 Hình 1.2: Mua bán trên mạng 13 Hình 1.3: Thông tin nội bộ 14 Hình 1.4: Dịch vụ 24/ 24 15 Hình 1.5: Truyền thông linh hoạt 16 Hình 1.6: Ba tầng cơ sở dữ liệu 18 Hình 1.7: Mô hình ER 19 Hình 1.8: SQL SERVER 21 Hình 2.1: Ngôn ngữ HTML 27 Hình 2.2: XML và ngôn ngữ khác 27 Hình 2.3: Sơ đồ SGML 29 Hình 2.4: Mối quan hệ giữa các thành phần trong XML 63 Hình 3.1: Các máy chủ trong kiến trúc C/S 70 Hình 3.2: Một trang web chứa thông tin của sở 71 Hình 3.3: Nội dung trang web dạng xHTML 72 Hình 3.4: Sơ đồ hoạt động của công cụ robot 74 Hình 3.5: Sơ đồ thẻ xHTML tổ chức dƣới dạng cây 76 Hình 3.6: Giao diện trang tìm kiếm 77 Hình 3.7: Giao diện kết quả tìm kiếm 77 8 LỜI CẢM ƠN Tôi xin chân thành cảm ơn Ban giám hiệu, các Thầy Cô trường Đại học Công nghệ thông tin và Truyền thông Thái Nguyên, đặc biệt là các thầy cô trong và ngoài trường đã tận tình giảng dạy, trang bị cho tôi những kiến thức cần thiết trong suốt những năm học tập tại trường. Em xin chân thành cảm ơn thầy Đỗ Trung Tuấn đã tận tình quan tâm, hướng dẫn và giúp đỡ em trong thời gian qua để em có thể hoàn thành tốt luận văn của mình. Tôi xin chân thành cảm ơn các anh chị cùng các bạn đã có những nhận xét, đóng góp ý kiến, động viên, quan tâm và giúp đỡ tôi vượt qua khó khăn. Cuối cùng, Tôi xin gửi lòng biết ơn sâu sắc đến cha mẹ, gia đình, Lãnh đạo Sở Công Thương đã tạo mọi điều kiện về thời gian, vật chất, tinh thần động viên, khích lệ và hỗ trợ tôi trong suốt thời gian qua./. Thái Nguyên, ngày 12 tháng 9 năm 2012 9 LỜI NÓI ĐẦU Thế kỷ XXI, thế kỷ của sự bùng nổ công nghệ thông tin, các công nghệ tiên tiến phát triển nhƣ vũ bão, mang một luồng gió mới thổi vào nhận thức của mỗi ngƣời. Song song đó, thế giới đang trong xu thế toàn cầu hóa, tất cả đều mang ý nghĩa hội nhập. Lúc này, các doanh nghiệp và chính phủ không chỉ cạnh tranh với các doanh nghiệp trong một quốc gia mà còn cạnh tranh với các doanh nghiệp, chính phủ ở khắp thế giới. Vì thế, để tồn tại và phát triển, mục tiêu mà các doanh nghiệp hƣớng đến đầu tiên là nâng cao chất lƣợng phục vụ khách hàng. Khách hàng là yếu tố sống còn của bất kỳ doanh nghiệp nào trong thế kỷ XXI. Một Chính phủ muốn quốc gia mình phát triển phải xem nhân dân và doanh nghiệp là khách hàng. Doanh nghiệp nào làm cho khách hàng thỏa mãn, doanh nghiệp đó sẽ phát triển tốt, Chính phủ nào làm nhân dân hài lòng Chính phủ đó sẽ vững mạnh. Trong bối cảnh phát triển mạnh mẽ của Internet, thƣơng mại điện tử, Chính phủ điện tử đã ra đời và phát triển khá nhanh, điều này không phải là mới trên thế giới nhƣng vẫn là rất mới đối với Việt Nam. Nhiều vấn đề đặt ra là làm thế nào để ứng dụng công nghệ thông tin vào đời sống đƣợc hữu dụng nhất. Chính vì vậy đề tài “Tìm kiếm dữ liệu Web với ngôn ngữ XML” đƣợc đƣa ra nhằm giúp cho các doanh nghiệp hay các tổ chức nhà nƣớc, hỗ trợ cho ngƣời dùng đạt hiệu quả. Với luận văn này, tôi mong muốn sẽ xây dựng đƣợc một hệ thống chƣơng trình phần mền "hệ thống tìm kiếm dữ liệu WEB" để phục vụ cho việc tra cứu văn bản chuyên ngành của Sở Công Thƣơng Thái Nguyên. Trong quá trình tìm hiểu và viết về những đặc tính của XML sẽ không tránh khỏi những sai sót và hạn chế, rất mong đƣợc sự góp ý của Hội đồng và toàn thể những ai đã đọc luận văn này của tôi, để bản luận văn của tôi đƣợc hoàn thiện hơn nữa. 10 Luận văn đƣợc chuẩn bị theo các chƣơng :  Chƣơng 1 trình bày nhu cầu xử lý dữ liệu và dẫn đến vai trò của dữ liệu XML và thông tin trên Internet. Các hệ thống quản trị cơ sở dữ liệu đƣợc đề cập để thấy đƣợc vai trò của chúng.  Chƣơng 2 trình bày một số khía cạnh của XML và thách thức đối với bài toán tìm kiếm thông tin trên Web. Những kiến thức tìm hiểu là cơ sở để phát triển ứng dụng trong chƣơng sau.  Chƣơng 3 trình bày những ứng dụng thử nghiệm tại địa bàn Thái Nguyên. Một số trang màn hình cho phép thể hiện kết quả thử nghiệm. Phần cuối là kết luận, trình bày các kết quả làm đƣợc và định hƣớng nghiên cứu tiếp. [...]... cơ sở dữ liệu truyền thống, cũng nhƣ cơ sở dữ liệu XML trong việc xử lý dữ liệu 26 CHƢƠNG 2 XML VÀ NGÔN NGỮ TRUY VẤN DỮ LIỆU 2.1 Giới thiệu XML 2.1.1 Một số ngôn ngữ đánh dấu Thuật ngữ đánh dấu nói đến các mã hay các dấu hiệu ngƣời ta đƣa vào một tài liệu để chỉ ra cách thể hiện dữ liệu trong tài liệu đó Nói cách khác đánh dấu là mô tả dữ liệu trong tài liệu và cách nó sẽ đƣợc thể hiện Ngôn ngữ đánh... 31 coi XML nhƣ là dạng text đã đƣợc tuần tự hóa chỉ khi nó cần truyền dữ liệu qua mạng 2.2.2 Sử dụng XML Điều quan trọng là ngƣời ta cần hiểu là XML dùng để lƣu, mang và trao đổi giữ liệu XML không đƣợc thiết kế để hiển thị dữ liệu XML có thể tách rời dữ liệu khỏi HTML: Với XML, dữ liệu đƣợc lƣu bên ngoài HTML Khi HTML đƣợc dùng để hiển thị dữ liệu, dữ liệu đƣợc lƣu bên trong HTML Với XML, dữ liệu có... Sheet (CSS) dùng với cả tài liệu HTML và XML; Extensible Stylesheet Language (XSL) chỉ dùng với tài liệu XML 2.3.3 Trích dữ liệu trong tài liệu XML Ngƣời ta có thể trích lấy dữ liệu trong tài liệu XML và xử lý nó thay vì chỉ đơn thuần cho trình duyệt biết cách hiển thị dữ liệu đó Để trích dữ liệu trong trình duyệt ngƣời ta có thể dùng JavaScrip, đây là ngôn ngữ kịch bản dùng kết hợp với HTML đƣợc nhiều... nhiệm vụ của họ  Tính toàn vẹn dữ liệu: dữ liệu lƣu trữ trong cơ sở dữ liệu là đúng đắn, đáng tin cậy  An toàn dữ liệu: Chỉ những ngƣời dùng đƣợc phép mới có thể truy cập dữ liệu Nếu nhiều ngƣời dùng truy cập chung một mục dữ liệu cùng lúc thì hệ quản trị cơ sở dữ liệu không cho phép họ thực hiện những thay đổi gây mâu thuẫn dữ liệu  Độc lập dữ liệu: hệ quản trị cơ sở dữ liệu phải cho phép tất cả mọi... tin XML riêng biệt theo cách này ngƣời ta có thể tập trung lên việc sử dụng HTML để bố trí và hiển thị dữ liệu nhằm đảm bảo rằng những thay đổi trong dữ liệu bên dƣới không yêu cầu bất kỳ thay đổi gì với HTML Dữ liệu XML vẫn có thể đƣợc lƣu bên trong HTML nhƣ là “đảo dữ liệu khi đó ngƣời ta vẫn có thể dùng HTML chỉ để định dạng và hiển thị dữ liệu XML đƣợc dùng để trao đổi dữ liệu: Với XML dữ liệu. .. thông tin một cách linh hoạt và hiệu quả khi dữ liệu đƣợc tổ chức và lƣu trữ trong các cấu trúc quan hệ Hệ quản trị cơ sở dữ liệu là một thành công trong lĩnh vực thƣơng mại Hình 1.6: Ba tầng cơ sở dữ liệu Hệ quản trị cơ sở dữ liệu phải đảm bảo các mục tiêu: dữ liệu sẵn dùng, tính toàn vẹn dữ liệu, an toàn dữ liệu, và độc lập dữ liệu  Dữ liệu sẵn dùng: dữ liệu đƣợc tổ chức sao cho mọi ngƣời dùng có... dấu mở rộng XML XML, Ngôn ngữ Đánh dấu Mở rộng, là ngôn ngữ đánh dấu với mục đích chung do W3C đề nghị, để tạo ra các ngôn ngữ đánh dấu khác Đây là một tập con đơn giản của SGML, có khả năng mô tả nhiều loại dữ liệu khác nhau Mục đích chính của XML là đơn giản hóa việc chia sẻ dữ liệu giữa các hệ thống khác nhau, đặc biệt là các hệ thống đƣợc kết nối với Internet Các ngôn ngữ dựa trên XML (thí dụ:... SQLite, tdbengine 1.3 Nhu cầu về cơ sở dữ liệu XML 1.3.1 Lý do cần cơ sở dữ liệu XML Các cơ sở dữ liệu thƣờng có thể lƣu trữ cả tài liệu không cấu trúc và có cấu trúc Cả hai đều yêu cầu các cấu trúc dữ liệu mà không thƣờng xuyên thay đổi Tuy nhiên, điểm yếu của các cơ sở dữ liệu quan hệ là việc lƣu trữ các tài liệu bán cấu trúc Không nhƣ các dữ liệu có cấu trúc, các tài liệu bán cấu trúc này có thể có rất... Tổ chức dữ liệu XML Tài liệu XML thật sự có thể làm nhiều hơn ngoài việc lƣu giữ dữ liệu ngƣời ta có thể chỉ ra cấu trúc dữ liệu cho tài liệu XML Cấu trúc này rất quan trọng khi ngƣời ta làm việc với dữ liệu phức tạp khi lƣu một tài liêu HTML quá lớn những trang sau có thể sinh ra lỗi do sai thẻ Nhƣng trong XML ngƣời ta có thể xây dựng một bộ qui tắc cú pháp chỉ ra cấu trúc của tài liệu để tải liệu đƣợc... ngữ HTML 2.1.3 Sự khác nhau giữa XML và HTML XML đƣợc tạo ra không phải để thay thế HTML mà để bổ túc cho HTML XML đƣợc thiểt kế để mô tả dữ liệu và tập trung lên vấn đề đó là dữ liệu gì HTML đƣợc thiết kế để hiển thị dữ liệu và tập trung lên vấn đề dữ liệu đƣợc thể hiện nhƣ thế nào trên mặt trình duyệt Hình 2.2: XML và ngôn ngữ khác 28 XML không thực hiện mọi thứ : XML không đƣợc thiết kế để thực hiên . TÌM KIẾM DỮ LIỆU WEB VỚI NGÔN NGỮ XML LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH 2 TÓM TẮT LUẬN VĂN 1. Thông tin chung: Tên đề tài: Tìm kiếm dữ liệu Web với ngôn ngữ XML Giáo. 2. Mục tiêu: - Tìm hiểu, làm rõ một số nội dung về ngôn ngữ XML và khả năng sử dụng XML trong việc tìm kiếm dữ liệu. - Ứng dụng ngôn ngữ XML trong việc tìm kiếm dữ liệu Web phục vụ công. 34 2.3.3. Trích dữ liệu trong tài liệu XML 34 2.4. Tổ chức dữ liệu XML 35 2.4.1. Tạo tài liệu XML đúng khuôn dạng 36 2.4.2. Tạo tài liệu XML hợp lệ 36 2.5. Tạo tài liệu XML 37 2.5.1. Bộ

Ngày đăng: 08/11/2014, 21:42

TỪ KHÓA LIÊN QUAN

w