Xây dựng wrapper cho nguồn dữ liệu web trong hệ thống tích hợp dữ liệu

73 2 0
Xây dựng wrapper cho nguồn dữ liệu web trong hệ thống tích hợp dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nguyễn Mạnh Tiến Hệ thống thông tin K43 ĐH BKHN Hệ thống thông tin Hệ thống thông tin K43 ĐH BKHN K43 Hệ thống thông tin K43 ĐH BKHN ĐH BKHN Lời giới thiệu Thơng tin ngày đóng vị trí quan trọng sống Vấn đề lưu trữ khai thác thông tin trở lên cấp thiết hết Lượng thông tin mà ta tiếp xúc lớn, để lựa chọn thơng tin thích hợp vấn đề khơng đơn giản Từ nhu cầu đời hệ thống tích hợp thơng tin tất yếu Trên tinh thần nghiên cứu học hỏi kỹ thuật tích hợp liệu Nhóm sinh viên chúng em nghiên cứu cài đặt hệ tích hợp BKDATIS Đây hệ thống phát triển trung tâm tính tốn hiệu cao trường Đại học Bách Khoa Hà Nội Hệ thống chúng em chia làm phần Trong em tham gia phần xây dựng wrapper cho nguồn liệu Web Đây đóng gói nguồn liệu Web cung cấp cho tầng giao diện truy cập thống nhất, đơn giản độc lập Cấu trúc đồ án em có phần: Chương 1: Giới thiệu hệ thống tích hợp liệu Chương : Cơ sỏ lý thuyết : Trình bày kỹ thuật, lý thuyết sử dụng để xây dựng wrapper BKDATIS Chương : Cài đặt : Trình bày mơ hình, cài đặt cụ thể wrapper Chương : Nhận xét đánh giá Do hạn chế thời gian kinh nghiệm, nên đồ án không tránh khỏi thiếu sót Kính mong thày góp ý, hướng dẫn thêm cho chúng em hoàn thiện dự án Em xin chân thành cảm ơn TS Nguyễn Thanh Thuỷ Người quan tâm nhắc nhở, hướng dẫn, tạo điều kiện để em hoàn thành đồ án tốt nghiệp Em vơ cảm ơn TS Trần Đình Khang Người tận tình bảo, góp ý qúa trình làm đồ án Em vô biết ơn ThS Tạ Tuấn Anh Người có đóng góp quý báu, đưa mơ hình, giải pháp thực giúp bọn em chọn hướng tốt Cuối em cảm ơn thày cô, anh chị bạn trung tâm Tính tốn hiệu cao tạo điều kiện, giúp đỡ em thực hin ỏn ny Xây dựng wrapper cho nguồn liệu Web hệ thống tích hợp liệu Nguyễn Mạnh Tiến Hệ thống thông tin K43 §H BKHN HƯ thèng th«ng tin – HƯ thèng th«ng tin – K43 – §H BKHN K43 – HƯ thèng thông tin K43 ĐH BKHN ĐH BKHN Chng I : GIỚI THIỆU 1.1 Các hệ thống tích hợp liệu Khi xã hội phát triển, người ngày phải tiếp xúc với nhiều thông tin Từ thời ngun thuỷ thơng tin cịn người chưa có nhu cầu phương tiện lưu trữ thông tin Tuy nhiên với thời gian, mà lượng thơng tin ngày nhiều lên, bắt đầu xuất chữ viết phương tiện lưu giữ chúng vỏ cây, da thú,… đến phương tiện tiên tiến giấy, sách vở,… Khi mà lượng sách nhiều lại xuất nhu cầu tổ chức lưu trữ chúng để sử dụng, quản lý hiệu Con người tập hợp sách thành thư viện, xếp, phân loại để dễ tìm kiến, trao đổi Hiện với đời phát triển công nghệ thông tin, thông tin lưu trữ máy tính đơn giản nhiều dạng khác Điều dẫn tới bùng nổ thơng tin Tin tức khơng q nhiều mà cịn biểu diễn nhiều dạng, nhiều nơi khác Con người bị tràn ngập biển thông tin, từ xuất nhu cầu làm để khai thác thông tin cách hiệu Bây xét ứng dụng làm việc sở liệu Con người nhiều phải làm việc với nhiều dạng tài liệu khác từ tài liệu văn thông thường, bảng Exel, trang Web, hay sở liệu Ngay với sở liệu tồn nhiều mô hình khác mơ hình quan hệ, mơ hình hướng đối tượng, mơ hình mạng, … Các nguồn liệu khơng khác mơ hình mà với phát triển hệ thống mạng cịn lưu trữ phân tán khắp nơi Ngồi cịn thách thức nguồn ln thay đổi, bổ xung, cập nhật cách độc lập Vì việc thu thập, tích hợp, trích chọn thơng tin u cầu cần thiết, giúp người sử dụng nắm bắt thông tin cách hiệu xác Tích hợp thơng tin vấn đề thách thức việc khai thác thông tin thu hút nhiều quan tâm chuyên gia Hệ thống tích hợp liệu hệ thống cho phép đưa khung nhìn thống cho việc X©y dùng wrapper cho nguồn liệu Web hệ thống tích hợp liệu Nguyễn Mạnh Tiến Hệ thống thông tin K43 ĐH BKHN Hệ thống thông tin Hệ thống thông tin K43 ĐH BKHN K43 Hệ thống thông tin K43 ĐH BKHN ĐH BKHN truy cập tới nguồn liệu tự trị không đồng giao diện truy vấn 1.2 Web vấn đề khai thác thơng tin từ Web 1.2.1 Tài liệu web WWW cung cấp nguồn thông tin vô tận Các thông tin thường bán cấu trúc, bạn tìm thấy văn có cấu trúc khơng Thơng tin thơng tin động, có chứa siêu liên kết biểu diễn nhiều hình thức khác chia sẻ rộng rãi nhiều trang nhiều hệ thống Tuy nhiên Web đặt thách thức, đưa nỗ lực nghiên cứu việc tách thông tin từ văn cấu trúc bán cấu trúc Một số định nghĩa tất trang Web bán cấu trúc họ cho chứa thơng tin cấu trúc liên quan đến cách thể Tuy nhiên Hsu đưa phân loại trang Web tốt hơn: Một trang Web cung cấp mục thơng tin có cấu trúc thuộc tính nhóm tách xác dựa vào vài luật cú pháp thống nhất, ví dụ dấu phân cách hay thứ tự thuộc tính Tuy nhiên trang Web bán cấu trúc chứa nhóm tin thiếu vài thuộc tính, thuộc tính với nhiều giá trị, hốn vị thuộc tính, hay ngoại lệ Một trang Web khơng có cấu trúc yêu cầu tri thức từ vựng để tách thuộc tính đắn Trong phần sau đề cập đến trang Web có cấu trúc, bán cấu trúc hay khơng có cấu trúc tuỳ thuộc vào cách xếp nội dung Tuy nhiên tính cấu trúc trang Web ln tuỳ thuộc vào thuộc tính mà người sử dụng muốn tách Thường cơng cụ tạo Web tạo trang có cấu trúc tốt, trang tạo tay thường cấu trúc Khi tách thông tin từ trang Web, kỹ thuật sử dụng vào trang Web tài liệu bán cấu trúc: Kỹ thuật NLP truyền thống khơng thích hợp, nguồn thông tin thường cấu trúc ngữ pháp đầy đủ kỹ thuật thiết kế để sử dụng Hơn nữa, kỹ thuật NLP thng Xây dựng wrapper cho nguồn liệu Web hệ thống tích hợp liệu Nguyễn Mạnh Tiến Hệ thống thông tin K43 ĐH BKHN Hệ thèng th«ng tin – HƯ thèng th«ng tin – K43 ĐH BKHN K43 Hệ thống thông tin K43 – §H BKHN §H BKHN chậm, có vấn đề số lượng tài liệu lớn nội dung cần tách tách trực tiếp Phần lớn liệu Web cập nhật thường xuyên danh sách mục thuộc tính, mục tìm kiếm Web Với trang Web bán cấu trúc, xuất thường xuyên chúng khai thác để tách liệu thay sử dụng tri thức từ vựng Tổ chức siêu liên kết tài liệu khía cạnh quan trọng trích thơng tin từ trang Web khơng có tài liệu văn Ví dụ, duyệt theo siêu liên kết cần thiết để nhận thơng tin cần tìm Các luật tách phụ thuộc vào tổ chức tổng thể trang Web vài luật có giới hạn hạn chế việc sử dụng số loại trang Web Các trang Web kết truy vấn nguồn liệu trực tuyến thường sinh tập trang liên kết Các trang Web bán cấu trúc phân lớp sau: (i) Kết mức trang, trang chứa tất mục liên quan đến truy vấn nguồn, (ii) Kết mức nhiều trang, phải theo nhiều siêu liên kết để nhận danh sách đầy đủ câu trả lời, (iii) Các trang hai mức, phải theo liên kết mục mức thứ để duyệt trang chứa tất thông tin liên quan đến mục 1.2.2 Bộ sinh wrapper Internet đưa số lượng lớn ngày tăng nguồn thơng tin, tìm thấy trình duyệt hay máy tìm kiếm Các nguồn thông tin độc lập với nhau, khơng có kết nối với nguồn khác, dịch vụ tồn độc lập Điều dẫn đến cần thiết phải trích thơng tin từ Web, việc tách tập hợp thông tin từ nguồn c lp Xây dựng wrapper cho nguồn liệu Web hệ thống tích hợp liệu Nguyễn Mạnh Tiến Hệ thống thông tin K43 ĐH BKHN HƯ thèng th«ng tin – HƯ thèng th«ng tin – K43 ĐH BKHN K43 Hệ thống thông tin – K43 – §H BKHN §H BKHN Các liệu cấu trúc phi cấu trúc Web có xu hướng tăng lên, cịn có tăng lên trang web ẩn Đó trang web sinh từ vài sở liệu, dựa vào yêu cầu người dùng Người ta nói có đến 80% trang web web ẩn Các trang lấy web crawler hay tìm kiếm qua tìm kiếm Điều có nghĩa cần phải có cơng cụ đặc biệt để trích thơng tin từ trang web Tách thông tin từ Web site thường thực wrapper 1.2.2.1 Wrapper Một wrapper coi thủ tục thiết kế để trích nội dung nguồn thông tin Trong cộng đồng sở liệu, wrapper thành phần phần mềm chuyển liệu từ truy vấn từ mơ hình tới mơ hình khác Trong mơi trường web, mục đích chuyển thơng tin khơng cụ thể lưu trữ tài liệu HTML thành thông tin cụ thể lưu trữ theo cấu trúc để tiếp tục xử lý Một wrapper cho nguồn web chấp nhận truy vấn thông tin tới nguồn này, lấy trang thích hợp từ nguồn về, trích thông tin yêu cầu trả lại kết Nó bao gồm tập luật tách mã lệnh yêu cầu áp dụng luật vào nguồn cụ thể Để trích thơng tin từ vài nguồn độc lập cần phải có thư viện wrapper Wrapper cần phải thực nhanh chóng, chúng thường sử dụng trực tuyến để đáp ứng nhu cầu người sử dụng Wrapper cần phải có khả đối mặt với thay đổi cấu trúc không tự nhiên web, giống cố mạng, tài liệu khơng hợp khn dạng, thay đổi bố trí, … Có hai lợi ích việc xây dựng wrapper cho nguồn web: Khả nhận thơng tin thích hợp từ nguồn riêng lẻ để tiếp tục tăng cường, tất nguồn xây dựng wrapper truy vấn sử dụng chung ngơn ngữ truy vấn chung Sau có truy cập tích hợp vào nguồn, nguồn web truy vấn theo kiểu sở liệu sử dụng ngơn ngữ truy vấn chung X©y dùng wrapper cho ngn d÷ liƯu Web hƯ thèng tÝch hợp liệu Nguyễn Mạnh Tiến Hệ thống thông tin K43 ĐH BKHN Hệ thống thông tin Hệ thống thông tin K43 ĐH BKHN K43 Hệ thống thông tin K43 ĐH BKHN §H BKHN 1.2.2.2 Từ IE đến WG Yêu cầu trích tích hợp liệu từ nhiều nguồn web dẫn đến phát triển sinh wrapper (WG – Wrapper Generation) Lĩnh vực xuất độc lập với cộng đồng IE truyền thống, ứng dụng WG trích liệu từ trang web sinh trực tuyến, dựa truy vấn người sử dụng, dùng mẫu HTML định nghĩa trước Trong cộng đồng WG, tập hợp nguồn thông tin gọi nguồn liệu bán cấu trúc Để kết hợp liệu từ nguồn đó, liệu thích hợp cần phải trích từ mẫu HTML Do đó, wrapper đơn giản ứng dụng IE cho nguồn liệu Hệ thống IE truyền thống dùng mẫu tách dựa kết hợp ràng buộc ký pháp ngữ nghĩa Tuy nhiên, đề cập trước đây, với tài liệu bán cấu trúc ứng dụng WG đó, mẫu tách từ vựng thường áp dụng Để đối mặt với kiểu miền ứng dụng mới, nhà nghiên cứu giới thiệu tập mẫu tacchs, hệ thống WG sinh mẫu tách dựa phân cách không sử dụng buộc từ vựng Với kiểu trang web này, tất tàI liệu sinh cách điền vào mẫu Mặc dù trang web đối tượng ứng dụng WG, tách thông tin từ nguồn không đơn giản Sự ổn định ví dụ thách thức quan trọng, có số lượng lớn site khác biệt lớn kiểu định dạng Sự linh hoạt thách thức khác, định dạng nguồn thay đổi X©y dùng wrapper cho nguồn liệu Web hệ thống tích hợp liệu Nguyễn Mạnh Tiến Hệ thống thông tin K43 ĐH BKHN Hệ thống thông tin Hệ thống thông tin K43 ĐH BKHN K43 Hệ thống thông tin K43 ĐH BKHN §H BKHN Client Client Client APPLICATION Wrapper SQLServer DB Wrapper Wrapper Oracle DB WWW H1 Mơ hình ứng dụng với nhiều nguồn liệu sử dụng wrapper 1.2.2.3 Bộ sinh Wrapper Việc xây dựng wrapper thực thủ công, hay sử dụng hướng tiếp cận bán tự động tự động Xây dựng wrapper thủ công thường gắn với việc đoạn mã đặc biệt Người xây dựng phải dành thời gian để hiểu cấu trúc tài liệu chuyển thành mã chương trình Mặc dù đơn giản lập trình tách thơng tin thủ công cho trang web bán cấu trúc cho văn tự do, công việc phải làm không đơn giản, viết mã tay nhàm chán dễ phát sinh lỗi Các công cụ trợ giúp xây dựng wrapper thủ công phát triển Một vài hướng tiếp cận sử dụng biểu thức cú pháp cấu trúc trang web mô tả, cung cấp công cụ cho việc phát sinh mã để tách dựa cú pháp cho trước Tuy nhiên, chi xác định cú pháp nhàm chán tốn thời gian u cầu trình độ chun mơn cao Mặc dù nhiều wrapper viết tay, hệ thống IE xây dựng thủ công đáp ứng thay đổi miền, phải thay đổi cho miền Điều có nghĩa việc tạo liệu thủ cơng u cầu chi X©y dùng wrapper cho ngn d÷ liƯu Web hƯ thèng tích hợp liệu Nguyễn Mạnh Tiến Hệ thống thông tin K43 ĐH BKHN Hệ thống thông tin Hệ thống thông tin K43 ĐH BKHN K43 – HƯ thèng th«ng tin – K43 – §H BKHN §H BKHN phí bảo trì cao Với nguồn liệu web vấn đề số lượng nguồn thông tin cần quan tâm thường lớn nội dung cấu trúc nguồn thơng tin khác thay đổi nhanh Hơn nguồn thông tin xuất định dạng nguồn thay đổi Do đó, chế kỹ thuật để giúp đỡ việc xây dựng wrapper cần thiết cho việc tự động tách thông tin web Sinh wrapper bán tự động dùng công cụ hỗ trợ thiết kế wrapper Vài hướng tiếp cận cung cấp giao diện hướng trình diễn người sử dụng cho hệ thống thơng tin cần tách Dùng giao diện đồ hoạ, người thiết kế lập trình theo trình diễn, cho ứng dụng thấy trường cần tách Hướng tiếp cận không cần chuyên gia tri thức viết mã wrapper bước này, sinh lỗi Tuy nhiên, site thay đổi site cần trình diễn để chi liệu cần tách hệ thống tự suy luận cấu trúc site Sinh wrapper tự động dùng kỹ thuật học máy, cộng đồng nghiên cứu wrapper phát triển thuật toán học máy cho dải wraper – từ đơn giản đến phức tạp Tuy nhiên chí hệ thống sinh wrapper tự động yêu cầu tham gia tối thiểu người sử dụng Hệ thống thường phải trải qua pha đào tạo 1.3 Một số dự án xây dựng wrapper Web Một số nhóm nghiên cứu tập trung vào vấn đề trích liệu có cấu trúc từ tài liệu HTML Nhiều nghiên cứu thuộc lĩnh vực sở liệu, tập trung vào wrapper chuyển truy vấn sở liệu tới yêu cầu Web phân tích trang web kết quả… WysiWyg Web Wrapper Factory (W4F) công cụ sinh wrapper cho web Nó có ngơn ngữ để xác định duyệt Web site ngôn ngữ mô tả để trích liệu từ trang web Nó cung cấp chế ánh xạ liệu tách vào cấu trúc đích Như tên ra, W4F cung cấp giao diện người sử dụng cho việc sinh cỏc lut Xây dựng wrapper cho nguồn liệu Web hệ thống tích hợp liệu Nguyễn Mạnh Tiến Hệ thống thông tin K43 ĐH BKHN HƯ thèng th«ng tin – HƯ thèng th«ng tin K43 ĐH BKHN K43 Hệ thống thông tin – K43 – §H BKHN §H BKHN Ngơn ngữ WebL Compaq ngôn ngữ thủ tục để viết wrapper cho web Nó cung cấp ngơn ngữ trích liệu mạnh(tương tự biểu thức đường dẫn đệ quy kết hợp với biểu thức quy), ngơn ngữ không đưa XML đầu vào thiếu sức mạnh XSLT XPath Hệ thống Ariadne, Galic, TSIMMIS mediator hỗ trợ truy vấn nhiều nguồn liệu không đồng Trong Garlic TSIMMIS hỗ trợ nhiều nguồn bao gồm nguồn Web, sở liệu, hệ thống tệp Ariadne tập trung vào nguồn Web Trong hệ thống, q trình mơ hình hố hình thành khung nhìn tích hợp liệu chứa nguồn qúa trình truy vấn khung nhìn tích hợp Trong Garlic TSIMMIS, wrapper viết ngôn ngữ thủ tục dịch mã thực thi Ariadne sử dụng mộ chế sinh wrappẻ dự giới thiệu Nó dùng biểu thức quy bảng ánh xạ để giải vấn đề khác biệt từ vựng nguồn liệu Web, thiếu biểu thức đường dẫn Chúng ta ý biểu thức đường dẫn quan trọng việc tách liệu từ HTML duyệt cấu trúc phần tử HTML cần thiết XWRAP sinh wrapper bán tự động xây dựng ngữ nghĩa cho thẻ HTML đặc biệt (như tiêu đề, bảng) cách xếp liệu Các heuristics dùng để xác định mối quan hệ cha phần tử liệu, tên bảng, tên trường, giá trị Wrapper sinh phụ thuộc vào lồng bảng phần tử, làm việc tốt với trang web dạng bảng khơng làm việc với trang có cấu trúc 1.4 Kiến trúc hệ thống BKDATIS 1.4.1 Giới thiu h thng BKDATIS Xây dựng wrapper cho nguồn liệu Web hệ thống tích hợp liệu Nguyễn Mạnh Tiến Hệ thống thông tin K43 §H BKHN HƯ thèng th«ng tin – HƯ thèng th«ng tin – K43 – §H BKHN K43 – HƯ thèng thông tin K43 ĐH BKHN ĐH BKHN BKDATIS hệ thống tích hợp nguồn liệu khơng đồng Các nguồn liệu gồm nguồn có cấu trúc (cơ sở liệu) bán cấu trúc (HTML, Text) Hệ thống BKDATIS sử dụng XML mô hình liệu trung gian trao đổi mơ đun Đây định dạng thường sử dụng để biểu diễn mơ hình liệu bán cấu trúc Hiện XML trở thành chuẩn để trao đổi liệu chương trình Nó có tính cấu trúc cao, linh hoạt tự mô tả nội dung Trong hệ thống XML sử dụng để trao liệu wrapper tầng tích hợp trả lại kết cho người sử dụng Hệ thống chọn XML làm đầu từ dễ chuyển sang định dạng khác mà người dùng mong muốn Bên cạnh XML hệ thống sử dụng DTD (định nghĩa liệu ) để biểu diễn mô hình liệu nguồn cục Mơ đụn xây dựng ánh xạ dùng DTD cục để đưa lược đồ tổng thể Hình Hệ thống tớch hp d liu Xây dựng wrapper cho nguồn liệu Web hệ thống tích hợp liệu

Ngày đăng: 21/06/2023, 19:44