LƯỢC ĐỒ TỐI ƯU CHO TRÍCH RÚT DỮ LIỆU WEBSITE

31 438 1
LƯỢC ĐỒ TỐI ƯU CHO TRÍCH RÚT DỮ LIỆU WEBSITE

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Giảng viên Học viên Mã số Lớp : GS.TSKH HOÀNG VĂN KIẾM : HOÀNG PHI : CH0901038 : CAO HỌC KHÓA 4 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Chuyên đề: SEMINAR CÔNG NGHỆ TRI THỨC Database LƯỢC ĐỒ TỐI ƯU CHO TRÍCH RÚT DỮ LIỆU WEBSITE Tp.HCM 03-2012 Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01   Seminar Công nghệ tri thức Hoàng Phi – CH0901038 2 Tôi xin cảm ơn Giáo Sư Tiến sĩ khoa học Hoàng Văn Kiếm Người đã tận tình hướng dẫn định hướng nội dung chuyên đề này Tôi xin cảm ơn Các bạn lớp Cao Học Khóa 4 Đã đó góp ý kiến về nội dung bài viết này Tôi xin chân thành cảm ơn Trường Đại học Công Nghệ Thông Tin Đã tạo điều kiện cho tôi học tập và nghiên cứu chuyên đề này Hoàng Phi Tháng 03 năm 2012 Seminar Công nghệ tri thức MỤC LỤC DANH MỤC HÌNH ẢNH ỤC THUẬT TOÁN, CÔNG THỨC Hoàng Phi – CH0901038 3 Seminar Công nghệ tri thức KÝ HIỆU VÀ VIẾT TẮT Danh mục các ký hiệu sử dụng trong chuyên đề Ký hiệu Thuật ngữ Ý nghĩa HTML Hyper Text Markup Language Ngôn ngữ dạng văn bản, các trình duyệt web dùng nó để hiển thị ra cho người dùng. XML Extensible Markup Language Ngôn ngữ văn bản có cấu trúc DOM Document Object Model Mô hình đối tượng văn bản có những qui định trình bày các đối tượng trong HTML. XPath XML Path Language Ngôn ngữ truy vấn các nút trong văn bản XML CSDL Cơ Sở Dữ Liệu Website Website Website chứa nhiều trang web bên trong nó Wrapper Wrapper Luật để rút trích dữ liệu trang web. Adversarial Adversarial Mô hình đối lập, dùng để rút trích dữ liệu trang web. Probabilistic Probabilistic Mô hình xác xuất, dùng để rút trích dữ liệu trang web. Hoàng Phi – CH0901038 4 Seminar Công nghệ tri thức Chương 1: GIỚI THIỆU 1.1 Mở đầu Đa số các ứng dụng website sử dụng những ngôn ngữ lập trình để tạo ra nội dung HTML với thông tin có cấu trúc lấy ra từ những CSDL. Những website đó có thể là để bán hàng, giải trí, kho lưu trữ học tập, danh mục thư viện, hoặc dạng biểu mẫu. Các trang web với nội dung tạo ra có cấu trúc tương tự nhau giúp cho các hệ thống trích rút thông tin có khả năng sử dụng những luật đơn giản để trích rút tất cả các trang web của website. Các luật như thế gọi là những wrapper, và tầm ảnh hưởng của các wrapper thông qua những ví dụ về gán nhãn được nghiên cứu rộng rãi với 23. Thông tin trích rút được có thể sử dụng để tạo lại một phần hoặc tất cả CSDL. Ví dụ chúng ta có thể sử dụng một số wrapper để trích rút thông tin về các nhà hàng và các đánh giá từ những website tổng hợp dữ liệu như Yelp (yelp.com) và Zagat (zagat.com). Khi một wrapper đã học cho một website thì nó có thể được sử dụng lại để trích rút thông tin liên tục về nhà hàng và đánh giá mới nhằm cung cấp nó cho một website khác. Các thông tin được xem là luôn cần cập nhật mới nhất như giờ hoạt động và số điện thoại liên lạc. Một ví dụ khác ta có thể xem xét là hiện nay tại Việt Nam có rất nhiều doanh nghiệp bước vào kinh doanh trên mạng, ta có thể xây dựng một website dùng so sánh giữa các doanh nghiệp lẫn nhau để chọn được sản phẩm chất lượng với giá tốt nhất. Để thực hiện điều này các wrapper được tạo ra cho từng website bán hàng để trích rút danh sách các sản phẩm, tổng hợp thông tin sản phẩm, so sánh các sản phẩm và đưa những thông tin đó đến người dùng. Các wrapper thường được tạo có mối quan hệ tương đối với một số nhãn nên nó là chiến lược chiếm ưu thế giúp rút trích dữ liệu từ những trang web động. - 5 - Seminar Công nghệ tri thức 1.2 Quan điểm chọn vấn đề nghiên cứu Vấn đề rút trích dữ liệu website mang tính áp dụng thực tế cao. Bên cạnh đó những nghiên cứu trước đây chưa có kết quả tốt khi phải đối diện với những nội dung trang web hay thay đổi. Dưới đây là một số ý tưởng áp dụng thực tiễn: A) A) Xây dựng thư viện tổng hợp tự động để hỗ trợ giáo dục trong Xây dựng thư viện tổng hợp tự động để hỗ trợ giáo dục trong nghiên cứu nghiên cứu : Hiện nay thông tin trên mạng là rất đa dạng và rất nhiều. : Hiện nay thông tin trên mạng là rất đa dạng và rất nhiều. Bên cạnh đó tài liệu dùng hay tham khảo để đào tạo các cấp còn mang Bên cạnh đó tài liệu dùng hay tham khảo để đào tạo các cấp còn mang tính cục bộ ở trường hay kinh nghiệm của giáo viên phụ trách giảng dạy. tính cục bộ ở trường hay kinh nghiệm của giáo viên phụ trách giảng dạy. Do đó việc xây dựng thư viện tổng hợp thông tin một cách tự động là rất Do đó việc xây dựng thư viện tổng hợp thông tin một cách tự động là rất hữu ích cho học viên làm nguồn tham khảo. Từ thư viện nó có thể cung hữu ích cho học viên làm nguồn tham khảo. Từ thư viện nó có thể cung cấp mức độ uy tín của các nguồn tài liệu khoa học, tổng hợp các đánh cấp mức độ uy tín của các nguồn tài liệu khoa học, tổng hợp các đánh giá về tài liệu từ các nguồn khác nhau, … Ở đây các nhà nghiên cứu đào giá về tài liệu từ các nguồn khác nhau, … Ở đây các nhà nghiên cứu đào tạo về giáo dục có thể đóng góp kinh nghiệm của mình để đưa ra các tạo về giáo dục có thể đóng góp kinh nghiệm của mình để đưa ra các tiêu chí tốt nhằm tổng hợp các nguồn tài liệu giúp thư viện có thể tự tiêu chí tốt nhằm tổng hợp các nguồn tài liệu giúp thư viện có thể tự động tổng hợp thông tin hữu ích nhất cho học viên. động tổng hợp thông tin hữu ích nhất cho học viên. B) B) Thương mại điện tử: Thương mại điện tử: Ở Việt Nam, mức độ phát triển thương mại điện Ở Việt Nam, mức độ phát triển thương mại điện tử nổi lên trong những năm gần đây, ngày càng phổ biến các doanh tử nổi lên trong những năm gần đây, ngày càng phổ biến các doanh nghiệp bán sản phẩm của mình trên mạng, vì vậy rất nhiều các website nghiệp bán sản phẩm của mình trên mạng, vì vậy rất nhiều các website mua bán hàng khuyến mãi theo nhóm ra đời. Do đó vấn đề tổng hợp mua bán hàng khuyến mãi theo nhóm ra đời. Do đó vấn đề tổng hợp thông tin, đánh giá, so sánh về sản phẩm giúp đưa ra cho người dùng thông tin, đánh giá, so sánh về sản phẩm giúp đưa ra cho người dùng cái nhìn tổng quan mang tính ứng dụng rất cao. cái nhìn tổng quan mang tính ứng dụng rất cao. C) C) Hỗ trợ việc làm Hỗ trợ việc làm : Để tạo ra nhiều cơ hội việc làm hơn nữa cho người : Để tạo ra nhiều cơ hội việc làm hơn nữa cho người Việt Nam từ các nguồn công việc khắp nơi trên thế giới thì cần có bộ Việt Nam từ các nguồn công việc khắp nơi trên thế giới thì cần có bộ máy rút trích thông tin để giải quyết bài toán đơn giản hóa qui trình làm máy rút trích thông tin để giải quyết bài toán đơn giản hóa qui trình làm việc và phá bỏ rào cản về ngôn ngữ. việc và phá bỏ rào cản về ngôn ngữ. Vấn đề nghiên cứu rút trích dữ liệu đã được nghiên cứu từ lâu, nhưng do trong thực tế các trang web ngày càng trở nên rất động và phức tạp với sự phát triển liên tục của chuẩn mã HTML (nay đã tới phiên bản 5), mà các wrapper lại dựa chủ yếu vào cấu trúc của các trang web để rút trích dữ liệu, chính vì vậy nó gặp phải vấn đề cơ bản là không thể tái sử dụng các wrapper - 6 - Seminar Công nghệ tri thức trước đây. Ví dụ như nội dung trang web thường xuyên thay đổi thì đa số đòi hỏi wrapper phải học lại cấu trúc. Với những khó khăn đó đòi hỏi cần phải nghiên cứu những mô hình đáng tin cậy để có thể áp dụng được vào thực tế. 1.3 Giới thiệu vấn đề nghiên cứu Từ việc xem xét các vấn đề khó khăn trong việc xây dựng các wrapper trong rút trích dữ liệu web thì việc cần thiết trong nghiên cứu là cần phải tạo ra các wrapper có độ ổn định cao khi làm việc với sự thay đổi trong website. Có hai mô hình được nghiên cứu chính thức đó là: Adversarial và Probabilistic. Bên trong cả hai mô hình đó có những thuật toán hiệu quả được xây dựng làm cho nó được xem là wrapper có độ tin cậy cao nhất hiện nay. Thông qua đánh giá trên những website thực tế những thuật toán đó mang lại hiệu quả cao khi làm việc với những trang web có sự thay đổi, và giảm khả năng vô hiệu hóa wrapper lên đến 500% so với những kỹ thuật hiện tại 1. 1.3.1 Wrapper bất khả dụng Hình 1.1 Cấu trúc một trang web HTML Hình 1.1 là một cấu trúc văn bản dạng cây XML, để rút trích dữ liệu về số phiếu ủng hộ (Votes) thì chúng ta có thể sử dụng một cấu trúc XPath sau: Công thức 1.1 Tuy nhiên có rất nhiều sự thay đổi nhỏ có thể dẫn đến việc wrapper này bị bất khả dụng như: thẻ đầu tiên bị xóa hoặc gom với thẻ thứ hai, thẻ hoặc thêm vào dưới thẻ thứ hai, thứ tự của và bị thay đổi, một phần tử mới thêm vào, - 7 - Seminar Công nghệ tri thức Vấn đề wrapper bị bất khả dụng được đề cầp nhiều như là một khó khăn trong nhiều nghiên cứu 45. Còn từ thực tế kinh nghiệm của nhóm rút trích dữ liệu trên dữ liệu cực lớn tại Yahoo 7 khi không quan tâm đến mức độ ổn định của wrapper thì quan sát thấy rằng wrapper đã học có:  Chu trình sống (wrapper vẫn còn sử dụng được để trích rút thông tin) trung bình khoảng 2 tháng.  Trung bình mỗi ngày 1 trong 50 wrapper bị bất khả dụng. Kết quả, để wrapper tiếp tục sử dụng được thì cần phải đánh nhãn lại các trang web bằng tay một cách thường xuyên để wrapper có thể học lại được những dữ liệu được đánh nhãn mới. Quá trình này tiêu tốn công sức và chi phí cao. 1.3.2 Những nghiên cứu trước đây để tăng mức độ ổn định cho wrapper Myllymaki và Jackson đã quan sát thấy rằng có một số wrapper có độ ổn định hơn trong thực tế khi thay thế Công thức 1.1 bằng 2 XPath sau để rút trích dữ liệu về số phiếu ủng hộ: Nhận xét, hai wrapper này khai thác thông tin cục bộ hơn , và ít bị ảnh hưởng do những thay đổi làm cho bất khả dụng. Hai tác giả trên đã xây dựng những wrapper có độ ổn định hơn bằng tay, tuy nhiên vấn đề học những luật đó một cách tự động vẫn đang còn bỏ ngõ. Bên cạnh đó nghiên cứu 6 cũng đưa ra khuôn mẫu đầu tiên để ghi nhận lại độ ổn định của những wrapper theo thời gian, và mô hình đó được sử dụng để đánh giá mức độ ổn định của wrapper theo một nguyên tắc riêng. Tuy những kỹ thuật này cho phép lựa chọn những XPath để đánh giá mức độ ổn định nhưng vấn đề xây dựng những wrapper có độ tin cậy cao vẫn còn đó. Đây là vấn đề sẽ được lựa chọn để nghiên cứu trong chuyên đề này. - 8 - … (A) Trang chưa có nhãn Những wrapper theo phân cấp trang Thời gian Seminar Công nghệ tri thức 1.3.3 Vấn đề nghiên cứu Vấn đề nghiên cứu đặt ra là làm sao xây dựng những wrapper có độ ổn định tối ưu. Trong việc xây dựng những wrapper này thì ngôn ngữ sử dụng để mô tả wrapper đóng vai trò rất quan trọng, ví dụ: XPath. Nghiên cứu đưa ra cách tiếp cận được mô tả trong 1. Nó bao gồm những công việc của một hệ thống học tao ra wrapper. Tại thời điểm có một bộ trang web , trong số đó có một số trang được gán nhãn, ví dụ thông tin quan tâm đã được chỉ định cụ thể với . Tại thời điểm website có các phiên bản mới của các trang tương ứng là . Những wrapper đảm nhiệm 2 công việc chính: A) Rút trích dữ liệu phần còn lại của website bằng cách tổng quát hóa từ nhãn có được từ B) Rút trích dữ liệu những phiên bản tương lai của website bằng cách làm ổn định những thay đổi cấu trúc. Hai tình huống trên rút trích trên rất khác nhau và nó cũng có những yêu cầu về khả năng thực thi và độ ổn định cũng khác nhau đối với việc xây dựng wrapper. Trong thình huống (A) website chứa hàng triệu trang web có cùng cấu - 9 - Hình 1.2 Cách tiếp cận tổng quan Seminar Công nghệ tri thức trúc do đó ta cần wrapper thực thi cực nhanh và có vẫn còn tính khả dụng đối với những thay đổi nhỏ. Ngược lại trong tình huống (B) cấu trúc của trang bị thay đổi lớn theo thời gian và nó cần những wrapper có tính ổn định cao để vẫn còn tính khả dụng đối với thay đổi lớn về cấu trúc trang web. Để giải quyết tình huống (B) chúng ta thực hiện 2 bước: gán nhãn cũ của từng trang cho những phiên bản tương lai của bộ trang . Ta so sánh với để tìm ra vị trí của nhãn trong . Sau khi đã có nhãn cho , thì bước tiếp theo là huấn luyện wrapper để rút trích dữ liệu của các trang . Thuật toán huấn luyện này được dùng cũng được xem là để giải quyết tình huống (A). Vấn đề thường gặp phải tiếp theo là mức độ ổn định của wrapper đối với độ sâu của trang web. Giả sử ta có trang với vị trí đã được đánh nhãn, và chúng ta muốn rút trích dữ liệu của 1 phiên bản tương lai của . Việc xây dựng mô hình được đặt ra là làm thế nào biết được tất cả các thay đổi có thể theo thời gian. Dựa trên mô hình học dữ liệu lưu trữ 6, nghiên cứu 1 đưa ra những thuật toán cho wrapper với hai ý tưởng về mức độ ổn định: i Probabilistic robustness, giúp wrapper có khả thi trong tương lai theo mong đợi. ii Adversarial robustness, giúp wrapper có khả thi trong tương lai ở tình huống xấu nhất. - 10 - [...]... Adversarial 3.1.5 Độ tin cậy trong rút trích dữ liệu BÀI TOÁN 3 là xác định độ tin cậy trong khi rút trích dữ liệu trên phiên bản mới của trang web Độ tin cậy là một con số không phải là số âm, và nó cho biết mức độ tốt của wrapper khi rút trích dữ liệu Nếu độ tin cậy cao thì việc rút trích sẽ gần với đúng hơn Nếu trang khác rất nhiều so với trang thì mức độ tin cậy của quá trình rút trích sẽ thấp Tuy nhiên... Tuy nhiên tham số không được cho trước mà chúng ta chỉ có phiên bản mới của trang web 2.4 Wrapper và mức độ ổn định Cho là một trang web với một nút cần rút trích dữ liệu Chúng ta muốn tạo một wrapper có khả năng rút trích dữ liệu từ những phiên bản mới của Đặt là phiên bản mới của trang web Chúng ta muốn tìm vị trí của 1 nút riêng biệt trong Các nút cần rút trích dữ liệu giả sử là không bao giờ... là một trong ba nút lá sau nút cần rút trích dữ liệu sẽ bị xóa thay vì nút trước nút cần rút trích dữ liệu Trong trường hợp này thì - 14 - Seminar Công nghệ tri thức wrapper tối ưu sẽ trả ra theo cơ chế xác xuất cao hơn, có nghĩa là nút bị xóa là một trong ba nút lá sau nút trích dữ liệu, lúc này nút rút trích dữ liệu ở vị trí thứ hai Ngược lại đối với Adversarial áp dụng trong trường hợp xấu nhất vì... một chuỗi các thao tác chỉnh sửa , thì đại diện cho chi phí là tổng chi phí của từng thao tác chỉnh sửa trong Tiếp theo chúng ta xem xét bài toán tìm độ ổn định Adversarial tối ưu cho một nút trên trang Wrapper này được tạo ra bằng cách lưu trữ trang web cũng như nút cần rút trích dữ liệu theo Công thức 2.2, mục tiêu là để tìm ra nút cần rút trích dữ liệu trong phiên bản mới của trang web 3.1.2 Bao... “a” Những nhãn có thêm viền vuông được gọi là nút cần rút trích dữ liệu được xem là có được từ cây bằng một thao tác chỉnh sửa , thao tác này là xóa nút lá đầu tiên trong Sau đó nút cần rút trích dữ liệu trong trở thành nút lá đầu tiên Còn cây có được từ cây bằng cách xóa nút lá cuối cùng Nút cần rút trích dữ liệu trong nay trở thành nút thứ hai Lưu ý rằng và là những cây đẳng cấu - 12 - Seminar Công... miền được chọn ở trên Đối với từng website, thử nghiệm chọn một bộ khoảng 10 trang web mà nó có nhiều phiên bản đã được lưu trữ Đối với từng trang web thì trung bình có vài trăm phiên bản khác nhau 4.1.2 Các nút cần rút trích dữ liệu Để kiểm tra các wrapper chúng ta cần xác định việc rút trích dữ liệu là đúng Các tiếp cần đầu tiên là kiểm tra bằng tay cho mỗi rút trích, ví dụ tiêu đề hoặc tóm tắt cuốn... NP-Hard 2.7 Trạng thái lưu trữ Wrapper hoạt động ở mức trang web nên nó có thể được xây dựng bằng cách lưu trữ phiên bản cũ của trang web cũng như nút được rút trích dữ liệu - 15 - Seminar Công nghệ tri thức Khi có 1 phiên bản mới thì wrapper sẽ thực thi một hàm thủ tục có ba tham số để tìm ra nút cần rút trích dữ liệu trong Viết theo công thức: Công thức 2.2 Các wrapper tối ưu được nghiên cứu trong... chênh lệch này là chi phí phụ thêm để làm cho wrapper tối ưu bị bất khả dụng Nếu giá trị chênh lệch đó càng lớn thì nút cần rút trích có mức độ tách biệt với các nút khác càng lớn và quá trình rút trích sẽ khó bị sai hơn Ví dụ từ Hình 2.3, nếu chúng ta sử dụng wrapper để rút trích thì độ tin cậy là 0 bởi vì có một thao tác chỉnh sửa cho ra một nút cần rút trích khác Để tính độ tin cậy chúng ta cần... toán tương ứng đó là: BÀI TOÁN 4: cho , tìm wrapper tối ưu BÀI TOÁN 5: Tính độ ổn định Probabilistic của BÀI TOÁN 6: Tính độ tin cậy của cho phiên bản mới của Chi tiết giải pháp cho bài toán 6 được trình bày ở chương sau Còn bảng dưới đây là tổng quan về độ phức tạp của mỗi bài toán cho cả hai mô hình Mô hình Wrapper tối ưu Wrapper tối ưu (1 nút) (nút) Độ ổn định tối ưu Adversarial Độ tin cậy (1 nút)... để đảm bảo sự chính xác BÀI TOÁN 2: Tính toán độ ổ định của Cuối cùng là đánh giá độ tin cậy của việc rút trích dữ liệu từ phiên bản mới Giả sử khác nhiều so với thì độ tin cậy cho quá trình rút trích dữ liệu sẽ thấp Tuy nhiên nếu tất cả sự khác nhau đó là xảy ra trong những phần khác với nút cần rút trích thì mức độ tin cậy có thể vẫn cao BÀI TOÁN 3: Tính toán độ tin cậy trên phiên bản mới Độ ổn định . Cơ Sở Dữ Liệu Website Website Website chứa nhiều trang web bên trong nó Wrapper Wrapper Luật để rút trích dữ liệu trang web. Adversarial Adversarial Mô hình đối lập, dùng để rút trích dữ liệu. nên nó là chiến lược chiếm ưu thế giúp rút trích dữ liệu từ những trang web động. - 5 - Seminar Công nghệ tri thức 1.2 Quan điểm chọn vấn đề nghiên cứu Vấn đề rút trích dữ liệu website mang tính. MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Chuyên đề: SEMINAR CÔNG NGHỆ TRI THỨC Database LƯỢC ĐỒ TỐI ƯU CHO TRÍCH RÚT DỮ LIỆU WEBSITE Tp.HCM 03-2012 Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01   Seminar

Ngày đăng: 18/05/2015, 23:03

Từ khóa liên quan

Mục lục

  • DANH MỤC HÌNH ẢNH

  • DANH MỤC THUẬT TOÁN, CÔNG THỨC

  • KÝ HIỆU VÀ VIẾT TẮT

  • Chương 1: GIỚI THIỆU

    • 1.1 Mở đầu

    • 1.2 Quan điểm chọn vấn đề nghiên cứu

    • 1.3 Giới thiệu vấn đề nghiên cứu

      • 1.3.1 Wrapper bất khả dụng

      • 1.3.2 Những nghiên cứu trước đây để tăng mức độ ổn định cho wrapper

      • 1.3.3 Vấn đề nghiên cứu

      • Chương 2: CƠ SỞ LÝ LUẬN

        • 2.1 Cây có nhãn theo thứ tự

        • 2.2 Thao tác chỉnh sửa

        • 2.3 Sự biến đổi của trang web

        • 2.4 Wrapper và mức độ ổn định

        • 2.5 Độ ổn định Adversarial

        • 2.6 Độ ổn định Probabilistic

        • 2.7 Trạng thái lưu trữ

        • Chương 3: MÔ HÌNH XÂY DỰNG WRAPPER

          • 3.1 Mô hình Adversarial

            • 3.1.1 Sơ lược

            • 3.1.2 Bao đóng trên

            • 3.1.3 Tìm bao đóng trên

            • 3.1.4 Tính độ ổn định tối đa

            • 3.1.5 Độ tin cậy trong rút trích dữ liệu

Tài liệu cùng người dùng

Tài liệu liên quan