1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu và phát triển hệ thống xây dựng và vận hành robot thu thập thông tin trên web và ứng dụng

122 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

THÀNH ĐỒN TP HỒ CHÍ MINH SỞ KHOA HỌC VÀ CƠNG NGHỆ hinh TP HỒ CHÍ MINH CHƯƠNG TRÌNH VƯỜN ƯƠM SÁNG TẠO KHOA HỌC VÀ CÔNG NGHỆ TRẺ * BÁO CÁO NGHIỆM THU Nghiên cứu phát triển hệ thống xây dựng vận hành robot thu thập thông tin web ứng dụng Thủ trưởng Cơ quan chủ trì đề tài (Họ tên, chữ ký, đóng dấu) Chủ nhiệm đề tài (Họ tên chữ ký) Giám đốc Sở Khoa học Công nghệ Chủ tịch Hội đồng xét duyệt BÁO CÁO NGHIỆM THU Tên đề tài: NGHIÊN CỨU VÀ PHÁT TRIỂN HỆ THỐNG XÂY DỰNG VÀ VẬN HÀNH ROBOT THU THẬP THÔNG TIN TRÊN WEB VÀ ỨNG DỤNG Chủ nhiệm đề tài: TS Trần Minh Triết Cơ quan chủ trì: Trung tâm phát triển khoa học công nghệ trẻ Thời gian thực đề tài: Từ tháng 1/2010 đến 03/2012 Kinh phí duyệt: 70.000.000 đồng Kinh phí cấp: …………… đồng theo TB số : ……….TB-SKHCN ngày ……/…… /…… Mục tiêu: Nghiên cứu phát triển hệ thống phần mềm phục vụ thiết kế vận hành robot thu thập thông tin tự động web, phục vụ việc xây dựng ứng dụng mashup: - Hệ thống phần mềm xây dựng cho phép người dùng tự định nghĩa hướng dẫn trình hoạt động robot thu thập thơng tin web, đồng thời vận hành robot theo kịch hướng dẫn để tự động thu thập thông tin - Từ thông tin thu thập vận hành robot, hệ thống cung cấp giao tiếp (bằng web service) để cung cấp kết cho người dùng: o Web service cung cấp Syndication feed với thông tin từ nhiều trang web khác không hỗ trợ Syndication feed để sử dụng cho ứng dụng đọc RSS/ATOM feed o SOAP web service, REST web service nhằm phục vụ ứng dụng cần lấy liệu nhanh chóng - Xây dựng thử nghiệm ứng dụng minh họa việc sử dụng hệ thống phần mềm thiết kế vận hành robot: Ứng dụng cho phép tìm kiếm thơng tin báo/cơng trình khoa học từ nhiều website khác Nội dung: Công việc dự kiến Công việc thực Tài liệu hướng dẫn sử dụng hệ thống phần Tài liệu mơ hình, kiến trúc quy trình mềm thiết kế vận hành robot thu thập sử dụng hệ thống phần mềm thiết kế vận thông tin web hành robot thu thập thông tin web Các video clip minh họa cách sử dụng số tính hệ thống phần mềm Phần mềm thiết kế trực quan robot thu thập Phần mềm thiết kế trực quan robot thu thập thông tin web thông tin web - Ghi nhận lại chuỗi hành động người dùng web, bao gồm hành động sau: click vào link/button, gõ văn vào textbox, nhập địa trang web, chọn giá trị combobox, submit form - Cho phép định nghĩa tham số có giá trị dạng văn kịch robot - Cho phép người dùng chọn rút trích thơng tin từ trang web: rút trích văn thẻ HTML, rút trích thuộc tính thẻ HTML, rút trích văn bản, thuộc tính nhiều thẻ HTML thẻ HTML cha, rút trích hình ảnh thẻ , rút trích nội dung thẻ theo tổ chức bảng - Ghi nhận lại chuỗi hành động người dùng web, bao gồm hành động sau: click vào link/button, gõ văn vào textbox, nhập địa trang web, chọn giá trị combobox, submit form - Cho phép định nghĩa tham số có giá trị dạng văn kịch robot (nội dung văn gõ vào textbox) - Cho phép người dùng chọn rút trích thơng tin từ trang web: rút trích văn thẻ HTML, rút trích thuộc tính thẻ HTML, rút trích văn bản, thuộc tính nhiều thẻ HTML thẻ HTML cha, rút trích hình ảnh thẻ , rút trích nội dung thẻ theo tổ chức bảng - Xử lý Ajax java script - Cho phép định nghĩa thao tác lặp rẽ nhánh (đơn giản) kịch robot Phần mềm vận hành robot thu thập Phần mềm vận hành robot thu thập thông tin web thông tin web - Thực thi robot theo kịch định nghĩa sẵn với giá trị tham số cụ thể - Kết xuất kết thu thập vận hành robot dạng ATOM feed, RSS feed, SOAP web service, REST web service - Thực thi robot theo kịch định nghĩa sẵn với giá trị tham số cụ thể - Kết xuất kết thu thập vận hành robot dạng ATOM feed, RSS feed, SOAP web service, REST web service, web clip Công việc dự kiến Công việc thực Ứng dụng minh họa việc khai thác hệ Ứng dụng minh họa việc khai thác hệ thống: thống: - hệ thống tìm kiếm thơng tin báo/đề - hệ thống trang Paper Portal (bao gồm website tài khoa học từ nhiều website khác dịch vụ web) web cho phép tìm kiếm thơng tin báo/đề tài khoa học từ nhiều website khác (IEEE, Springerlink, ACM, Elsevier) - Ứng dụng Video Search cho phép tìm kiếm thơng tin video từ website khác - Ứng dụng tổng hợp tin từ báo trực tuyến sang định dạng RSS Bài báo khoa học 01 báo đăng toàn văn Kỷ yếu Hội thảo công nghệ thông tin truyền thông lần (ICTFIT 2010), Nhà xuất ban Khoa học Kỹ thuật, trang 71-80 Tóm tắt đề tài Cùng với phát triển Internet, nhu cầu truy xuất thông tin qua mạng người ngày tăng Với khối lượng liệu khổng lồ khiến cho người dùng khó khăn tìm kiếm thơng tin phục vụ nhu cầu Do đó, việc rút trích tổng hợp thơng tin từ website/nguồn thông tin Internet nhu cầu thực tế cấp thiết Mục tiêu đề tài tập trung vào việc nghiên cứu, phát triển thử nghiệm hệ thống thiết kế (huấn luyện) vận hành robot thu thập thông tin từ website Internet (gọi tắt webbot) để cung ứng dịch vụ web theo yêu cầu Chúng đề xuất kiến trúc, quy trình giải pháp cho hệ thống rút trích thơng tin từ website Internet theo hướng bán tự động  Hệ thống đề nghị xây dựng thử nghiệm giúp cho người dùng thu thập nhiều thơng tin khác cách tự động Hệ thống cho phép người dùng huấn luyện webbot thông qua việc định nghĩa quy trình thu thập thơng tin webbot cách ghi nhận lại trình thao tác người dùng tìm kiếm thơng tin web  Hệ thống vận hành webbot có yêu cầu theo chu kỳ định trước để thu thập thông tin cần thiết theo yêu cầu người dùng Đồng thời, hệ thống cung cấp dịch vụ để truyền liệu đầu cho người dùng theo nhiều định dạng khác nhau, đáp ứng nhu cầu người dùng hệ thống khác  Sử dụng hệ thống này, xây dựng số ứng dụng khai thác thử nghiệm, ví dụ hệ thống tìm kiếm thơng tin báo khoa học, tổng hợp tin tức, tìm kiếm video… Hệ thống thiết kế vận hành webbot thu thập thông tin Internet cho phép người dùng rút trích thơng tin nhanh chóng hiệu từ nhiều website/nguồn thơng tin khác Internet để tổng hợp thành ứng dụng mashup, đồng thời phục vụ cho nghiên cứu ứng dụng khai thác tổng hợp thông tin khác i Abstract The rapid development of Internet has brought an abundant amount of information from millions of websites to users However it may be difficult for a user to find useful information from so many websites Therefore, it is necessary to provide users with utilities to extract and integrate information from various websites/data sources in the Internet The main objective of this project is to research, develop, and implement a software system to design (train) and execute robots to extract information from websites in the Internet (webbots) and to provide results of robots in various formats and different interfaces The authors propose the architecture, processes, and solutions for a semiautomatic information extraction system from websites in the Internet  The proposed system helps users to extract information from different websites All activities of a user together with all events generated during the natural searching procedure are monitored and captured as a webbot’s script By this way, a user can easily train a webbot by defining the script, i.e the sequence of activities that a webbot performs to find then extract data fields of interest from websites  A webbot can be executed on demand or periodically to find and extract desired information from websites The results of executing a webbot are transformed into various formats and can be provided to users or other systems through different interfaces, such as SOAP web services, REST web services, RSS feeds, or web clips  Several applications have been developed to illustrate the applicability of webbots generated from the Webbot Creator system, such as Paper Portal, a website to search for scientific articles from different digital libraries/publishers, a news aggregator website, and a video searching website… Our proposed system to design (train) and execute webbots enables users to find and extract fields of data from different websites easily, quickly, and efficiently Extracted data can be transformed into various formats and integrated into mash-up applications Furthermore the development of our system leads to open problems for future research in information extraction and integration ii Mục lục Chương Mở đầu .1 1.1 Giới thiệu chung 1.2 Một số công trình liên quan 1.3 Nhu cầu thực tế lý thực đề tài .6 1.4 Mục tiêu đề tài 1.5 Nội dung thực .7 1.6 Cấu trúc báo cáo Chương Hệ thống rút trích thơng tin từ web 10 2.1 Mơ hình hoạt động ứng dụng Web 10 2.2 Hệ thống rút trích thơng tin từ web 13 2.2.1 Các dạng cấu trúc nguồn liệu web 13 2.2.2 Mơ hình hệ thống rút trích thơng tin từ web .14 2.2.3 Các kỹ thuật rút trích khai thác thơng tin 16 2.2.4 Mức độ tự động hệ thống .16 2.2.5 Phân loại hệ thống rút trích thơng tin từ web .17 2.3 So sánh hệ thống rút trích thơng tin từ web 19 2.3.1 So sánh dựa dạng cấu trúc liệu .19 2.3.2 So sánh dựa kỹ thuật rút trích 23 2.3.3 So sánh dựa mức độ tự động hệ thống 24 2.4 Một số phương pháp rút trích thơng tin từ web 25 2.4.1 Phương pháp bán tự động 25 2.4.2 Phương pháp dựa cấu trúc HTML DOM trang web .26 2.4.3 Phương pháp khai khoáng liệu 28 2.4.4 Phương pháp sử dụng cách thức trình bày trang web 30 2.5 Kết luận 30 iii Chương Các vấn đề giải pháp cho hệ thống thiết kế vận hành webbot thu thập thông tin Internet 31 3.1 Tổng quan hệ thống thiết kế vận hành webbot thu thập thông tin web 31 3.1.1 Tầng Data 34 3.1.2 Tầng Business .34 3.1.3 Tầng Data Presentation .34 3.1.4 Tầng Application 35 3.2 Phân hệ huấn luyện Webbot .35 3.2.1 Môi trường huấn luyện Webbot 36 3.2.2 Ghi nhận hành động người dùng 36 3.2.3 Phân loại liệu rút trích 37 3.3 Thể ghi nhận hành động người dùng huấn luyện webbot 38 3.3.1 Môi trường tạo hướng dẫn cho webbot .38 3.3.2 Tương tác web 40 3.3.3 Hiển thị trực quan cấu trúc trang web 42 3.3.4 Thay đổi context menu 43 3.3.5 Ghi nhận hành động người dùng 44 3.4 Xác định HTML Element HTML Document 46 3.4.1 HTML Element thông thường 46 3.4.2 TableRow 46 3.4.3 Trang web có sử dụng FRAME IFRAME 47 3.5 Một số vấn đề khác .47 3.5.1 Tương tác với thành phần AJAX 47 3.5.2 Các hộp thoại Javascript .47 3.5.3 Vấn đề ghi nhớ đăng nhập 48 iv 3.6 Kết luận 48 Chương Hệ thống thiết kế Webbot Creator 49 4.1 Giới thiệu 49 4.2 Kiến trúc .51 4.3 Quy trình sử dụng .53 4.4 Kết luận 58 Chương Hệ thống thực thi cung cấp kết webbot 59 5.1 Quy trình thực thi cung cấp kết webbot 59 5.2 Thực thi webbot 60 5.2.1 Thực lại hành động người dùng 60 5.2.2 Rút trích liệu 61 5.3 Cung cấp kết cho người dùng 62 5.3.1 Quy trình xử lý cung cấp kết cho người dùng 62 5.3.2 iến trúc hệ thống cung cấp kết cho người dùng 64 5.3.3 Dịch vu web 65 5.3.4 Feed .66 5.3.5 Web clip 67 ết luận 68 5.4 Chương Một số ứng dụng thử nghiệm khai thác webbot .69 6.1 Hệ thống tìm kiếm thơng tin báo khoa học Paper Portal .69 6.1.1 Giới thiệu 69 6.1.2 Paper Portal 71 6.1.3 Dịch vụ web 73 6.1.4 Thực thi Webbot 73 6.2 Một số ứng dụng thử nghiệm khác .74 6.2.1 Hệ thống Video Search .74 v 6.2.2 6.3 RSS rút trích tin tức giới từ trang Tuổi Trẻ 75 Kết luận 76 Chương ết luận hướng phát triển 77 7.1 Các kết đạt 77 7.2 Hướng phát triển đề tài 79 Danh mục tài liệu tham khảo 81 Phụ lục A - Cơng trình cơng bố đề tài Phụ lục B - Hướng dẫn sử dụng Webbot Creator vi Tuyển tập Cơng trình Nghiên cứu Cơng nghệ Thơng tin Truyền thơng 2010 khốn cột ghi mã cổ phiếu, ta dựa vào cột để xác định trường khác bao gồm giá tham chiếu, giá trần, giá sàn,… 3) Trang web có sử dụng FRAME IFRAME Ở mục ta biết cách xác định phần tử HTML tài liệu HTML Ngoài ra, trang web bao gồm nhiều FRAME IFRAME (nghĩa trang web có nhiều tài liệu HTML) để xác định phần tử HTML trang web ta cần phải xác định phần tử thuộc vào tài liệu Vì ta cần phải ghi nhận thêm cấu trúc tài liệu trang web cách xác định tài liệu chứa phần tử 4) Tương tác với thành phần AJAX Các thành phần AJAX thành phần hiển thị sau trang hiển thị hoàn tất Ngoài vấn đề ghi nhận hành động người dùng thành phần AJAX phần vấn đề thực lại người dùng gặp phải khó khăn Đó phải biết xác phần tử thêm vào trang web Thêm việc rút trích liệu AJAX gặp khó khăn để nhận liệu thực người dùng muốn lấy Chúng đề xuất: để xác định phần tử thêm vào trang web nội dung trang web tải hoàn tất, ta phải liên tục kiểm tra tồn phần tử trang web tương tác phần tử tải hồn tất Để xác định liệu bên phần tử có phải liệu người dùng cần không, ta dựa vào việc so sánh liệu lấy với mẫu liệu người dùng muốn nhận 5) Session cookie • Vấn đề ghi nhớ đăng nhập: Bắt đầu từ ví dụ: ta có WebBot tự động gửi tin nhắn miễn phí thơng qua trang web Mobifone, WebBot phải đăng nhập số điện thoại bắt đầu gửi tin nhắn Nhưng ta thực lại WebBot lần khơng cịn ô để đăng nhập lần trước đăng nhập rồi, ta đăng xuất đăng nhập lại khiến WebBot không hoạt động Chúng đề xuất hỗ trợ thực phương án sau: (1) trình tạo WebBot người dùng phải bấm vào nút đăng xuất kết thúc tạo WebBot; (2) Xóa cookie lần WebBot hoạt động; (3) Kiểm tra tồn nút ‘đăng xuất’WebBot tự động bấm ‘đăng xuất’ trước thực tác vụ Tải liệu yêu cầu đăng nhập: Vấn đề đề cập mục Rút trích liệu tập tin Tất vấn đề phương pháp chúng tơi • trình bày thể phân hệ WebBot Creator thuộc tầng Application Nhiệm vụ phân hệ thực việc ghi nhận lại hành động người dùng tương tác với website lưu lại hành động dạng tập tin XML Hình Giao diện WebBot Creator V PHÂN HỆ THỰC THI VÀ KẾT XUẤT KẾT QUẢ A Thực lại hành động người dùng Sau ghi nhận hành động người dùng dĩ nhiên WebBot phải có khả lập lại hành động để sử dụng cho lần sau WebBot phải thông minh để có khả thực tất hành động có người dùng duyệt web tìm kiếm thơng tin Sau thực hành động có chuyển trang ứng dụng cần phải đợi cho trình duyệt web đổi sang trang để thực hành động Dưới cách để thực lại hành động người dùng, phần định nghĩa hành động • Click: Thực lại hành động Click lại dễ nhiều so với việc ghi nhận hành động Ta phát sinh kiện click() phần tử đối tượng mà ta cần click • Chọn giá trị combobox: Ứng với hành động ta thay đổi biến value phần tử Trang 77 Tuyển tập Cơng trình Nghiên cứuu Cơng ngh nghệ Thơng tin Truyền thông 2010 thành giá trị mong muốn n Ngồi ccũng cần phải kích hoạt kiệnn onchange ccủa để trang web nh nhận biết gọi hàm Javascript tương ứng • Gõ văn bản: thơng qua mơ hình DOM ccủa trang web interface IHTMLElement ta ssẽ cập nhật lại thuộc tính value phần tử • Submit Form: Ta gửi biểuu m mẫu cách gọi hàm submit() IHTMLFormElement củủa interface B Cung cấp kết cho ngườii dùng Người dùng mộột người sử dụng bình thường hệ thống ng khác Đ Đối với người sử dụng web thông thường kếết trả phải định dạng đọc xem m trình duyệt họ Nhưng đối vớii hhệ thống khác kết trả phải chuyểnn thông qua ddạng web service giao thức truyềnn thông qua m mạng khác Hơn nữa, thời gian xử lý cung ccấp kết theo yêu cầu người dùng ũng llà vấn đề quan trọng Hình Qui trình gửi kết thực thi WebBot Từ đề xuất cho phân hệệ này, xây dựng phân hệ WeBot service đểể cung ứng dịch vụ bên gồm định dạng: ng: • Web service: Đối vớii nhu cầu c tích hợp kết củaa WebBot vào hệ h thống khác web service lựaa chọn ch hàng đầu Hệ thống hỗ trợ hai loạii web service thông dụng d hính SOAP web service REST service Ngay tạo t đăng tải WebBot người dùng sẽẽ cung cấp địa để sử dụng dịch vụ • REST Web service: Dịch D vụ REST Web servicengày đượcc ưa chuộng chu nhờ tính đơn giản độ tương thích cao c Hệ thống cung ứng dịch ch vụ v REST thơng qua URI có cấu c trúc www.yourwebsite.com/ /{WebBotID}/{Dat atype}/{Parameters} vớ ới o WebBotID: Số định nh danh c WebBot o Datatype: Kiểu liệu kết xuất Có thể thống trả Tùy theo mục đích sử dụng hệ th định dạng ng khác thông qua ddịch vụ khác dựa vào mục đích ngườii dùng ch chọn lọc thơng tin thích hợp để tương tác vvới hệ thống khác • ng web, hhệ thống có Đối với người sử dụng kiểu trả theo dạng ng feed cho phép ngư người dùng đọc nhanh đầu đềề mô tả ngắn chủ đề (đây ddạng thường gặp hệ thống lấy nộii dung trang tin trang báo hoặcc trang thông tin, tin tức) ng khác, hhệ thống Đối với hệ thống cung cấp kết thông qua ddịch vụ web Hệ thống hỗ trợ hai chu chuẩn SOAP web service REST web service Nhằm tăng tốc độ xử lý gửii kkết quả, hệ thống có sở liệu riêng nhằm m lưu llại (cache) kết thơng dụng trả kết nhanh chóng cho yêu cầu sau mà không phảii th thực lại cơng việc rút trích • RSS, ATOM đố ối với kết xuất Syndication Feed, ho Image kết xuất hình ảnh,… o • Parameters: Các thông số s đầu vào để thực thi WebBot SOAP Web service: Hệ H thống cung cấp API thông dụng để nhận nh kết thực thi Trang 78 Tuyển tập Cơng trình Nghiên cứu Cơng nghệ Thơng tin Truyền thông 2010 WebBot Sau API dịch A Hệ thống website Video Search vụ : Đây website cho phép thực việc tìm kiếm video clip với từ khóa tên video clip mà người dùng muốn tìm kiếm hai trang web www.youtube.com www.metacafe.com Để thực yêu cầu ta cần sử dụng phân hệ Huấn luyện WebBot để tạo hai WebBot, cho Youtube cho Metacafe Ứng với site WebBot ghi nhận hình động gõ vào tìm kiếm, gửi u cầu tìm kiếm sau xác định tiêu đề, hình đại diện, thời lượng, thích video clip kết Hai WebBot đăng tải lên hệ thống để tự động thực thi cung cấp kết Khi có yêu cầu từ website Video Search hệ thống gọi tới web service WebBot cung cấp Ứng với tham số từ khóa cần tìm kiếm, phân hệ Thực thi Kết xuất kết tự động vận hành hai WebBot huấn luyện trước cho hai website www.youtube.com www.metacafe.com để rút trích vùng thơng tin cần thiết Cuối kết rút trích tổng hợp gửi cho website Video Search Bảng Các tham số URI REST Web service API stringGetResult(int WebBot_ID, ListlistPara ms) stringGetResultXM L(intWebBot_ID, stringxmlParams) stringGetResultSing le(intWebBot_ID, stringparameter) • Mơ tả Hàm nhận kết thực thi WebBot có ID WebBot_ID danh sách tham số đầu vào listParams Kết trả chuỗi có cấu trúc XML Tương tự GetResult danh sách tham số đầu vào chuỗi có cấu trúc XML hóa List Hàm chuyên biệt dùng để lấy liệu đơn giản, với tham số đầu vào kiểu chuỗi, kết kết có kiểu chuỗi Feed: người sử dụng thơng thường sử dụng dịch vụ để tích hợp vào trình đọc Feed vào Gadget có cách nhanh chóng tiện lợi Hệ thống biến trang tin tức không hỗ trợ Feed thành dịch vụ ATOM Feed RSS Feed để người dùng theo dõi tin tức tiện lợi cập nhật • Web clip: dùng để trích vùng (box) trang web hiển thị lại vùng lên trang web khác Sau tạo WebBot chọn vùng cần sử dụng đăng tải lên hệ thống, người dùng cung cấp đoạn mã để đưa lên website Hệ thống chuyển nội dung u thích từ trang web khác vào trang web người dùng VI THỰC NGHIỆM Từ giải pháp mà trình bày trên, chúng tơi xây dựng nên hệ thống WebBot hoàn chỉnh đưa vào ứng dụng thử nghiệm với ứng dụng sau: Hình Website Video Search B RSS rút trích tin tức giới từ trang Tuổi Trẻ Đây ứng dụng chuyển đổi nội dung trang www.tuoitre.com.vn chuyên mục tin giới cung ứng thành dạng RSS người dùng dễ dàng tích hợp vào hệ thống khác ví dụ như: Blog, Windows Gadget Ứng dụng sử dụng định dạng đầu RSS hệ thống WebBot nhằm bổ sung tính cho trang chưa hỗ trợ RSS Phân hệ Huấn luyện WebBot dùng để tạo WebBot tự động đến mục Thế giới báo Tuổi Trẻ rút trích danh sách viết bao gồm tiêu đề, ngày đăng, hình đại diện, tóm tắt Sau phân hệ Thực thi Kết xuất kết định thi WebBot theo chu kỳ định để Trang 79 Tuyển tập Cơng trình Nghiên cứu Cơng nghệ Thơng tin Truyền thông 2010 đảm bảo thông tin cung ứng cho đầu RSS luôn cập nhật thay đổi từ trang nguồn www.tuoitre.com.vn Hình RSS Tin giới www.tuoitre.com.vn VII KẾT LUẬN Trong viết này, chúng tơi trình bày phương pháp để xây dựng hệ thống rút trích thơng tin từ website với đặc điểm: huấn luyện WebBot có khả rút trích thơng tin từ website, tham số hóa giá trị đầu vào trước vận hành WebBot, tái vận hành WebBot theo chu kỳ tự động người dùng tự định vận hành để rút trích thơng tin có nhu cầu cung ứng thành nhiều dạng dịch vụ web SOAP, REST web service, RSS, Atom feed, web clipping Với phương pháp này, xây dựng hệ thống WebBot có khả cung ứng dịch vụ để sử dụng cho ứng dụng rút trích thơng tin chứng khoán trực trực tuyến thời điểm diễn phiên giao dịch hàng ngày, hệ thống website search video, website so sánh giá thị trường… Hiện WebBot cịn hoạt động độc lập, chưa có phối hợp Trong tương lai, hỗ trợ ngữ nghĩa cho WebBot tăng cường khả phối hợp hoạt động WebBot với on Human factors in computing systems, New York, NY, USA: ACM, 2006, pp 1541-1546 [4] M Tatsubori and K Takashi, Decomposition and Abstraction of Web Applications for Web Service Extraction and Composition, IEEE, 2006 [5] Y Lu, Y Hong, J Varia, and D Lee, "Pollock: automatic generation of virtual web services from web sites," Proceedings of the 2005 ACM symposium on Applied computing, New York, NY, USA: ACM, 2005, pp 1650-1655 [6] A Sugiura and Y Koseki, "Internet scrapbook: automating Web browsing tasks by demonstration," Proceedings of the 11th annual ACM symposium on User interface software and technology, New York, NY, USA: ACM, 1998, pp 9-18 [7] L Liu, C Pu, and W Han, XWRAP: an XML-enabled wrapper construction system for Web information sources, Washington, DC, USA: IEEE Comput Soc, 2000 [8] R Baumgartner, S Flesca, and G Gottlob, "Visual Web Information Extraction with Lixto," Proceedings of the 27th International Conference on Very Large Data Bases, San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2001, pp 119-128 [9] R Baumgartner, G Gottlob, and M Herzog, "Scalable web data extraction for online market intelligence," Proc VLDB Endow., vol 2, 2009, pp 1512-1523 [10] R Baumgartner, W Gatterbauer, and G Gottlob, "Web data extraction system," Encyclopedia of Database Systems, 2009, pp 1-9 [11] J López, F Bellas, A Pan, and P Montoto, "A Component-Based Approach for Engineering Enterprise Mashups," Proceedings of the 9th International Conference on Web Engineering, 2009, pp 30 - 44 [12] J.J Garrett, "Ajax: A New Approach to Web Applications," AdaptivePath.com, 2005 TÀI LIỆU THAM KHẢO [1] T O'Reilly, "What Is Web 2.0," 2005 [2] R.J Ennals and M.N Garofalakis, "MashMaker: mashups for the masses," Proceedings of the 2007 ACM SIGMOD international conference on Management of data, New York, NY, USA: ACM, 2007, pp 1116-1118 [3] J Wong and J Hong, "Marmite: end-user programming for the web," CHI '06 extended abstracts Trang 80 Phụ lục B: HƯỚNG DẪN SỬ DỤNG WEBBOT CREATOR Giới thiệu Hình Giao diện Webbot Creator Webbot Creator phân hệ cho phép việc tạo Webbot cách theo dõi ghi nhận hành động người dùng web Đồng thời, người dùng thông qua phân hệ để xác định liệu cần rút trích định dạng liệu phù hợp với nhu cầu Phân hệ có giao diện giống trình duyệt web thơng thường với tiện ích hỗ trợ việc theo dõi chọn lựa nội dung thích hợp Vì thao tác phân hệ giống việc truy cập web bình thường, hành động người dùng tự động lưu lại Các cửa sổ đặc biệt chương trình giúp việc theo dõi hỗ trợ lấy xác vùng liệu theo yêu cầu Các cửa sổ chương trình bao gồm:  Web browser: Đây cửa sổ để người dùng duyệt web xác định nguồn liệu yêu cầu  Thanh cấu trúc: Đây bên Web browser cho biết xác địa element mà người dùng tương tác để từ xác định tương tác với element cấp cao  HTML DOM: Cửa sổ hiển thị cấu trúc DOM tồn trang web, nhờ ta xác định theo dõi element kế cận  Automation task: Cửa sở chương trình có nhiệm vụ thể hành động người dùng đồng thời định nội dung webbot lưu lại Cửa sổ bao ba thẻ tương ứng với hành động người dùng, tham số truyền vào kết trả  Properties: Khi người dùng tương tác với đối tượng HTML Element, hành động lưu, tham số đầu vào, kết trả về… cửa sổ thông tin chi tiết đối tượng  Action Diagram: Nhằm hình tượng hóa hành động người dùng q trình duyệt web, cửa sổ hiển thị hình trang web hành động ứng với trang web cách trực quan Khi người dùng chuột phải vào element Web Browser, HTML DOM hay cấu trúc xuất trình đơn ngữ cảnh thể hành động làm element tùy theo element element Chẳng hạn element thẻ có thêm tính Extract Image, element thẻ có thêm tính Extract Table, … Hình Trình đơn ngữ cảnh Ngồi trình đơn chương trình cịn hỗ trợ cho người dùng sử dụng tính nâng cao thêm câu lệnh rẽ nhánh câu lệnh lặp, tạo nhóm để cấu trúc lại liệu đầu ra, … 2 Kiến trúc Phân hệ xây dựa NET Framework 2.0 nhằm đảm bảo tính tương thích cao với máy tính đồng thời bảo đảm tính tiện dụng cao cho người sử dụng Sau mơ hình mơ tả chi tiết thành phần phân hệ WebBot XML Event Watcher WebBot Controls cEXWB Browser DOM Tree Internet WebBot Core User Properties Windows Automation Task Hình Kiến trúc Webbot Creator Nhiệm vụ phân hệ giúp người dùng tạo tập tin hướng dẫn Webbot để thực hành động web chọn lọc rút trích thơng tin người dùng quan tâm Trong lúc người dùng duyệt web cEXWB Browser đến trang có chứa thơng tin cần rút trích, người dùng xác định đối tượng cần rút trích thơng qua DOM Tree control, thành phần Event Watcher ứng dụng theo dõi hành động người dùng ghi nhận hành động cần thiết người dùng Thông qua Webbot Core, để tạo thành tập tin XML hướng dẫn Webbot Thành phần Mô tả Webbot Controls Các control cho phép người dùng tương tác với trang web xác định liệu cần rút trích Thành phần cốt lõi hệ thống xác định cách định danh Webbot Core lưu trữ hành động người dùng, xác định cấu trúc liệu dùng hệ thống Webbot Core để thực thi Webbot trả kết thực Event Watcher Đây thành phần theo dõi hành động người dùng trích hành động cần thiết người dùng để tạo thành tập tin hướng dẫn Webbot Webbot XML Tập tin hướng dẫn Webbot sau kết thúc trình tạo Webbot Bảng 2-1 Các thành phần phân hệ Webbot Creator Quy trình sử dụng Chương trình Webbot Creator dùng để tạo tập tin hướng dẫn Webbot Để tạo Webbot ta thực bước sau: - Bước 1: Nhập địa trang web cần rút trích thơng tin vào địa - Bước 2: Tương tác với Webbot Creator trình duyệt web thông thường để hướng dẫn Webbot đến nơi liệu cần rút trích để Webbot thực thao tác tự động Chương trình tự động ghi nhận hành động người dùng cửa sổ Automation Actions (Hình 4) Hình Sử dụng Webbot Creator Thêm vào đó, cửa sổ Action Diagram giúp người dùng theo dõi cách trực quan hành động trình duyệt web (Hình 5) Hình Cửa sổ Action Diagram Webbot Creator Người dùng liệu cần rút trích bốn cách sau: a Kích chuột phải vào đối tượng trang web b Kích chuột phải vào đối tượng cửa sổ HTML DOM c Kích chuột phải vào cấu trúc bên cửa sổ duyệt web d Chọn hành động rút trích trình đơn Tùy theo loại HTML element trình đơn ngữ cảnh hiển thị cho phép thực thao tác rút trích liệu element Hình Trình đơn ngữ cảnh Webbot Creator - Bước 3: Sau chọn xác đối tượng cần rút trích người dùng chọn rút trích chi tiết thuộc tính đối tượng (Hình 7) Hình Rút trích chi tiết thuộc tính element - Bước 4: Để gom nhóm liệu trả Webbot người dùng sử dụng tạo nhóm liệu thơng qua nút Create Group, Close Group trình đơn - Bước 5: Ứng với hành động lưu thẻ Action list người dùng tách nội dung hành động thành tham số cách nhấn phải vào hành động chọn List Replaceable values (Error! Reference source not found.) Từ đó, ta thay đổi tham số trước thực thi Webbot để rút trích liệu khác liên quan Có hai loại tham số để truyền vào cho hành động: a Tham số truyền vào từ lúc bắt đầu thực thi Webbot b Tham số có nội dung từ kết hành động rút trích trước Hình Đặt tham số cho hành động Webbot - Bước 6: Để thực câu lệnh rẽ nhánh lặp cho hành động Webbot người dùng sử dụng chức Add Condition, Add Loop, End Command (xem Hình 9) Hình Bổ sung cấu trúc điều khiển vào kịch Webbot - Bước 7: người dùng bấm Run để xem Webbot tự thực lại yêu cầu đưa liệu rút trích vào thẻ Output (Hình 10) Tại thẻ Output người dùng kết xuất liệu thành tập tin văn Excel Hình 10 Kết thực thi Webbot Webbot Creator - Bước 8: Cuối người dùng bấm Save, để lưu Webbot vừa tạo Hoàn tất trình tạo Webbot Kết luận Sử dụng hệ thống Webbot Creator, người sử dụng dễ dàng tạo lập kịch thao tác tìm kiếm thơng tin web cách tự nhiên trực quan Để huấn luyện kịch cho webbot, người dùng cần thực thao tác tìm kiếm bình thường web (có thể qua nhiều trang web khác nhau) hệ thống Webbot Creator tự động ghi nhận lại hành động người dùng để bổ sung vào kịch webbot Hệ thống Webbot Creator có hai tính quan trọng, là:  Cho phép bổ sung cấu trúc điều khiển lặp rẽ nhánh kịch webbot Điều cho phép người dùng định nghĩa kịch phức tạp thay ghi nhận kịch gồm chuỗi hành động người dùng  Cho phép tham số hóa thao tác người dùng Những giá trị nội dung mà người dùng nhập vào q trình tạo kịch tham số hóa, giúp cho webbot thực thi với nhiều giá trị tham số khác 10

Ngày đăng: 05/10/2023, 20:01

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w