Hướng phát triển tiếp theo

Một phần của tài liệu LUẬN VĂN: XÂY DỰNG ỨNG DỤNG GADGET pptx (Trang 45 - 47)

Với những gì đã làm được và những hạn chế mà khóa luận mắc phải thì hướng phát triển tiếp theo của khóa luận như sau:

Xây dựng ứng dụng có khả năng tổng hợp tin tức tự động từ các trang web, phân tích được nội dung các nguồn tiếng anh cũng như tiếng việt và lọc ra thông tin trùng lặp.

Xây dựng một Spider engine riêng dưới dạng web browser giả lập, mục đích để lọc nội dung các trang sử dụng các đoạn mã client-side nh thực hiện một HTTP POST method, postback các tham số ẩn để chuyển trang (URL không bị thay đổi), hoặc sử dụng công nghệ AJAX.

Ngoài ra, trong lĩnh vực trích xuất thông tin cũng có một hướng nghiên cứu khác khá gần gũi với lĩnh vực khai phá dữ liệu (data mining) và trí tuệ nhân tạo (artificial intelligence). Hướng nghiên cứu này sẽ xây dựng, phát triển các công cụ có khả năng tự động tìm kiếm và trích xuất thông tin một cách hoàn toàn tự động, không cần hoặc cần rất ít sự can thiệp của con người, và hơn nữa các công cụ này còn có khả năng tự học (machine learning) thông qua các dữ liệu mẫu, nhờ đó nó có thể ứng dụng được trên nhiều loại trang web có cấu trúc khác nhau một cách tự động. Ưu điểm của hướng tiếp cận này là tính tự động cao, có thể chạy được trên nhiều website khác nhau (cùng lĩnh vực) một cách tự động. Tuy nhiên các công cụ kiểu này thường chỉ có thể sử dụng cho các lĩnh vực cụ thể và phổ biến, chẳng hạn như lĩnh vực tin tức trực tuyến.

Tài liệu tham khảo

[1] Nguyễn Trung Hiếu. Đi lại trong XML bằng Xpath.

http://www.vovisoft.com/XML/XML02/XML02.htm (17/04/2002). [2] Dave Raggett. Clean up your Web pages with HTML Tidy.

http://tidy.sourceforge.net/docs/Overview.html(04/08/2000). [3] Gadgets API.http://code.google.com/apis/gadgets (10/05/2010). [4] Jesse James Garrett. Ajax: A New Approach to Web Application.

http://www.adaptivepath.com/ideas/essays/archives/000385.php (18/02/2005). [5] K. Scott Allen. Developing Gadgets for the Windows Sidebar.

http://odetocode.com/code/463.aspx (01/01/2007).

[6] Michael Schrenk. Webbots, Spiders, and Screen Scrapers. No Starch, San Francisco, USA, 2007.

[7] Norman Walsh. A Technical Introduction to XML .

http://www.xml.com/pub/a/98/10/guide0.html?page=1 (03/12/1998).

[8] Rajesh Lal. Creating Vista Gadgets: Using HTML, CSS and JavaScript with Examples in RSS, AJAX, ActiveX (COM). Sams, 2008.

Một phần của tài liệu LUẬN VĂN: XÂY DỰNG ỨNG DỤNG GADGET pptx (Trang 45 - 47)

Tải bản đầy đủ (PDF)

(47 trang)