biểu diễn trực quan các liên kết web

66 288 0
biểu diễn trực quan các liên kết web

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trương Văn Hưng BIỂU DIỄN TRỰC QUAN CÁC LIÊN KẾT WEB KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Khoa: Công nghệ thông tin HÀ NỘI - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trương Văn Hưng BIỂU DIỄN TRỰC QUAN CÁC LIÊN KẾT WEB KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Khoa: Công nghệ thông tin Cán hướng dẫn: PGS.TS Nguyễn Việt Hà HÀ NỘI - 2014 VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Truong Van Hung A STUDY OF WEB LINKS VISUALIZATION Major: Information technology Supervisor: Assoc Prof Dr Nguyen Viet Ha HA NOI - 2014 Lời cảm ơn Lời đầu tiên, xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Nguyễn Việt Hà - phó Hiệu trưởng ThS Vũ Quang Dũng - giảng viên khoa CNTT, trường Đại học Công Nghệ, ĐHQGHN Các thầy tận tình hướng dẫn bảo tơi suốt q trình thực khóa luận suốt năm học vừa qua Tôi xin cảm ơn đến thầy, cô trường Đại học Công Nghệ giảng dạy truyền đạt cho kiến thức quý báu, làm tảng để hồn thành khóa luận, cơng việc tương lai Tôi xin gửi lời cảm ơn tới anh chị, bạn sinh viên phịng thí nghiệm Cơng nghệ phần mềm Toshiba-UET hỗ trợ nhiều suốt q trình làm khóa luận, hỗ trợ nhiệt tình giúp tơi hồn thành tốt khóa luận Nhân đây, muốn gửi lời cảm ơn chân thành tới bạn K55CC K55CCLC bên cạnh, ủng hộ, khích lệ giúp đỡ tơi hồn thiện đề tài Và cuối cùng, xin gửi lời cảm ơn tới gia đình, người thân bạn bè – người ln bên tơi lúc khó khăn nhất, ln động viên tơi, khuyến khích tơi sống học tập, công việc Tôi xin chân thành cảm ơn! Hà Nội, ngày 02 tháng 05 năm 2014 Sinh viên Trương Văn Hưng i Lời cam đoan Tôi xin cam đoan kết đạt khóa luận tơi thực hướng dẫn PGS.TS Nguyễn Việt Hà Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo khóa luận Khóa luận khơng chép tài liệu, cơng trình nghiên cứu người khác mà không rõ mặt tài liệu tham khảo Các kết thực nghiệm khóa luận tiến hành thực nghiệm thống kê từ kết thực tế Sinh viên Trương Văn Hưng ii TÓM TẮT Tóm tắt Khóa luận tốt nghiệp Ngày nay, với phát triển mạng Internet, nhu cầu đọc báo trực tuyến gia tăng nhanh chóng Bên cạnh phong phú loại tin tức, người dung gặp phải phiền toái với nội dung thương mại, ví dụ quảng cáo Vấn đề đặt toán cần thiết việc tổng hợp, trích chọn thơng tin báo hiển thị thông tin, nội dung báo trực tiếp cho người dung dạng giao diện trực quan Hiện có nhiều ứng dụng tổng hợp tin tức từ nhiều nguồn khác nhau, nhiên ứng dụng số hạn chế định Thứ nhất, ứng dụng chưa thể liên kết báo liên quan Thứ hai, ứng dụng chưa phải ứng dụng đa tảng, chưa thể đáp ứng nhu cầu đọc báo từ nhiều loại thiết bị khác Để đáp ứng nhu cầu thực tế khóa luận tốt nghiệp đề cập tới hệ thống phân tích, trích chọn liên kết web trực tiếp tự động, cung cấp giao diện hiển thị trực quan nhiều loại thiết bị khác nhau, đồng thời xây dựng thành phần thu thập liệu với mục đích tăng tốc q trình xử lý hiển thị Tơi tập trung vào việc giải tốn trích xuất liệu liên kết web từ website Ngồi ra, mặt giao diện hiển thị, tơi sử dụng phát triển kỹ thuật giao diện PageLayout – thuật toán phát triển giai đoạn trước phịng thí nghiệm Toshiba – UET Tôi đề xuất giải pháp xử lý tương tác từ thiết bị cảm ứng xây dựng thuật toán tổ chức lại giao diện phù hợp với việc hiển thị báo liên kết web Từ khóa: trực quan, trích xuất, trực tiếp, liên kết web iii ABSTRACT There are plenty kinds of news on Internet that make web pages becoming one of biggest source of information extraction and data mining such as news collective application However, the web page consists of many cluttered part that can make a decrease in perfomance of information retrieval applications Therefore, to resolve that problem, we need a method to identify and extract main content from a web page There is a number of appication have been introduced to collect news, but those application not provide any kind of visualization method of web pages Based on the fact of demand, my thesis is deal with a system which can analysis and extract main content from web pages directly and dinamically, provide a new visualization user interface and also building a crawler service to improve performance of system In my thesis, I will concentrate in problem of main content extraction and building a visualization UI of web links In addition, my system is aim to build an adaptive user interface by using PageLayout UI which was developed in previous phase of Toshiba-UET laboratory My work differ with old PageLayout in following ways: the new UI improves user experience by providing new method to hanlder touch interaction of user, present web link in visualization UI and adding restucture tree UI algorithm Keywords: extract, web links, visualization, directly iv Mục lục Danh sách hình vẽ viii Danh sách bảng ix Danh mục kí hiệu, chữ viết tắt x Chương MỞ ĐẦU .1 Chương CƠ SỞ LÝ THUYẾT VÀ CÔNG NGHỆ .3 2.1 Cơ sở lý thuyết 2.1.1 Thuật toán Data rich-section extraction 2.1.2 Định lý phân lớp Bayes 2.1.3 Dàn trang sử dụng thuật toán Node Partition 2.2 Cơ sở công nghệ 2.2.1 HTML5 CSS3 2.2.2 Document object model 2.2.3 JavaScript Ajax 2.2.4 Metro UI CSS 2.2.5 QuoJS 2.2.6 Java Servlet 2.2.7 Công cụ phân lớp Weka Chương PHƯƠNG PHÁP GIẢI QUYẾT 10 3.1 Phương pháp trích xuất liệu từ trang html .10 3.1.1 Lấy tập trang mẫu dựa đánh giá độ tương đồng URL 11 3.1.2 Tạo cấu trúc cho trang web 13 3.1.3 Hợp cấu trúc hai trang web 14 3.1.4 Trích xuất nội dung báo báo liên quan 16 3.1.5 Phân loại tự động nội dung báo 18 3.2 Kĩ thuật biểu diễn trực quan liên kết web 19 3.2.1 Phương pháp đánh độ ưu tiên khối 20 3.2.2 Hiển thị báo liên quan 21 3.2.3 Các chức phóng to, thu nhỏ khối 22 v 3.2.4 Chức xóa khối nhiều khối 22 3.2.5 Tô màu cho khối ứng với chuyên mục báo 23 3.3 Phương pháp tổ chức giao diện 23 3.3.1 Tạo mảng chứa từ giao diện 24 3.3.2 Nhóm màu màu ưu tiên 25 3.3.3 Nhóm màu màu cịn lại 28 Chương KIẾN TRÚC HỆ THỐNG 29 4.1 Mơ hình tổng quan hệ thống 30 4.2 Thiết kế chi tiết phía máy chủ 32 4.2.1 Thiết kế lớp 32 4.2.2 Module giao tiếp 34 4.2.3 Module trích xuất liệu trực tiếp 35 4.2.4 Module thu thập liệu tự động 36 4.3 Thiết kế chi tiết phía máy khách .37 4.3.1 Thiết kế module/lớp 38 4.3.2 Module lắng nghe kiện tương tác 40 4.3.3 Hiển thị tin liên quan 42 4.3.4 Menu chuyên mục báo 42 Chương THỰC NGHIỆM 43 5.1 Môi trường thực nghiệm .43 5.1.1 Cấu hình máy chủ 43 5.1.2 Cấu hình máy khách 43 5.1.3 Công cụ phần mềm 44 5.1.4 Các thư viện sử dụng 44 5.2 Phương pháp thực nghiệm 45 5.2.1 Kiểm tra độ xác thuật tốn trích xuất 45 5.2.2 Kiểm tra tốc độ 45 5.3 Thiết kế cở liệu 46 5.4 Kết thực nghiệm .47 vi 5.4.1 Tốc độ trích xuất tự động 47 5.4.2 Kiểm tra độ xác thuật tốn 47 5.4.3 Kiểm tra thời gian phản hồi 47 5.4.4 Một số hình ảnh chương trình thực nghiệm 49 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 51 Tài liệu tham khảo 52 vii + onZoom(node_id,level): hàm xử lý kiện phóng to/ thu nhỏ + onDelete(node_id) : hàm xử lý kiện xóa + onDragAndDrop(): xử lý kiện kéo thả khối để xếp lại giao diện theo chuyên mục khác + updateData(): lấy liệu từ lớp DataGetter2 phía Server chèn liệu vào khối BinaryTree : +rootNode : nốt chứa đỉnh cha gốc giao diện chứa thuật + leavesNode : mảng chứa đỉnh toán xếp + colorNodeList : ứng với mảng leavesNode, chứa giá theo chuyên trị màu node mục +dragAndDrop() : xử lý thao tác kéo thả khối Sau hàm gọi tới hàm groupColor để nhóm màu +groupColor() : nhóm báo có màu sắc vị trí nằm gần +findNearestPos() : tìm vị trí gần điểm trung tâm để trao đổi node +calculateRange() : tính khoảng trao đổi Node tính từ vị trí trung tâm + vị trí trung tâm vị trí chọn để đặt làm điểm nhóm màu mảng leavesNode Node : biểu +fillData() : chèn liệu vào khối diễn khối giao diện hiển thị Interaction: chứa thành phần xử lý tương tác +pinchIn() : bắt kiện thu nhỏ khối +pinchOut(): bắt kiện phóng to khối +hold(): bắt kiện giữ vào khối để kích hoạt chức xóa nhiều khối +click(): bắt kiện đọc chi tiết tin +next(): lấy liệu cho trang +prev(): lấy liệu cho trang trước +dragable(): bắt kiện kéo khối +dropable(): bắt kiện thả khối 39 4.3.2 Module lắng nghe kiện tương tác Vai trò: Module lắng nghe kiện tương tác có vai trị bắt thao tác chuột cảm ứng người dùng với giao diện PageLayout Sau đó, module gọi hàm tương ứng thao tác khác Phương pháp lắng nghe kiện: - Đối với tương tác chuột: Sử dụng thư viện Jquery để bắt kiện click chuột người dùng Đối với tương tác cảm ứng: Sử dụng thư viện QuoJS để bắt kiện tương tác từ phía người dùng Bảng 4-3: Bảng mô tả kiện tương tác người dùng STT Tên Sự kiện tương tác tương ứng Pinch Out Phóng to khối Mơ tả Sau QuoJS nhận dạng kiện PinchOut, module Interaction gọi tới hàm zoom(block_id,level) lớp PageLayout với tham số truyền vào định danh block zoom level=1 để biểu thị việc phóng to khối Pinch In Thu nhỏ khối Sau thư viện QuoJS nhận dạng kiện PinchIn, module Interaction gọi tới hàm zoom(block_id,level) lớp PageLayout với tham số truyền vào định danh block zoom level=-11 để biểu thị việc thu nhỏ khối Click/ Tap on Block Mở rộng khối (đọc chi tiết báo) Với thao tác Click Tap, thư viện Jquery/QuoJS nhận dạng tương tác module Interaction gọi tới hàm readBlock() PageLayout để sử dụng hàm đọc chi tiết khối Hold on Block Kích hoạt chức xóa nhiều khối Sau thư viện QuoJS nhận dạng kiện Hold, module Interaction làm cho khối giao diện có hộp thoại checkbox Người 40 dùng cần chọn khối cần xóa bấm nút “Xóa”, khối bị xóa khỏi giao diện Drag and Xóa Sau thư viện nhận dạng khối drop on Button “Drag”, người dùng Drop (thả) khối vào nút “Xóa” khối thả bị xóa khỏi khối delete giao diện Drag and Sắp xếp drop on khối theo Sau thư viện nhận dạng khối “Drag”, người dùng Drop (thả) khối vào chuyên mục khối khác, giao diện tự động báo xếp theo chuyên mục block Hình 4-9: Biểu đồ chức phóng to / thu nhỏ Hình 4-10: Chức lấy liệu 41 Hình 4-11: Chức xếp khối màu theo chuyên mục 4.3.3 Hiển thị tin liên quan Mục đích : thị báo liên quan tới báo đọc Kĩ thuật : - - Module Interaction lắng nghe kiện click/tap để đọc tin chi tiết Trong hàm xử lý tin chi tiết lớp PageLayout đồng thời gửi yêu cầu lấy liệu tin liên quan từ phía server Thêm khung hiển thị vào giao diện đọc tin chi tiết Chèn liệu lấy từ phía server vào khung hiển thị vừa tạo 4.3.4 Menu chuyên mục báo Mục đích: tạo menu điều hướng đến chuyên mục cho giao diện hiển thị Kĩ thuật : - Tạo khung hiển thị giao diện Khi người dùng click vào item menu, module Interaction gọi hàm lấy liệu lớp PageLayout, lớp PageLayout gửi yêu cầu lên Server cập nhật liệu trả lên giao diện hiển thị 42 Chương THỰC NGHIỆM Tôi tiến hành cài đặt môi trường thực nghiệm dựa theo mơ hình hệ thống mơ tả phía Trong mơi trường thực nghiệm, tơi có sử dụng server làm nơi lưu trữ liệu, lưu thuật tốn chương trình q trình xử lý liệu Thực nghiệm mô tả chi tiết phần 5.1 Môi trường thực nghiệm 5.1.1 Cấu hình máy chủ Bảng 5-1: Cấu hình máy chủ IBM System X3200 CPU Intel Xeon 3050 @2.13GHz Memory 4x512MB DDR2 OS Ubuntu 10.0.4 LTS 5.1.2 Cấu hình máy khách Bảng 5-2: Cấu hình máy khách Client : Samsung galaxy tab CPU Solo-core GHz Memory 512 MB OS Android Kitkat 4.4.2 Display Screen 1024x600 Browsers Google Chrome for Android Firefox for Android Client : Laptop Asus K53SV CPU Intel Core I3-2330M 2.2GHz Memory Memory: 4GB DDR3 OS Window 8.1 Profestional Display Screen 1360x768 Browsers Google Chrome v28 Firefox v26 43 5.1.3 Công cụ phần mềm Bảng 5-3: Công cụ phần mềm sử dụng Tên công cụ STT Mô tả Eclipse Kepler for JavaEE Môi trường phát triển ứng dụng Jquery Javascript framework Servlet Java API MySQL Hệ quản trị sở liệu 5.1.4 Các thư viện sử dụng Bảng 5-4: Các thư viện sử dụng Tên thư viện STT Mô tả QuoJS Thư viện mini javascript Metro UI CSS Framework CSS3 theo phong cách metro HTTP Client Thư viện Java cung cấp API giao tiếp qua giao thức HTTP Weka Thư viện Java dùng để phân lớp báo Jsoup Thư viện dùng để phân tích mã HTML thành DOM Stanford POS tagger Thư viện dùng để nhận dạng loại từ vựng tiếng Anh Vntagger Thư viện dùng để nhận dạng loại từ vựng tiếng Việt GSON Thư viện dùng để chuyển đổi liệu sang dạng JSON Java 44 5.2 Phương pháp thực nghiệm 5.2.1 Kiểm tra độ xác thuật tốn trích xuất Để kiểm tra độ xác giải pháp đề xuất Tơi so sánh kết trích xuất thủ cơng với kết trích xuất thuật tốn tự động Kết trích xuất kiểm tra hai trang web : vnexpress.net có ngơn ngữ tiếng Việt bbc.co.uk có ngơn ngữ tiếng Anh Tơi chọn hai trang web chúng trang web tiếng, có lượt truy cập cao chúng có ngôn ngữ khác Dưới mô tả cách thức kiểm tra chúng tơi Trích xuất thủ công : - - Bước 1: kiểm tra thẻ mã HTML hai trang vnexpress.net bbc.co.uk, từ tìm thẻ chứa nội dung báo Chúng lưu đường dẫn CSS selector tới thẻ Bước 2: tơi dùng HTTP Client để tải mã HTML, sau dùng thư viện Jsoup để phân tích mã HTML thành DOM Bước 3: Từ DOM, tơi trích xuất text thẻ chứa nội dung thông qua CSS selector lưu bước Lưu nội dung vào sở liệu Lặp lại ba bước đầu với 1000 URL khác Trích xuất tự động : - - Bước : Tôi áp dụng thuật tốn phân tích trích xuất tự động cho hai website vnexpress.net bbc.co.uk Đầu vào 1000 URL giống với q trình trích xuất thủ cơng Bước : Sau bước lấy nội dung báo, sau nội dung trích xuất lưu vào sở liệu Kiểm tra Ở phần chúng tơi so sánh nội dung trích xuất hai phương pháp thủ công tự động Nếu nội dung trích xuất từ phương pháp tự động giống hồn tồn với nội dung trích xuất từ phương pháp thủ cơng chúng tơi coi hai nội dung giống 5.2.2 Kiểm tra tốc độ Tốc độ trích xuất: Để kiểm tra tốc độ trích xuất, tơi xây dựng đoạn mã nhỏ gọi tới chức trích xuất hệ thống Tơi cho chương trình trích xuất 100 báo liên tục trang web khác nhau: vnexpress.vn bbc.co.uk Sau tơi tính kết trung bình tốc độ trích xuất 45 Tốc độ phản hồi: tốc độ phản hồi đánh giá dựa thời gian lúc người dùng thực thao tác giao diện thực xong trình biến đổi ứng với thao tác 5.3 Thiết kế cở liệu Để phục vụ cho việc lưu trữ kết trích xuất, tơi xây dựng sở liệu hệ quản trị MySQL Về mặt yêu cầu, sở liệu cần lưu trữ nội dung báo, cần phải lưu trữ link liên quan (liên kết web) tới báo Để đáp ứng yêu cầu trên, xây dựng sở liệu gồm bảng, bảng để dạng Engine InnoDB nhằm sử dụng chức khóa ngoại để lưu trữ liên kết web Cấu trúc sở liệu thể hình 5-1 bên Hình 5-1: Cấu trúc sở liệu hệ thống Bảng 5-5: Mô tả bảng sở liệu STT Tên bảng Mô tả website Bảng chứa thông tin websie có sở liệu 46 Bảng chứa thơng tin báo có news sở liệu Bảng chứa quan hệ báo liên quan relation Trong news_id ID báo gốc related_url link báo liên quan tới báo gốc ban đầu 5.4 Kết thực nghiệm 5.4.1 Tốc độ trích xuất tự động Bảng 5-6: Hiệu hệ thống Công việc thực Kết Đọc cấu trúc HTML từ trang web 0.8s Phân tích trích xuất liệu 1.2s/bài tin Lưu trữ vào CSDL 0.5s/hàng Tập liệu đã thu thập thời điểm ~1,500 ghi 5.4.2 Kiểm tra độ xác thuật tốn Bảng 5-7: Tỉ lệ trích xuất thành cơng hai phương pháp Website Số URL Số báo trích xuất thành cơng từ phương pháp thủ cơng Số báo trích xuất thành cơng từ phương pháp tự động Tỉ lệ giống hai phương pháp Vnexpress.net 1000 100% 92.6% 88.5% Bbc.co.uk 1000 100% 90.5% 89.6% 5.4.3 Kiểm tra thời gian phản hồi Bảng 5-8: Thời gian phản hồi tương tác Tên thao tác Laptop Asus K53SV Từ CSDL Trực tiếp 47 Samsung Galaxy Tab Từ CSDL Trực tiếp Bấm vào nút tìm kiếm 3,02s 30,06s 3,35s 31.71s 2,05s N/A 2,06 N/A 1,98s N/A 2.01s N/A để lấy kết trích xuất Url Bấm vào nút “Next” để load trang Bấm vào nút “Prev” để trở trang trước Xóa khối 0,41s 0,82s Xóa nhiêu khối 1,02s 1.38s Click vào item 2.88s 2.92s 1,20s 1,45s menu category Kéo thả block để xếp theo category Trong đó: N/A chức khơng hỗ trợ 48 5.4.4 Một số hình ảnh chương trình thực nghiệm Hình 5-2: Giao diện chương trình 49 Hình 5-3: Giao diện đọc tin chi tiết chương trình 50 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Giao diện hiển thị trực quan tạo phương thức tiếp cận thông tin đơn giản hiệu Trong khóa luận này, phương pháp trích xuất liệu kết hợp với giao diện hiển thị linh hoạt cho thấy lợi ích việc biểu diễn thơng tin, mà nội dung báo liên kết trang báo Sự kết hợp tạo nên giao diện trực quan, với phương pháp tương tác mới, người dùng tùy biến giao diện, nâng cao trải nghiệm người dùng Trong khóa luận này, hệ thống đạt kết khả quan Thứ nhất, việc cải tiến thuật toán DSE, hệ thống trích xuất nội dung báo liên kết web từ trang HTML với độ xác cao Thứ hai, hệ thống cung cấp giao diện trực quan, hướng người dùng với nhiều phương pháp tương tác Từ kết đạt trên, thấy hệ thống thị giao diện trực quan xây dựng khố luận có nhiều hứa hẹn ứng dụng thực tế ứng dụng đọc báo đơn giản mà sinh động Với khả trích xuất nội dung báo từ nhiều nguồn website với ngôn ngữ khác nhau, hệ thống cho thấy mạnh hẳn so với ứng dụng tổng hợp báo Ngoài ra, với lợi giao diện hoạt động đa tảng trình duyệt Web khác nhau, người dùng dễ dàng tiếp cận với kết hiển thị mà không bị ràng buộc vào phần mềm hay thiết bị định Mặc dù vậy, bên cạnh kết đạt được, khố luận khơng tránh khỏi thiếu sót, nhược điểm hạn chế mặt thời gian công nghệ Hiện hệ thống chậm mặt hiệu trích xuất trực tiếp, thời gian phản hồi trích xuất trực tiếp cịn lâu Ngồi ra, hệ thống chưa phân lớp báo người dùng nhập trang báo với ngơn ngữ khơng phải tiếng Việt Bên cạnh đó, module phân lớp báo hoạt động thiếu xác dẫn tới số báo khơng gán nhãn với chuyên mục Hướng phát triển Trong thời gian tới, hệ thống cần cải tiến thêm số mặt Trong đó, tốc độ trích xuất trực tiếp hứa hẹn cải thiện nhờ ứng dụng quản lý đa luồng trích xuất Ngoài ra, tập liệu huấn luyện module phân lớp làm mịn hơn, giúp module phân lớp hoạt động hiệu 51 Tài liệu tham khảo Tiếng Việt [1] “Chỉ thị Ban Bí thư phát triển quản lý báo điện tử,” [Trực tuyến] Available: http://dantri.com.vn/suc-manh-so/chi-thi-cua-ban-bi-thu-ve-phat-trienva-quan-ly-bao-dien-tu-67739.htm [12] B T Hiển, “Hệ thống phân loại đánh mục web,” Khóa luận tốt nghiệp đại học quy, pp 6-7, 2013 [13] N S Khiêm, “Xây dựng giao diện ZUI cho web,” Khóa luận tốt nghiệp đại học quy, 2013 Tiếng Anh [2] J Wang and F Lochovsky, "Data-rich section extraction from html pages," 2002 [3] Ajay S Patil and B.V Pawar, "Automated Classification of Web Sites using Naive Bayesian Algorithm" [4] V Q Dũng and N V Hà, "Adaptive Web Page Layout for Mobile Devices," International conference on Computing, Management and Telecomunications, 2014 [5] B Atkins, "Adaptive photo collection page layout," Image Processing 2004 ICIP, 2004 [6] X Li, T MORIMOTO and Y TAKAYAMA, "Adaptive Page Layout For Ordered Blocks," Intelligent User Interfaces for Ambient Assisted Living, 2008 [7] P Lubbers, Pro HTML5 Programming 2nd edition, 2011 [8] "DOM," [Online] Available: http://www.w3.org/DOM/ [9] "Servlet overview," Oracle, [Online] http://www.oracle.com/technetwork/java/overview-137084.html 52 Available: [10] S Swasti and M Jena, "A Study on WEKA Tool for Data Preprocessing, Classification and Clustering," International Journal of Innovative Technology and Exploring Engineering [11] C Kohlschütter, "Boilerplate Detection using Shallow Text Features," The Third ACM International Conference on Web Search and Data Mining, 2010 [14] J Jimenez, "QuoJS," [Online] Available: http://quojs.tapquo.com/ [15] A Freeman, Pro jQuery, Apress, 2012 [16] N V Hà, V Q Dũng and X Li, "Implementing adaptive page layout algorithm in embedded devices," 2009 53 ... liên kết báo website Để xác định rõ toán biểu diễn trực quan liên kết web, cần xem xét tới đặc điểm liệu biểu diễn Để biểu diễn liên kết web, tập trung vào liệu báo điện tử, với liên kết web liên. .. tìm liên kết web đại diện cho báo liên quan tới báo gốc Từ đó, có tập liệu để biểu diễn trực quan Sau có liệu, cần có phương pháp để biểu diễn liệu cho người dùng nhìn thấy liên kết báo cách... từ trang html Cụ thể liệu nội dung báo Các liên kết web báo liên quan tới báo mà người dùng yêu cầu Phần 2: Kĩ thuật biểu diễn trực quan nội dung liên kết web trích xuất phần Phần 3: Phương pháp

Ngày đăng: 08/10/2015, 13:26

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan