1. Trang chủ
  2. » Giáo Dục - Đào Tạo

NGHIÊN cứu CÔNG NGHỆ KHAI PHÁ dữ LIỆU văn bản, áp DỤNG CHO các TRANG TIN tức TRÊN các THIẾT bị cầm TAY (PDAS SMARTPHONES)

62 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ NGỌC ANH NGHIÊN CỨU CÔNG NGHỆ KHAI PHÁ DỮ LIỆU VĂN BẢN, ÁP DỤNG CHO CÁC TRANG TIN TỨC TRÊN CÁC THIẾT BỊ CẦM TAY (PDAS & SMARTPHONES) LUẬN VĂN THẠC SỸ KHOA HỌC HÀ NỘI-2006 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ NGỌC ANH NGHIÊN CỨU CÔNG NGHỆ KHAI PHÁ DỮ LIỆU VĂN BẢN, ÁP DỤNG CHO CÁC TRANG TIN TỨC TRÊN CÁC THIẾT BỊ CẦM TAY (PDAS & SMARTPHONES) NGÀNH CÔNG NGHỆ THÔNG TIN CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: 01.01.10 LUẬN VĂN THẠC SỸ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS HÀ QUANG THỤY HÀ NỘI-2006 Vũ Ngọc Anh – K9T3 Trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay LỜI CAM ĐOAN Tôi xin cam đoan kết nêu luận văn trung thực chưa công bố công trình khác Tác giả luận văn Vũ Ngọc Anh Vũ Ngọc Anh – K9T3 Trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay MỤC LỤC TÓM TẮT CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT CHÚ GIẢI KÝ HIỆU VÀ MƠ HÌNH CÁC HÌNH MINH HỌA MỞ ĐẦU CHƯƠNG I XÂY DỰNG KÊNH CUNG CẤP TIN ĐIỆN TỬ TRÊN THIẾT BỊ CẦM TAY 12 1.1 Báo điện tử công nghệ Internet không dây 12 1.1.1 Báo điện tử - thành tựu Internet 12 1.1.2 Sự phát triển thiết bị cầm tay 13 1.1.3 Công nghệ kết nối internet không dây 14 1.2 Bài toán xây dựng kênh tin tức điện tử thiết bị cầm tay 15 1.2.1 Mô tả toán 15 1.2.2 Mô tả chức hệ thống 16 1.3 Hướng tiếp cận giải toán 16 Chương II THUẬT TOÁN RTDM VÀ ỨNG DỤNG TRONG TRÍCH XUẤT TIN 18 2.1 Khái niệm “Chi phí chuyển đổi cây” 18 2.2 Thuật toán RTDM 22 2.3 Áp dụng RTDM trích xuất tin tức tự động 29 2.3.1 Phân cụm trang 31 2.3.2 Trích xuất mẫu chung 32 2.3.3 Khớp liệu 35 2.3.4 Gán nhãn liệu 37 Vũ Ngọc Anh – K9T3 Trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay Chương III PHÂN TÍCH THIẾT KẾ HỆ THỐNG 39 3.1.Giới thiệu 39 3.2 Mơ hình Use Case: 40 3.2 Mơ hình lớp 45 3.4 Danh sách thực thể 47 3.5 Mơ hình thực thể liên kết 48 Chương IV KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 49 4.1 Giới thiệu chung hệ thống 49 4.2 Thực nghiệm đánh giá kết 49 KẾT LUẬN 54 TÀI LIỆU THAM KHẢO 55 PHỤ LỤC MÔ TẢ CHI TIẾT CÁC THỰC THỂ 58 Vũ Ngọc Anh – K9T3 Trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay TÓM TẮT Luận văn quan tâm nghiên cứu giải pháp trích chọn thơng tin Web nhằm xây dựng hệ thống cung cấp tin tức thiết bị cầm tay thông minh mà tin tức trích chọn từ báo điện tử tiếng Việt Luận văn sử dụng thuật toán RTDM (Restricted Top-Down Mapping) Davi de Castro Reis đồng tác giả đề xuất [28], thuật toán đánh giá hiệu việc trích chọn tin tức tức tự động thơng qua việc phân tích cấu trúc Hiện RTDM dùng thành phần lõi hệ thống trích xuất tin tức có tên AkwanClipping (Akwan Information Technologies, http://www.akwan.com, thuộc công ty Google Braxin) cung cấp tin tức hàng ngày tờ báo phổ biến Braxin Luận văn tiến hành chi tiết hoàn thiện phần nội dung khơng cơng bố thuật tốn RTDM, đồng thời tiến hành xây dựng hệ thống kênh cung cấp tin điện tử thiết bị cầm tay thơng minh Hệ thống thử nghiệm việc trích chọn tin tức báo điện tử tiếng Việt phổ dụng cho kết đáng khích lệ Chúng tiến hành cải tiến tốc độ làm việc hệ thống nhằm tiến tới đưa hệ thống vào hoạt động thực tế Vũ Ngọc Anh – K9T3 Trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT Từ viết tắt Giải nghĩa RTDM Restricted Top-Down Mapping PDA Personal digital assistant Data extraction Trích xuất liệu Trees Cây biểu diễn cấu trúc trang HTML Edit distance Chi phí chuyển đổi (thay thế, chèn, xoá nút) PK Primary Key FK Foreign Key PF Primary & Foreign Key Tx Cây biểu diễn trang Web Tx[i] Nút thứ i Tx t[i] Cây có nút gốc vị trí thứ i Vũ Ngọc Anh – K9T3 Trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay CHÚ GIẢI KÝ HIỆU VÀ MƠ HÌNH STT Ký hiệu Giải thích Tiến trình thực nhiệm vụ hệ thống Tác nhân hệ thống, đóng vai trị tương tác với hệ thống q trình thực Nguồn thơng tin cung cấp cho hệ thống Điều kiện kiểm tra đưa định tương ứng với kết nhận Miêu tả phụ thuộc lẫn đối tượng Vũ Ngọc Anh – K9T3 Trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay CÁC HÌNH MINH HỌA Hình - Ví dụ ánh xạ 20 Hình – Ví dụ ánh xạ trên-xuống 21 Hình – Một ví dụ ánh xạ xuống hạn chế 23 Hình - Một mẫu tin chi tiết Quốc tế trang tienphongonline.com.vn 30 Hình 7: Các bước trích xuất tin tức [28] 31 Hình - Các bước hình thành ne-pattern từ nhóm 37 Hình : Gói lớp quản lý HTML Error! Bookmark not defined Hình 10 : Gói lớp phục vụ tính tốn giá trị RTDM 46 Hình 11 : Gói lớp quản lý trang tin tức 46 Vũ Ngọc Anh – K9T3 Trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay MỞ ĐẦU Sự phát triển báo điện tử, thành Internet nói riêng Cơng nghệ thơng tin nói chung, dẫn tới thay đổi lớn thói quen đọc báo Internet với ưu tốc độ khả vươn xa cho phép độc giả tiếp cận tin tức lúc nơi Với tiến không ngừng công nghệ viễn thông, ngày thiết bị cầm tay thông minh ngày phổ biến với giá ngày hạ trở thành công cụ đắc lực, bình dân khơng thể thay Tốc độ kết nối Internet không dây cải thiện không tốc độ mà phạm vi phủ sóng, đó, hệ mạng khơng dây chuẩn WIMAX (IEEE 802.16) cho phép khoảng cách phủ sóng tới 50km thông lượng tối đa tới 70Mbps Tất yếu tố trở thành tiền đề cho việc đáp ứng nhu cầu xem tin tức thiết bị cầm tay, nhu cầu trở thành thiết yếu, hàng ngày, hàng người dùng cuối thiết bị Tuy nhiên, việc đọc báo thiết bị cầm tay nhiều bất tiện Khung hình hạn chế thiết bị cầm tay khơng cho phép hiển thị trang Web thiết kế cho máy tính để bàn: font chữ thường bị lỗi xem tin tức thiết bị cầm tay, thông tin quảng cáo banner tải với tin tức làm giảm đáng kể tốc độ gây tràn hình… Chính vậy, mục đích luận văn xây dựng hệ thống cho phép dễ dàng thuận tiện xem tin tức tiếng Việt báo điện tử thiết bị cầm tay thơng minh Luận văn sử dụng thuật tốn RTDM (Restricted Top-Down Mapping) Davi de Castro Reis đồng tác giả đề xuất [28], thuật toán đánh giá hiệu việc trích xuất tin tức tức tự động thơng qua việc phân tích cấu trúc Thuật toán RTDM cải tiến thuật tốn trích xuất thơng tin Web có để áp dụng đặc thù riêng cho tốn trích xuất tin tức Qua thực nghiệm 35 trang tin tức, thuật tốn RTDM cho kết trung bình 87.71% trích xuất tin tức thành cơng khơng cần có can thiệp người Hiện tại, RTDM sử dụng thành phần lõi hệ thống trích xuất tin tức có tên AkwanClipping (Akwan Information Technologies, http://www.akwan.com, Vũ Ngọc Anh – K9T3 Trang LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay 3.4 Danh sách thực thể STT Tên thực thể Mô tả thực thể NewsCategory Danh mục tin tức site NewsSite Site tin tức Template Trang mẫu TemplateType Kiểu trang mẫu NodeType Kiểu nút NodeMapping Chi phí ánh xạ nút RtdmTreeValue Giá trị RTDM TreeNode Nút HTML HtmlTree Cây HTML 10 DefautMappingValue Chứa giá trị mặc định cho chi phí xố đỉnh, chèn đỉnh, thay đỉnh Mơ tả chi tiết thực thể trình bày Phần phụ lục Vũ Ngọc Anh – K9T3 Trang 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay 3.5 Mơ hình thực thể liên kết Vũ Ngọc Anh – K9T3 Trang 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay CHƯƠNG IV KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Giới thiệu chung hệ thống Hệ thống chia thành module sau: Module quản trị Module xem tin tức Module quản trị chương trình cho phép quản lý, chỉnh sửa, nhận dạng mẫu trang tin tức trang nhận dạng Module xem tin tức trang web cho phép người dùng cuối truy cập từ thiết bị cầm tay để xem tin tức từ site mà hệ thống nhận dạng 4.2 Thực nghiệm đánh giá kết Kết thực nghiệm thuật toán RTDM Theo thực nghiệm Davi de Castro Reis đồng tác giả [28], so sánh thuật toán RTDM với thuật toán Chawathe [5] (thời gian tính tốn cỡ O(n1.n2)) việc trích xuất mẫu chung, kết cho thấy RTDM trung bình nhanh lần, có trường hợp RTDM nhanh 10 lần Vũ Ngọc Anh – K9T3 Trang 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay Kết thực nghiệm hệ thống Kết thực nghiệm luận văn trang tin tức: Thanh Niên Online (thanhnien.com.vn), VN Express (vnexpress.net), Dân trí (dantri.com.vn), Việt Nam Net (vietnamnet.vn), Chúng Ta (chungta.com), Tiền phong Online (tienphongonline.com.vn), Tuổi Trẻ Online (tuoitre.com.vn) với 1388 trang HTML mẫu thu Tất thực nghiệm thực máy tính với cấu sau: CPU Pentium M 1.6 GHz RAM 512Mb Đường truyền ADSL tốc độ 2048bps/512bps download/upload Vũ Ngọc Anh – K9T3 Trang 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay Kết thực nghiệm: Thời STT Trang tin tức Chiều Chiều sâu rộng Số trang Số Ngưỡng tối đa trang mẫu Số mẫu gian huấn luyện (giây) thanhnien.com.vn 100 300 300 264 24 821 vnexpress.net 80 250 200 203 13 374 dantri.com.vn 100 300 300 235 21 2012 vietnamnet.vn 80 400 300 323 19 1203 chungta.com 100 200 200 76 230 tienphongonline.com.vn 80 300 200 165 523 tuoitre.com.vn 50 150 200 122 22 404 Vũ Ngọc Anh – K9T3 Trang 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay Một số hình ảnh chương trình: Chức quản trị: Các hình ảnh chương trình thiết bị cầm tay: Vũ Ngọc Anh – K9T3 Trang 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay Vũ Ngọc Anh – K9T3 Trang 53 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay KẾT LUẬN Kết đạt Luận văn tiến hành nghiên cứu giải pháp trích chọn thông tin Web nhằm xây dựng hệ thống trích xuất tin tức cho phép xem thiết bị cầm tay Giải pháp đề xuất luận văn sử dụng thuật toán RTDM (Restricted Top-Down Mapping) Davi de Castro Reis đồng tác giả đề xuất [28] Thuật tốn RTDM thành phần lõi cho phép xây dựng hệ thống nhận dạng mẫu trang tin tức tiến hành trích xuất tin tức hoàn toàn tự động Luận văn tiến hành chi tiết hoàn thiện phần nội dung khơng cơng bố thuật tốn RTDM Trên sở lý thuyết nghiên cứu, tác giả tiến hành phân tích, thiết kế xây dựng hệ thống kênh cung cấp tin tức điện tử thiết bị cầm tay thơng minh hồn chỉnh Hệ thống thử nghiệm cho trang tin tức báo điện tử tiếng Việt phổ dụng cho kết tốt Kết chưa đạt kế hoạch tương lai Do thời gian nghiên cứu xây dựng hệ thống có hạn cộng với thuật tốn RTDM khơng cơng bố đầy đủ nên chương trình thực nghiệm cịn số tính chưa hồn thiện Tốc độ nhận dạng mẫu, khớp liệu chậm, trích xuất tin tức cịn chiếm nhiều thời gian xử lý CPU nhớ RAM, chưa khả thi để áp dụng thực tế Trong tương lai, tác giả dự định hồn thiện thuật tốn RTDM nhằm tăng tốc độ cho phép nhận dạng, trích xuất Song song với việc tăng tốc thuật toán RTDM, kiến trúc chương trình cần hồn thiện cho phép nhiều truy cập đồng thời nâng cao tính ổn định hệ thống Trên sở áp dụng triển khai thực tế cho trang tin tức tiếng Việt trang tin tức tiếng Anh, Pháp, Vũ Ngọc Anh – K9T3 Trang 54 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay TÀI LIỆU THAM KHẢO [1] A Arasu, H Garcia-Molina, and S University Extracting structured data from Web pages In Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data, 337-348, ACM Press, 2003 [2] L Arllota, V Crescenzi, G Mecca, and P Merialdo Automatic annotation of data extraction from large Web sites In Proceedings of the International Workshop on the Web and Databases, 7-12, San Diego, USA, 2003 [3] R Baeza-Yates and B Ribeiro-Neto Modern Information Retrieval Addison-Wesley, Harlow, England, 1st edition, 1999 [4] V Boyapati, K Chevrier, A Finkel, N Glance, T Pierce, R Stockton, and C Whitmer ChangedetectorTM: a site-level monitoring tool for the WWW In Proceedings of the 11th International Conference on World Wide Web, 570-579 ACM Press, 2002 [5] S S Chawathe Comparing hierarchical data in external memory In Proceedings of the 25th International Conference on Very Large Data Bases, 90-101, Edinburgh, Scotland, U.K., 1999 [6] W Chen New algorithm for ordered tree-to-tree correction problem Journal of Algorithms, 40:135-158, 2001 [7] V Crescenzi, G Mecca, and P Merialdo RoadRunner: Towards automatic data extraction from large Web sites In Proceedings of the 27th International Conference on Very Large Data Bases, 109-118, Rome, Italy, 2001 [8] V Crescenzi, G Mecca, and P Merialdo Wrapping-oriented classi_cation of Web pages In Proceedings of the 2002 ACM Symposium on Applied Computing, 1108-1112 ACM Press, 2002 [9] D Florescu, A Levy, and A Mendelzon Database techniques for the world-wide Web: a survey SIGMOD Rec., 27(3):59-74, 1998 [10] M Garofalakis, A Gionis, R Rastogi, S Seshadri, and K Shim Xtract: a system for extracting document type descriptors from xml documents In Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data, 165-176 ACM Press, 2000 Vũ Ngọc Anh – K9T3 Trang 55 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay [11] S Grumbach and G Mecca In search of the lost schema In C Beeri and P Buneman, editors, Proceedings of 7th International Conference on Database Theory, Lecture Notes in Computer Science, 314-331, Jerusalem, Israel, 1999 Springer [12] A Heydon and M Najork Mercator: A scalable, extensible Web crawler World Wide Web, 2(4):219-229, 1999 [13] A Laender, B Ribeiro-Neto, A Silva, and J S Teixeira A brief survey of Web data extraction tools SIGMOD Record, 31(2):84-93, 2002 [14] B Liu, R Grossman, and Y Zhai Mining data records in Web pages In Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 601-606 ACM Press, 2003 [15] J.K Min, J.Y Ahn, and C.-W Chung Ef_cient extraction of schemas for xml documents Information Processing Letters, 85(1):7-12, 2003 [16] A Nierman and H V Jagadish Evaluating structural similarity in XML documents In Proceedings of the 5th International Workshop on the Web and Databases (WebDB 2002), Madison, Wisconsin, USA, June 2002 [17] S M Selkow The tree-to-tree editing problem Information Processing Letters, 6:184-186, Dec 1977 [18] K.-C Tai The tree-to-tree correction problem J ACM, 26(3):422-433, 1979 [19] G Valiente An efficient bottom-up distance between trees In Proceedings of the 8th International Symposium on String Processing and Information Retrieval, 212-219, Santiago, Chile, 2001 IEEE Computer Science Press [20] G Valiente Tree edit distance and common subtrees Research Report LSI-02-20-R, Universitat Politecnica de Catalunya, Barcelona, Spain, 2002 [21] J T.-L Wang, B A Shapiro, D Shasha, K Zhang, and K M Currey An algorithm for finding the largest approximately common substructures of two trees IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(8):889-895, 1998 Vũ Ngọc Anh – K9T3 Trang 56 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay [22] J T L Wang and K Zhang Finding similar consensus between trees: an algorithm and a distance hierarchy Pattern Recognition, 34:127137, 2001 [23] P Willett Recent trends in hierarchic document clustering: a critical review Information Processing and Management, 24(5):577-597, 1988 [24] G Yang, I V Ramakrishnan, and M Kifer On the complexity of schema inference from Web pages in the presence of nullable data attributes In Proceedings of the 12th International Conference on Information and Knowledge Management, 224-231 ACM Press, 2003 [25] W Yang Identifying syntactic differences between two programs Softw Pract Exper., 21(7):739-755, 1991 [26] K Zhang, D Shasha, and J T L Wang Approximate tree matching in the presence of variable length don't cares J Algorithms, 16(1):33-66, 1994 [27] K Zhang, R Statman, and D Shasha On the editing distance between unordered labeled trees Information Processing Letters, 42(3):133139, 1992 [28] Davi de Castro Reis, Paulo B Golgher, Altigran S da Silva, Alberto H F Laender Automatic Web News Extraction Using Tree Edit Distance In Proceedings of the Thirteenth International World Wide Web Conference, ACM Press, New York, NY, May 2004, ISBN 1581139128, 502-601 [29] Một số báo www.tuoitre.com.vn, Vũ Ngọc Anh – K9T3 trang www.vnexpress.net , Trang 57 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay PHỤ LỤC MÔ TẢ CHI TIẾT CÁC THỰC THỂ NewsSite STT Tên thuộc tính Kiểu Loại khố PK Mơ tả Id Int Id tờ báo (trang tin tức) Url Varchar(500) Đường dẫn tới trang tin tức SiteName Varchar(200) Tên trang tin tức Threshold Float Giá trị ngưỡng để nhóm trang tin lại InsertCost Float Chi phí chèn đỉnh UpdateCost Float Chi phí thay đỉnh DeleteCost Float Chi phí xố đỉnh Bảng chứa danh sách tờ báo điện tử mà người dùng ghé thăm, địa Url lưu trữ địa trang chủ Các chi phí chèn, thay xố đỉnh xác định giá trị cho tờ báo NewsCategory STT Tên thuộc tính Kiểu Loại khố Mơ tả Id Int PK ID mục tin NewsSiteId Int FK ID tờ báo (trang tin tức) liên kết đến ParentId Int FK ID mục tin cấp CategoryName Varchar(200) Tên mục tin CategoryUrl Varchar(500) Đường dẫn đến mục tin Vũ Ngọc Anh – K9T3 Trang 58 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay Bảng NewsCategory lưu trữ mục tin tờ báo Template STT Tên thuộc tính Kiểu Id Int NewsSiteId Int Loại khố PK Mơ tả Id trang mẫu Id tờ báo TemplateTypeId Int FK Kiểu trang mẫu (trang chủ, mục tin hay tin chi tiết) Bảng lưu trữ mẫu trang tin, trang ghé thăm so sánh với trang mẫu để xác định kiểu trang tin (trang chủ, mục tin hay trang tin chi tiết…) vào kiểu trang tin có hình thức trích xuất tương ứng TemplateType STT Tên thuộc tính Id Kiểu Loại khố Int Mơ tả PK Id TemplateType TemplateTypeName Varchar(100) Tên templateType Description Mô tả templateType varchar(500) Kiểu trang tin: trang chủ, mục tin hay trang tin chi tiết… NodeType STT Tên thuộc tính Kiểu Id Int NodeName Varchar(100) Vũ Ngọc Anh – K9T3 Loại khố PK Mơ tả Id NodeType Tên NodeType Trang 59 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay Description varchar(500) Mô tả NodeType Lưu trữ kiểu nút HTML, kiểu nút xác định nút có giữ lại hay loại bỏ khỏi NodeMapping STT Tên thuộc tính Id Kiểu Int Loại khố PK Mô tả Id NodeMapping NodeConnectedId Int Nút kết nối ánh xạ MappingValue Float Giá trị ánh xạ TreeNodeId Int FK Id nút Bảng lưu trữ chi phí ánh xạ nút RtdmTreeValue STT Tên thuộc tính Id Kiểu Loại khố Mơ tả Int PK Id RtdmTreeValue TreeConnectedId Int FK Cây kết nối phép tính rtdm Value Float Giá trị Rtdm Lưu trữ giá trị RTDM tính chuyển đổi HTML sang có giá trị Id là: TreeConnectedId HtmlTree STT Tên thuộc tính Vũ Ngọc Anh – K9T3 Kiểu Loại khố Mơ tả Trang 60 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kênh tin tức điện tử cho thiết bị cầm tay Id Int PK Url Varchar(500) Id TreeHtml Địa đến site tương ứng isPattern Varchar(3) TemplateId Int Cây có pattern khơng FK Template chứa Lưu trữ tất trang Url ghé thăm, trang ghé thăm tương ứng với HTML TreeNode STT Tên thuộc tính Kiểu Id Int Label Varchar(40) ParentId Int Level Int Loại khố PK Mơ tả Id TreeNode Nhãn nút FK Id nút cha Độ sâu nút tính từ gốc OrderNumber Int Số thứ tự nút cha NodeTypeId Int FK Kiểu nút HtmlTreeId Int FK Cây chứa nút TreeOrder Int Thứ tự (duyệt theo thứ tự trước) Lưu trữ nút tương ứng với Url ghé thăm, thông tin nút xác định cấu trúc HTML lưu trữ Vũ Ngọc Anh – K9T3 Trang 61 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... tin tức điện tử cho thiết bị cầm tay ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ NGỌC ANH NGHIÊN CỨU CÔNG NGHỆ KHAI PHÁ DỮ LIỆU VĂN BẢN, ÁP DỤNG CHO CÁC TRANG TIN TỨC TRÊN CÁC THIẾT BỊ... Kênh tin tức điện tử cho thiết bị cầm tay 1.2 Bài toán xây dựng kênh tin tức điện tử thiết bị cầm tay 1.2.1 Mơ tả tốn Mục tiêu luận văn nghiên cứu công nghệ khai phá liệu văn bản, áp dụng cho. .. lại cho phép hiển thị thiết bị cầm tay - Đề xuất giải pháp: Sử dụng kĩ thuật phân tích cấu trúc trang tin sử dụng thuật toán RTDM [28] Giải pháp áp dụng định dạng cho trang tin xem hình thiết bị

Ngày đăng: 01/11/2022, 19:23

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w