Danh sách các thực thể

Một phần của tài liệu Nghiên cứu công nghệ khai phá dữ liệu văn bản áp dụng cho các trang tin tức trên các thiết bị cầm tay (PDAS & SMARTPHONES).PDF (Trang 44)

STT Tên các thực thể Mô tả thực thể

1. NewsCategory Danh mục tin tức của site

2. NewsSite Site tin tức

3. Template Trang mẫu

4. TemplateType Kiểu trang mẫu

5. NodeType Kiểu nút

6. NodeMapping Chi phí ánh xạ của 2 nút

7. RtdmTreeValue Giá trị RTDM của cây

8. TreeNode Nút của cây HTML

9. HtmlTree Cây HTML

10. DefautMappingValue Chứa giá trị mặc định cho chi phí xoá đỉnh, chèn đỉnh, thay thế đỉnh

Kênh tin tức điện tử cho các thiết bị cầm tay

46

CHƢƠNG 4. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Giới thiệu chung về hệ thống

Hệ thống được chia thành 2 module chính sau: Module quản trị và Module xem tin tức. Module quản trị là chương trình cho phép quản lý, chỉnh sửa, nhận dạng mẫu các trang tin tức mới và các trang đã được nhận dạng. Module xem tin tức là trang web cho phép người dùng cuối truy cập từ thiết bị cầm tay để xem tin tức từ các site mà hệ thống đã nhận dạng được.

4.2. Thực nghiệm và đánh giá kết quả

Kết quả thực nghiệm trên thuật toán RTDM

Theo thực nghiệm của Davi de Castro Reis và các đồng tác giả [28], khi so sánh thuật toán RTDM với thuật toán Chawathe [5] (thời gian tính toán cỡ O(n1.n2)) trong việc trích xuất mẫu chung, kết quả cho thấy RTDM trung bình nhanh hơn 4 lần, có trường hợp RTDM nhanh hơn 10 lần.

Kênh tin tức điện tử cho các thiết bị cầm tay

47

Kết quả thực nghiệm trên hệ thống

Kết quả thực nghiệm của luận văn trên 7 trang tin tức: Thanh Niên Online (thanhnien.com.vn), VN Express (vnexpress.net), Dân trí (dantri.com.vn), Việt Nam Net (vietnamnet.vn), Chúng Ta (chungta.com), Tiền phong Online (tienphongonline.com.vn), Tuổi Trẻ Online (tuoitre.com.vn) với trên 1388 trang HTML mẫu thu.

Tất cả các thực nghiệm được thực hiện trên máy tính với cấu hình như sau:

1 CPU Pentium M 1.6 GHz

2 RAM 512Mb

3 Đường truyền ADSL tốc độ

download/upload 2048bps/512bps

Kết quả thực nghiệm:

STT Trang tin tức Chiều sâu Chiều rộng Số trang tối đa Ngưỡng Số trang mẫu Số mẫu Thời gian huấn luyện (giây) 1 thanhnien.com.vn 4 100 300 300 264 24 821 2 vnexpress.net 4 80 250 200 203 13 374 3 dantri.com.vn 4 100 300 300 235 21 2012 4 vietnamnet.vn 4 80 400 300 323 19 1203 5 chungta.com 4 100 200 200 76 9 230 6 tienphongonline.com.vn 4 80 300 200 165 9 523 7 tuoitre.com.vn 5 50 150 200 122 22 404

Kênh tin tức điện tử cho các thiết bị cầm tay (adsbygoogle = window.adsbygoogle || []).push({});

48

Một số hình ảnh chƣơng trình:

Chức năng quản trị:

Kênh tin tức điện tử cho các thiết bị cầm tay

49

Kênh tin tức điện tử cho các thiết bị cầm tay

50

KẾT LUẬN

Kết quả đạt được

Luận văn đã tiến hành nghiên cứu giải pháp trích chọn thông tin trên Web nhằm xây dựng một hệ thống trích xuất tin tức cho phép xem được trên thiết bị cầm tay.

Giải pháp đề xuất trong luận văn này sử dụng thuật toán RTDM (Restricted Top-Down Mapping) do Davi de Castro Reis và các đồng tác giả đề xuất [28]. Thuật toán RTDM là thành phần lõi chính cho phép xây dựng một hệ thống nhận dạng các mẫu của trang tin tức và tiến hành trích xuất tin tức hoàn toàn tự động. Luận văn cũng đã tiến hành chi tiết và hoàn thiện các phần nội dung không công bố của thuật toán RTDM.

Trên cơ sở lý thuyết đã nghiên cứu, tác giả đã tiến hành phân tích, thiết kế và xây dựng hệ thống kênh cung cấp tin tức điện tử trên các thiết bị cầm tay thông minh hoàn chỉnh. Hệ thống đã được thử nghiệm cho các trang tin tức trên các báo điện tử tiếng Việt phổ dụng hiện nay và cho kết quả tốt.

Kết quả chưa đạt được và kế hoạch trong tương lai

Do thời gian nghiên cứu và xây dựng hệ thống có hạn cộng với thuật toán RTDM không được công bố đầy đủ nên chương trình thực nghiệm còn một số tính năng chưa hoàn thiện. Tốc độ nhận dạng mẫu, khớp dữ liệu còn chậm, trích xuất được một tin tức còn chiếm nhiều thời gian xử lý CPU và bộ nhớ RAM, vì vậy chưa khả thi để áp dụng thực tế.

Trong tương lai, tác giả dự định hoàn thiện thuật toán RTDM nhằm tăng tốc độ cho phép nhận dạng, trích xuất. Song song với việc tăng tốc thuật toán RTDM, kiến trúc chương trình cũng sẽ cần hoàn thiện cho phép nhiều truy cập đồng thời và nâng cao tính ổn định của hệ thống. Trên cơ sở đó sẽ áp dụng triển khai thực tế cho các trang tin tức tiếng Việt cũng như các trang tin tức tiếng Anh, Pháp,...

Kênh tin tức điện tử cho các thiết bị cầm tay

51 TÀI LIỆU THAM KHẢO

Tiếng Anh

1. A. Arasu, H. Garcia-Molina, and S. University. Extracting structured data from Web pages. In Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data, 337-348, ACM Press, 2003.

2. L. Arllota, V. Crescenzi, G. Mecca, and P. Merialdo. Automatic annotation of data extraction from large Web sites. In Proceedings of the International Workshop on the Web and Databases, 7-12, San Diego, USA, 2003.

3. R. Baeza-Yates and B. Ribeiro-Neto. Modern Information Retrieval. Addison-Wesley, Harlow, England, 1st edition, 1999.

4. V. Boyapati, K. Chevrier, A. Finkel, N. Glance, T. Pierce, R. Stockton, and C. Whitmer. ChangedetectorTM: a site-level monitoring tool for the WWW. In Proceedings of the 11th International Conference on World Wide Web, 570-579. ACM Press, 2002.

5. S. S. Chawathe. Comparing hierarchical data in external memory. In

Proceedings of the 25th International Conference on Very Large Data Bases, 90-101, Edinburgh, Scotland, U.K., 1999.

6. W. Chen. New algorithm for ordered tree-to-tree correction problem.

Journal of Algorithms, 40:135-158, 2001.

7. V. Crescenzi, G. Mecca, and P. Merialdo. RoadRunner: Towards automatic data extraction from large Web sites. In Proceedings of the 27th International Conference on Very Large Data Bases, 109-118, Rome, Italy, 2001.

8. V. Crescenzi, G. Mecca, and P. Merialdo. Wrapping-oriented classi_cation of Web pages. In Proceedings of the 2002 ACM Symposium on Applied Computing, 1108-1112. ACM Press, 2002. 9. D. Florescu, A. Levy, and A. Mendelzon. Database techniques for the

world-wide Web: a survey. SIGMOD Rec., 27(3):59-74, 1998.

10. M. Garofalakis, A. Gionis, R. Rastogi, S. Seshadri, and K. Shim. Xtract: a system for extracting document type descriptors from xml documents. In Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data, 165-176. ACM Press, 2000. (adsbygoogle = window.adsbygoogle || []).push({});

Kênh tin tức điện tử cho các thiết bị cầm tay

52

11. S. Grumbach and G. Mecca. In search of the lost schema. In C. Beeri and P. Buneman, editors, Proceedings of 7th International Conference on Database Theory, Lecture Notes in Computer Science, 314-331, Jerusalem, Israel, 1999. Springer.

12. A. Heydon and M. Najork. Mercator: A scalable, extensible Web crawler. World Wide Web, 2(4):219-229, 1999.

13. A. Laender, B. Ribeiro-Neto, A. Silva, and J. S. Teixeira. A brief survey of Web data extraction tools. SIGMOD Record, 31(2):84-93, 2002.

14. B. Liu, R. Grossman, and Y. Zhai. Mining data records in Web pages. In Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 601-606. ACM Press, 2003.

15. J.K. Min, J.Y. Ahn, and C.-W. Chung. Ef_cient extraction of schemas for xml documents. Information Processing Letters, 85(1):7-12, 2003.

16. A. Nierman and H. V. Jagadish. Evaluating structural similarity in XML documents. In Proceedings of the 5th International Workshop on the Web and Databases (WebDB 2002), Madison, Wisconsin, USA, June 2002.

17. S. M. Selkow. The tree-to-tree editing problem. Information Processing Letters, 6:184-186, Dec. 1977.

18. K.-C. Tai. The tree-to-tree correction problem. J. ACM, 26(3):422- 433, 1979.

19. G. Valiente. An efficient bottom-up distance between trees. In

Proceedings of the 8th International Symposium on String Processing and Information Retrieval, 212-219, Santiago, Chile, 2001. IEEE Computer Science Press.

20. G. Valiente. Tree edit distance and common subtrees. Research Report LSI-02-20-R, Universitat Politecnica de Catalunya, Barcelona, Spain, 2002.

21. J. T.-L. Wang, B. A. Shapiro, D. Shasha, K. Zhang, and K. M. Currey. An algorithm for finding the largest approximately common substructures of two trees. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(8):889-895, 1998.

Kênh tin tức điện tử cho các thiết bị cầm tay

53

22. J. T. L. Wang and K. Zhang. Finding similar consensus between trees: an algorithm and a distance hierarchy. Pattern Recognition, 34:127-137, 2001.

23. P. Willett. Recent trends in hierarchic document clustering: a critical review. Information Processing and Management, 24(5):577-597, 1988.

24. G. Yang, I. V. Ramakrishnan, and M. Kifer. On the complexity of schema inference from Web pages in the presence of nullable data attributes. In Proceedings of the 12th International Conference on Information and Knowledge Management, 224-231. ACM Press, 2003.

25. W. Yang. Identifying syntactic differences between two programs. Softw. Pract. Exper., 21(7):739-755, 1991.

26. K. Zhang, D. Shasha, and J. T. L. Wang. Approximate tree matching in the presence of variable length don't cares. J. Algorithms, 16(1):33-66, 1994.

27. K. Zhang, R. Statman, and D. Shasha. On the editing distance between unordered labeled trees. Information Processing Letters, 42(3):133-139, 1992.

28. Davi de Castro Reis, Paulo B. Golgher, Altigran S. da Silva, Alberto H. F. Laender. Automatic Web News Extraction Using Tree Edit Distance. In Proceedings of the Thirteenth International World Wide Web Conference, ACM Press, New York, NY, May 2004, ISBN 1581139128, 502-601.

Kênh tin tức điện tử cho các thiết bị cầm tay

54

PHỤ LỤC. MÔ TẢ CHI TIẾT CÁC THỰC THỂ

NewsSite

STT Tên thuộc tính Kiểu Loại khoá

Mô tả

1 Id Int PK Id của tờ báo (trang (adsbygoogle = window.adsbygoogle || []).push({});

tin tức)

2 Url Varchar(500) Đường dẫn tới trang

tin tức

3 SiteName Varchar(200) Tên của trang tin tức

4 Threshold Float Giá trị ngưỡng để

nhóm các trang tin lại

5 InsertCost Float Chi phí chèn đỉnh

6 UpdateCost Float Chi phí thay thế đỉnh

7 DeleteCost Float Chi phí xoá đỉnh

Bảng này chứa danh sách các tờ báo điện tử mà người dùng đã ghé thăm, địa chỉ Url ở đây chỉ lưu trữ địa chỉ của trang chủ. Các chi phí chèn, thay thế và xoá đỉnh có thể xác định giá trị cho từng tờ báo.

NewsCategory

STT Tên thuộc tính Kiểu Loại khoá

Mô tả

1 Id Int PK ID của mục tin

2 NewsSiteId Int FK ID của tờ báo (trang

tin tức) liên kết đến

3 ParentId Int FK ID của mục tin cấp

trên

4 CategoryName Varchar(200) Tên của mục tin

Kênh tin tức điện tử cho các thiết bị cầm tay

55

tin đó Bảng NewsCategory lưu trữ các mục tin chính của tờ báo.

Template

STT Tên thuộc tính Kiểu Loại khoá

Mô tả

1 Id Int PK Id của trang mẫu

2 NewsSiteId Int Id của tờ báo

3 TemplateTypeId Int FK Kiểu trang mẫu

(trang chủ, mục tin hay tin chi tiết)

Bảng này lưu trữ các mẫu trang tin, các trang mới ghé thăm sẽ được so sánh với trang mẫu để xác định kiểu trang tin (trang chủ, mục tin hay trang tin chi tiết…) và căn cứ vào kiểu trang tin sẽ có hình thức trích xuất tương ứng. (adsbygoogle = window.adsbygoogle || []).push({});

TemplateType

STT Tên thuộc tính Kiểu Loại khoá

Mô tả

1 Id Int PK Id của

TemplateType

2 TemplateTypeName Varchar(100) Tên của

templateType

3 Description varchar(500) Mô tả

templateType Kiểu trang tin: trang chủ, mục tin hay trang tin chi tiết…

NodeType

STT Tên thuộc tính Kiểu Loại khoá

Mô tả

Kênh tin tức điện tử cho các thiết bị cầm tay

56

2 NodeName Varchar(100) Tên của NodeType

3 Description varchar(500) Mô tả NodeType

Lưu trữ kiểu nút trong cây HTML, kiểu nút sẽ xác định nút đó có được giữ lại hay có thể loại bỏ khỏi cây.

NodeMapping

STT Tên thuộc tính Kiểu Loại khoá

Mô tả

1 Id Int PK Id của NodeMapping

2 NodeConnectedId Int Nút kết nối trong ánh xạ

3 MappingValue Float Giá trị của ánh xạ

2 TreeNodeId Int FK Id của nút

Bảng này lưu trữ chi phí ánh xạ giữa 2 nút.

RtdmTreeValue

STT Tên thuộc tính Kiểu Loại khoá

Mô tả

1 Id Int PK Id của RtdmTreeValue

2 TreeConnectedId Int FK Cây kết nối trong phép (adsbygoogle = window.adsbygoogle || []).push({});

tính rtdm

3 Value Float Giá trị Rtdm

Lưu trữ giá trị RTDM tính được khi chuyển đổi cây HTML sang cây có giá trị Id là: TreeConnectedId.

HtmlTree

STT Tên thuộc tính Kiểu Loại khoá

Kênh tin tức điện tử cho các thiết bị cầm tay

57

1 Id Int PK Id của TreeHtml

2 Url Varchar(500) Địa chỉ đến site tương

ứng

3 isPattern Varchar(3) Cây có là pattern

không

4 TemplateId Int FK Template chứa cây

Lưu trữ tất cả các trang Url đã được ghé thăm, mỗi một trang được ghé thăm sẽ tương ứng với một cây HTML.

TreeNode

STT Tên thuộc tính Kiểu Loại khoá

Mô tả

1 Id Int PK Id của TreeNode

2 Label Varchar(40) Nhãn của nút

3 ParentId Int FK Id của nút cha

4 Level Int Độ sâu của nút tính từ

gốc

5 OrderNumber Int Số thứ tự của nút trong

cùng cha

6 NodeTypeId Int FK Kiểu nút

7 HtmlTreeId Int FK Cây chứa nút

8 TreeOrder Int Thứ tự trong cây (duyệt

theo thứ tự trước)

Lưu trữ các nút của cây tương ứng với Url được ghé thăm, các thông tin của nút xác định được cấu trúc của cây HTML được lưu trữ.

(adsbygoogle = window.adsbygoogle || []).push({});

Một phần của tài liệu Nghiên cứu công nghệ khai phá dữ liệu văn bản áp dụng cho các trang tin tức trên các thiết bị cầm tay (PDAS & SMARTPHONES).PDF (Trang 44)