Quản lý tin tức

Đánh giá kết quả:

Phân hệ Crawler và Extractor hoạt động tốt theo đúng yêu cầu đề ra, cho phép tải tin tức về từ các kênh đƣợc cấu hình sẵn. Kết quả bĩc tác nội dung tốt, khơng cĩ sai sĩt.

Phân hệ xử lý dữ liệu và phân loại: Kết quả phân loại tƣơng đối chính xác, tuy nhiên do số lƣợng tin thử nghiệm chƣa nhiều nên chƣa cĩ số liệu về tỉ lệ sai sĩt.

Các phân hệ quản lý hệ thống khác vận hành theo đúng thiết kế.

3.6. Tổng kết chƣơng 3

Chƣơng 3 mơ tả về các chức năng hệ thống đồng thời giới thiệu về cơng cụ rút trích dữ liệu HtmlAgiliti Pack và Ngơn ngữ truy vấn Xpath, từ đĩ thực hiện xây dựng hệ thống theo đúng các yêu cầu đề ra.

KẾT LUẬN

Đề tài đã trình bày đƣợc kiến thức tổng quan về khai phá dữ liệu, ứng dụng của phân loại dữ liệu trong khai phá dữ liệu web, một số thuật tốn tách từ và thuật tốn phân loại tiếng Việt. Đồng thời ứng dụng để xây dựng hệ thống tự động rút trích thơng tin từ các Website khác và phân loại tin tức tự động.

Kết quả đạt đƣợc:

- Trình bày tổng quan về khai phá dữ liệu, khai phá web, các bài tốn thơng dụng trong khai phá dữ liệu và ứng dụng.

- Trình bày về bài tốn phân lớp văn bản, cách biểu diễn và một số vấn đề trong xử lý dữ liệu văn bản, các phƣơng pháp tách từ tiếng Việt và các phƣơng pháp phân loại văn bản.

- Đề xuất giải pháp kỹ thuật tổng hợp thơng tin tự động trên internet và phân loại các tin thu thập đƣợc. Xây dựng mơ hình, cài đặt và thử nghiệm hệ thống.

Hạn chế:

- Thời gian bĩc tách, xử lý, phân loại tƣơng đối chậm do phải tính tốn trên tồn bộ dữ liệu.

- Hệ thống Crawler đƣợc xây dựng đơn giản, hiện tại mới chỉ giới hạn ở 2 cấp Url.

Hƣớng phát triển:

- Cải thiện chức năng của phân hệ bĩc tách dữ liệu cĩ độ tùy biến, linh động cao hơn thay vì phải cấu hình sẵn từng kênh tin một.

- Nghiên cứu các giải thuật phân loại nhằm tăng cƣờng tốc độ hệ thống và độ chính xác của việc phân loại thơng tin.

Mặc dù đã thực hiện đƣợc các nội dung cơ bản và xây dựng thử nghiệm thành cơng nhƣng luận văn cịn nhiều thiếu sĩt cần đƣợc bổ sung. Em rất mong nhận đƣợc ý kiến đĩng gĩp của thầy, cơ, bạn bè, đồng nghiệp để luận văn đƣợc hồn thiện hơn.

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1] Hà Quang Thụy (chủ biên) và các tác giả (2009), Giáo trình khai phá dữ

liệu web, Nhà xuất bản giáo dục.

[2] N.T. Hùng (2006), Hướng tiếp cận mới trong việc tách từ để phân loại văn bản tiếng Việt sử dụng giải thuật di truyền và thống kê trên Internet,

Đại học Quốc gia TP. HCM.

[3] Nguyễn Văn Ba (2003), Phân tích và thiết kế hệ thống thơng tin, NXB Đại học Quốc gia Hà Nội.

[4] Đinh Điền (2004), Giáo trình xử lý ngơn ngữ tự nhiên, Đại học Khoa học Tự Nhiên Tp.HCM.

Tiếng Anh

[5] Soumen Chakrabarti (2003), Mining the Web: Discovering Knowledge from Hypertext Data. Morgan Kaufmann Publishers.

[6] William W. Cohen and Andrew McCallum (2003), Information Extraction

from the World Wide Web. KDD.

[7] Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003), Modeling the Internet and theWeb: Probabilistic Methods and Algorithms, JohnWiley &

Sons Ltd.

[8] David L. Olson, Dursun Delen (2008), Advanced Data Mining Techniques, Springer-Verlag.

[9] Oded Maimon, Lior Rokach (2010), Data Mining and Knowledge Discovery Handbook, Second Edition, Springer Science + Business

Media, LLC.

[10] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and Vipin Kumar (2009), Next Generation of Data Mining, Taylor & Francis Group, LLC.

[11] Le An Ha (2003), A method for word segmentation Vietnamese,

Bài tốn phân lớp văn bản

Sơ đồ hệ thống WFST