Chương trình thử nghiệm

Áp dụng các nghiên cứu về lý thuyết phân cụm, trong chương trình thử nghiệm của chúng tôi, mỗi một bước thực hiện sẽđược tách thành từng phần riêng. Tương ứng với các chức năng chính đã mô tảở trên, chương trình bao gồm bốn module chính: Từđiển, Lấy dữ liệu, Phân cụm, Tìm kiếm.

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

- Module Từđiển: hiển thị tất cả các từ có trong từđiển Việt. Với dữ liệu ban đầu

được lấy từ nguồn từ điển Việt-Anh tại địa chỉ http://www.stardict.org ta sẽ có một kho từđiển khá hoàn chỉnh các từ Tiếng Việt. Tuy nhiên ta cũng có thể thêm hoặc bớt những từđã có nếu thấy cần thiết. Tập các từ trong từđiển này sẽ được sử dụng trong bước tách từ trong tài liệu cần phân cụm.

Hình: Màn hình hỗ trợ chức năng cập nhật chỉnh sửa Từđiển - Module Lấy dữ liệu: Để xây dựng kho dữ liệu các tài liệu Web, ta tiến hành lấy

dữ liệu về. Người sử dụng sẽ nhập đường dẫn URL của trang Web, hệ thống sẽ

tựđộng tìm kiếm và lấy tất cả nội dung của trang Web với một độ sâu n ( đã

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

Hình: Màn hình chức năng hỗ trợ lấy dữ liệu từ Internet

- Module Phân cụm: Sau khi tiến hành lấy dữ liệu, ta thực hiện phân cụm tài liệu. Hệ thống sẽ tiến hành phân cụm một cách tựđộng. Trong lần phân cụm khác với tập dữ liệu mới được lấy về, việc phân cụm sẽ không cần phân cụm lại với tập dữ liệu cũ mà ta đã phân cụm trước nữa. Việc phân cụm sẽ chỉ cần thực hiện trên tập dữ liệu mới với kết quả cũ của các lần phân cụm trước.

Trong thuật toán có sử dụng các tham số sau: M: Số lượng nhỏ nhất con của một nút M=8 B: Hệ số nhánh của cây B=20

S2:Ngưỡng tương tự 2 S2=1.0 S1: Ngưỡng tương tự 1 S1=0.3

repThreshold: Ngưỡng của đặc trưng tiêu biểu repThreshold=0.4 MCS: Cỡ phân cụm nhỏ nhất MCS=100

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

Hình: Màn hình hỗ trợ chức năng Phân cụm với dữ liệu đã lấy về từ

Internet

- Module Tìm kiếm: Người sử dụng sẽ nhập vào từ khoá cần tìm kiếm. Hệ thống sẽ tìm các tài liệu liên quan với từ khoá.

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

Hình: Màn hình chức năng hỗ trợ Tìm kiếm.

4.4. Kết luận chương 4

Chương này là kết quả cài đặt thử nghiệm của thuật toán phân cụm cho tài liệu Web Tiếng Việt sử dụng cấu trúc dữ liệu DC-tree đã được trình bày ở

chương 3. Chương trình cài đặt viết bằng ngôn ngữ lập trình C# trên nền tảng .Net Framework của Microsoft sử dụng SQL Server 2000 để lưu trữ cơ sở dữ

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

KẾT LUẬN

Luận văn cung cấp một số nội dung về phân cụm Web, đã đạt được một số kết quả như sau:

- Giới thiệu khái quát về bài toán phân cụm web, các giải pháp phân cụm web (các yêu cầu, kỹ thuật, đánh giá) trong đó chú ý tới tính tăng của các thuật toán phân cụm wbe,

- Trình bày hai thuật toán phân cụm web có tính tăng là STC và DC-tree.

Đã phân tích các nội dung kiến thức cơ bản, nền tảng phát triển các thuật toán này.

- Xây dựng phần mềm thử nghiệm phân cụm tài liệu theo thuật toán DC- tree. Hệ thống máy tìm kiếm-DC tree do luận văn phát triển đã được đưa lên web, có công cụ lưu các câu truy vấn của người dùng, các phân cụm tìm thấy và các liên kết được người dùng đi tới. Hệ thống đã hoạt động và thực hiện được việc phân cụm các tài liệu Web.

Do hạn chế về thời gian và năng lực, luận văn chưa tiến hành đánh giá chất lượng phân cụm của hệ thống. Trong tương lai, chúng tôi sẽ tiến hành các

đánh giá công phu hơn. Chúng tôi dự kiến đưa ra các thống kê dựa trên hành vi của hệ thống trong thực tế. Ngoài ra, chúng tôi có thể nghiên cứu các hướng giải quyết vấn đề từđồng nghĩa trong tiếng Việt.

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

TÀI LIỆU THAM KHÁO Tiếng Việt

[1]. Đinh Điền, Xử lý ngôn ngữ tự nhiên, NXB Giáo Dục.

Tiếng Anh

[2]. Clement T.Yu và Weiyi Meng (1998), Principles of Database Query

Processing for Advanced Application, Morgan Kaufmann Publisher, Inc.

[3]. Gerard Salton/Michael J.McGill, Introduction to Modern Information

Retrieval.

[4]. M. Steinbach, G. Karypis, V. Kumar (2000), A Comparison of Document

Clustering Techniques, TextMining Workshop, KDD.

[5]. O. Zamir and O. Etzioni (1998), Web Document Clustering: A Feasibility Demonstration, Proc. of the 21st ACM SIGIR Conference, 46-54.

[6]. O. Zamir, O. Etzioni, O Madani, R. M. Karp (1997), Fast and Intuitive

Clustering of Web Documents, Proc. of the 3rd International Conference on Knowledge Discovery and Data Mining.

[7]. K. Cios, W. Pedrycs, R. Swiniarski (1998), Data Mining – Methods for

Knowledge Discovery, Kluwer Academic Publishers.

[8]. R. Krishnapuram, A. Joshi, L. Yi (1999), A Fuzzy Relative of the k-Medoids Algorithm with Application to Web Document and Snippet Clustering, Proc. IEEE Intl. Conf. Fuzzy Systems, Korea.

[9]. Z. Jiang, A. Joshi, R. Krishnapuram, L. Yi (2000), Retriever: Improving Web Search Engine Results Using Clustering, Technical Report, CSEE Department, UMBC.

[10].T. H. Haveliwala, A. Gionis, P. Indyk (2000), Scalable Techniques for Clustering the Web, Extended Abstract, WebDB’2000, Third International Workshop on the Web and Databases, In conjunction with ACM SIGMOD’2000, Dallas, TX.

[11].A. Bouguettaya (1996), On-Line Clustering, IEEE Trans. on Knowledge

and Data Engineering.

[12].A. K. Jain và R. C. Dubes (1988), Algorithms for Clustering Data, John Wiley & Sons.

[13].G. Karypis, E. Han, V. Kumar (1999), CHAMELEON: A Hierarchical

Clustering Algorithm Using Dynamic Modeling, IEEE Computer 32.

[14].O. Zamir và O. Etzioni (1999), Grouper: A Dynamic Clustering Interface to Web Search Results, Proc. of the 8th International World Wide Web Conference, Toronto, Canada.

[15].D. R. Cutting, D. R. Karger, J. O. Pedersen, J.W. Tukey (1993),

Scatter/Gather: A Clusterbased Approach to Browsing Large Document Collections, In Proceedings of the 16th International ACM SIGIR Conference on Research and Development in Information Retrieval.

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

[16].R. Michalski, I. Bratko, M. Kubat (1998), Machine Learning and Data

Mining – Methods and Applications, John Wiley & Sons Ltd..

[17].J. Jang, C. Sun, E. Mizutani (1997), Neuro-Fuzzy and Soft Computing – A Computational Approach to Learning and Machine Intelligence, Prentice Hall.

[18].G. Biswas, J.B. Weinberg, D. Fisher (1998), ITERATE: A Conceptual

Clustering Algorithm for Data Mining, IEEE Transactions on Systems, Man and Cybernetics.

[19].Z. Huang (1997), A Fast Clustering Algorithm to Cluster Very Large

Categorical Data Sets in Data Mining, Workshop on Research Issues on Data Mining and Knowledge Discovery.

[20].Y. Yang và J. Pedersen (1997), A Comparative Study on Feature Selection in Text Categorization, In Proc. of the 14th International Conference on Machine Learning.

[21].A Guttman (1984). R-tree: A dynamic index structure for spatial searching,

In Proceedings of ACM SIGMOD.

[22].Bjornal Larsen và Chinatsu Aone (1999). Fast and effective text mining using lineartime document clustering, In Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego, CA, USA.

[23].C.J.van Rijbergen(1979), Information Retrieval, Butterworth & Co (Publishers) LTd.

[24].Wai-chiu Wong và Ada Fu (2000), Incremental Document Clustering for

Web Page Classification, IEEE 2000 Int, Conf. on Infor, Society in the 21st century: emerging technologies anf new challenges (IS2000), Nhật Bản. [25].Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003). Modeling the Internet

and the Web: Probabilistic Methods and Algorithms. Wiley, 2003.

[26].Sen Slattery (2002). Hypertext Classification. PhD Thesis (CMU-CS-02- 142). School of Computer Science. Carnegie Mellon University, 2002.

Phân cụm theo thứ bậc

Phân cụm bằng cách phân mảnh