Áp dụng các nghiên cứu về lý thuyết phân cụm, trong chương trình thử nghiệm của chúng tơi, mỗi một bước thực hiện sẽ được tách thành từng phần riêng. Tương ứng với các chức năng chính đã mơ tả ở trên, chương trình bao gồm bốn module chính: Từ điển, Lấy dữ liệu, Phân cụm, Tìm kiếm.
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
- Module Từ điển: hiển thị tất cả các từ có trong từ điển Việt. Với dữ liệu ban đầu
được lấy từ nguồn từ điển Việt-Anh tại địa chỉ http://www.stardict.org ta sẽ có một kho từ điển khá hồn chỉnh các từ Tiếng Việt. Tuy nhiên ta cũng có thể thêm hoặc bớt những từ đã có nếu thấy cần thiết. Tập các từ trong từ điển này sẽ được sử dụng trong bước tách từ trong tài liệu cần phân cụm.
Hình: Màn hình hỗ trợ chức năng cập nhật chỉnh sửa Từ điển - Module Lấy dữ liệu: Để xây dựng kho dữ liệu các tài liệu Web, ta tiến hành lấy
dữ liệu về. Người sử dụng sẽ nhập đường dẫn URL của trang Web, hệ thống sẽ tự động tìm kiếm và lấy tất cả nội dung của trang Web với một độ sâu n ( đã
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007.
Hình: Màn hình chức năng hỗ trợ lấy dữ liệu từ Internet
- Module Phân cụm: Sau khi tiến hành lấy dữ liệu, ta thực hiện phân cụm tài liệu. Hệ thống sẽ tiến hành phân cụm một cách tự động. Trong lần phân cụm khác với tập dữ liệu mới được lấy về, việc phân cụm sẽ không cần phân cụm lại với tập dữ liệu cũ mà ta đã phân cụm trước nữa. Việc phân cụm sẽ chỉ cần thực hiện trên tập dữ liệu mới với kết quả cũ của các lần phân cụm trước.
Trong thuật tốn có sử dụng các tham số sau: M: Số lượng nhỏ nhất con của một nút M=8 B: Hệ số nhánh của cây B=20
S2:Ngưỡng tương tự 2 S2=1.0 S1: Ngưỡng tương tự 1 S1=0.3
repThreshold: Ngưỡng của đặc trưng tiêu biểu repThreshold=0.4 MCS: Cỡ phân cụm nhỏ nhất MCS=100
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007.
Hình: Màn hình hỗ trợ chức năng Phân cụm với dữ liệu đã lấy về từ
Internet
- Module Tìm kiếm: Người sử dụng sẽ nhập vào từ khố cần tìm kiếm. Hệ thống sẽ tìm các tài liệu liên quan với từ khoá.
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007.
Hình: Màn hình chức năng hỗ trợ Tìm kiếm.
4.4. Kết luận chương 4
Chương này là kết quả cài đặt thử nghiệm của thuật toán phân cụm cho tài liệu Web Tiếng Việt sử dụng cấu trúc dữ liệu DC-tree đã được trình bày ở
chương 3. Chương trình cài đặt viết bằng ngơn ngữ lập trình C# trên nền tảng .Net Framework của Microsoft sử dụng SQL Server 2000 để lưu trữ cơ sở dữ liệu. Chương trình đã thực hiện việc phân cụm với kết quả tương đối hợp lý.
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
KẾT LUẬN
Luận văn cung cấp một số nội dung về phân cụm Web, đã đạt được một số kết quả như sau:
- Giới thiệu khái quát về bài toán phân cụm web, các giải pháp phân cụm web (các yêu cầu, kỹ thuật, đánh giá) trong đó chú ý tới tính tăng của các
thuật tốn phân cụm wbe,
- Trình bày hai thuật tốn phân cụm web có tính tăng là STC và DC-tree.
Đã phân tích các nội dung kiến thức cơ bản, nền tảng phát triển các thuật
toán này.
- Xây dựng phần mềm thử nghiệm phân cụm tài liệu theo thuật tốn DC-
tree. Hệ thống máy tìm kiếm-DC tree do luận văn phát triển đã được đưa lên web, có cơng cụ lưu các câu truy vấn của người dùng, các phân cụm tìm thấy và các liên kết được người dùng đi tới. Hệ thống đã hoạt động và thực hiện được việc phân cụm các tài liệu Web.
Do hạn chế về thời gian và năng lực, luận văn chưa tiến hành đánh giá chất lượng phân cụm của hệ thống. Trong tương lai, chúng tôi sẽ tiến hành các
đánh giá công phu hơn. Chúng tôi dự kiến đưa ra các thống kê dựa trên hành vi
của hệ thống trong thực tế. Ngoài ra, chúng tơi có thể nghiên cứu các hướng giải quyết vấn đề từ đồng nghĩa trong tiếng Việt.
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
TÀI LIỆU THAM KHÁO Tiếng Việt
[1]. Đinh Điền, Xử lý ngôn ngữ tự nhiên, NXB Giáo Dục.
Tiếng Anh
[2]. Clement T.Yu và Weiyi Meng (1998), Principles of Database Query
Processing for Advanced Application, Morgan Kaufmann Publisher, Inc.
[3]. Gerard Salton/Michael J.McGill, Introduction to Modern Information
Retrieval.
[4]. M. Steinbach, G. Karypis, V. Kumar (2000), A Comparison of Document
Clustering Techniques, TextMining Workshop, KDD.
[5]. O. Zamir and O. Etzioni (1998), Web Document Clustering: A Feasibility
Demonstration, Proc. of the 21st ACM SIGIR Conference, 46-54.
[6]. O. Zamir, O. Etzioni, O Madani, R. M. Karp (1997), Fast and Intuitive
Clustering of Web Documents, Proc. of the 3rd International Conference on
Knowledge Discovery and Data Mining.
[7]. K. Cios, W. Pedrycs, R. Swiniarski (1998), Data Mining – Methods for
Knowledge Discovery, Kluwer Academic Publishers.
[8]. R. Krishnapuram, A. Joshi, L. Yi (1999), A Fuzzy Relative of the k-Medoids
Algorithm with Application to Web Document and Snippet Clustering, Proc.
IEEE Intl. Conf. Fuzzy Systems, Korea.
[9]. Z. Jiang, A. Joshi, R. Krishnapuram, L. Yi (2000), Retriever: Improving
Web Search Engine Results Using Clustering, Technical Report, CSEE
Department, UMBC.
[10]. T. H. Haveliwala, A. Gionis, P. Indyk (2000), Scalable Techniques for
Clustering the Web, Extended Abstract, WebDB’2000, Third International
Workshop on the Web and Databases, In conjunction with ACM SIGMOD’2000, Dallas, TX.
[11]. A. Bouguettaya (1996), On-Line Clustering, IEEE Trans. on Knowledge and Data Engineering.
[12]. A. K. Jain và R. C. Dubes (1988), Algorithms for Clustering Data, John Wiley & Sons.
[13]. G. Karypis, E. Han, V. Kumar (1999), CHAMELEON: A Hierarchical
Clustering Algorithm Using Dynamic Modeling, IEEE Computer 32.
[14]. O. Zamir và O. Etzioni (1999), Grouper: A Dynamic Clustering Interface to
Web Search Results, Proc. of the 8th International World Wide Web
Conference, Toronto, Canada.
[15]. D. R. Cutting, D. R. Karger, J. O. Pedersen, J.W. Tukey (1993),
Scatter/Gather: A Clusterbased Approach to Browsing Large Document Collections, In Proceedings of the 16th International ACM SIGIR Conference on Research and Development in Information Retrieval.
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
[16]. R. Michalski, I. Bratko, M. Kubat (1998), Machine Learning and Data
Mining – Methods and Applications, John Wiley & Sons Ltd..
[17]. J. Jang, C. Sun, E. Mizutani (1997), Neuro-Fuzzy and Soft Computing – A
Computational Approach to Learning and Machine Intelligence, Prentice
Hall.
[18]. G. Biswas, J.B. Weinberg, D. Fisher (1998), ITERATE: A Conceptual
Clustering Algorithm for Data Mining, IEEE Transactions on Systems,
Man and Cybernetics.
[19]. Z. Huang (1997), A Fast Clustering Algorithm to Cluster Very Large
Categorical Data Sets in Data Mining, Workshop on Research Issues on
Data Mining and Knowledge Discovery.
[20]. Y. Yang và J. Pedersen (1997), A Comparative Study on Feature Selection
in Text Categorization, In Proc. of the 14th International Conference on Machine Learning.
[21]. A Guttman (1984). R-tree: A dynamic index structure for spatial searching, In Proceedings of ACM SIGMOD.
[22]. Bjornal Larsen và Chinatsu Aone (1999). Fast and effective text mining
using lineartime document clustering, In Proceedings of the ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining, San Diego, CA, USA.
[23]. C.J.van Rijbergen(1979), Information Retrieval, Butterworth & Co (Publishers) LTd.
[24]. Wai-chiu Wong và Ada Fu (2000), Incremental Document Clustering for
Web Page Classification, IEEE 2000 Int, Conf. on Infor, Society in the 21st
century: emerging technologies anf new challenges (IS2000), Nhật Bản. [25]. Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003). Modeling the Internet
and the Web: Probabilistic Methods and Algorithms. Wiley, 2003.
[26]. Sen Slattery (2002). Hypertext Classification. PhD Thesis (CMU-CS-02- 142). School of Computer Science. Carnegie Mellon University, 2002.