Chương trình thử nghiệm

Một phần của tài liệu Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm (Trang 67)

Áp dụng các nghiên cứu về lý thuyết phân cụm, trong chương trình thử nghiệm của chúng tơi, mỗi một bước thực hiện sẽ được tách thành từng phần riêng. Tương ứng với các chức năng chính đã mơ tả ở trên, chương trình bao gồm bốn module chính: Từ điển, Lấy dữ liệu, Phân cụm, Tìm kiếm.

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

- Module Từ điển: hiển thị tất cả các từ có trong từ điển Việt. Với dữ liệu ban đầu

được lấy từ nguồn từ điển Việt-Anh tại địa chỉ http://www.stardict.org ta sẽ có một kho từ điển khá hồn chỉnh các từ Tiếng Việt. Tuy nhiên ta cũng có thể thêm hoặc bớt những từ đã có nếu thấy cần thiết. Tập các từ trong từ điển này sẽ được sử dụng trong bước tách từ trong tài liệu cần phân cụm.

Hình: Màn hình hỗ trợ chức năng cập nhật chỉnh sửa Từ điển - Module Lấy dữ liệu: Để xây dựng kho dữ liệu các tài liệu Web, ta tiến hành lấy

dữ liệu về. Người sử dụng sẽ nhập đường dẫn URL của trang Web, hệ thống sẽ tự động tìm kiếm và lấy tất cả nội dung của trang Web với một độ sâu n ( đã

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007.

Hình: Màn hình chức năng hỗ trợ lấy dữ liệu từ Internet

- Module Phân cụm: Sau khi tiến hành lấy dữ liệu, ta thực hiện phân cụm tài liệu. Hệ thống sẽ tiến hành phân cụm một cách tự động. Trong lần phân cụm khác với tập dữ liệu mới được lấy về, việc phân cụm sẽ không cần phân cụm lại với tập dữ liệu cũ mà ta đã phân cụm trước nữa. Việc phân cụm sẽ chỉ cần thực hiện trên tập dữ liệu mới với kết quả cũ của các lần phân cụm trước.

Trong thuật tốn có sử dụng các tham số sau: M: Số lượng nhỏ nhất con của một nút M=8 B: Hệ số nhánh của cây B=20

S2:Ngưỡng tương tự 2 S2=1.0 S1: Ngưỡng tương tự 1 S1=0.3

repThreshold: Ngưỡng của đặc trưng tiêu biểu repThreshold=0.4 MCS: Cỡ phân cụm nhỏ nhất MCS=100

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007.

Hình: Màn hình hỗ trợ chức năng Phân cụm với dữ liệu đã lấy về từ

Internet

- Module Tìm kiếm: Người sử dụng sẽ nhập vào từ khố cần tìm kiếm. Hệ thống sẽ tìm các tài liệu liên quan với từ khoá.

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007.

Hình: Màn hình chức năng hỗ trợ Tìm kiếm.

4.4. Kết luận chương 4

Chương này là kết quả cài đặt thử nghiệm của thuật toán phân cụm cho tài liệu Web Tiếng Việt sử dụng cấu trúc dữ liệu DC-tree đã được trình bày ở

chương 3. Chương trình cài đặt viết bằng ngơn ngữ lập trình C# trên nền tảng .Net Framework của Microsoft sử dụng SQL Server 2000 để lưu trữ cơ sở dữ liệu. Chương trình đã thực hiện việc phân cụm với kết quả tương đối hợp lý.

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

KẾT LUẬN

Luận văn cung cấp một số nội dung về phân cụm Web, đã đạt được một số kết quả như sau:

- Giới thiệu khái quát về bài toán phân cụm web, các giải pháp phân cụm web (các yêu cầu, kỹ thuật, đánh giá) trong đó chú ý tới tính tăng của các

thuật tốn phân cụm wbe,

- Trình bày hai thuật tốn phân cụm web có tính tăng là STC và DC-tree.

Đã phân tích các nội dung kiến thức cơ bản, nền tảng phát triển các thuật

toán này.

- Xây dựng phần mềm thử nghiệm phân cụm tài liệu theo thuật tốn DC-

tree. Hệ thống máy tìm kiếm-DC tree do luận văn phát triển đã được đưa lên web, có cơng cụ lưu các câu truy vấn của người dùng, các phân cụm tìm thấy và các liên kết được người dùng đi tới. Hệ thống đã hoạt động và thực hiện được việc phân cụm các tài liệu Web.

Do hạn chế về thời gian và năng lực, luận văn chưa tiến hành đánh giá chất lượng phân cụm của hệ thống. Trong tương lai, chúng tôi sẽ tiến hành các

đánh giá công phu hơn. Chúng tôi dự kiến đưa ra các thống kê dựa trên hành vi

của hệ thống trong thực tế. Ngoài ra, chúng tơi có thể nghiên cứu các hướng giải quyết vấn đề từ đồng nghĩa trong tiếng Việt.

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

TÀI LIỆU THAM KHÁO Tiếng Việt

[1]. Đinh Điền, Xử lý ngôn ngữ tự nhiên, NXB Giáo Dục.

Tiếng Anh

[2]. Clement T.Yu và Weiyi Meng (1998), Principles of Database Query

Processing for Advanced Application, Morgan Kaufmann Publisher, Inc.

[3]. Gerard Salton/Michael J.McGill, Introduction to Modern Information

Retrieval.

[4]. M. Steinbach, G. Karypis, V. Kumar (2000), A Comparison of Document

Clustering Techniques, TextMining Workshop, KDD.

[5]. O. Zamir and O. Etzioni (1998), Web Document Clustering: A Feasibility

Demonstration, Proc. of the 21st ACM SIGIR Conference, 46-54.

[6]. O. Zamir, O. Etzioni, O Madani, R. M. Karp (1997), Fast and Intuitive

Clustering of Web Documents, Proc. of the 3rd International Conference on

Knowledge Discovery and Data Mining.

[7]. K. Cios, W. Pedrycs, R. Swiniarski (1998), Data Mining – Methods for

Knowledge Discovery, Kluwer Academic Publishers.

[8]. R. Krishnapuram, A. Joshi, L. Yi (1999), A Fuzzy Relative of the k-Medoids

Algorithm with Application to Web Document and Snippet Clustering, Proc.

IEEE Intl. Conf. Fuzzy Systems, Korea.

[9]. Z. Jiang, A. Joshi, R. Krishnapuram, L. Yi (2000), Retriever: Improving

Web Search Engine Results Using Clustering, Technical Report, CSEE

Department, UMBC.

[10]. T. H. Haveliwala, A. Gionis, P. Indyk (2000), Scalable Techniques for

Clustering the Web, Extended Abstract, WebDB’2000, Third International

Workshop on the Web and Databases, In conjunction with ACM SIGMOD’2000, Dallas, TX.

[11]. A. Bouguettaya (1996), On-Line Clustering, IEEE Trans. on Knowledge and Data Engineering.

[12]. A. K. Jain và R. C. Dubes (1988), Algorithms for Clustering Data, John Wiley & Sons.

[13]. G. Karypis, E. Han, V. Kumar (1999), CHAMELEON: A Hierarchical

Clustering Algorithm Using Dynamic Modeling, IEEE Computer 32.

[14]. O. Zamir và O. Etzioni (1999), Grouper: A Dynamic Clustering Interface to

Web Search Results, Proc. of the 8th International World Wide Web

Conference, Toronto, Canada.

[15]. D. R. Cutting, D. R. Karger, J. O. Pedersen, J.W. Tukey (1993),

Scatter/Gather: A Clusterbased Approach to Browsing Large Document Collections, In Proceedings of the 16th International ACM SIGIR Conference on Research and Development in Information Retrieval.

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

[16]. R. Michalski, I. Bratko, M. Kubat (1998), Machine Learning and Data

Mining – Methods and Applications, John Wiley & Sons Ltd..

[17]. J. Jang, C. Sun, E. Mizutani (1997), Neuro-Fuzzy and Soft Computing – A

Computational Approach to Learning and Machine Intelligence, Prentice

Hall.

[18]. G. Biswas, J.B. Weinberg, D. Fisher (1998), ITERATE: A Conceptual

Clustering Algorithm for Data Mining, IEEE Transactions on Systems,

Man and Cybernetics.

[19]. Z. Huang (1997), A Fast Clustering Algorithm to Cluster Very Large

Categorical Data Sets in Data Mining, Workshop on Research Issues on

Data Mining and Knowledge Discovery.

[20]. Y. Yang và J. Pedersen (1997), A Comparative Study on Feature Selection

in Text Categorization, In Proc. of the 14th International Conference on Machine Learning.

[21]. A Guttman (1984). R-tree: A dynamic index structure for spatial searching, In Proceedings of ACM SIGMOD.

[22]. Bjornal Larsen và Chinatsu Aone (1999). Fast and effective text mining

using lineartime document clustering, In Proceedings of the ACM SIGKDD

International Conference on Knowledge Discovery and Data Mining, San Diego, CA, USA.

[23]. C.J.van Rijbergen(1979), Information Retrieval, Butterworth & Co (Publishers) LTd.

[24]. Wai-chiu Wong và Ada Fu (2000), Incremental Document Clustering for

Web Page Classification, IEEE 2000 Int, Conf. on Infor, Society in the 21st

century: emerging technologies anf new challenges (IS2000), Nhật Bản. [25]. Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003). Modeling the Internet

and the Web: Probabilistic Methods and Algorithms. Wiley, 2003.

[26]. Sen Slattery (2002). Hypertext Classification. PhD Thesis (CMU-CS-02- 142). School of Computer Science. Carnegie Mellon University, 2002.

Một phần của tài liệu Phương pháp phân cụm tài liệu Web và áp dụng vào máy tìm kiếm (Trang 67)

Tải bản đầy đủ (PDF)

(74 trang)