Kết luận chương 4

Một phần của tài liệu Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm (Trang 85 - 90)

Chương này là kết quả cài đặt thử nghiệm của thuật toán phân cụm cho tài liệu Web Tiếng Việt sử dụng cấu trúc dữ liệu DC-tree đã được trình bày ở chương 3. Chương trình cài đặt viết bằng ngôn ngữ lập trình C# trên nền tảng .Net Framework của Microsoft sử dụng SQL Server 2000 để lưu trữ cơ sở dữ liệụ Chương trình đã thực hiện việc phân cụm với kết quả tương đối hợp lý.

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

KT LUN

Luận văn cung cấp một số nội dung về phân cụm Web, đã đạt được một số kết quả như sau:

- Giới thiệu khái quát về bài toán phân cụm web, các giải pháp phân cụm web (các yêu cầu, kỹ thuật, đánh giá) trong đó chú ý tới tính tăng của các thuật toán phân cụm Web,

- Trình bày hai thuật toán phân cụm web có tính tăng là STC và DC- treẹ Đã phân tích các nội dung kiến thức cơ bản, nền tảng phát triển các thuật toán nàỵ

- Xây dựng phần mềm thử nghiệm phân cụm tài liệu theo thuật toán DC-treẹ Hệ thống máy tìm kiếm - DC tree do luận văn phát triển đã được đưa lên web, có công cụ lưu các câu truy vấn của người dùng, các phân cụm tìm thấy và các liên kết được người dùng đi tớị Hệ thống đã hoạt động và thực hiện được việc phân cụm các tài liệu Web.

Do hạn chế về thời gian và năng lực, luận văn chưa tiến hành đánh giá chất lượng phân cụm của hệ thống. Trong tương lai, chúng tôi sẽ tiến hành các đánh giá công phu hơn. Chúng tôi dự kiến đưa ra các thống kê dựa trên hành vi của hệ thống trong thực tế. Ngoài ra, chúng tôi có thể nghiên cứu các hướng giải quyết vấn đề từ đồng nghĩa trong tiếng Việt.

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

TÀI LIU THAM KHÁO Tiếng Việt

[1]. Đinh Điền, Xử lý ngôn ngữ tự nhiên, NXB Giáo Dục.

Tiếng Anh

[2]. Clement T.Yu và Weiyi Meng (1998), Principles of Database Query

Processing for Advanced Application, Morgan Kaufmann Publisher,

Inc.

[3]. Gerard Salton/Michael J.McGill, Introduction to Modern Information

Retrieval.

[4]. M. Steinbach, G. Karypis, V. Kumar (2000), A Comparison of

Document Clustering Techniques, TextMining Workshop, KĐ.

[5]. Ọ Zamir and Ọ Etzioni (1998), Web Document Clustering: A

Feasibility Demonstration, Proc. of the 21st ACM SIGIR Conference,

46-54.

[6]. Ọ Zamir, Ọ Etzioni, O Madani, R. M. Karp (1997), Fast and

Intuitive Clustering of Web Documents, Proc. of the 3rd International

Conference on Knowledge Discovery and Data Mining.

[7]. K. Cios, W. Pedrycs, R. Swiniarski (1998), Data Mining – Methods

for Knowledge Discovery, Kluwer Academic Publishers.

[8]. R. Krishnapuram, Ạ Joshi, L. Yi (1999), A Fuzzy Relative of the k-

Medoids Algorithm with Application to Web Document and Snippet Clustering, Proc. IEEE Intl. Conf. Fuzzy Systems, Koreạ

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

[9]. Z. Jiang, Ạ Joshi, R. Krishnapuram, L. Yi (2000), Retriever:

Improving Web Search Engine Results Using Clustering, Technical

Report, CSEE Department, UMBC.

[10]. T. H. Haveliwala, Ạ Gionis, P. Indyk (2000), Scalable Techniques for

Clustering the Web, Extended Abstract, WebDB’2000, Third

International Workshop on the Web and Databases, In conjunction with ACM SIGMOD’2000, Dallas, TX.

[11]. Ạ Bouguettaya (1996), On-Line Clustering, IEEE Trans. on Knowledge and Data Engineering.

[12]. Ạ K. Jain và R. C. Dubes (1988), Algorithms for Clustering Data, John Wiley & Sons.

[13]. G. Karypis, Ẹ Han, V. Kumar (1999), CHAMELEON: A Hierarchical

Clustering Algorithm Using Dynamic Modeling, IEEE Computer 32.

[14]. Ọ Zamir và Ọ Etzioni (1999), Grouper: A Dynamic Clustering

Interface to Web Search Results, Proc. of the 8th International World

Wide Web Conference, Toronto, Canadạ

[15]. D. R. Cutting, D. R. Karger, J. Ọ Pedersen, J.W. Tukey (1993),

Scatter/Gather: A Clusterbased Approach to Browsing Large Document Collections, In Proceedings of the 16th International ACM SIGIR Conference on Research and Development in Information Retrieval.

[16]. R. Michalski, Ị Bratko, M. Kubat (1998), Machine Learning and

Thank you for evaluating AnyBizSoft PDF Splitter.

A watermark is ađed at the end of each output PDF filẹ

To remove the watermark, you need to purchase the software from

PDF Merger

Thank you for evaluating AnyBizSoft PDF Merger! To remove this page, please

register your program!

Go to Purchase Now>>

 Merge multiple PDF files into one

 Select page range of PDF to merge

 Select specific page(s) to merge

 Extract page(s) from different PDF

Một phần của tài liệu Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm (Trang 85 - 90)

Tải bản đầy đủ (PDF)

(90 trang)