Kết quả trong 2 bảng trên cho thấy với p=7, chúng ta nhận ra được hầu hết các các bài viết là mới trong khi với p=60, các bài viết được phân ra làm 3 loại: mới, không mới lắm và cũ. Hơn nữa, K càng nhỏ thì khả năng nhận các bài viết vào phân cụm là nhỏ hơn nhưng độ chính xác trung bình cũng cao hơn. Ngoài ra, việc sử dụng p=60 cũng làm cho độ chính xác trung bình của thông tin cao hơn với p=7 bởi vì độ đo chính xác trung bình chưa tính đến tính ‘mới’ của thông tin.
4.3.2 Phân cụm sử dụng tách từ tiếng Việt
Cuối cùng, một thí nghiệm sử dụng một thuật toán tách từ tiếng Việt đã được sử dụng cho thuật toán K-Means mở rộng. Thuật toán được sử dụng là một kết hợp của 2 phương pháp Longest Matching và fnTBL đã được đề cập ở phần 2.2.3.3.
Dữ liệu chương trình là toàn bộ tập dữ liệu đã nói ở trên, do dữ liệu đã được phân loại bằng tay từ trước nên rất dễ dàng trong việc tính toán các giá trị
Precision/Recall cũng như độ chính xác trung bình (Average Precision).
Thời gian tính toán
Sau tiến hành thử nghiệm với cài đặt K-Means mở rộng có sử dụng tách từ tiếng Việt và tiến hành đo đạc với p=7, chúng ta có bảng kết quả như bảng dưới.
Tập dữ liệu Không tách từ tiếng Việt Tách từ tiếng Việt
5/3-3/4 383 576
4/4-3/5 89 219
4/5-2/6 172 402
3/6-30/6 180 352
Bảng 7: Thời gian chạy của 2 thuật toán K-Means mở rộng không và có sử dụng
tách từ tiếng Việt (tính bằng giây và p=7)
Do việc tách từ tiếng Việt là một phần tương đối khó và phức tạp cộng thêm các cài đặt của chương trình chưa thực sự chính xác nên kết quả đạt được là chưa thực sự phản ánh đúng sự tương quan về thời gian chạy giữa 2 thuật toán, nhưng có thể nói là thời gian của thuật toán không sử dụng tách từ tiếng Việt nhanh gấp 2 lần thuật toán sử dụng tách từ tiếng Việt. Điều này là dễ hiểu vì phần tách từ tiếng Việt trong thuật toán là tương đối phức tạp ngoài ra nó cũng phụ thuộc vào độ lớn của dữ liệu.
Vì dữ liệu đầu vào trung bình chỉ có độ dài là 1200 ký tự và chỉ là tóm tắt của thông tin nên tốc độ tách từ như trên là chấp nhận được. Tuy nhiên, trong thực tế, các bản tin trên Internet có độ dài trung bình là khoảng 4000-6000 ký tự, vì thế tốc độ tách từ sẽ còn giảm đi nhiều.
Độ chính xác
Sau khi tiến hành đo đạc trên 100 câu truy vấn nằm trong 12 chủ đề đã đề cập ở phần 4.2, chúng ta thu được kết quả như ở bảng dưới.
Độ chính xác trung bình Độ Precision Độ Recall K-Means mở rộng 0.39 0.412 0.371 K-Means mở rộng (tách từ Tiếng Việt) 0.42 0.427 0.373
Bảng 8: Độ chính xác trung bình, precision/recall của 2 thuật toán K-Means mở
rộng không sử dụng tách từ tiếng Việt và có sử dụng tách từ tiếng Việt
Kết quả của thực nghiệm trên cho thấy việc áp dụng việc tách từ tiếng Việt vào phân cụm đã đem lại những hiệu quả nhất định trong việc phân cụm tài liệu tiếng Việt.
4.4 Kết luận chương 4
Trong chương 4, chúng ta đã tiến hành các thí nghiệm khác nhau với thuật toán K-Means và kết quả thu được là rất khả quan.
Các thí nghiệm đã cho thấy K-Means mở rộng có tính tăng đã chạy nhanh gấp nhiều lần K-Means không có tính tăng, đồng việc tăng thêm tính mới của thông tin vào độ đo tương tự cũng làm cho độ chính xác trung bình của thông tin tăng lên đáng kể.
Ngoài ra, các thực nghiệm cũng đã được tiến hành với các giá trị bán vòng đời p và các giá trị số lượng phân cụm khởi tạo K khác nhau. Kết quả đo được cho phép chúng ta chúng ta khẳng định rằng thuật toán cho độ chính xác trung bình cao khi K nhỏ. Đồng thời kết quả này cũng khẳng định rằng với p càng lớn thì độ chính xác trung bình đo được cũng lớn hơn và nguyên nhân là độ đo độ chính xác trung bình chưa tính đến độ mới của thông tin.
Ngoài ra kết quả thực nghiệm sử dụng tách từ tiếng Việt đã đem lại hiệu quả nhất định. Độ chính xác của thông tin tăng lên tuy không nhiều nhưng cũng đủ thấy được tác dụng của nó trong việc phân cụm thông tin tiếng Việt.
CHƯƠNG 5: TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN
5.1 Tổng kết
Với cách tiếp cần nhằm tìm ra một phương pháp hiệu quả đáp ứng yêu cầu của bài toán phân cụm tài liệu Web, một trong những bài toán của lĩnh vực
Web mining nói riêng và Data mining nói chung. Luận văn đã tổng hợp và đưa ra
một phương pháp đáp ứng các yêu cầu bài toán . Một số điểm chính mà luận văn đã giải quyết
Trong chương một đã trình bày tổng quan về lĩnh vực data mining nói chung và web mining nói riêng. Những khái niệm, kỹ thuật và hướng tiếp cận
chính trong 2 lĩnh vực này. Phát biểu bài toán phân cụm đồng thời nhấn mạnh đến bài toán phân cụm tài liệu Web các đặc điểm cùng với các yêu cầu của bài toán đó. Trong chương một cũng đã đề cập đến một số khó khăn trong phân cụm tài liệu tiếng Việt.
Chương hai đã trình bày phương pháp biểu diễn tài liệu, các phương pháp đo độ tương tự trong mô hình không gian vector. Ngoài ra, trong chương này, chúng ta cũng đã đề cập đến các phương pháp tách từ tiếng Việt thông dụng như longest matching và fnTBL cũng như phương pháp lai giữa 2 phương pháp trên.
Chương ba đã trình bày khái quát các thuật toán dùng để phân cụm tài liệu và giới thiệu tập trung vào một mở rộng của thuật toán K-Means sử dụng nhân tố quên của tài liệu.
Chương bốn là các kết quả thực nghiệm được tiến hành dựa trên bộ dữ liệu của website http://www.baomoi.com tiếng Việt. Kết quả đạt được là rất đáng
5.2 Hướng phát triển
Do hạn chế về thời gian và năng lực, luận văn chưa tiến hành được các nghiên cứu sâu hơn về các thuật toán phân cụm tăng khác như STC hay DC tree. Ngoài ra, các vấn đề về đồng nghĩa trong tiếng Việt cũng chưa được xem xét đến.
Trong tương lai, chúng tôi sẽ tiến hành các nghiên cứu sâu hơn như việc áp dụng nhân tố quên vào các thuật toán STC hay DC tree, đồng thời đưa vấn đề đồng nghĩa trong tiếng Việt vào trong các thuật toán này với mục đích nâng cao chất lượng phân cụm trên thông tin tiếng Việt.
TÀI LIỆU THAM KHÁO
Tiếng Việt
[1]. Đinh Điền, Xử lý ngôn ngữ tự nhiên, NXB Giáo Dục.
Tiếng Anh
[2]. Sophoin, Yoshiharu Ishikawa và Hiroyuki Kitagawa (2006), Incremental Clustering Based on Novelty of Online Documents
[3]. Clement T.Yu và Weiyi Meng (1998), Principles of Database Query Processing for Advanced Application, Morgan Kaufmann Publisher, Inc.
[4]. Gerard Salton/Michael J.McGill, Introduction to Modern Information Retrieval.
[5]. Jiawei Han (2000), Data Mining: Concepts and Techiniques
[6]. M. Steinbach, G. Karypis, V. Kumar (2000), A Comparison of Document Clustering Techniques, TextMining Workshop, KDD.
[7]. O. Zamir and O. Etzioni (1998), Web Document Clustering: A Feasibility Demonstration, Proc. of the 21st ACM SIGIR Conference, 46-54.
[8]. O. Zamir, O. Etzioni, O Madani, R. M. Karp (1997), Fast and Intuitive Clustering of Web Documents, Proc. of the 3rd International Conference on
Knowledge Discovery and Data Mining.
[9]. K. Cios, W. Pedrycs, R. Swiniarski (1998), Data Mining – Methods for Knowledge Discovery, Kluwer Academic Publishers.
[10].R. Krishnapuram, A. Joshi, L. Yi (1999), A Fuzzy Relative of the k-Medoids
Algorithm with Application to Web Document and Snippet Clustering, Proc.
IEEE Intl. Conf. Fuzzy Systems, Korea.
[11].Z. Jiang, A. Joshi, R. Krishnapuram, L. Yi (2000), Retriever: Improving Web Search Engine Results Using Clustering, Technical Report, CSEE
Department, UMBC.
[12].T. H. Haveliwala, A. Gionis, P. Indyk (2000), Scalable Techniques for Clustering the Web, Extended Abstract, WebDB’2000, Third International
Workshop on the Web and Databases, In conjunction with ACM SIGMOD’2000, Dallas, TX.
[13].A. Bouguettaya (1996), On-Line Clustering, IEEE Trans. on Knowledge
and Data Engineering.
[14].A. K. Jain và R. C. Dubes (1988), Algorithms for Clustering Data, John
Wiley & Sons.
[15].G. Karypis, E. Han, V. Kumar (1999), CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling, IEEE Computer 32.
[16].O. Zamir và O. Etzioni (1999), Grouper: A Dynamic Clustering Interface to
Web Search Results, Proc. of the 8th International World Wide Web
Conference, Toronto, Canada.
[17].D. R. Cutting, D. R. Karger, J. O. Pedersen, J.W. Tukey (1993),
Scatter/Gather: A Clusterbased Approach to Browsing Large Document Collections, In Proceedings of the 16th International ACM SIGIR Conference on Research and Development in Information Retrieval.
[18].R. Michalski, I. Bratko, M. Kubat (1998), Machine Learning and Data Mining – Methods and Applications, John Wiley & Sons Ltd..
[19].J. Jang, C. Sun, E. Mizutani (1997), Neuro-Fuzzy and Soft Computing – A
Computational Approach to Learning and Machine Intelligence, Prentice
Hall.
[20].G. Biswas, J.B. Weinberg, D. Fisher (1998), ITERATE: A Conceptual Clustering Algorithm for Data Mining, IEEE Transactions on Systems, Man
and Cybernetics.
[21].Z. Huang (1997), A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining, Workshop on Research Issues on
Data Mining and Knowledge Discovery.
[22]. Y. Yang và J. Pedersen (1997), A Comparative Study on Feature Selection
in Text Categorization, In Proc. of the 14th International Conference on Machine Learning.
[23].A Guttman (1984). R-tree: A dynamic index structure for spatial searching, In Proceedings of ACM SIGMOD.
[24].Bjornal Larsen và Chinatsu Aone (1999). Fast and effective text mining using lineartime document clustering, In Proceedings of the ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining, San Diego, CA, USA.
[25].C.J.van Rijbergen(1979), Information Retrieval, Butterworth & Co
[26].Wai-chiu Wong và Ada Fu (2000), Incremental Document Clustering for Web Page Classification, IEEE 2000 Int, Conf. on Infor, Society in the 21st
century: emerging technologies anf new challenges (IS2000), Nhật Bản. [27].Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003). Modeling the Internet
and the Web: Probabilistic Methods and Algorithms. Wiley, 2003.
[28].Sen Slattery (2002). Hypertext Classification. PhD Thesis (CMU-CS-02- 142). School of Computer Science. Carnegie Mellon University, 2002.
To remove the watermark, you need to purchase the software from
PDF Merger
register your program!
Go to Purchase Now>>
Merge multiple PDF files into one
Select page range of PDF to merge
Select specific page(s) to merge