Phương pháp thu thập, đánh giá và phân cụm thông tin tiếng Việt trên Internet

14 329 0
Phương pháp thu thập, đánh giá và phân cụm thông tin tiếng Việt trên Internet

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TR I H C QU C GIA HÀ N I NG I H C CÔNG NGH ng Quang Huy PH NG PHÁP THU TH P, ÁNH GIÁ VÀ PHÂN C M THÔNG TIN TI NG VI T TRÊN INTERNET LU N V N TH C S Hà N i – 2007 TR I H C QU C GIA HÀ N I NG I H C CÔNG NGH ng Quang Huy PH NG PHÁP THU TH P, ÁNH GIÁ VÀ PHÂN C M THÔNG TIN TI NG VI T TRÊN INTERNET Ngành: Công ngh thông tin Mã s : 1.01.10 LU N V N TH C S NG Hà N i - 2007 IH NG D N KHOA H C: TS OÀN S N ng Quang Huy-Lu n v n cao h c-Tr ng i h c Công ngh -2007 M CL C L I C M N DANH M C CH VI T T T .9 DANH M C HÌNH V , B NG BI U .10 M CH U 12 NG 1: T NG QUAN V KHAI PHÁ D LI U VÀ BÀI TOÁN PHÂN C M TÀI LI U WEB 15 1.1 Khai phá d li u 15 1.1.1 Khai phá d li u gì? 15 1.1.2 Các h 1.1.3 ng ti p c n k thu t khai phá d li u 16 ng d ng c a khai phá d li u 17 1.2 D li u Fulltext Hypertext 18 1.2.1 Fulltext 18 1.2.2 Hypertext 18 1.3 Khai phá d li u Web 21 1.3.1 Nhu c u 21 1.3.2 c m 22 1.3.3 Các h ng ti p c n .24 1.4 Bài toán phân c m tài li u Web 26 1.4.1 Gi i thi u toán 26 1.4.2 T i đ t toán phân c m tài li u Web 27 -3- ng Quang Huy-Lu n v n cao h c-Tr 1.4.3 ng i h c Công ngh -2007 c m c a toán phân c m tài li u Web 28 1.4.4 Các yêu c u đ i v i toán phân c m tài li u Web 30 1.4.5 M t s đ i l ng đo đ xác cho toán 31 1.5 Nh ng khó kh n Phân c m ti ng Vi t 32 1.5.1 V n đ tách t ti ng Vi t 32 1.5.2 V n đ b ng mã ti ng Vi t 33 1.5.3 Các khó kh n khác .33 1.6 K t lu n ch CH ng 33 NG 2: CÁC PH NG PHÁP BI U DI N TÀI LI U 34 2.1 Mô hình không gian vector .34 2.1.1 M t s khái ni m 34 2.1.1.1 T khóa (keywords) 34 2.1.1.2 T d ng (stopwords) 35 2.1.1.3 C t b t (word stemming) 36 2.1.2 Mô hình t n s 37 2.1.3 Mô hình Boolean 39 2.1.4 Tính ch t c a vector .40 2.1.4.1 Tích 40 2.1.4.2 l n vector 41 2.2 Tách t ti ng Vi t 41 -4- ng Quang Huy-Lu n v n cao h c-Tr ng i h c Công ngh -2007 2.2.1 M t s đ c m v t ti ng Vi t .41 2.2.1.1 Ti ng 41 2.2.1.2 T 42 2.2.2 Tách t t đ ng ti ng Vi t 42 2.2.3 Các ph ng pháp tách t ti ng Vi t 42 2.2.3.1 fnTBL (Fast Transformation-based learning) 42 2.2.3.2 Longest matching 49 2.2.3.3 K t h p gi a fnTBL Longest matching .49 2.3.1 o đ t ng t .49 2.3.1.1 t ng t trùng l p 49 2.3.1.2 t ng t Cosine 50 2.4 T ng k t ch CH ng 53 NG 3: CÁC THU T TOÁN PHÂN C M TÀI LI U 54 3.1 Gi i thi u 54 3.2 Phân ho ch Top-down 55 3.2.1 Thu t toán K-means v i gán “c ng” 55 3.2.2 Thu t toán K-means v i gán “m m” 57 3.2.3 ph c t p tính toán 58 3.3 Phân c m d a tính m i c a tài li u 58 3.3.1 Mô t .58 -5- ng Quang Huy-Lu n v n cao h c-Tr 3.3.2 đo t ng i h c Công ngh -2007 ng t .59 3.3.3 Thu t toán phân c m d a thu t toán K-Means m r ng 60 3.3 3.1 Ch m c phân c m 60 3.3.3 Gi i thu t phân c m K-Means m r ng 61 3.3.4 ánh giá .62 3.4 Phân ho ch Bottom-up .63 3.4.1 Thu t toán phân c m tích t (AHC) 63 3.4.2 ph c t p tính toán 66 3.5 K t h p gi a bottom-up top-down 67 3.5.1 Mô t .67 3.5.2 Thu t toán buckshot .67 3.6 Nh n xét 70 3.7 T ng k t ch CH ng 72 NG 4: K T QU TH C NGHI M V I PHÂN C M TI NG VI T 73 4.1 Môi tr ng th c nghi m 73 4.2 D li u 73 4.3 K t qu th c nghi m 75 4.3.1 So sánh thu t toán phân c m 76 4.3.2 Phân c m s d ng tách t ti ng Vi t 80 4.4 K t lu n ch ng .82 -6- ng Quang Huy-Lu n v n cao h c-Tr CH NG 5: T NG K T VÀ H ng i h c Công ngh -2007 NG PHÁT TRI N 84 5.1 T ng k t 84 5.2 H ng phát tri n .85 TÀI LI U THAM KHÁO 86 -7- ng Quang Huy-Lu n v n cao h c-Tr ng i h c Công ngh -2007 U M tv nđ World Wide Web (WWW) m t kho ch a l n nh t đ c bi t đ n r ng rãi nh t c a siêu v n b n Các tài li u siêu v n b n ch a đ ng v n b n th ng nhúng liên k t đ n tài li u khác phân b Web Ngày nay, Web bao g m hàng t tài li u c a hàng tri u tác gi đ tán qua hàng tri u máy tính đ c k t n i qua đ sóng radio… Web ngày đ c t o , đ ng dây n tho i, cáp quang, c s d ng ph bi n nhi u l nh v c nh báo chí, phát thanh, truy n hình, h th ng b u n, tr th c phân ng h c, t ch c ng m i, ph … Chính v y l nh v c Web Mining hay tìm ki m t đ ng thông tin phù h p có giá tr Web m t ch đ quan tr ng Data Mining Các h th ng tìm ki m thông tin hay nói ng n g n máy tìm ki m Web thông th ng ng tr l i m t danh sách tài li u đ c phân h ng mà i dùng s ph i t n công ch n l c m t danh sách r t dài đ có đ nh ng tài li u phù h p Ngoài thông tin th liên quan đ n nhi u đ i t nh ng gây khó kh n cho ng Có nhi u h th ng khác c ng r t phong phú, đa d ng i u t o nên m t s nh p i s d ng vi c l y đ c thông tin c n thi t ng ti p c n khác đ gi i quy t v n đ Các h ng ý gi m s nh p nh ng b ng ph ng ng pháp l c hay thêm tùy ch n đ c t b t thông tin Trong khuôn kh c a lu n v n ch t p trung vào h ng bi u di n thông tin tr v b i máy tìm ki m thành t ng c m đ cho ng i dùng có th d dàng tìm đ c thông tin mà h c n ã có nhi u thu t toán phân c m tài li u d a phân c m ngo i n toàn b t p tài li u Tuy - 12 - ng Quang Huy-Lu n v n cao h c-Tr ng i h c Công ngh -2007 nhiên t p h p tài li u c a máy tìm ki m l n thay đ i đ có th phân c m ngo i n Do vi c phân c m ph i đ li u nh h n đ c ng d ng t p tài c tr v t truy v n Và thay tr v m t danh sách r t dài thông tin gây nh p nh ng cho ng i s d ng c n có m t ph ng pháp t ch c l i k t qu tìm ki m m t cách h p lý M c đích nghiên c u a yêu c u c a toán phân c m tài li u Web Nh n m nh đ n k thu t phân c m K-Means m r ng, s d ng tính m i c a tài li u, m t thu t toán phân c m t ng, th i gian n tính đáp ng đ c yêu c u c a toán phân c m tài li u Web K-Means m r ng không coi m t tài li u nh t p h p t mà m t xâu s d ng quan h thông tin gi a t N i dung th c hi n  Tìm hi u yêu c u c a toán phân c m tài li u Web  Trình bày m t s ph ng pháp bi u di n tài li u  Trình bày m t s ph ng pháp phân c m tài li u Web  M t s k t qu th c nghi m b  xu t h c đ u ng phát tri n Gi i h n nghiên c u Do h n ch v m t th i gian nên vi c nghiên c u, tìm hi u m i ch thu đ c nh ng ki n th c c b n v k thu t nh ng th nghi m b h a h n s phát tri n ng d ng t Lu n v n đ ng lai c t ch c thành ph n: - 13 - c đ u nh ng ng Quang Huy-Lu n v n cao h c-Tr Ch ng 1: Trong ch ng i h c Công ngh -2007 ng gi i thi u t ng quan v khai phá d li u, l nh v c khai phá d li u Web, t ng quan v toán phân c m tài li u nói chung, phân c m tài li u Web nói riêng, nh ng yêu c u đ i v i toán phân c m tài li u Web Các đ i l Ch ng dùng đ đo đ xác cho toán ng 2: Trình bày ph ng pháp bi u di n tài li u Nh ng khó kh n phân c m Ti ng Vi t ph đo đ t ng pháp tách t ti ng Vi t, cách ng t gi a tài li u Ch ng 3: Trình bày thu t toán dùng đ phân c m tài li u Web nói chung Trong ch ng trình bày theo hai h ng ti p c n Thu t toán AHC (Agglomerative Hierarchical Clustering) tiêu bi u cho h up Thu t toán K-means tiêu bi u cho h gi a hai h ng phân c m bottom- ng phân c m top-down Và s k t h p ng – Buckshot Trình bày thu t toán K-Means m r ng cho toán phân c m tài li u Web d a tính m i c a tài li u Ch ng 4: K t qu th c nghi m Ch ng 5: T ng k t h ng phát tri n t - 14 - ng lai ng Quang Huy-Lu n v n cao h c-Tr ng i h c Công ngh -2007 TÀI LI U THAM KHÁO Ti ng Vi t [1] inh i n, X lý ngôn ng t nhiên, NXB Giáo D c Ti ng Anh [2] Sophoin, Yoshiharu Ishikawa Hiroyuki Kitagawa (2006), Incremental Clustering Based on Novelty of Online Documents [3] Clement T.Yu Weiyi Meng (1998), Principles of Database Query Processing for Advanced Application, Morgan Kaufmann Publisher, Inc [4] Gerard Salton/Michael J.McGill, Introduction to Modern Information Retrieval [5] Jiawei Han (2000), Data Mining: Concepts and Techiniques [6] M Steinbach, G Karypis, V Kumar (2000), A Comparison of Document Clustering Techniques, TextMining Workshop, KDD [7] O Zamir and O Etzioni (1998), Web Document Clustering: A Feasibility Demonstration, Proc of the 21st ACM SIGIR Conference, 46-54 [8] O Zamir, O Etzioni, O Madani, R M Karp (1997), Fast and Intuitive Clustering of Web Documents, Proc of the 3rd International Conference on Knowledge Discovery and Data Mining [9] K Cios, W Pedrycs, R Swiniarski (1998), Data Mining – Methods for Knowledge Discovery, Kluwer Academic Publishers - 86 - ng Quang Huy-Lu n v n cao h c-Tr ng i h c Công ngh -2007 [10] R Krishnapuram, A Joshi, L Yi (1999), A Fuzzy Relative of the k-Medoids Algorithm with Application to Web Document and Snippet Clustering, Proc IEEE Intl Conf Fuzzy Systems, Korea [11] Z Jiang, A Joshi, R Krishnapuram, L Yi (2000), Retriever: Improving Web Search Engine Results Using Clustering, Technical Report, CSEE Department, UMBC [12] T H Haveliwala, A Gionis, P Indyk (2000), Scalable Techniques for Clustering the Web, Extended Abstract, WebDB’2000, Third International Workshop on the Web and Databases, In conjunction with ACM SIGMOD’2000, Dallas, TX [13] A Bouguettaya (1996), On-Line Clustering, IEEE Trans on Knowledge and Data Engineering [14] A K Jain R C Dubes (1988), Algorithms for Clustering Data, John Wiley & Sons [15] G Karypis, E Han, V Kumar (1999), CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling, IEEE Computer 32 [16] O Zamir O Etzioni (1999), Grouper: A Dynamic Clustering Interface to Web Search Results, Proc of the 8th International World Wide Web Conference, Toronto, Canada [17] D R Cutting, D R Karger, J O Pedersen, J.W Tukey (1993), Scatter/Gather: A Clusterbased Approach to Browsing Large Document Collections, In Proceedings of the 16th International ACM SIGIR Conference on Research and Development in Information Retrieval - 87 - ng Quang Huy-Lu n v n cao h c-Tr ng i h c Công ngh -2007 [18] R Michalski, I Bratko, M Kubat (1998), Machine Learning and Data Mining – Methods and Applications, John Wiley & Sons Ltd [19] J Jang, C Sun, E Mizutani (1997), Neuro-Fuzzy and Soft Computing – A Computational Approach to Learning and Machine Intelligence, Prentice Hall [20] G Biswas, J.B Weinberg, D Fisher (1998), ITERATE: A Conceptual Clustering Algorithm for Data Mining, IEEE Transactions on Systems, Man and Cybernetics [21] Z Huang (1997), A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining, Workshop on Research Issues on Data Mining and Knowledge Discovery [22] Y Yang J Pedersen (1997), A Comparative Study on Feature Selection in Text Categorization, In Proc of the 14th International Conference on Machine Learning [23] A Guttman (1984) R-tree: A dynamic index structure for spatial searching, In Proceedings of ACM SIGMOD [24] Bjornal Larsen Chinatsu Aone (1999) Fast and effective text mining using lineartime document clustering, In Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego, CA, USA [25] C.J.van Rijbergen(1979), Information Retrieval, Butterworth & Co (Publishers) LTd - 88 - ng Quang Huy-Lu n v n cao h c-Tr ng i h c Công ngh -2007 [26] Wai-chiu Wong Ada Fu (2000), Incremental Document Clustering for Web Page Classification, IEEE 2000 Int, Conf on Infor, Society in the 21st century: emerging technologies anf new challenges (IS2000), Nh t B n [27] Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003) Modeling the Internet and the Web: Probabilistic Methods and Algorithms Wiley, 2003 [28] Sen Slattery (2002) Hypertext Classification PhD Thesis (CMU-CS-02142) School of Computer Science Carnegie Mellon University, 2002 - 89 - ... C GIA HÀ N I NG I H C CÔNG NGH ng Quang Huy PH NG PHÁP THU TH P, ÁNH GIÁ VÀ PHÂN C M THÔNG TIN TI NG VI T TRÊN INTERNET Ngành: Công ngh thông tin Mã s : 1.01.10 LU N V N TH C S NG Hà N i - 2007... a thu t toán K-Means m r ng 60 3.3 3.1 Ch m c phân c m 60 3.3.3 Gi i thu t phân c m K-Means m r ng 61 3.3.4 ánh giá .62 3.4 Phân ho ch Bottom-up .63 3.4.1 Thu. .. trung vào h ng bi u di n thông tin tr v b i máy tìm ki m thành t ng c m đ cho ng i dùng có th d dàng tìm đ c thông tin mà h c n ã có nhi u thu t toán phân c m tài li u d a phân c m ngo i n toàn

Ngày đăng: 25/01/2017, 17:51

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan