Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 13 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
13
Dung lượng
432,19 KB
Nội dung
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ Tên đề tài: BIỂU DIỄN KẾT QUẢ THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ VỚI THUẬT TỐN RÚT TRÍCH TỪ KHĨA VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ Mã số: Tên báo cáo chuyên đề: KHẢO SÁT, PHÂN TÍCH HIỆN TRẠNG CÁC CƠNG TRÌNH ĐÃ NGHIÊN CỨU Chủ nhiệm đề tài: ThS Võ Thị Hồng Thắm Người chủ trì thực chuyên đề: ThS Võ Thị Hồng Thắm Bình Dương, 06/2019 Phần trình bày tóm tắt định nghĩa mơ hình liên quan áp dụng cho hệ thống bao gồm năm nội dung: Luồng văn bản, Bộ thu thập thông tin từ web, Khai thác văn bản, Rút trích từ khóa Cơ sở liệu đồ thị Vấn đề tiền xử lý có liên quan đến cơng việc tách từ loại bỏ từ dừng đề cập Luồng văn Một luồng đại diện cho chuỗi đối tượng (thường byte), chuyển tải liên tục từ vị trí đến vị trí khác “Luồng liệu chuỗi thời gian thực, liên tục, xếp theo thứ tự (theo thời gian đến nhãn thời gian) Khơng thể kiểm sốt thứ tự liệu đến, lưu trữ cục toàn luồng” [1] Vấn đề tốc độ đến kích thước liệu thách thức lớn khai thác luồng liệu Luồng văn chuỗi văn xếp theo thứ tự đến nhanh chóng liên tục theo thời gian hai dạng chính: Tin tức truyền thông xã hội Thông thường, xử lý luồng văn bao gồm ba bước chính: thu thập liệu, tiền xử lý liệu xử lý liệu.Trong chuyên đề này, báo đến liên tục theo thứ tự nhãn thời gian xem luồng văn mà văn có dạng tin tức Bộ thu thập liệu Thu thập thông tin thu thập trang web dựa siêu liên kết nhóm nhỏ trang web tiếp tục xử lý sâu Hoạt động thu thập thông tin coi khai thác web Khai thác web mơ tả "trích xuất kiến thức từ web" [2, 3] Có thể thấy khai thác web mở rộng khai phá liệu Các thu thập liệu từ web chương trình tự động tìm kiếm WWW, "thu thập" toàn nội dung web mà chúng duyệt qua Chúng đặt tên Bots, Robots, Spiders, Wanderers, Worm, User agent Có số điều kiện cần thiết thu thập thông tin như: Độ mạnh, Độ sâu (Politeness), Phân phối, Độ linh hoạt, Hiệu quả, Chất lượng, Độ tươi Khả mở rộng Bên cạnh đó, có nhiều loại trình thu thập liệu web thu thập thông tin [2], Bộ thu thập thông tin web Incremental [4], Bộ thu thập liệu web tập trung [5], Bộ thu thập liệu web ẩn [6], Bộ thu thập thông tin web song song [7] Bộ thu thập liệu web phân tán [8] Chuyên đề xây dựng thu thập thông tin để thu thập nội dung web Bộ thu thập thông tin dùng để chuẩn bị liệu nguồn cho hệ thống nhờ vào việc tự động thu thập viết hàng ngày từ tạp chí trực tuyến Khai phá luồng văn Có nhiều nghiên cứu liên quan đến khai thác luồng văn như: Xử lý ngôn ngữ tự nhiên (NLP) [9], Thu thập thông tin (IR) [10], Phát chủ đề, Định nghĩa từ ngữ, Khai thác thơng tin, Phân tích mạng xã hội [11], Tóm tắt [12], Phân tích cảm xúc, Mơ hình khơng gian Vector, Phân loại, Phân cụm, vv…Chuyên đề áp dụng kỹ thuật trích xuất thơng tin để khai thác luồng văn Trong nhiều ứng dụng khai phá văn bản, đặc biệt thu thập thông tin (IR), tài liệu cần phải xếp theo thứ tự ưu tiên để việc thu thập tập hợp liệu lớn hiệu Để xác định độ quan trọng từ tài liệu, tài liệu thể dạng vectơ số độ quan trọng tính tốn định cho từ Ba mơ hình áp dụng nhiều dựa ý tưởng mơ hình khơng gian vectơ (VSM), mơ hình xác suất mơ hình mạng suy diễn Thiết nghĩ, mơ hình khơng gian vectơ lựa chọn tốt để cải thiện hệ thống tương lai Thủ tục xử lý luồng văn thường bao gồm bước hình Web Bộ thu thập liệu từ web Tiền xử lý liệu Nhận diện chủ đề Phân tích cảm xúc Định hướng cảm xúc từ Phân tích mạng xã hội Rút trích thơng tin Tóm tắt Các kết xử lý luồng văn Hình Thủ tục xử lý luồng văn 3.1 Tiền xử lý Tiền xử lý yếu tố nhiều thuật tốn khai phá văn Bước tiền xử lý thường bao gồm nhiệm vụ tokenization, filtering, lemmatization stemming Bước tiền xử lý hệ thống sử dụng thuật toán tên VnTokenizer [13] với phương pháp lai cho kỹ thuật mã hóa để tách từ 3.2 Tách từ tách từ tiếng Việt Như số ngôn ngữ khác, tiếng Việt viết hệ thống chữ viết Latin Thông thường, tập chữ viết thường tách biệt từ khoảng trắng Vì vậy, tách từ cần tách riêng từ dựa vào khoảng trắng loại bỏ dấu câu, dấu ngoặc đơn dấu ngoặc kép đầu cuối từ Tuy nhiên, không giống ngôn ngữ khác, với tiếng Việt, từ tạo thành từ hay nhiều tiếng Các tiếng phân cách khoảng trắng, khoảng trắng không sử dụng để phân tách từ, mà chúng sử dụng để tách tiếng tạo thành từ Nói chung, tiếng Việt tạo nên từ có ý nghĩa khác cách kết hợp tiếng, tiếng thường có ý nghĩa riêng Điều làm cho việc tách từ trở nên khó khăn phức tạp nhiều nhiều phương pháp khác Những phương pháp phân loại phương pháp dựa từ điển thống kê, phương pháp lai [6] sử dụng VnTokenizer [13], kỹ thuật tách từ xác cao dùng cho tiếng Việt kỹ thuật áp dụng để xử lý tách từ chuyên đề 3.3 Loại bỏ stop word Trong tính tốn, từ dừng (stop words) từ bị loại bỏ trước sau xử lý liệu ngôn ngữ tự nhiên (văn bản) [14] "Từ dừng" thường từ phổ biến ngơn ngữ Tuy nhiên, khơng có danh sách chung chứa từ dừng sử dụng chung cho tất công cụ xử lý ngôn ngữ tự nhiên, tất công cụ sử dụng danh sách Một số cơng cụ chí tránh loại bỏ từ cần hỗ trợ tìm kiếm cụm từ Bất kỳ nhóm từ chọn làm từ dừng tùy theo mục đích sử dụng Đối với số cơng cụ tìm kiếm, số từ ngắn phổ biến chẳng hạn thì, là, ở, cái, v.v Trong trường hợp này, việc xóa từ gây sai sót tìm kiếm cụm từ có chứa từ này, đặc biệt tên riêng Các cơng cụ tìm kiếm khác xóa số từ phổ biến nhất, bao gồm từ vựng, chẳng hạn "muốn" từ câu truy vấn để cải thiện hiệu suất Chuyên đề sử dụng danh sách từ dừng chứa 2000 từ tạo cách chọn từ quan trọng thuật toán TF-IDF triệu báo trực tuyến Hiện tại, danh sách tải từ trang web Xử lý ngôn ngữ tự nhiên tiếng Việt dự kiến danh sách cập nhật liên tục tương lai dựa liệu thu thập hàng ngày từ hệ thống mà lượng liệu đủ lớn Rút trích từ khóa Rút trích từ khóa (KE) sử dụng để tự động xác định tập hợp thuật ngữ mà mơ tả tốt chủ đề tài liệu [15] Có số kỹ thuật khác để xác định cụm từ đại diện cho thơng tin có liên quan tài liệu sử dụng cụm từ khóa, phân đoạn chính, cụm từ khóa từ khóa Tất biến thể liệt kê có chức để mô tả chủ đề thảo luận tài liệu [16] Có thể nói việc trích xuất tạo nên nhiều thuật ngữ từ tài liệu đơn lẻ vấn đề quan trọng Khai thác văn (TM), Thu thập thông tin (IR) Xử lý ngôn ngữ tự nhiên (NLP) Với tính trích xuất từ khóa tự động, cách tiếp cận thống kê đơn giản bao gồm phương pháp đơn giản, không yêu cầu liệu huấn luyện trước, nhiều phương pháp thực Những cách tiếp cận đơn giản độc lập với ngôn ngữ độc lập với miền Thông thường, thống kê từ tài liệu sử dụng để xác định từ khóa thống kê n-gram, tần suất từ, mơ hình TFIDF [17], từ xuất [18], PAT Tree [19], vv Các phương pháp áp dụng cách thích hợp bối cảnh mà từ khóa quan trọng trình bày thường xuyên văn Chuyên đề chọn mơ hình TF-IDF cho việc phát triển hệ thống Tuy nhiên, hệ thống hồn tồn dễ dàng nâng cấp tương lai cách sử dụng nhiều cách tiếp cận khác phức tạp hiệu phương pháp tiếp cận dựa đồ thị [16] [20] Tần số từ tần số tài liệu nghịch đảo (TF-IDF) Tần số từ - Tần số tài liệu nghịch đảo (tf-idf) yếu tố số sử dụng việc thu thập thông tin khai phá văn để tính tốn tầm quan trọng thuật ngữ Theo [21], khoảng 83% hệ thống khuyến nghị dựa văn sử dụng tfidf để hỗ trợ cho việc thu thập thơng tin Có số phiên cập nhật Tuy nhiên, hệ thống xây dựng sử dụng phiên đơn giản với mục đích tìm hiểu cách hoạt động Như tên gọi, trọng số tf-idf tính tỉ số Tần số từ chia cho Tần số tài liệu nghịch đảo Term Frequency (tf) có nghĩa tần số từ số phản ánh xuất từ tài liệu Đối với từ nào, khả xuất từ lớn tài liệu có độ dài so sánh độ dài tài liệu Tần số tài liệu nghịch đảo (idf) số đo lường tầm quan trọng từ Theo công thức tf, từ có khả xuất tài liệu Tuy nhiên, ngôn ngữ tự nhiên, có từ phổ biến mà khơng thực có ý nghĩa Ví dụ, triệu_đồng đơn vị tiền Việt Nam Trong báo nói số liệu thống kê học phí, sử dụng nhiều lần Và viết khác nói chi phí sản xuất để sản xuất thủy sản, triệu_đồng xuất nhiều Nhưng rõ ràng, triệu_đồng chủ đề hay điều quan trọng báo Vì vậy, cần phải giảm bớt phổ biến từ Sau có hai yếu tố trên, cuối tìm mức độ quan trọng từ trọng số tf-idf, cách sử dụng cơng thức sau Ví dụ sau giải thích rõ cách thức hoạt động công thức vừa đề cập Bảng cho thấy từ tài liệu nói phí đại học tài liệu nói chi phí sản xuất cho sản phẩm thủy sản Số lần từ xuất tài liệu tính tốn Bảng Số lần xuất từ tài liệu Tài liệu Từ Tài liệu Tần số Từ Tần số học_phí (fee) triệu_đồng (million) triệu_đồng (million) thuỷ_sản (seafood) sinh_viên (student) chi_phí (cost) bày_tỏ (express) sản_xuất (production) Bảng trình bày kết xác định tầm quan trọng từ cách tính tốn trọng số IF-IDF từ sử dụng thuật tốn TF-IDF Bảng Tính tốn tầm quan trọng từ Từ học_phí (fee) Tài liệu TF IDF Trọng số TF-IDF 1/4 log(2/1) 0.75 chi_phí (cost) 2/4 log(2/1) 0.15 triệu_đồng (million) 2/4 log(2/2) triệu_đồng (million) 3/4 log(2/2) sinh_viên (student) 2/4 log(2/1) 0.15 bày_tỏ (express) 2/4 log(2/1) 0.15 sản_xuất (production) 1/4 log(2/1) 0.75 thuỷ_sản (seafood) 2/4 log(2/1) 0.15 Từ bảng 2, dễ dàng nhận “học_phí”, “sinh_viên” “bày_tỏ” từ quan trọng trích xuất từ tài liệu Tương tự, “chi_phí”, “sản_xuất”, “thuỷ_sản” từ quan trọng trích xuất từ tài liệu Ngược lại, “Triệu_đồng” từ thông dụng xuất hai tài liệu có ý nghĩa Ngồi ra, học_phí sản_xuất từ đáng tin cậy với trọng số lớn 0,75 Thuật tốn TF-IDF có số phiên cải tiến TF-IDF-CF dựa TF-IDF với kết tốt [22], phương pháp TF-IDF cải tiến sử dụng đa tần số từ tài liệu [23], hai cách tiếp cận bao gồm tf.icf khái niệm trọng số theo dõi dựa icf [24], F-measure thuật toán TFIDF-AP cải thiện thêm 12,9% so với thuật toán TF-IDF cổ điển [25], vv Những đặc tính TF-IDF áp dụng cho việc nâng cấp hệ thống tương lai Tóm lại, hệ thống đề xuất chuyên đề sử dụng TF-IDF để trích xuất từ khóa hiệu chứng minh thơng qua việc có nhiều nghiên cứu áp dụng kỹ thuật ví dụ [17] số Cơ sở liệu đồ thị Để đối phó với thông tin liên kết phức tạp, bán cấu trúc, sở liệu đồ thị lựa chọn tốt khơng nhanh mà cịn truy vấn phản ứng mili giây Do đó, sở liệu đồ thị phù hợp cấp độ kinh doanh lớn như: thư tín, dịch vụ người, bán lẻ, liên quan đến tiền, cộng đồng trực tuyến khơng thức mạng, phương tiện truyền thông trực tuyến, vv Do lợi sở liệu đồ thị, nhiều người dùng sử dụng loại sở liệu có nhiều sở liệu đồ thị cho mục đích này: Dex, Infinite Graph, Infogrid, HyperGraphDB, Trinity Titan Neo4j, sở liệu đồ thị sử dụng hệ thống đề xuất [26] Hiển thị trực quan Có số phương pháp bán tự động hóa phân tích mơ hình chủ đề thông qua hiển thị trực quan [27] lập luận mơ hình chủ đề địi hỏi nhu cầu có hệ thống tương tác cho người dùng cuối Tuy nhiên, [28] cho nhiều nhà khoa học xã hội “có kiến thức sâu rộng lĩnh vực chun mơn thiếu chuyên môn học máy để sửa đổi thuật tốn mơ hình chủ đề” [29] cho giao diện trực quan cho phép nhà hoạch định định khám phá phân tích kết mơ hình Họ xem xét việc áp dụng mơ hình chủ đề cho nhà khoa học khơng phải chun gia máy tính tự chạy thuật toán Theo [30], liệu kết đầu thường lớn để nhà nghiên cứu xử lý thủ công liệu đầu lớn hơn, nhà nghiên cứu phân tích kết khó khăn Nói chung, có hai cách tiếp cận phổ biến để hiển thị trực quan mơ hình chủ đề: hướng chủ đề hướng thời gian [30] Trong cách trực quan theo chủ đề, việc tập trung vào mối quan hệ từ chủ đề tài liệu chủ đề Các cách tiếp cận tập trung vào nhiệm vụ tóm tắt tài liệu, truy xuất thông tin mối quan hệ tài liệu Các ví dụ phổ biến cách tiếp cận bao gồm biểu diễn ma trận Termite [31] Serendip [32] phép hiển thị tọa độ song song chủ đề song song [33] Khung thiết kế chung cho hệ thống hiển thị tương tác hướng chủ đề dựa cách nhà phân tích suy luận chủ đề độ xác thực tế nhận thức suy luận nhà phân tích tạo [34] Các giao diện khác khái qt hóa mơ hình giao diện tạo điều kiện tập trung vào cấu trúc phân cấp chủ đề HierarchicalTopics Giao diện hỗ trợ tìm hiểu nhiều cấp độ để tóm tắt tài liệu [35, 36] Hơn nữa, nghiên cứu mới, CTM [37], sử dụng đồ thị để biểu diễn mối tương quan chủ đề Mặt khác, trực quan hóa thời gian độc lập sử dụng cho tài liệu hướng thời gian tin nhắn Twitter tin khám phá xu hướng, tiến hóa, phát kiện từ chủ đề Sử dụng biểu đồ stack cải tiến, TIARA dùng để hiển thị xu hướng chủ đề [38, 39] Tương tự, TextFlow phát triển để khám phá tiến hóa chủ đề cách xác định cách chủ đề hợp chia nhỏ theo thời gian [40] Cuối cùng, hệ thống phân tích hình ảnh gọi LeadLine tạo để xác định khám phá kiện cách phát từ phổ biến (chủ đề) sử dụng thời điểm bùng phát, rời rạc [41] Hơn nữa, có cân nhắc quan trọng khác việc sử dụng giao diện trực quan cho mơ hình chủ đề bao gồm kiểu liệu sử dụng mơ hình Giao diện TopicPanorama phát triển để kết hợp văn từ nhiều nguồn liệu (ví dụ: tin tin nhắn Twitter) cung cấp biểu đồ mạng để liên kết nguồn [42] Hòa theo xu hướng này, hệ thống đề xuất hỗ trợ hiển thị kết trực quan cho người dùng Tài liệu tham khảo Golab, L and M.T Özsu, Data stream management issues–a survey 2003, Technical Report, Apr 2003 db uwaterloo ca/~ ddbms/publications/stream/streamsurvey pdf Liu, B and K Chen-Chuan-Chang, Special issue on web content mining Acm Sigkdd explorations newsletter, 2004 6(2): p 1-4 Verma, J.P., B Patel, and A Patel, Web Mining: Opinion and Feedback Analysis for Educational Institutions International Journal of Computer Applications, 2013 84(6) Cho, J and H Garcia-Molina, The evolution of the web and implications for an incremental crawler 1999, Stanford Bhatt, D., D.A Vyas, and S Pandya, Focused Web Crawler algorithms, 2015 5: p 18 Khurana, K and M Chandak, Survey of Techniques for Deep Web Source Selection and Surfacing the Hidden Web Content INTERNATIONAL JOURNAL OF ADVANCED COMPUTER SCIENCE AND APPLICATIONS, 2016 7(5): p 409-418 Singhal, V and V Kaushik, Design of Parallel Crawler using Multi-Threading Model International Journal of Engineering Science, 2017 12892 YU, J., M LI, and D ZHANG, A Distributed Web Crawler Model based on Cloud Computing 2016 Friedman, C., et al GENIES: a natural-language processing system for the extraction of molecular pathways from journal articles in ISMB (supplement of bioinformatics) 2001 10 Saracevic, T Modeling interaction in information retrieval (IR): a review and proposal in Proceedings of the ASIS annual meeting 1996 ERIC 11 Hu, X and H Liu, Text analytics in social media Mining text data, 2012: p 385-414 12 Erkan, G and D.R Radev, Lexrank: Graph-based lexical centrality as salience in text summarization Journal of Artificial Intelligence Research, 2004 22: p 457-479 13 Le Hong Phuong, N.T.M., A.R Huyen, and H.T Vinh, A hybrid approach to word segmentation of Vietnamese texts Language and Automata Theory and Applications, 2008: p 240 14 Leskovec, J., A Rajaraman, and J.D Ullman, Mining of massive datasets 2014: Cambridge university press 15 Beliga, S., A Meštrović, and S Martinčić-Ipšić, An overview of graph-based keyword extraction methods and approaches Journal of information and organizational sciences, 2015 39(1): p 1-20 16 Nasrabadi, N.M., Pattern recognition and machine learning Journal of electronic imaging, 2007 16(4): p 049901 17 Ramos, J Using tf-idf to determine word relevance in document queries in Proceedings of the first instructional conference on machine learning 2003 18 Matsuo, Y and M Ishizuka, Keyword extraction from a single document using word co-occurrence statistical information International Journal on Artificial Intelligence Tools, 2004 13(01): p 157-169 19 Chien, L.-F PAT-tree-based keyword extraction for Chinese information retrieval in ACM SIGIR Forum 1997 ACM 20 Biswas, S.K., M Bordoloi, and J Shreya, A graph based keyword extraction model using collective node weight Expert Systems with Applications, 2018 97: p 51-59 21 Beel, J., et al., paper recommender systems: a literature survey International Journal on Digital Libraries, 2016 17(4): p 305-338 22 Liu, M and J Yang, An improvement of TFIDF weighting in text categorization International Proceedings of Computer Science and Information Technology, 2012: p 44-47 23 Santhanakumar, M and C.C Columbus, A modified frequency based term weighting approach for information retrieval Int J Chem Sci, 2016 14(1) 24 Wang, D and H Zhang, Inverse-category-frequency based supervised term weighting schemes for text categorization Journal of Information Science and Engineering, 2013 29(2): p 209-225 25 Chen, J., C Chen, and Y Liang, Optimized TF-IDF algorithm with the adaptive weight of position of word Advanc Intelligen Syst Res, 2016 133: p 114-117 26 Rawat, D.S., et al., Graph Database: A Complete GDBMS Survey International Journal, 2017 3: p 217-226 27 Hu, Y., et al., Interactive topic modeling Machine learning, 2014 95(3): p 423-469 28 Dou, W., et al., Hierarchicaltopics: Visually exploring large text collections using topic hierarchies IEEE Transactions on Visualization and Computer Graphics, 2013 19(12): p 2002-2011 29 Dou, W and S Liu, Topic-and time-oriented visual text analysis IEEE computer graphics and applications, 2016 36(4): p 8-13 30 Cui, W., et al., How hierarchical topics evolve in large text corpora IEEE transactions on visualization and computer graphics, 2014 20(12): p 22812290 31 Wang, X., et al., TopicPanorama: A full picture of relevant topics IEEE transactions on visualization and computer graphics, 2016 22(12): p 25082521 32 Wei, F., et al Tiara: a visual exploratory text analytic system in Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining 2010 ACM 33 Liu, S., et al., Tiara: Interactive, topic-based visual text summarization and analysis ACM Transactions on Intelligent Systems and Technology (TIST), 2012 3(2): p 25 34 Cui, W., et al., Textflow: Towards better understanding of evolving topics in text IEEE transactions on visualization and computer graphics, 2011 17(12): p 2412-2421 35 Liu, S., et al., Exploring topical lead-lag across corpora IEEE Transactions on Knowledge and Data Engineering, 2015 27(1): p 115-129 10 36 Dou, W., et al Leadline: Interactive visual analysis of text data through event identification and exploration in Visual Analytics Science and Technology (VAST), 2012 IEEE Conference on 2012 IEEE 37 Liu, S., et al., Online visual analytics of text streams IEEE transactions on visualization and computer graphics, 2016 22(11): p 2451-2466 38 Grimmer, J., A Bayesian Hierarchical Topic Model for Political Texts: Supplemental Appendix 2009 39 Paul, M.J and M Dredze, Discovering health topics in social media using topic models PloS one, 2014 9(8): p e103408 40 Barberá, P., et al Leaders or followers? Measuring political responsiveness in the US Congress using social media data in Annual Meeting of the American Political Science Association 2014 41 Roberts, M.E., B.M Stewart, and D Tingley, STM: R package for structural topic models, 2014 URL http://www structuraltopicmodel com R package version, 2016 1(8) 42 Mallet, M.A., a machine learning for language toolkit 2002 2010 11 Xác nhận thực chuyên đề Bình Dương, ngày 20 tháng 06 năm 2019 Người chủ trì thực chuyên đề Võ Thị Hồng Thắm 12 ... hình chủ đề: hướng chủ đề hướng thời gian [30] Trong cách trực quan theo chủ đề, việc tập trung vào mối quan hệ từ chủ đề tài liệu chủ đề Các cách tiếp cận tập trung vào nhiệm vụ tóm tắt tài liệu, ... liệu sử dụng cụm từ khóa, phân đoạn chính, cụm từ khóa từ khóa Tất biến thể liệt kê có chức để mơ tả chủ đề thảo luận tài liệu [16] Có thể nói việc trích xuất tạo nên nhiều thuật ngữ từ tài liệu. .. thống mà lượng liệu đủ lớn Rút trích từ khóa Rút trích từ khóa (KE) sử dụng để tự động xác định tập hợp thuật ngữ mà mơ tả tốt chủ đề tài liệu [15] Có số kỹ thuật khác để xác định cụm từ đại diện