Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
1,13 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Lê Mạnh Hùng Tra Cứu Văn Bản Tiếng Việt Dựa Trên Kỹ Thuật Phân Cụm Chuyên Ngàng: Truyền Dữ Liệu Và Mạng Máy Tính Mã số: 10B60.48.15-0079 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2012 Luậnvănđượchồnthànhtại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Ngườihướngdẫnkhoahọc: TS Nguyễn Hữu Quỳnh Phảnbiện 1: ……………………………………………………………… Phảnbiện 2: ……………………………………………………………… LuậnvănsẽđượcbảovệtrướcHộiđồngchấmluậnvănthạcsĩtạiHọcviệnCơngnghệBưu chínhViễnthơng Vàolúc: .giờ ngày tháng năm Cóthểtìmhiểuluậnvăntại: - ThưviệncủaHọcviệnCơngnghệBưuchínhViễnthơng MỞ ĐẦU Trong thời đại ngày nay, thơng tin nhu cầu thiết yếu người lĩnh vực Hằng ngày có hàng triệu văn bản, trang web đưa lên hệ thống máy chủ, làm phong phú hệ thống tài nguyên khổng lồ Tuy nhiên, sử dụng thông tin hệ thống thông tin khổng lồ không tổ chức khai thác nguồn tài nguyên hiệu Kỹ thuật tra cứu thông tin nghiên cứu, phát triển nhiều lĩnh vực khác y tế, giáo dục, kinh tế Những kiến thức liên quan đến tra cứu thông tin rộng tổng hợp, bao gồm thuật toán, cấu trúc liệu, sở liệu, hệ thống phân tán, tính tốn song song, tổ chức tệp (file), khai phá liệu (data mining) Do đó, việc nghiên cứu tra cứu thơng tin hữu ích Các nghiên cứu tiếng Anh có số cơng trình cơng bố số hệ thống đưa vào ứng dụng [] Tuy nhiên tiếng Việt, hiên có số cơng trình cơng bố [9,10,19] mà chưa có ứng dụng cụ thể tra cứu tiếng Việt Vấn đề động lực để luận văn chọn đề tài “Tra cứu văn tiếng Việt dựa kỹ thuật phân cụm” Các đóng góp luận văn - Nghiên cứu, cải tiến số phương pháp tra cứu văn tiếng Anh áp dụng cho tiếng Việt - Sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên nhằm nâng cao hiệu hệ thống tra cứu văn tiếng Việt - Trên sở phương pháp nghiên cứu, luận văn tiến hành xây dựng hệ thống tra cứu thông tin ứng dụng tra cứu thông tin tiếng Việt Cấu trúc luận văn gồm có ba chương: Chương 1: Giới thiệu tổng quan tra cứu văn Chương 2: Trình bày kỹ thuật tra cứu thông tin sử dụng kỹ thuật phân cụm Chương 3: Trình bày hệ thống tra cứu thông tin ứng dụng vào tra cứu thông tin tiếng Việt Chương TỔNG QUAN VỀ TRA CỨU VĂN BẢN 1.1 Tra cứu thông tin 1.1.1 Giới thiệu Tra cứu thông tin nhánh khoa học máy tính nhằm mục tiêu lưu trữ cho phép truy cập nhanh lượng thông tin lớn Thông tin văn bản, đa phương tiện âm [14, 16] Lược đồ hệ thống tra cứu thơng tin thể Hình 1 Hinh 1.1 Tổng quan hệ thống tra cứu thông tin 1.1.2 Các mơ hình tra cứu thơng tin Mơ hình Boole mơ hình sử dụng phổ biến hệ thống tra cứu thông tin thương mại Mơ hình dựa lý thuyết tập hợp Các tài liệu biểu diễn tập thuật ngữ chiến lược tìm kiếm Boole tra cứu tài liệu khối với truy vấn (có giá trị true) Mơ hình khơng gian véc tơ dựa giải thích khơng gian truy vấn tài liệu Một cải tiến biểu diễn tài liệu mơ hình Boole thu việc kết hợp thuật ngữ số với giá trị số, gọi trọng số thuật ngữ số, biểu thị độ quan trọng mà thuật ngữ tổng hợp nội dung thông tin tài liệu Mô hình xác suất [21] phân hạng tài liệu theo thứ tự giảm dần xác suất liên quan tài liệu với nhu cầu thông tin người sử dụng 1.1.3 Một số phương pháp tra cứu thông tin văn 1.1.3.1 Quét toàn văn Cách đơn giản để định vị tài liệu chứa xâu (thuật ngữ) tìm kiếm tìm kiếm tất tài liệu với xâu (kiểm tra xâu con) “Xâu” chuỗi ký tự Nếu truy vấn biểu diễn Boole phức hợp bao gồm nhiều xâu tìm kiếm, cần thêm bước để xác định đối sánh thuật ngữ có tìm thấy kiểmtra chuỗi thỏa mãn biểu diễn Boole hay không 1.1.3.2 Các tệp dấu hiệu Cách tiếp cận tệp dấu hiệu thu hút nhiều quan tâm Trong phương pháp này, tài liệu sinh xâu bít (‘dấu hiệu’), sử dụng bảng băm từ Các dấu hiệu tài liệu sinh lưu trữ tệp rời rạc - tệp dấu hiệu (nhỏ tệp gốc nhiều) tìm kiếm nhanh nhiều 1.1.3.3 Phép đảo Mỗi tài liệu biểu diễn danh sách từ (các từ khóa), mơ tả nội dung tài liệu cho mục tiêu tra cứu Tra cứu nhanh thu đảo từ khóa Các từ khóa lưu trữ, theo thứ tự alphabet, tệp số; với từ khóa trì danh sách trỏ đến tài liệu đủ điều kiện Phương pháp có hầu hết tất hệ thống thương mại [21] 1.2 Các hệ thống tra cứu thông tin dựa vào phân cụm 1.2.1 Các hệ thống tra cứu thông tin dựa vào phân cụm Tìm kiếm dựa vào phân cụm cần thỏa mãn truy vấn hiệu nhận biết tra cứu cụm Phân cụm cải tiến độ xác tra cứu sinh kết tra cứu có số tài liệu liên quan cao [14,16] 1.2.2 Các phương pháp phân cụm Phương pháp phân cụm phân cấp Một thuật tốn phân cấp bắt đầu xem xét tất tài liệu cụm sau tách thành cụm nhỏ (phân cụm chia nhỏ) Thuật toán bắt đầu với tài liệu riêng lẻ nhóm chúng lại với thành cụm lớn (phân cụm gộp) Phân cụm Heuristic Thuật ngữ “Heuristic” sử dụng tác Rijsbergen [22] phương pháp mô tả nhận phím tắt để thu hiệu lớn mặt địi hỏi khơng gian thời gian Phân cụm gia tăng Các phương pháp gia tăng sử dụng độ đo tương tự phương pháp không địi hỏi độ tương tự tính tốn trước cho tất cặp tài liệu Tất cặp tài liệu chưa sẵn có khởi tạo, theo xác định, phương pháp phân cụm dòng tài liệu đến Các độ tương tự tính tốn tài liệu hệ thống phân cụm gia tăng [22] 1.3 Đánh giá tra cứu thông tin 1.3.1 Đánh giá hệ thống tra cứu thông tin Để đo độ xác tra cứu thơng tin theo cách chuẩn, cần tập kiểm tra gồm ba thứ: Một tập tài liệu Một kiểm tra nhu cầu thơng tin, biểu diễn truy vấn Một tập đánh giá liên quan, đánh giá nhị phân liên quan không liên quan cho cặp tài liệu truy vấn Một tài liệu liên quan nói đến nhu cầu thơng tin nêu, khơng phải vừa xảy để chứa tất từ truy vấn Điều khác biệt thường bị hiểu lầm thực hành, nhu cầu thơng tin khơng công khai 1.3.2 Các tập kiểm tra chuẩn Đây danh sách tập kiểm tra chuỗi đánh giá chuẩn Chúng tập trung vào tập kiểm tra cho đánh giá hệ thống tra cứu thông tin đặc biệt, đề cập đến cặp tập kiểm tra tương tự cho phân lớp văn 1.3.3 Đánh giá tập tra cứu không phân hạng Những thành phần cho trước, độ xác hệ thống đo nào? Hai độ đo sở thường sử dụng cho độ xác tra cứu triệu hồi xác Đây lần xác định cho trường hợp đơn giản nơi hệ thống tra cứu trả tập tài liệu cho truy vấn Độ xác P - Precision (P) phần tài liệu tra cứu có liên quan Precision so cac muc lien quan duoc tra cuu tong so cac muc duoc tra cuu (1-4) Triệu hồi R - Recall(R) phần tài liệu liên quan tra cứu Recall so cac muc lien quan duoc tra cuu tong so cac muc tra cuu (1-5) Một độ đo mà khác dựa độ xác triệu hồi F measure, trung bình điều hịa có trọng số xác triệu hồi: F 1 (1 ) p R ( 1) PR 1 PR (1-8) Hình 1.2 Biểu đồ so sánh trung bình điều hịa trung bình khác 1.4 Đặc điểm văn tiếng Việt Tiếng Việt thuộc ngôn ngữ đơn lập, tức tiếng (âm tiết) phát âm tách rời thể chữ viết Đặc điểm thể rõ rệt tất mặt ngữ âm, từ vựng, ngữ pháp 1.4.1 Đặc điểm ngữ âm Trong tiếng Việt có loại đơn vị đặc biệt gọi "tiếng" Về mặt ngữ âm, tiếng âm tiết 1.4.2 Đặc điểm từ vựng Mỗi tiếng, nói chung, yếu tố có nghĩa Tiếng đơn vị sở hệ thống đơn vị có nghĩa tiếng Việt Từ tiếng, người ta tạo đơn vị từ vựng khác để định danh vật, tượng , chủ yếu nhờ phương thức ghép phương thức láy 1.4.3 Đặc điểm ngữ pháp Từ tiếng Việt không biến đổi hình thái Đặc điểm chi phối đặc điểm ngữ pháp khác Khi từ kết hợp từ thành kết cấu ngữ, câu, tiếng Việt coi trọng phương thức trật tự từ hư từ 1.5 Kết luận chương Trong chương này, luận văn trình bày tổng quan khai phá liệu văn bản, phương pháp khai phá văn phương pháp, kỹ thuật quy trình tra cứu văn tiếng việt Ngoài chương luận văn trình bày đặc điểm văn tiếng việt Từ kiến thức tổng quan chương hai luận văn lựa trình bày chi tiết trích rút văn tiếng việt với phương pháp cụ thể Chương TRA CỨU VĂN BẢN TIẾNG VIỆT DỰA TRÊN KỸ THUẬT PHÂN CỤM Trong chương này, luận văn giới thiệu phương pháp biểu diễn văn bản, đồng thời trình bày chi tiết phương pháp biểu diễn văn tiếng Việt có sử dụng giảm chiều vector Dựa phương pháp biểu diễn này, luận văn sử dụng phương pháp phân cụm tiếng Việt dựa thuật toán phân cấp hệ thống tra cứu văn tiếng Việt dựa tập liệu văn tiếng Việt phân cụm 2.1 Phương pháp biểu diễn văn 2.1.1 Khái niệm Biểu diễn văn phương pháp mô tả nội dung đặc trưng văn [1] Khi biểu diễn văn dạng véc tơ, người ta thường sử dụng thành phần véc tơ biểu diễn tương ứng với đặc trưng từ (thuật ngữ) Với giá trị đặc trưng gọi trọng số từ (thuật ngữ), mô tả tần suất từ (thuật ngữ) xuất văn [1] 2.1.1.1 Một số phương pháp biểu diễn văn Mô hình khơng gian vector Cách biểu diễn văn thơng dụng thông qua vector biểu diễn theo mô hình khơng gian vector (Vector Space Model) Đây cách biểu diễn tương đối đơn giản hiệu Trong sở liệu văn bản, mơ hình vector mơ hình biểu diễn văn sử dụng phổ biến Mối quan hệ trang văn thực thông qua việc tính tốn vector biểu diễn thi hành hiệu Hình 2.1 Mơ hình khơng gian vector Mơ hình Boolean Một mơ hình biểu diễn vector với hàm f cho giá trị rời rạc với hai giá trị sai (true false, 1) gọi mơ hình Boolean Hàm f tương ứng với từ khóa ti cho giá trị từ khóa ti xuất văn Mơ hình phân tích cú pháp Trong mơ hình này, văn phải phân tích cú pháp trả lại thông tin chi tiết chủ đề văn Sau đó, người ta tiến hành đánh số chủ đề văn Cách đánh số chủ đề giống đánh số văn đánh số từ xuất chủ đề Mơ hình tần suất Trong mơ hình tần suất, ma trận W = {wij} xác định dựa tần số xuất từ khóa ti văn dj tần số xuất từ khóa ti tồn sở liệu Sau số phương pháp phổ biến: - Phương pháp dựa tần số từ khóa (TF – Term Frequency) - Phương pháp dựa nghịch đảo tần số văn (IDF – Inverse Document Frequency) 2.1.1.2 Phương pháp tính trọng số từ Trong cách tiếp cận tính tốn trọng số từ để biểu diễn văn Phương pháp tính trọng số dựa tần suất xuất từ (thuật ngữ) sử dụng phổ biến 2.1.2 Kỹ thuật giảm chiều vector biểu diễn văn tiếng Việt 2.1.2.1 Kỹ thuật giảm chiều véc tơ Xem xét số ứng dụng ví dụ hệ thống xử lý liệu (tín hiệu tiếng nói, ảnh nhận dạng mẫu nói chung) tập đặc trưng coi tập hợp vec tơ giá trị thực Giả thiết rằng, hệ thống hiệu số chiều véc tơ riêng lẻ không lớn Vấn đề giảm chiều xuất liệu có số chiều lớn khả xử lý hệ thống [17 Hình 2.5 Mơ hình giảm chiều véc tơ 2.1.2.2 Kỹ thuật giảm chiều véc tơ biểu diễn văn tiếng Việt Khái niệm giảm chiều lần đầu công bố Bellman (1961) Bellman cho khó khăn tính tốn số đặc trưng số lượng từ nhiều 10 2.2.1.2 Độ tương tự hai văn Có số độ đo sử dụng như: độ tương tự cosine (cosine similarity), hệ số Jaccard (Jaccard coeficient), khoảng cách Euclidean (Euclidean distance), hệ số Pearson Correlation (Pearson Correlation coeficient) [18], Độ đo Cosine Độ đo cosine sử dụng nhiều phân cụm văn để tính tốn tương tự khác văn n A B i A.B similarity cos( ) A B i i 1 n (2-8) n ( A ) ( B ) i i i 1 i 1 Hệ số Jaccard Hệ số Jaccard đơi cịn gọi hệ số Tanimoto Đối với văn bản, hệ số Jaccard so sánh tổng trọng số thuật ngữ chung với tổng trọng số thuật ngữ biểu diễn hai văn không chứa thuật ngữ chung [18] Jacard _ Coff ( A, B ) A B i i Ai i i i Bi (2-9) i Ai * Bi Độ đo Euclide Trong độ đo Euclide thường sử dụng tập liệu để tính tốn độ tương tự Euclidean _ Dis tan ce( A, B ) (A B ) i i (2-10) i Trong luận văn này, sử dụng độ đo Euclide để tính tốn độ tương tự cặp văn tập hợp liệu 2.2.2 Kỹ thuật phân cấp 2.2.2.1 Kỹ thuật phân cấp Thuật tốn phân cụm phân cấp có hai kiểu từ xuống (top-down) từ lên (bottom-up) Bottom-up thời điểm ban đầu coi văn cụm đơn lẻ hợp 11 liên tục cặp cụm tới tất cụm hợp thành cụm chứa tất văn Phân cụm top-down đề cập phương pháp phân chia cụm Một thuật tốn HAC đơn giản đưa hình 2.10 HAC(d1, , dN) for n ← to N for i ← to N C(n)(i) ← SIM(dn,di) I[n] ← ( keeps track of active clusters) A ← [] ( asembles clustering as a sequence of merges) for k ← N -1 (i,m) ← arg max{ (i,m) : i ≠m A.APPEND((i,m)) (store merger) for j ← to N I[i] = I[m] =1}C[i][m] 10 C[i][j] ← SIM(i,m,j) 11 C[j][i] ← SIM(i,m,j) 12 I[m] ← (deactivate cluster) 13 Return A Hình 2.10 Thuật tốn HAC Thuật tốn mơ tả ví dụ sau: Ví dụ 2.3: Xét tập D gồm văn d1, d2, d3, d4, d5, d6 Bước 1: Khởi tạo Mỗi cụm văn ci gán tương ứng văn di (xem Hình 2.11) Hình 2.11 Khởi tạo cụm Bước N: Bước cuối ta nhận kết phân cấp tương ứng Hình 2.14 12 Hình 2.14 Cây phân cấp thu sau trình phân cụm 2.2.2.2 Phân cụm văn tiếng Việt dựa thuật toán phân cấp Dựa thuật toán phân cấp trình bày mục 2.2.2.1, luận văn trình bày phương pháp phân cụm văn tiếng Việt ứng dụng thuật toán phân cấp thành bước sơ đồ sau: Hình 2.15 Hệ thống phân cụm văn 13 2.3 Tra cứu văn tiếng Việt dựa kỹ thuật phân cụm phân cấp Một hệ thống tra cứu văn thông thường cần liên quan tới yếu tố sau - Câu truy vấn - Kho liệu văn - Quy trình xử lý phản hồi kết Hình 2.16 mơ tả qui trình hoạt động hệ thống tra cứu văn dựa kỹ thuật phân cụm Hình 2.16 Hệ thống tra cứu ứng dụng phân cụm văn Thuật toán hình 2.17 tính tốn trọng số danh từ thuộc tập văn D Hình 2.17 Thuật tốn tính trọng số từ phụ thuộc tập văn 14 Hình 2.18 mơ tả thuật toán biểu diễn văn Mỗi văn biểu diễn tập danh từ trọng số Hình 2.18 Thuật tốn biểu diễn văn Hình 2.19 mơ tả thuật tốn tính độ tương tự cặp văn tập văn đầu vào D Hình 2.19 Thuật tốn tính độ tương đồng văn tập D Sau văn gom thành cụm, luận văn sử dụng phương pháp tính trọng tâm để tính biểu diễn đại diện cho cụm Đối với cụm, việc tìm đại diện biểu diễn mơ tả sau: 15 Hình 2.20 Thuật tốn tìm đại diện biểu diễn cụm Trong hình 2.20 thuật tốn mơ tả việc tìm đại diện biểu diễn cho cụm dựa phương pháp tính tâm cụm Hình 2.21 mơ tả thuật tốn biểu diễn câu truy vấn Hình 2.21 Thuật tốn biểu diễn câu truy vấn 16 Trong thuật tốn có tham số: V tập từ điển danh từ, N tập danh từ tách từ câu truy vấn s, d tổng số danh từ tập N, O[i] biểu diễn số lần xuất N[i] câu s, W[i] trọng số danh từ câu truy vấn S Khi ta biểu diễn câu truy vấn biểu diễn đại diện cho cụm, việc thực đối sánh câu truy vấn với sở liệu để tìm độ tương đồng câu truy vấn cụm văn 2.4 Kết luận chương Trong chương này, luận văn trình bày phương pháp tra cứu văn tiếng Việt dựa phân cụm phân cấp, đồng thời mô tả chi tiết thuật toán dùng phân cụm phương pháp thể biểu diễn câu truy vấn cách tính độ tương đồng để truy xuất liệu Từ phương pháp thể chi tiết chương 2, luận văn thực q trình cài đặt mơ tả chương Chương XÂY DỰNG ỨNG DỤNG TRA CỨU VĂN BẢN TIẾNG VIỆT DỰA TRÊN KỸ THUẬT PHÂN CỤM Trong chương này, luận văn trình bày phương pháp lựa chọn liệu, lưu trữ xây dựng hệ thống ứng dụng tra cứu văn tiếng Việt dựa kỹ thuật phân cụm, đồng thời luận văn có thử nghiệm, đánh giá phương pháp cài đặt với tập liệu văn tiếng Việt 3.1 Kiến trúc tổng quát hệ thống Hệ thống tra cứu văn tiếng Việt dựa kỹ thuật phân cụm chia thành hai pha chính: Pha phân cụm pha tra cứu - Pha phân cụm: Pha thực phân cụm văn thành cụm riêng biệt Đồng thời từ dựa đại diện biểu diễn cụm để gán chủ đề cho cụm - Pha tra cứu: Pha thực tra cứu trực tuyến web Có lựa chọn sử dụng câu truy vấn sử dụng văn truy vấn để tra cứu văn tương tự Chức hệ thống mơ tả hình vẽ 3.1 17 Hình 3.1 Sơ đồ chức hệ thống tra cứu văn tiếng Việt Hình 3.2 mơ tả biểu đồ ca sử dụng tổng quát hệ thống tra cứu Nguoi dung Them du lieu Sua du lieu tra cuu xem thong tin xoa du lieu huan luyen phan cum Quan tri Hình 3.2 Biểu đồ Use case tổng quát Chức tra cứu văn Trong chức tra cứu văn có bao gồm hai tính tra cứu tính tra cứu theo câu hỏi (query) tính tra cứu theo văn (file) Hình 3.3 mô tả biểu đồ use case trường hợp tra cứu với hai tính mơ tả 18 System cau hoi truy van van ban tra cuu Quan tri Nguoi dung Hình 3.3 Biểu đồ ca sử dụng tra cứu Hình 3.4 mô tả chức tra cứu thông tin người dùng giao dien co so du lieu : Nguoi dung : vao he thong() : hien thi giao dien he thong() : gui tra cuu() : tra ket qua tra cuu() : Ket qua tra cuu() Hình 3.4 Biểu đồ tra cứu phản hồi thông tin tra cứu 19 Hình 3.5 mơ tả biểu đồ hoạt động hệ thống Giao dien he thong Chon tinh nang tra cuu Tra cuu theo query Tra cuu theo file Chon file Nhap query Nhan nut tim kiem Tra ve danh sach ket qua Hình 3.5 Biểu đồ hoạt động hệ thống tra cứu văn 3.2 Xây dựng tập liệu tập từ điển danh từ 3.2.1 Xây dựng tập liệu Tập liệu sử dụng phân cụm sử dụng luận văn đồng thời tập liệu sử dụng để phân cụm Cho đến thời điểm này, kho ngữ liệu chuẩn phục vụ cho phân cụm văn tiếng Việt chưa có Do đó, luận văn xây dựng kho liệu phục vụ cho phân cụm văn cách thủ công [luận án] 20 3.2.2 Tiền xử lý chuẩn hóa liệu Để có xâu chuẩn, chuẩn bị cho việc tách từ, ta thực qua bước sau: Chuyển hết ký tự chữ hoa thành chữ thường Dùng dấu câu (bao gồm dấu “.” “,” “:”…) để tách văn thành tâp hợp câu Tiến hành chuẩn hoá với câu: 3.2.3 Xây dựng từ điển danh từ Từ tập liệu huấn luyện ban đầu sau q trình chuẩn hóa văn ta xây dựng từ điển bao gồm danh từ Để xây dựng từ điển danh từ này, phải xây dựng cách thủ công dựa hệ thống gán nhãn từ loại lưu vào sở liệu hệ thống 3.3 Môi trường cài đặt 3.3.1 Môi trường cài đặt hệ thống Hệ thống xây dựng web để thuận tiện cho việc tra cứu trực tuyến Hệ thống sử dụng ngôn ngữ C# visual studio 2010 3.3.2 Cơ sở liệu hệ thống Hình 3.8 mô tả sở liệu hệ thống tra cứu văn tiếng Việt Hình 3.8 Cơ sở liệu hệ thống 21 3.3.3 Một số giao diện hệ thống 3.3.3.1 Giao diện tra cứu Hệ thống tra cứu văn tiếng Việt có số giao diện sau, hệ thống chạy web, hệ thống cài đặt để chạy localhost máy tính cá nhân Hình 3.9 giao diện hệ thống Hình 3.9 Giao diện trang chủ hệ thống Hình 3.10 mô tả giao diện người dùng nhập câu hỏi tra cứu Hình 3.10 Kết tra cứu với câu truy vấn Hình 3.12 mơ tả kết tra cứu hệ thống 22 Hình 3.12 Kết tra cứu với văn 3.3.3.2 Quản lý phân cụm Phần mô tả số giao diện phần xử lý phân cụm văn Hình 3.14 mô tả chức quản lý lấy liệu từ máy tính để tiến hành phân cụm liệu Hình 3.14 Tính độ tương tự cặp văn tập liệu Sau tính độ tương tự cặp văn tập liệu Phần ngưỡng lựa chọn số cụm để phân chia 23 Hình 3.16 Kết phân cụm với ngưỡng 0.9 Tiếp theo, sau phân cụm, người quản trị di chuyển cụm phân vào folder khác thực nhấn nút di chuyển 3.4 Kết thực nghiệm Trong đánh giá so sánh phương pháp hệ thống TR, số phương pháp chuẩn đưa Tuy nhiên, hệ thống TR sử dụng TRECs tiêu chuẩn để đánh giá [20] Các văn thử nghiệm lấy tập liệu TREC (~1Gb) http://trec.nist.gov Đối với việc đánh giá hệ thống tra cứu tiếng Việt, nay, kho liệu chưa xây dựng, hệ thống đánh giá chưa có Do đó, để đánh giá hệ thống tra cứu văn tiếng Việt Trong luận văn sử dụng phương pháp thủ công, có nghĩa tự xây dựng kho liệu phục vụ cho hệ thống tra cứu, đồng thời sử dụng độ đo đánh giá để đánh giá hệ thống mà luận văn xây dựng Trong luận văn này, sử dụng độ đo triệu hồi để đánh giá kết tra cứu hệ thống Kho liệu sử dụng luận văn xây dựng cách thủ công, văn download từ trang web, với chủ đề khác lưu trữ dạng file txt (mục 3.2.1) 24 Bảng 3.3 Độ triệu hồi thực truy vấn TT Các truy vấn Số văn liên quan 52 Độ triệu hồi Kinh doanh 0.173333 Chất lượng giáo dục 54 0.18 Bóng đá giới 46 0.153333 Món ngon Hà nội 42 0.14 Máy tính bảng nhẹ 78 0.26 Nhà máy điện hạt nhân 36 0.12 Hình 3.20 biểu thị độ triệu hồi Hình 3.20 Độ triệu hồi 3.5 Kết luận chương Trong chương này, luận văn trình bày chi tiết từ phân tích thiết kế hệ thống giao diện hệ thống Các chức hệ thống mơ tả rõ ràng, đầy đủ So sánh kết hệ thống luận văn xây dựng với kết trích rút chuyên gia, cho thấy rằng, hệ thống đáp ứng u cầu tra cứu thơng tin văn tiếng Việt Trong luận văn sử dụng cách đánh giá chuyên gia người cho kết chấp nhận ... phân cụm văn tiếng Việt ứng dụng thuật toán phân cấp thành bước sơ đồ sau: Hình 2.15 Hệ thống phân cụm văn 13 2.3 Tra cứu văn tiếng Việt dựa kỹ thuật phân cụm phân cấp Một hệ thống tra cứu văn. .. trưng văn 2.2 Kỹ thuật phân cụm văn tiếng Việt dựa thuật toán phân cấp 2.2.1 Phân cụm văn 2.2.1.1 Khái niệm phân cụm văn Định nghĩa: Thuật tốn phân cụm nhóm tập văn vào tập cụm Mục đích thuật. .. DỤNG TRA CỨU VĂN BẢN TIẾNG VIỆT DỰA TRÊN KỸ THUẬT PHÂN CỤM Trong chương này, luận văn trình bày phương pháp lựa chọn liệu, lưu trữ xây dựng hệ thống ứng dụng tra cứu văn tiếng Việt dựa kỹ thuật phân