Sắp xếp kết quả của máy tính bằng kỹ thuật phân cụm ( tóm tắt luận văn )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN THỊ HUỆ SẮP XẾP KẾT QUẢ CỦA MÁY TÌM KIẾM BẰNG KỸ THUẬT PHÂN CỤM Chuyên ngành: Truyền liệu mạng máy tính Mã số: 60.48.15 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2012 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS.TS TỪ MINH PHƯƠNG Phản biện 1: …………………………………… Phản biện 2: …………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng MỞ ĐẦU Hiện nay, tìm kiếm thơng tin Internet trở nên đơn giản với phát triển nội dung hình thức cơng cụ tìm kiếm Tuy nhiên, với phát triển nhanh chóng mạng Internet số lượng trang Web lớn Vấn đề đặt với câu truy vấn mà trả hàng trăm, hàng nghìn chí hàng tỷ kết liệu người dùng có đủ kiên nhẫn thời gian để lướt qua tất kết hay khơng? Để tiến hành xử lý vấn đề này, kỹ thuật phân cụm sử dụng Luận văn với đề tài: “Sắp xếp kết máy tìm kiếm kỹ thuật phân cụm” tập trung nghiên cứu kỹ thuật phân cụm áp dụng để xếp kết tìm kiếm theo chủ đề Luận văn chia thành chương với nội dung sau: Chương Tổng quan Trình bày khái qt tốn phân cụm kết tìm kiếm giới thiệu đặc điểm, chức năng, giao diện cơng cụ tìm kiếm điển hình Chương Sắp xếp kết tìm kiếm kỹ thuật phân cụm Trình bày nét toán phân cụm liệu nói chung đặc biệt sâu vào tốn phân cụm kết tìm kiếm theo chủ đề nói riêng, bao gồm: giới thiệu mơ tả toán, số độ đo độ đánh giá, phương pháp phân cụm phổ biến, Chương Thực nghiệm đánh giá Trinh bày bước tiến hành thực nghiệm tập liệu lấy từ máy tìm kiếm google, phân tích xử lý sau đánh giá kết trước sau áp dụng kỹ thuật phân cụm Phần Kết luận Trình bày tổng hợp kết mà luận văn thực phương hướng nghiên cứu nội dung luận văn CHƯƠNG I TỔNG QUAN 1.1 Tổng quan toán phân cụm kết tìm kiếm Ý tưởng đưa kết trả cơng cụ tìm kiếm cần phân theo chủ đề, giúp người dùng định hướng, lựa chọn tài liệu phù hợp cách nhanh chóng hiệu Chẳng hạn, gửi truy vấn “ơ tơ” thơng qua cơng cụ tìm kiếm nối tiếng google [14] nhận khoảng 83 100 000 kết tìm kiếm (Số liệu thống kê 27/9/2012) Giống nhiều truy vấn khác, truy vấn “ơ tơ” có nhiều đặc trưng khác chẳng hạn như: mua bán, đua xe, kỹ thuật lái xe, Mỗi kết mang đặc trưng định trang có đặc trưng nằm rải rác, xen kẽ số lượng lớn danh sách kết trả Nhiệm vụ cần giải trang có nội dung đề cập đến mua bán xe ô tô ta gom vào nhóm, làm tương tự với nhóm đua xe, kỹ thuật lái xe, Khi xử lý việc phân cụm người sử dụng việc truy cập đến chủ đề cần tìm mà khơng cần quan tâm đến chủ đề khác Phương pháp phân cụm đưa toán phân cụm xếp hạng cụm từ quan trọng Đưa câu truy vấn lấy danh sách tài liệu xếp hạng từ cơng cụ tìm kiếm, tách tài liệu thành cụm từ, sau xếp hạng cụm từ Cơng trình dựa kỹ thuật phân cụm Northern Light, vào cuối năm 1990, phân cụm dựa kết tìm kiếm cho sẵn Tính đến nay, phân cụm tích hợp số máy tìm kiếm tiếng Anh Viv'isimo, carrot2 hay Clusty đạt độ xác cao, với tiếng Việt có Việt Nam Search Engine máy tìm kiếm có tích hợp phân cụm xây dựng đem lại kết khả quan 1.2 Công cụ tìm kiếm thơng thường 1.2.1 Giới thiệu Cơng cụ tìm kiếm cơng cụ hữu ích giúp người dùng sử dụng nguồn tài nguyên Internet cách hiệu 1.2.2 Quá trình tìm kiếm kết tìm kiếm 1.2.2.1 Hệ thống thu thập liệu 1.2.2.2 Hệ thống phân tích lập mục liệu 1.2.2.3 Hệ thống tìm kiếm 1.2.3 Một số cơng cụ tìm kiếm điển hình 1.2.3.1 Google: http://www.google.com/ 1.2.3.2 Yahoo: http://yahoo.com/ 1.2.3.3 MSN: http://www.msn.com/ 1.2.4 Hiệu công cụ tìm kiếm Đáp ứng truy vấn rộng, mơ hồ, danh sách kết nằm rải rác, pha trộn với số trang không liên quan đến truy vấn, Ngồi với khối lượng thơng tin lớn Internet danh sách kết trả lớn, có hàng tỷ kết với câu truy vấn điều hạn chế khả lướt tồn kết tìm kiếm người sử dụng 1.3 Kết luận chương CHƯƠNG II SẮP XẾP KẾT QUẢ TÌM KIẾM BẰNG KỸ THUẬT PHÂN CỤM 2.1 Kỹ thuật phân cụm 2.1.1 Giới thiệu phân cụm liệu Phân cụm liệu kỹ thuật khai phá liệu, trình phân cụm liệu trình phân chia tập liệu ban đầu thành cụm liệu cho phần tử cụm "tương tự" với phần tử cụm khác "phi tương tự" với 2.1.2 Một số yêu cầu trình phân cụm - Chọn lựa đặc trưng - Chọn độ đo tương tự - Tiêu chuẩn phân cụm - Thuật tốn phân cụm: - Cơng nhận kết - Giải thích kết 2.1.3 Xây dựng mơ hình phân cụm liệu 2.1.3.1 Mơ hình tài liệu Hầu hết thuật toán phân cụm yêu cầu tập liệu cần phân cụm dạng tập véc tơ D = {d1, d2, …, dn} véc tơ di, i= 1, …, n đại diện cho đối tượng đơn lẻ tập liệu gọi véc tơ đặc trưng (feature vector) a, Mơ hình liệu tài liệu b, Mơ hình liệu số c, Mơ hình phân cụm liệu d, Mơ hình liệu kết hợp 2.1.3.2 Độ đo tương tự Với véc tơ đặc trưng x y, cần phải tìm độ tương tự (hoặc không tương tự) chúng Một lớp hay sử dụng hàm khoảng cách mô tả công thức (2.1) : 10 x  y  max i 1, 2, , n xi  yi Công thức (2.4) Một độ đo độ tương tự hay dùng, đặc biệt phân cụm tài liệu độ đo liên quan cosine (cosine correlation), định nghĩa công thức (2.5): cos( x, y )  x y x y Cơng thức (2.5) Trong biểu thị việc nhân vector ||.|| biểu thị cho độ dài vector Một độ đo hay dùng khác độ đo Jaccard (được sử dụng [26], [32]), định nghĩa công thức (2.6) :  d ( x, y )   n i 1 n min( xi , yi ) max( xi , yi ) i 1 Công thức (2.6) Trong trường hợp vector đặc trưng nhị phân, đơn giản hóa cơng thức (2.7): 11 d ( x, y )  x y x y Công thức (2.7) 2.1.3.3 Mơ hình phân cụm tài liệu Tùy theo vấn đề, có phân cụm tách rời (disjoint) phân cụm chồng chéo (overlapping) 2.1.4 Một số vấn đề xử lý liệu văn 2.1.4.1 Loại bỏ từ dừng 2.1.4.2 Định luật Zipf 2.2 Phân cụm kết tìm kiếm 2.2.1 Mơ tả toán Đưa danh sách xếp hạng gốc kết tìm kiếm R={r(di|q)} Trong đó: + q câu truy vấn + di tài liệu (kết tìm kiếm) + r hàm tính độ liên quan di q 12 2.2.2 Mơ tả thuật tốn Phương pháp phân cụm dựa vào xếp hạng cụm từ quan trọng [25] đưa tốn phân cụm kết tìm kiếm sang toán xếp hạng cụm từ quan trọng 2.2.3 Mục tiêu kỹ thuật phân cụm kết tìm kiếm Sắp xếp kết tìm kiếm theo chủ đề, giúp người sử dụng thuật tiện trình tìm kiếm thơng tin từ máy tìm kiếm 2.2.4 u cầu phân cụm kết tìm kiếm Bản chất liệu với việc sử dụng tương tác cụm kết đặt yêu cầu thách thức công nghệ phân cụm, chi tiết danh sách sau - Nhãn có ý nghĩa - Tính tốn hiệu - Dữ liệu đầu vào Mô tả ngắn 13 - Không biết số cụm - Các chồng chéo cụm - Giao diện người dùng đồ họa (GUI) 2.2.5 Các bước phân cụm kết tìm kiếm 2.2.5.1 Thu nhận kết tìm kiếm Cụ thể dựa vào câu truy vấn để tìm kiếm trả tập gồm tồn văn tài liệu, tiêu đề, mơ tả tóm tắt, URL,… tương ứng với trang 2.2.5.2 Tiền xử lý kết tìm kiếm a Chuẩn hóa văn + Xóa thẻ HTML loại thẻ khác để trích từ/cụm từ + Chuyển ký tự hoa thành ký tự thường + Xóa bỏ dấu câu, xố ký tự trắng dư thừa, b Xóa bỏ từ dừng 14 Trong văn có từ mang thơng tin q trình xử lý, từ có tần số xuất thấp, từ xuất với tần số lớn không quan trọng cho trình xử lý loại bỏ c Kết hợp từ có gốc Hầu hết ngơn ngữ có nhiều từ có chung nguồn gốc với nhau, chúng mang ý nghĩa tương tự nhau, để giảm bởt số chiều biểu diễn văn bản, ta kết hợp từ có gốc thành từ d Xây dựng từ điển Từ điển gồm bảng từ, số từ điển xếp theo thứ tự e Tách từ, số hóa văn biểu diễn tài liệu Quá trình tách từ, vector hóa tài liệu q trình tìm kiếm từ thay số từ từ điển 2.2.5.3 Phân cụm kết tìm kiếm 2.3 Một số thuật tốn phân cụm điển hình 15 2.3.1 Thuật Toán K-Means Các bước thực B1 Chọn ngẫu nhiên K tâm cho K cụm Mỗi cụm đại diện tâm cụm B2 Tính khoảng cách đối tượng đến K tâm (thường dùng khoảng cách Euclidean) B3 Nhóm đối tượng vào nhóm gần B4 Xác định lại tâm cho nhóm B5 Thực lại bước khơng có thay đổi nhóm đối tượng 2.3.2 Thuật toán Hierarchical Agglomeraltive Clustering Đoạn mã giả thuật toán HAC [3] Đặt tài liệu d nhóm đơn {d} Đặt G tập tất nhóm while |G| > 16 Chọn Ґ, Δ Є G thông qua độ đo tính tương tự s(Ґ, Δ) Loại bỏ Ґ, Δ khỏi G Đặt Ф= Ґ Δ Thêm Ф vào G end while 2.3.3 Thuật toán Expectation Maximization Thuật toán Expectation Maximization bước lặp thứ t thực công việc sau: - Bước E: Tính tốn để xác định giá trị biến thị dựa mơ hình liệu: - Bước M: Đánh giá xác suất 2.3.4 Thuật tốn Suffix Tree Clustering STC có ba bước hợp lý: (1) văn "làm sạch", (2) xác định cụm sở cách sử dụng hậu tố, (3) kết hợp cụm sở thành cụm 2.4 Kết luận chương 17 CHƯƠNG III THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 Tập liệu Dữ liệu thực nghiệm lấy từ danh sách kết trả máy tìm kiếm google Thực gán nhãn liệu cho truy vấn với từ khóa: “ơ tơ” Trong chương trình thực nghiệm với 50 kết đầu tiên, bao gồm tiêu đề, đoạn tóm tắt tài liệu, URL toàn nội dung kết tìm kiếm Như vậy, tập liệu vào toán chứa nội dung từ xuất trang Còn liệu nhóm tập liệu thành k cụm tùy ý 3.2 Các cơng cụ thử nghiệm Cơng cụ sử dụng để tiến hành phân cụm phần mềm WEKA (Waikato Environment for Knowledge Analysis.) Để sử dụng phần mềm Weka ta phải chuẩn bị liệu vào dạng file ARFF 18 Một file ARFF cho liệu oto bảng, file đưa đặc trưng giá trị số Dòng với dấu % ghi Tiếp theo ghi đầu file tên quan hệ (oto) khối định nghĩa đặc trưng (mua_bán_ô_tô, tin_tức, ô_tô_nhập_khẩu, kỹ_thuật_lái_xe, thị_trường_ô_tô, người_đẹp_ô_tô, đồ_chơi, siêu_xe, giá_cả, đánh_giá) Các đặc trưng định danh theo sau tập giá trị mà chúng xảy ra, chúng đặt dấu {} Các giá trị bao gồm khoảng trống; Nếu vậy, chúng phải đặt hai dấu “” Các giá trị số kèm theo từ khóa numeric Tiếp theo định nghĩa đặc trưng dòng @data ký hiệu cho bắt đầu mẫu (instance) tập liệu Các instance viết dòng, với giá trị cho đặc trưng theo thứ tự, cách dấu phẩy Nếu giá trị bị lỗi (missing) thể dấu hỏi chấm (khơng có giá trị missing liệu này) Các mô tả đặc trưng file ARFF cho phép tập liệu kiểm tra xem có 19 chứa giá trị hợp lệ hay khơng Và chương trình đọc file ARFF làm việc kiểm tra cách tự động Ngoài ra, sử dụng thêm công cụ: - Detagger để chuyển đổi file định dạng HTML định dạng plaintext - Stopwords.java để loại bỏ từ dừng - LovinsStemmerWrapper.java PorterStemmerWrapper.java để rút gọn từ dạng nguyên gốc - PruneByFrequency.java để loại bỏ từ có tần số xuất q nhiều q ít., - BinaryOccurrences.java, TermFrequency.java TermOccurrences.java để tính tần suất xuất từ file văn plaintext - WVTool.java để chuyển file plaintex sang dạng vector 3.3 Phương pháp thử nghiệm Các bước thực nghiệm tiến hành cụ thể sau: 20 Bước 1: Thu nhận kết tìm kiếm từ google Lấy tồn nội dung tập gồm 50 trang kết tìm kiếm dạng html lưu thành tên trang1, trang2,…trang50 Bước Tiền xử lý kết tìm kiếm bước Sử dụng công cụ Detagger để chuyển đổi 50 file dạng html từ trang1, trang2, trang 50 bước dạng định dạng văn plaintext (có đi.txt) ta lưu doc1, doc2, …, doc50; sau xử lý chuẩn hóa, tách từ, xóa từ dừng, vecto hóa văn sau:  Thống kê toàn từ file văn bản, loại bỏ từ dừng (stopwword), loại bỏ tiền tố, hậu tố để đưa từ nguyên gốc (stemming), loại bỏ từ xuất lần nhiều 20 lần sau xây dựng danh sách từ (wordlist)  Thực vector hóa file văn với thành phần vector tương ứng từ khóa wordlist gán giá trị số nguyên dương 21 tương ứng với tần suất xuất từ khóa trang Web Dựa vào mơ hình khơng gian vecto, ta có 50 kết tìm kiếm xử lý là: doc 1, doc 2, … ,doc 50 - Các từ tách mà có nghĩa đặt w1, w2, …, wn - Căn số từ xuất docs, sử dụng mơ hình túi từ (bag – of – words) để biểu diễn  Tổ chức vector thành file search.arff theo định dạng phần mềm WEKA Bước Phân cụm kết tìm kiếm Dữ liệu dùng để phân cụm thực nghiệm nội dung chuẩn hóa 50 kết tìm kiếm với truy vấn từ khóa “ơ tơ”, gồm có 10 đặc trưng từ, cụm từ xuất kết tìm kiếm lựa chọn nội dung tìm kiếm giá trị đặc trưng tần suất xuất từ Lưu ý 22 rằng, từ gồm tiếng ta giữ nguyên, từ tiếng trở lên ta dùng dấu gạch để liên kết từ, … Chuyển sang tab cluster để sử dụng ứng dụng phân cụm với số thuật toán của phần mềm Weka Với thuật tốn EM Kmeans trả kết sau: Cụm 0: kết tương ứng 40% Cụm 1: kết tương ứng 40% Cụm 2: kết tương ứng 20% Đối với thuật toán HierarchicalClusterer, kết phân thành cụm thời gian 0.03s trả sau: Cụm 0: gồm kết với 20% ((0.0:0,0.0:0):0,(0.0:0,0.0:0):0) Cụm 1: gồm kết với 20% ((7.0:0,7.0:0):0,(7.0:0,7.0:0):0) Cụm 2: gồm 12 kết với 60% 23 (((0.0:0,0.0:0):0,(0.0:0,0.0:0):0):1.6266,(((0.0:0,0.0:0):0,(0 0:0,0.0:0):0):1.48471,(1.0:0,((1.0:0,1.0:0):0,1.0:0):0):1.48 471):0.14189) 3.4 Đánh giá kết So sánh kết với K=3 Phần trăm kết 70% 60% 50% EM 40% HierarchicalClusterer 30% SimpleKMeans 20% 10% 0% Cụm Cụm Cụm Số cụm lựa chon Hình 3.14 Biểu đồ so sánh số liệu thuật 3.5 Kết luận chương 24 KẾT LUẬN Sau thời gian tìm hiểu, nghiên cứu đến luận văn hoàn thành Về luận văn đáp ứng nội dung đăng ký đề cương Một vấn đề đặt hướng nghiên cứu trước xây dựng phân cụm kết tìm kiếm cần đáp ứng PageRank: - Nâng cao chất lượng nhãn cụm gắn kết cấu trúc phân cụm - Cần thiết kế hệ thống cẩn thận nhằm mục đích so sánh chéo đo phát triển hệ thống - Cung cấp tổng quan hướng dẫn cách sử dụng nhóm Bên cạnh việc cố gắng để cải thiện phương pháp bản, nghiên cứu gần xác định lĩnh vực ứng dụng phân cụm kết tìm kiếm chủ đề phát triển lĩnh vực tìm kiếm di động ... (( 7.0:0,7.0: 0): 0 ,(7 .0:0,7.0: 0): 0) Cụm 2: gồm 12 kết với 60% 23 (( (0 .0:0,0.0: 0): 0 ,(0 .0:0,0.0: 0): 0): 1.6266 ,(( (0 .0:0,0.0: 0): 0 ,(0 0:0,0.0: 0): 0): 1.48471 ,(1 .0:0 ,(( 1.0:0,1.0: 0): 0,1.0: 0): 0): 1.48 47 1): 0.1418 9) 3.4... lướt tồn kết tìm kiếm người sử dụng 1.3 Kết luận chương CHƯƠNG II SẮP XẾP KẾT QUẢ TÌM KIẾM BẰNG KỸ THUẬT PHÂN CỤM 2.1 Kỹ thuật phân cụm 2.1.1 Giới thiệu phân cụm liệu Phân cụm liệu kỹ thuật khai... 2: kết tương ứng 20% Đối với thuật toán HierarchicalClusterer, kết phân thành cụm thời gian 0.03s trả sau: Cụm 0: gồm kết với 20% (( 0.0:0,0.0: 0): 0 ,(0 .0:0,0.0: 0): 0) Cụm 1: gồm kết với 20% (( 7.0:0,7.0: 0): 0 ,(7 .0:0,7.0: 0): 0)

Định dạng
Số trang	26
Dung lượng	261,76 KB