Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
261,7 KB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG NGUYỄN THỊ HUỆ SẮP XẾP KẾT QUẢ CỦA MÁY TÌM KIẾM BẰNG KỸ THUẬT PHÂN CỤM Chuyên ngành: Truyền dữ liệu và mạng máy tính Mã số: 60.48.15 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2012 1 Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS.TS. TỪ MINH PHƯƠNG Phản biện 1: …………………………………… Phản biện 2: …………………………………… Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: giờ ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông 1 MỞ ĐẦU Hiện nay, tìm kiếm thông tin trên Internet đã trở nên đơn giản hơn với sự phát triển cả về nội dung và hình thức của các công cụ tìm kiếm. Tuy nhiên, với sự phát triển nhanh chóng của mạng Internet hiện nay thì số lượng các trang Web là rất lớn. Vấn đề đặt ra là với câu truy vấn mà trả về hàng trăm, hàng nghìn thậm chí hàng tỷ kết quả thì liệu rằng người dùng có đủ kiên nhẫn và thời gian để lướt qua tất cả các kết quả đó hay không? Để tiến hành xử lý vấn đề này, các kỹ thuật phân cụm đã được sử dụng. Luận văn với đề tài: “Sắp xếp kết quả của máy tìm kiếm bằng kỹ thuật phân cụm” tập trung nghiên cứu về kỹ thuật phân cụm và áp dụng nó để sắp xếp kết quả tìm kiếm theo chủ đề. Luận văn được chia thành 3 chương với các nội dung chính như sau: Chương 1. Tổng quan. Trình bày khái quát về bài toán phân cụm kết quả tìm kiếm và giới thiệu đặc điểm, 2 chức năng, giao diện của một công cụ tìm kiếm điển hình hiện nay. Chương 2. Sắp xếp kết quả tìm kiếm bằng kỹ thuật phân cụm. Trình bày những nét cơ bản nhất về bài toán phân cụm dữ liệu nói chung và đặc biệt đi sâu vào bài toán phân cụm kết quả tìm kiếm theo chủ đề nói riêng, bao gồm: giới thiệu và mô tả bài toán, một số độ đo độ đánh giá, các phương pháp phân cụm phổ biến, Chương 3. Thực nghiệm và đánh giá. Trinh bày các bước tiến hành thực nghiệm trên tập dữ liệu lấy từ máy tìm kiếm google, phân tích và xử lý sau đó đánh giá kết quả trước và sau khi áp dụng kỹ thuật phân cụm. Phần Kết luận Trình bày tổng hợp các kết quả mà luận văn đã thực hiện được và phương hướng nghiên cứu tiếp theo về các nội dung của luận văn. 3 CHƯƠNG I. TỔNG QUAN 1.1. Tổng quan về bài toán phân cụm kết quả tìm kiếm Ý tưởng được đưa ra là khi kết quả trả về của công cụ tìm kiếm cần được phân ra theo chủ đề, giúp người dùng định hướng, lựa chọn tài liệu phù hợp một cách nhanh chóng và hiệu quả hơn. Chẳng hạn, nếu chúng ta gửi truy vấn là “ô tô” thông qua công cụ tìm kiếm nối tiếng như google [14] thì sẽ nhận được khoảng 83 100 000 kết quả tìm kiếm (Số liệu thống kê 27/9/2012). Giống như nhiều truy vấn khác, truy vấn “ô tô” cũng có nhiều đặc trưng khác nhau chẳng hạn như: mua bán, đua xe, kỹ thuật lái xe, Mỗi kết quả mang một đặc trưng nhất định và có thể các trang có cùng đặc trưng sẽ nằm rải rác, xen kẽ trong một số lượng lớn các danh sách kết quả trả về. 4 Nhiệm vụ chúng ta cần giải quyết là những trang nào có nội dung đề cập đến mua bán xe ô tô ta gom vào một nhóm, làm tương tự với các nhóm đua xe, kỹ thuật lái xe, Khi đã xử lý được việc phân cụm này thì người sử dụng chỉ việc truy cập đến chủ đề cần tìm mà không cần quan tâm đến các chủ đề khác. Phương pháp phân cụm ở đây sẽ đưa về bài toán phân cụm xếp hạng các cụm từ quan trọng. Đưa ra câu truy vấn và lấy về một danh sách các tài liệu đã được xếp hạng từ công cụ tìm kiếm, đầu tiên là tách các tài liệu thành các cụm từ, sau đó xếp hạng các cụm từ này. Công trình đầu tiên dựa trên kỹ thuật phân cụm là Northern Light, vào cuối những năm 1990, nó chỉ được phân cụm dựa trên kết quả tìm kiếm được cho sẵn. Tính đến nay, phân cụm đã được tích hợp trong một số máy tìm kiếm tiếng Anh như Viv'isimo, carrot2 hay Clusty đạt độ chính xác khá cao, với tiếng Việt hiện tại chỉ có Việt Nam Search Engine là máy tìm kiếm có 5 tích hợp phân cụm đang được xây dựng và đem lại kết quả rất khả quan. 1.2. Công cụ tìm kiếm thông thường 1.2.1. Giới thiệu Công cụ tìm kiếm là một công cụ rất hữu ích giúp người dùng sử dụng nguồn tài nguyên trên Internet một cách hiệu quả nhất. 1.2.2. Quá trình tìm kiếm và kết quả tìm kiếm 1.2.2.1. Hệ thống thu thập dữ liệu 1.2.2.2. Hệ thống phân tích và lập chỉ mục dữ liệu 1.2.2.3. Hệ thống tìm kiếm 1.2.3. Một số công cụ tìm kiếm điển hình 1.2.3.1. Google: http://www.google.com/ 1.2.3.2. Yahoo: http://yahoo.com/ 1.2.3.3. MSN: http://www.msn.com/ 1.2.4. Hiệu quả của các công cụ tìm kiếm 6 Đáp ứng các truy vấn rộng, mơ hồ, danh sách kết quả nằm rải rác, pha trộn với một số trang không liên quan đến truy vấn, Ngoài ra với khối lượng thông tin lớn trên Internet thì danh sách kết quả trả về cũng lớn, có khi là hàng tỷ kết quả với một câu truy vấn và điều này cũng hạn chế khả năng lướt toàn bộ kết quả tìm kiếm của người sử dụng. 1.3. Kết luận chương 7 CHƯƠNG II. SẮP XẾP KẾT QUẢ TÌM KIẾM BẰNG KỸ THUẬT PHÂN CỤM 2.1. Kỹ thuật phân cụm 2.1.1. Giới thiệu phân cụm dữ liệu Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu, quá trình phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm "tương tự" với nhau và các phần tử trong các cụm khác nhau sẽ "phi tương tự" với nhau. 2.1.2. Một số yêu cầu trong quá trình phân cụm - Chọn lựa đặc trưng - Chọn độ đo tương tự - Tiêu chuẩn phân cụm - Thuật toán phân cụm: - Công nhận kết quả - Giải thích kết quả 8 2.1.3. Xây dựng mô hình phân cụm dữ liệu 2.1.3.1. Mô hình tài liệu Hầu hết các thuật toán phân cụm đều yêu cầu tập dữ liệu cần được phân cụm ở dạng một tập các véc tơ D = {d1, d2, …, dn} trong đó véc tơ di, i= 1, 2 …, n đại diện cho một đối tượng đơn lẻ trong tập dữ liệu và được gọi là véc tơ đặc trưng (feature vector). a, Mô hình dữ liệu tài liệu b, Mô hình dữ liệu số c, Mô hình phân cụm dữ liệu d, Mô hình dữ liệu kết hợp 2.1.3.2. Độ đo về sự tương tự Với 2 véc tơ đặc trưng x và y, cần phải tìm ra độ tương tự (hoặc không tương tự) giữa chúng. Một lớp rất hay sử dụng bởi các hàm khoảng cách được mô tả như công thức (2.1) : [...]... được xếp hạng gốc của kết quả tìm kiếm R={r(di|q)} Trong đó: + q là câu truy vấn hiện tại + di là một tài liệu (kết quả tìm kiếm) + r là một hàm tính độ liên quan giữa di và q 12 2.2.2 Mô tả thuật toán Phương pháp phân cụm dựa vào xếp hạng các cụm từ quan trọng [25] đã đưa bài toán phân cụm kết quả tìm kiếm sang bài toán xếp hạng các cụm từ quan trọng 2.2.3 Mục tiêu của kỹ thuật phân cụm kết quả tìm... để liên kết giữa các từ, … Chuyển sang tab cluster để sử dụng ứng dụng phân cụm với một số thuật toán của của phần mềm Weka Với thuật toán EM và Kmeans thì đều trả kết như sau: Cụm 0: 8 kết quả tương ứng 40% Cụm 1: 8 kết quả tương ứng 40% Cụm 2: 4 kết quả tương ứng 20% Đối với thuật toán HierarchicalClusterer, kết quả phân thành 3 cụm trong thời gian 0.03s trả về như sau: Cụm 0: gồm 4 kết quả với 20%... cụm kết quả tìm kiếm Sắp xếp kết quả tìm kiếm theo chủ đề, giúp người sử dụng thuật tiện trong quá trình tìm kiếm thông tin từ các máy tìm kiếm 2.2.4 Yêu cầu phân cụm kết quả tìm kiếm Bản chất dữ liệu cùng với việc sử dụng tương tác của cụm các kết quả đặt ra yêu cầu mới và thách thức đối với công nghệ phân cụm, như chi tiết trong danh sách sau đây - Nhãn có ý nghĩa - Tính toán hiệu quả - Dữ liệu đầu... ((0.0:0,0.0:0):0,(0.0:0,0.0:0):0) Cụm 1: gồm 4 kết quả với 20% ((7.0:0,7.0:0):0,(7.0:0,7.0:0):0) Cụm 2: gồm 12 kết quả với 60% 23 (((0.0:0,0.0:0):0,(0.0:0,0.0:0):0):1.6266,(((0.0:0,0.0:0):0,(0 0:0,0.0:0):0):1.48471,(1.0:0,((1.0:0,1.0:0):0,1.0:0):0):1.48 471):0.14189) 3.4 Đánh giá kết quả So sánh kết quả với K=3 Phần trăm kết quả 70% 60% 50% EM 40% HierarchicalClusterer 30% SimpleKMeans 20% 10% 0% Cụm 0 Cụm 1 Cụm 2 Số cụm lựa... trình tách từ, vector hóa tài liệu là quá trình tìm kiếm các từ và thay thế nó bởi chỉ số của từ đó trong từ điển 2.2.5.3 Phân cụm kết quả tìm kiếm 2.3 Một số thuật toán phân cụm điển hình 15 2.3.1 Thuật Toán K-Means Các bước thực hiện B1 Chọn ngẫu nhiên K tâm cho K cụm Mỗi cụm được đại diện bằng các tâm của cụm B2 Tính khoảng cách giữa các đối tượng đến K tâm (thường dùng khoảng cách Euclidean) B3 Nhóm... search.arff theo định dạng của phần mềm WEKA Bước 3 Phân cụm kết quả tìm kiếm Dữ liệu dùng để phân cụm trong thực nghiệm này là nội dung đã được chuẩn hóa của 50 kết quả tìm kiếm với truy vấn là từ khóa “ô tô”, trong đó gồm có 10 đặc trưng là các từ, cụm từ xuất hiện trong các kết quả tìm kiếm được lựa chọn trong nội dung tìm kiếm và giá trị của mỗi đặc trưng chính là tần suất xuất hiện của từ Lưu ý 22 rằng,... sách các kết quả trả về của máy tìm kiếm google Thực hiện gán nhãn dữ liệu cho truy vấn với các từ khóa: “ô tô” Trong chương trình này thực nghiệm với 50 kết quả đầu tiên, bao gồm tiêu đề, đoạn tóm tắt của tài liệu, URL và toàn bộ nội dung của mỗi kết quả tìm kiếm Như vậy, tập dữ liệu vào của bài toán chứa nội dung là các từ xuất hiện trong từng trang Còn dữ liệu ra là nhóm tập dữ liệu đó thành k cụm tùy... số của các cụm - Các chồng chéo cụm - Giao diện người dùng đồ họa (GUI) 2.2.5 Các bước phân cụm kết quả tìm kiếm 2.2.5.1 Thu nhận kết quả tìm kiếm Cụ thể là dựa vào câu truy vấn để tìm kiếm và trả về tập gồm toàn văn tài liệu, tiêu đề, mô tả tóm tắt, URL,… tương ứng với các trang đó 2.2.5.2 Tiền xử lý kết quả tìm kiếm a Chuẩn hóa văn bản + Xóa các thẻ HTML và các loại thẻ khác để trích ra các từ /cụm. .. các thuật 3.5 Kết luận chương 24 KẾT LUẬN Sau một thời gian tìm hiểu, nghiên cứu đến nay luận văn đã được hoàn thành Về cơ bản luận văn đáp ứng được các nội dung đã đăng ký trong đề cương Một vấn đề nữa đang được đặt ra trong hướng nghiên cứu tiếp theo là trước khi xây dựng phân cụm kết quả tìm kiếm thì cần đáp ứng được PageRank: - Nâng cao chất lượng nhãn cụm và sự gắn kết của các cấu trúc phân cụm. .. hợp các vector đặc trưng nhị phân, có thể đơn giản hóa như công thức (2.7): 11 d ( x, y ) x y x y Công thức (2.7) 2.1.3.3 Mô hình phân cụm tài liệu Tùy theo vấn đề, chúng ta có thể có các phân cụm tách rời (disjoint) hoặc các phân cụm chồng chéo (overlapping) 2.1.4 Một số vấn đề trong xử lý dữ liệu văn bản 2.1.4.1 Loại bỏ từ dừng 2.1.4.2 Định luật Zipf 2.2 Phân cụm kết quả tìm kiếm 2.2.1 Mô tả bài . II. SẮP XẾP KẾT QUẢ TÌM KIẾM BẰNG KỸ THUẬT PHÂN CỤM 2.1. Kỹ thuật phân cụm 2.1.1. Giới thiệu phân cụm dữ liệu Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu, quá trình phân cụm. tất cả các kết quả đó hay không? Để tiến hành xử lý vấn đề này, các kỹ thuật phân cụm đã được sử dụng. Luận văn với đề tài: Sắp xếp kết quả của máy tìm kiếm bằng kỹ thuật phân cụm tập trung. kỹ thuật phân cụm kết quả tìm kiếm Sắp xếp kết quả tìm kiếm theo chủ đề, giúp người sử dụng thuật tiện trong quá trình tìm kiếm thông tin từ các máy tìm kiếm. 2.2.4. Yêu cầu phân cụm kết quả