1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên Cứu Phương Pháp Phân Cụm Kết Quả Tìm Kiếm

24 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 24
Dung lượng 5,34 MB

Nội dung

Trang 1

MO DAU

Dé tìm được thông tin cần thiết, người dùng thường sử dung các máy tìm kiếm (search engine) hay công cụ tìm kiếm Các công cụ tìm kiếm hiện nay như là Google [8], Yahoo [18] va Bing [5] thường cho ra một danh sách dài các kết quả tìm kiếm Người sử dụng phải duyệt qua tất cả các đoạn trích dẫn của các kết quả trả về để tìm được nội dung tìm kiếm phù hợp.Nhằm giải quyết vấn đề này, có thể sử dụng kỹ thuật nhóm các kết quả tìm kiếm thành các nhóm theo từng chủ đề hay còn gọi là phân cụm kết quả tìm kiếm.

Phân cụm tài liệu Web là một bài toán điển hình trong khai phá Web, nhằm phân hoạch tập văn bản thành các tập con có tính chất chung, trong đó bài toán phân cụm các trang Web là kết quả trả về từ máy tìm kiếm là rất hữu dụng.

Luận văn sẽ nghiên cứu về các phương pháp để phân cụm kết quả tìm kiếm và thử nghiệm một số phương pháp phân cụm — với mục dich nâng cao hiệu quả tìm kiếm.

Ngoài Phần Mở dau, Phần Kết luận và các Phuluc, nội dung luận văn

được chia thành 3 chương chính:

Chương I — Khái quát về phân cụm cho kết quả tìm kiếm Chương này giới thiệu những nội dung cơ bản nhất, cung cấp một cái nhìn khái quát về phân cụm kết quả tìm kiếm Những yêu cầu và độ đo áp dụng cho các thuật toán phân

cụm Web cũng được trình bày trong chương này

Chương 2 — Thuật toán phân cum Web Chương này di sâu vào tìm hiểu thuật toán phân cum cây hậu tố.Chương nay di sâu vào cơ sở lý thuyết, cách xây dựng thuật toán một cách cụ thể, đưa ra các ví đụ minh họa trong giải thuật.

Chương 3 — Phần mềm thửnghiệm và kết quả thực nghiệm.Chương này trình bày kết quảthực nghiệm phân cụm Web theo phần mềm thử nghiệm trên cơ

sở thuật toán phân cum STC.

Phần Kết luận trình bày tổng hợp các kết quả thực hiện luận văn và phương hướng nghiên cứu tiếp theo về các nội dung của luận văn Luận văn đã đạt một số kết quả khả quan bước đầu trong việc nghiên cứu và triển khai các

thuật toán phân cụm Web, tuy nhiên, luận văn không tránh khỏi những sai sót.

Rất mong được sự đóng góp ý kiến, nhận xét dé tác giả có thể hoàn thiện được

kêt quả nghiên cứu.

Trang 2

CHUONG 1: TONG QUAN PHAN CUM CHO KET QUÁ

TIM KIEM

1.1 Bài toán

1.1.1 Giới thiệu về máy tìm kiếm

Ngày nay, nhờ sự cải tiến không ngừng của các Search engine về cả chức năng tìm kiếm lẫn giao diện đã giúp cho người sử dụng dễ dàng hơn trong việc tìm kiếm thông tin trên web Tuy nhiên, người sử dụng thường vẫn phải duyệt qua hàng trăm thậm chí hàng ngàn trang Web mới có thé tìm kiếm được thứ mà họ cần Nhằm giải quyết vấn đề này, ta có thê nhóm các kết quả tìm kiếm thành các nhóm theo từng chủ dé, khi đó người dùng có thé bỏ qua các nhóm mà họ không quan tâm dé tìm đến nhóm chủ dé quan tâm.

Suffix tree clustering (STC) hay phân cụm cây hậu tố là phương pháp phân cụm kết quả trả về từ máy tìm kiếm được Carrot2 [6] sử dụng với ưu thế về

sự chính xác và nhanh chóng khi phân cụm trên dữ liệu nhỏ (snippet) Michal

Wroblewski [12] đã phân tích, so sánh kết quả bộ phân cụm trả về của Carrot2

khi sử dụng các thuật toán khác nhau, kết quả thuật toán cây hậu tố đưa lại bộ

phân cụm có độ chính xác cao nhất.

1.1.2 Phân cụm kết quả

1.1.2.1 Khái nệm

Khái niém:Phan cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu, quá

trình phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cum di liệu sao cho các phần tử trong một cụm “tương tự” với nhau và các phần tử trong các cụm khác nhau sẽ "phi tương tự" với nhau.

1.1.2.2 Đặc điểm phân cụm

Mục đích của việc phân cụm: Bài toán phân cụm có mục đích tìm kiếm

các tài liệu và phân chúng vào các cụm khác nhau.

Bản chất của dữ liệu: Phần lớn các phương pháp phân cụm đã được phát triển cho đữ liệu số, nhưng một số có thê giải quyết bài toán với dữ liệu văn bản

hoặc với ca dit liệu sô va dữ liệu văn bản.

Trang 3

Bản chat của thông tin: Nhiều phương thức phụ thuộc vào độ giầu của dit liệu như định nghĩa nguyên mẫu, phân bé dữ liệu, số chiều bên cạnh việc tính

toán độ tương tự.

Bản chất các cụm: Các cụm tài liệu cần đảm bảo 2 tính chất mà khi phân cụm chúng ta cần chú ý:

* Compactness — độ cô đọng súc tích: độ dính kết hoặc đơn nhất của từng cặp đối tượng trong từng cụm riêng rẽ Độ tương tự càng cao, độ cô đọng càng

* Isolation — độ cô lập: độ đo về sự tách biệt giữa một cụm với những

cụm khác.

1.1.2.3 Các bước cơ bản trong phân cụm

Bài toán phân cụm nói chung dựa theo các bước cơ bản sau đây.e Chon lựa đặc trưng

e Chọn độ đo tương tựe Thuật toán phân loại

e Công nhận kết qua e_ Giải thích kết qua

1.1.2.4 Một số vẫn đề trong phân cụm dữ liệu

Xử lý nhiễu: Dữ liệu bị nhiễu là dữ liệu không chính xác hay là dữ liệu

khuyết thiếu thông tin về một số thuộc tính.

Dò tìm phần tử ngoại lai: Phần tử ngoại lai là một nhóm nhỏ các đối

tượng dữ liệu khá thường so với các dữ liệu trong co sở dt liệu.

1.2 Các phương pháp đã có

1.2.1 Phương pháp phân cụm dữ liệu dựa trên phân cụm phân cấp

Phương pháp phân cụm phân cấp làm việc bằng cách nhóm các đối tượng

dữ liệu vào trong một cây các cụm.

Phương pháp phân cụm cây phân cấp xây dựng một cấu trúc cây phân cấp

cho các tài liệu, và có hai phương pháp chính là xây dựng cây theo hướng từ trên

xuống (top-down) và xây dựng theo hướng từ dưới lên (bottom-up).

Trang 4

Trong thực tế phân cụm phân cấp bottom-up được sử dụng rộng rãi hơn là top-down do các tiêu chí để ghép cụm trong bottom-up đơn giản và dễ thực hiện

hơn việc đánh giá tách cụm trong top-down.

Từ Dưới Lên Bước 0 Bước 1 Bước 2 Bước 3 Bước 4

Từ Trên Xuống

Bước 4 Bước 3 Bước 2 Bước 1 Bước 0

Hình 1.1: Phân cum phân cấp Top-down và Bottom-up

Phân cụm phân cấp không yêu cầu cố định số cụm và nếu tất cả các văn bản đều thuộc một cụm thì việc phân cụm là vô nghĩa.

Phương pháp “trên xuống” (Top Down): Bắt đầu với trạng thái là tất cả các đối tượng được xếp trong cùng một cụm.

Liên kết đơn : khoảng cách ngắn nhất giữa hai đối tượng thuộc hai nhóm

Hình 1.2: Liên kết đơn

Liên kết đầy đủ : khoảng cách xa nhất giữa hai đối tượng thuộc hai nhóm

Trang 5

Hình 1.3: Liên kết đầy đủ

1.2.1.1 Thuật toán AGNES

Phương pháp phân cum AGNES là kỹ thuật kiêu tích tu AGNES bắt dau ở ngoài với mỗi đối tượng đữ liệu trong các cụm riêng lẻ.

Thuật toán AGNES bao gồm các bước cơ bản sau : Bước 1: Mỗi đối tượng là một nhóm

Bước 2: Hợp nhất các nhóm có khoảng cách giữa các nhóm là nhỏ nhất

Bước 3: Nếu thu được nhóm “toàn bộ” thì dừng, ngược lại quay lại bước 2

Hình 1.4: Các bước cơ bản của AGNES

1.2.1.2 Thuật toán DIANA

DIANA thực hiện đối lập với AGNES DIANA bắt đầu với tất cả các đối

tượng dữ liệu được chứa trong một cụm lớn và chia tách lặp lại, theo phân loại

giống nhau dựa trên luật, cho đến khi mỗi đối tượng dữ liệu của cụm lớn được chia tách hết.

Thuật toán DIANA bao gồm các bước cơ bản sau: Bước 1: Tắt cả các đối tượng là một nhóm

Trang 6

Bước 2: Chia nhỏ nhóm có khoảng cách giữa những đối tượng trong nhóm là lớn nhất (liên kết đầy đủ).

Bước 3: Nếu mỗi nhóm chỉ chứa một đối tượng thì dừng, ngược lại quay

lại quay lại bước 2

Hình 1.5: Các bước cơ bản của DIANA1.2.1.3 Thuật toán BIRCH

BIRCH là thuật toán phân cụm phân cấp sử dụng chiến lược Topdown.

Tư tưởng của BIRCH là không lưu toàn bộ đối tượng dữ liệu của các cụm trong

bộ nhớ mà chỉ lưu các tham số thống kê

Hình 1.6: Cấu trúc cây CF

Cây CF là một cây cân bằng nhằm lưu các đặc trưng của cụm.

a Yếu tố nhánh (Branching Factor- B) nhằm xác định SỐ lượng nút con tôi đa trong một nút cha.

b Ngưỡng (Threshold- T) nhằm xác định khoảng cách tối đa giữa bấtkỳ một cặp đối tượng trong nút lá của cây CF.

Trang 7

1.2.1.4 Thuật toán CURE

CURE là thuật toán sử dụng chiến lược bottom-up của phương pháp

phân cụm phân cấp Khác với các thuật toán phân cụm phân hoạch, thuật toán

CURE sử dụng nhiều đối tượng để biểu diễn cho một cụm thay vì sử dụng các trọng tâm hay đối tượng tâm.

Dữ liệu = Chon mau ngau nhién Eộ Phân hoạch mẫu ) Phân cụm nhóm

nã liệu - Đánh dấu nhãn cum qa Phan cum riéng biét Loại bỏ ngoại laiân cụm

Hình 1.7: Khái quát thuật toán CURE

Các bước thực hiện của thuật toán CURE:

a Chọn một mẫu ngẫu nhiên S từ tập dữ liệu ban đầu.

b Phân hoạch mẫu S thành các nhóm dit liệu có kích thước bằng nhau c Tiến hành phân cụm riêng rẽ cho mỗi nhóm.

d Loại bỏ các đối tượng ngoại lai bang việc lây mẫu ngẫu nhiên.

e Phân cụm cho các cụm riêng biét:

f Đánh dau đữ liệu với các nhãn cụm tương ứng.

Hình ảnh dưới đây là thí dụ vỀ các dạng và kích thước cụm đữ liệu được

khám phá bởi CURE :

Hình 1.8: Các cụm dữ liệu được khám phá bởi CURE

Trang 8

1.2.2 Phương pháp phân cum dữ liệu dựa vào dit liệu mo1.2.2.1 Thuật toán FCM ( Fuzzy C-means)

Kỹ thuật này phân hoạch một tập n vectơ đối tượng dữ liệu

X = {xl,x2, ,xn}CR*

thành c các nhóm mờ dựa trên tinh toán tối thiêu hóa hàm mục tiêu dé đo chất lượng của phân hoạch và tìm trung tâm cụm trong mỗi nhóm.

ij ~

Phép lặp sẽ dừng khi maxy{llu tụ || <£)

Trong đó, ¢ là chuân kết thúc giữa 0 và 1, trong khi k là các bước lặp Thủ tục này hội tụ tới cực tiểu cục bộ hay điểm yên ngựa của Jm(u,V).

1.2.2.2 Thuật toán FCM (e- Insensitive Fuzzy C-means)

Thuật toán eFCM là một mở rộng của thuật toán FCM nham khắc phục các nhược điểm của thuật toán FCM Thuật toáneFCM là một mở rộng của thuật toán FCM trong việc thích nghi với nhiễu và phan tử ngoại lai trong dit

1.2.3 Phương pháp phân cụm dựa vào cụm trung tâm

1.2.3.1 Phương pháp K-means

Thuật toán phân cụm K-mean do Macqueen đề xuất trong lĩnh vực thống

kê năm 1967, mục đích của thuật toán là sinh ra k cụm dữ liệu {Ci, Co, , Cx}

từ một tập dit liệu ban đầu gồmn đối tượng trong không gian d chiều Xj = (xi ,Xi2 „ , Xia.) i=(1,n) sao cho hàm tiêu chuẩn E = Yin Yxeci D? (c — mj) đạt giá trị cực tiểu Trong đó, m; là trọng tâm của cum Cj D là khoảng cách giữa hai đối tượng.

1.2.3.2 Phương pháp K-medoids

PAM (Partition around medoids) — phân chia xung quanh các medoid

PAM sử dụng các đối tượng medoid (k-medoids lay mot déi tuong dai

diện trong cụm gọi là medoid, nó là điểm đại diện được định vị trung tâm nhất

trong cụm) dé biéu diễn cho các cụm dữ liệu, một đối tượng medoid là đối tượng

đặt tai vi trí trung tâm nhất bên trong của mỗi cụm.

Trang 9

1.3 Phân cụm văn bản

1.3.1 Biểu diễn văn bản

Khai phá văn bản là khai phá các tập tài liệu HTML, là không tự nhiên.

Do đó ta sẽ phải biến đổi và biểu diễn dữ liệu thích hợp cho quá trình xử lý.

Độ chính xác thấp của các công cụ tìm kiếm Web cùng với cách trình bầy một dãy dài các danh sách làm khó khăn cho người sử dung dé tìm các thông tin mà họ đang tìm kiếm.

1.3.2 Phân cụm

Chủ đề phân loại không cần xác định trước Nhưng ta phải phân loại các tài liệu vào nhiều cụm Trong cùng một cụm, thì tất cả độ tương tự của các tài liệu yêu cầu cao hơn, ngược lại ngoài cụm thì độ tương tự thấp hơn.

Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng tương tự nhau

trong tập dữliệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng.

Nó có thé được chi ra rằng không có tiêu chuẩn tuyệt đối “tốt” mà có thé không phụ thuộc vào kết quả phân cụm Vì vậy, nó đòi hỏi người sử dụng phải cung cấp tiêu chuẩn này, theo cách mà kết qua phân cụm sẽ đáp ứng yêu cau. Theo các nghiên cứu cho thấy thì hiện nay chưa có một phương pháp phân cụm tổng quát nào có thé giải quyết trọn vẹn cho tat cả các dang cấu trúc cụm dữ liệu Vì vậy phân cum dữ liệu vẫn dang là một van đề khó và mở, vì phải giải quyết nhiều vấn đề cơ bản một cách trọn vẹn và phù hợp với nhiều dạng dữ liệu khác nhau, đặc biệt là đối với dữ liệu hỗn hợp đang ngày càng tăng trong các hệ

quan tri dữ liệu và đây cũng là một trong những thách thức lớn trong lĩnh vực

khai phá dữ liệu.

Trang 10

CHƯƠNG 2: PHAN CUM KET QUA TÌM KIEM SU

DUNG CAY HAU TO

2.1 Tổng quan về phương pháp

Chúng ta đang quan tâm giải quyết bài toán phân cụm tài liệu cho các trang Web Theo truyền thống, nhiệm vụ phân lớp tài liệu được tiễn hành thủ công Đề gán một tài liệu với một lớp thích hợp, người thực hiện đầu tiên sẽ phân tích các nội dung của tài liệu Bởi vậy một số lượng lớn nỗ lực của con người sẽ bị yêu cầu Đã có một vài công việc nghiên cứu hướng dẫn việc phân

cụm tự động văn bản text.

Người dùng các công cụ tìm kiếm Web thường phải sàng lọc thông qua các danh sách dài của các "đoạn trích" tài liệu được trả về bởi các công cụ tim kiếm Cộng đồng IR đã làm phân cụm tài liệu như là một phương pháp thay thế của tô chức kết quả truy vấn, nhưng phân cụm vẫn chưa được triển khai trên các công cụ tìm kiếm chính.

Dé dap ứng các yêu cầu nghiêm ngặt của miền Web, luận văn giới thiệu một thuật toán, gia tăng, thời gian tuyến tính (trong kích thước tập tài liệu) thuật

toán được gọi là Suffix Tree Clustering (STC), mà tao ra các cụm dựa theo cáccụm từ được chia sẻ giữa các tài liệu.

2.2 Khái niệm cây hậu tố

2.2.1 Cây hậu tổ

Cây hậu tốlà một cấu trúc dữ liệu biểu diễn các hậu tố của xâu ký tự nhất định cho phép thực hiện một cách đặc biệt nhanh chóng nhất nhiều phép toán quan trọng trên xâu Thuật toán phân cụm cây hậu tố Suffix Tree Clustering (STC) là một thuật toán phân cụm thời gian tuyến tính dựa trên việc nhận dạng

các cụm từ chung của các văn bản Một cum từ trong ngữ cảnh nay là một chuỗi

thứ tự của một hoặc nhiều từ Chúng ta định nghĩa một cụm cơ bản (base cluster)

là một tập các văn bản có chia sẻ một cụm từ chung.

Trang 11

- Vị trí Hà Nội trên bản đồ Việt Nam

- HNP - Thành ủy Hà Nội vừa ban hành

Thông tri số 02-TT/TU về việc

Thành Phố Hà

- Khu phố cỗ Hà Nội là tên gọi thông

thường của một khu vực đô thị

- Cơ quan chủ quản: ỦY BAN NHÂN DÂN

21 /; Vietnamese: Hà Nội [ha nojJ] ) [3] is

the capital of Vietnam

Những từ trong bôi đậm được tìm thấy trong các cum lưu ý rang mô ta

mạnh cua các cụm tt như "Hà Nội", "Thanh Pho Ha Noi" và "Ha Noi"

Trang 12

Hình 2.1: Cây hậu tố cho xâu BANANA

Cây hậu tố cho xâu BANANA Mỗi xâu con được kết thúc bới kí tự đặc biệt

$ Sáu đường từ gốc đến lá (kí hiệu bởi ô vuông ) tương ứng với sáu hậu A$, NA$,

ANA$, NANA$, ANANA$ và BANANAG Các chữ số trên lá là vị trí bắt đầu của hậu tố tương ứng Các liên kết hậu tố được vẽ bằng đường nét đứt.

2.2.2 Cách xây dựng

STC có 3 bước thực hiện logic: (1) “Làm sạch” văn bản, (2) định nghĩa

các cụm cơ bản sử dụng một cây hậu tố, và (3) kết hợp các cụm cơ bản vào các

Bước 1: Tiền xử lý (Pro-Precessing) Trong bước này, các chuỗi của đoạn văn bản biểu diễn mỗi tài liệu được chuyền đôi sử dụng các thuật toán chặt.

Bước 2: Xác định các cụm cơ sở Việc xác định các cụm cơ sở có thể được xem xét như việc tạo một chỉ số của các nhóm từ cho tập tài liệu Mô tả cụ thê về cây hậu tố như sau:

1 Một cây hậu tổ là cây có gốc và được định hướng 2 Mỗi node trong có tối thiêu 2 con.

3 Mỗi cạnh được gan nhãn là một chuỗi con của S va chuỗi đó khác rỗng 4 Không có hai cạnh từ một node được gắn nhãn bắt đầu với từ giống nhau.

5 Với môi hậu tô scua S, tôn tại một suffix-node có nhãn là s.

Trang 13

Mỗi cụm cơ sở được gán một điểm số là một hàm của số lượng các tài liệu cụm đó chứa đựng, và các từ hình thành nên nhóm từ của nó Điểm số s(B)

của cụm cơ sở B với nhóm từ P là:

s(B) = IBI f(IPI) (*)

Trong đó: |B] là số lượng của các tài liệu trong cụm cơ sở B, IPI là số lượng các từ có trong nhóm từ P mà có điểm số khác 0.

Hàm f trong công thức (*) thực hiện trên các nhóm từ đơn, nó là tuyến tính cho các nhóm từ có độ dài từ 2 đến 6 và là hằng số với các nhóm có độ dài

lớn hơn.

Bước 3: Kết nối các cụm cơ sở

Các tài liệu có thê chia sẻ nhiều hơn một nhóm từ Kết quả là, tập hợp tài liệu của các cụm cơ sở khác nhau có thể trùng lặp và thậm chí là có thể là giống

Thuật toán đưa ra một độ đo tính tương tự giữa các cụm dựa trên việc

trùng lặp của tập tài liệu của chúng Gia sử có hai cụm cơ sở By va By với kích

cỡ là | Bn! và | Bạ | tương ứng Và | Bn MN Bạ | thê hiện số tài liệu chung của cả hai cụm, độ tương tự giữa B„ạ và B„ là | nếu:

+)! Bn Bal/|Bnl>0.5 va+) 1 Bn A Bal/!1Bil>0.5

Ngược lại, độ tương tự là 0.

2.3 Tiền xử lí văn bản

Quá trình tiền xử lý văn bản bao gồm các bước sau: Bước 1:Chuan hóa văn bản

Bước 2:Xóa bỏ các từ dừng

Bước 3 Kết hợp các từ có cùng gốc Bước 4: Xây dựng từ điển

Bước 5: Tach từ, sô hóa van bản và biêu diễn tài liệu

Ngày đăng: 07/04/2024, 12:23

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w