Truy hồi thụng tin

Một phần của tài liệu Phương pháp phân cụm và ứng dụng (Trang 77 - 82)

Thụng tin hồi thụng tin (Information Retrieval) cú liờn quan với lưu trữ tự động và lấy cỏc tài liệu [Rasmussen 1992]. Nhiều thư viện cỏc trường đại học sử dụng hệ thống IR để cung cấp truy cập vào cỏc cuốn sỏch, tạp chớ, và cỏc tài liệu khỏc. Cỏc thư viện đú sử dụng đề ỏn Li-brary of Congress Classification (LCC) (Phõn loại Thư viện Quốc hội Mỹ), đề ỏn này hiệu quả cho việc lưu trữ và truy tỡm sỏch. Đề ỏn LCC bao gồm cỏc lớp cú nhón A đến Z [LC Classification Outline 1990] được sử dụng để ký tự húa sỏch thuộc cỏc đối tượng khỏc nhau. Vớ dụ, nhón Q tương ứng với sỏch trong lĩnh vực khoa

học, và bảo đảm chất lượng phõn lớp được phõn cụng toỏn học. Nhón QA76 tới QA76.8 được sử dụng để phõn loại sỏch liờn quan đến mỏy tớnh và cỏc lĩnh vực khỏc của khoa học mỏy tớnh.

Cú một số vấn đề liờn quan đến việc phõn loại cỏc sỏch bằng cỏch sử dụng sơ đồ LCC. Một số trong số này được liệt kờ dưới đõy:

(1) Khi một người sử dụng đang tỡm kiếm một cuốn sỏch trong thư viện mà với một chủ đề anh ta quan tõm, số LCC một mỡnh cú thể khụng thể để lấy tất cả cỏc sỏch cú liờn quan. Điều này là do số lượng phõn loại được chỉ định cho những cuốn sỏch hay cỏc loại chủ đề thường được nhập vào trong cơ sở dữ liệu khụng cú đủ thụng tin liờn quan đến tất cả cỏc chủ đề được bảo hiểm trong một cuốn sỏch. Để minh họa điểm này, chỳng ta hóy xem xột cuốn sỏch “Cỏc thuật toỏn cho phõn cụm dữ liệu” của Jain và Dubes [1988]. Số LCC của nú là 'QA 278.J35'. Trong số này LCC, QA 278 tương ứng với chủ đề 'phõn tớch cụm', J tương ứng với tờn tỏc giả đầu tiờn và 35 là số serial phõn cụng của Thư viện Quốc hội. Cỏc loại chủ đề cho cuốn sỏch này được cung cấp bởi nhà xuất bản (mà thường được nhập vào trong cơ sở dữ liệu để tạo điều kiện tỡm kiếm) là nhúm phõn tớch, xử lý dữ liệu và thuật toỏn. Cú một chương trong sỏch này [Jain và Dubes 1988] rằng đề với tầm nhỡn mỏy tớnh, xử lý hỡnh ảnh, và phõn khỳc hỡnh ảnh. Vỡ vậy, một người sử dụng tỡm kiếm cho văn học trờn mỏy vi tớnh và tầm nhỡn, đặc biệt, hỡnh ảnh phõn khỳc sẽ khụng thể truy cập cuốn sỏch này bằng cỏch tỡm kiếm cơ sở dữ liệu với sự giỳp đỡ của một trong hai số LCC hoặc cỏc loại đối tượng được cung cấp trong cơ sở dữ liệu. Số LCC cho sỏch tầm nhỡn mỏy tớnh được TA 1632 [LC Classification 1990] đú là rất khỏc với QA số 278.J35 được đăng ký cho cuốn sỏch này.

2) Cú một vấn đề cố hữu trong giao LCC số sỏch ở một khu vực phỏt triển nhanh. Vớ dụ, chỳng ta hóy xem xột cỏc khu vực của cỏc mạng thần kinh. Ban đầu, thể loại 'QP' trong LCC Đề ỏn đó được sử dụng để nhón sỏch và thủ tục tố tụng tại hội nghị khu vực này. Vớ dụ, Proceedings of the Joint International Conference on Neural Networks [IJCNN'91] được giao QP của số 363,3 '. Tuy nhiờn, hầu hết cỏc cuốn sỏch gần đõy trờn cỏc mạng thần kinh được cho một số cỏch sử dụng cỏc nhón thể loại 'QA'; Proceedings of IJCNN'92 cỏc [IJCNN'92] được phõn cụng bảo đảm chất lượng của số 76,87 '. Nhiều nhón cho sỏch đối phú với cựng một chủ đề sẽ buộc họ được đặt trờn

ngăn xếp khỏc nhau trong một thư viện. Do đú, cú một cần phải cập nhật cỏc nhón phõn loại theo thời gian trong một kỷ luật mới nổi.

(3) việc giao một số cho một cuốn sỏch mới là một vấn đề khú khăn. Một cuốn sỏch cú thể đối phú với cỏc chủ đề tương ứng với hai hoặc nhiều số LCC, và do đú, chỉ định một số duy nhất cho cuốn sỏch như vậy là rất khú khăn.

Murty và Jain [1995] mụ tả một kiến thức dựa trờn lược đồ phõn nhúm để đại diện nhúm cỏc cuốn sỏch, trong đú thu được bằng cỏch sử dụng CR ACM (Hội mỏy tớnh Mỏy vi tớnh Xem lại) phõn loại cõy [ACM CR Classifications 1994]. Cõy này được sử dụng bởi cỏc tỏc giả gúp phần ACM ấn phẩm khỏc nhau để cung cấp cỏc từ khúa trong cỏc hỡnh thức thể loại ACM nhón CR. Cõy này bao gồm 11 nỳt ở cấp độ đầu tiờn. Cỏc nỳt là cú nhón A đến K. Mỗi nỳt trong cõy này cú một nhón đú là một chuỗi của một hay nhiều ký hiệu. Những biểu tượng này được ký tự chữ-số. Vớ dụ, I515 là nhón của một nỳt cấp độ thứ tư trong cõy.

3.1 Biểu diễn mẫu

Mỗi cuốn sỏch được thể hiện như một danh sỏch tổng quỏt [Sangal 1991] của những dõy bằng cỏch sử dụng phõn loại cõy ACM CR. Vỡ mục đớch ngắn gọn trong đại diện, cỏc cấp, cỏc nỳt thứ tư trong cõy phõn loại ACM CR được gắn nhón bằng cỏch sử dụng chữ số 1-9 và ký tự A đến Z. Vớ dụ, cỏc nỳt con của I.5.1 (mụ hỡnh) được dỏn nhón I.5.1 0,1 đến I.5.1.6. Ở đõy, I.5.1.1 tương ứng với cỏc nỳt cú nhón xỏc định, và I.5.1.6 là viết tắt của nỳt cú nhón structural.Ina thời trang tương tự, tất cả cỏc cấp, cỏc nỳt thứ tư trong cõy cú thể được gắn nhón là cần thiết. Từ bõy giờ, cỏc dấu chấm ở giữa biểu tượng kế tiếp sẽ được bỏ qua để đơn giản húa cỏc đại diện. Vớ dụ, I.5.1.1 sẽ được ký hiệu là I511.

Minh họa cho quỏ trỡnh này đại diện với sự giỳp đỡ của cỏc cuốn sỏch của Jain và Dubes [1988]. Cú năm chap-ters trong cuốn sỏch này. Để đơn giản chế biến, chỉ xem xột cú cỏc thụng tin trong cỏc nội dung chương. Cú một mục duy nhất trong bảng nội dung cho cỏc chương 1, 'Giới thiệu', và vỡ vậy khụng lấy bất kỳ từ khoỏ từ này. Chương 2, cú nhón ' Dữ liệu Đại diện,' đó đề mục tương ứng với cỏc nhón của cỏc nỳt trong cõy phõn loại ACM CR [ACM CR Classifications 1994] được đưa ra dưới đõy:

(2b) I532 (similarity measures), and (3c) I515 (statistical).

Dựa trờn những phõn tớch trờn, Chương 2 của Jain và Dubes [1988] cú thể được đặc trưng bởi sự phõn ly trọng ((I522 ∨ I532 ∨ I515) (1,4)). Cỏc trọng lượng (1,4) biểu thị rằng nú là một trong bốn chương, trong đú cú vai trũ trong cỏc đại diện của cuốn sỏch. Căn cứ vào bảng nội dung, chỳng tụi cú thể sử dụng một hoặc nhiều dõy I522, I532, I515 và đại diện cho Chương 2. Tương tự như vậy, chỳng tụi cú thể đại diện cho chương khỏc trong cuốn sỏch này như cỏc phộp tuyển trọng dựa trờn cỏc bảng nội dung và phõn loại cõy ACM CR. Cỏc đại diện của toàn bộ cuốn sỏch, sự kết hợp của tất cả cỏc cơ quan đại diện chương, được cho bởi (((I522 ∨ I532 ∨ I515) (1,4) ∧ ((I515

∨ I531) (2,4)) ∧ ((I541 ∨ I46 ∨ I434) (1,4))).

Hiện nay, cỏc đại diện được tạo ra bằng tay bằng cỏch quột cỏc bảng nội dung của sỏch trong lĩnh vực khoa học mỏy tớnh như ACM cõy phõn loại CR cung cấp kiến thức về cuốn sỏch khoa học mỏy tớnh. Cỏc chi tiết của bộ sưu tập của cuốn sỏch được sử dụng trong nghiờn cứu này cú sẵn trong Murty và Jain [1995].

3.2 Phộp đo tƣơng tự

Sự giống nhau giữa hai cuốn sỏch dựa trờn sự giống nhau giữa cỏc chuỗi tương ứng. Hai trong số cỏc chức năng nổi tiếng, khoảng cỏch giữa một cặp dõy được [Baeza-Yates 1992] khoảng cỏch Hamming và sửa khoảng cỏch. Khụng phải của cỏc chức năng này khoảng cỏch hai cú thể được sử dụng trong cỏc ứng dụng cú ý nghĩa này. Vớ dụ sau minh hoạ điểm. Hóy xem xột ba dõy I242, I233, và H242. Những chuỗi là cỏc nhón (predicate logic đại diện cho kiến thức, lập trỡnh logic, và cỏc hệ thống cơ sở dữ liệu phõn tỏn) trong ba cấp độ thứ tư, cỏc nỳt trong cõy phõn loại ACM CR. Cỏc nỳt I242 và I233 là chỏu của cỏc nỳt cú nhón I2 (trớ tuệ nhõn tạo) và H242 là một chỏu của cỏc nỳt cú nhón H2 (cơ sở dữ liệu quản lý). Vỡ vậy, khoảng cỏch giữa I242 và I233 phải nhỏ hơn mà giữa I242 và H242. Tuy nhiờn, khoảng cỏch Hamming và sửa khoảng cỏch [Baeza-Yates 1992] cả hai đều cú một giỏ trị 2 giữa I242 và I233 và giỏ trị của 1 giữa I242 và H242. Hạn chế này thỳc đẩy định nghĩa của một biện phỏp tương tự mới mà bắt đỳng sự giống nhau giữa cỏc chuỗi ở trờn. Sự giống nhau giữa hai chuỗi được định nghĩa là tỷ lệ chiều dài của tiền

tố phổ biến nhất [Murty và Jain 1995] giữa hai dõy với chiều dài của chuỗi đầu tiờn. Vớ dụ, sự giống nhau giữa chuỗi I522 và I51 là 0,5. Cỏc biện phỏp tương tự được đề xuất là khụng đối xứng, vỡ sự giống nhau giữa I51 và I522 là 0,67. Cỏc giỏ trị tối thiểu và tối đa là biện phỏp tương tự này là 0,0 và 1,0, tương ứng. Cỏc kiến thức về cỏc mối quan hệ giữa cỏc nỳt trong cõy phõn loại ACM CR là bị bắt bởi cỏc đại diện trong cỏc hỡnh thức dõy. Vớ dụ, nỳt cú nhón cụng nhận là mẫu đại diện là I5 chuỗi, trong khi I53 chuỗi tương ứng với cỏc nỳt cú nhón clustering. Sự giống nhau giữa hai nỳt (I5 và I53) là 1,0. Một biện phỏp đối xứng của tương [Murty và Jain 1995] được sử dụng để xõy dựng một ma trận tương tự cú kớch thước 100 x 100 tương ứng với 100 cuốn sỏch được sử dụng trong cỏc thớ nghiệm.

3.3 Một giải thuật cho phõn cụm dữ liệu sỏch

Vấn đề phõn nhúm cú thể được nờu như sau. Cho một bộ sưu tập B của cuốn sỏch, chỳng ta cần để cú được một tập C thiết lập cỏc cụm. Một gần dendrogram(cõy cỏc cụm) [Jain và Dubes 1988], sử dụng Thuật toỏn phõn cụm kết nối kết tụ hoàn toànhoàn để thu thập 100 cuốn sỏch được thể hiện trong hỡnh 33. Bảy cụm thu được bằng cỏch chọn một ngưỡng   cú giỏ trị 0,12. Nú nổi tiếng mà cỏc giỏ trị khỏc nhau cho   cú thể cung cấp cho clusterings khỏc nhau. Ngưỡng giỏ trị này được chọn bởi vỡ " khoảng cỏch " trong dendrogram giữa cỏc cấp mà sỏu và bảy cụm được hỡnh thành là lớn nhất. Xột nghiệm cỏc lĩnh vực chủ đề của cuốn sỏch [Murty và Jain 1995] trong cỏc cụm tiết lộ rằng cỏc cụm thu được là thực sự cú ý nghĩa. Mỗi cụm được đại diện bằng cỏch sử dụng một danh sỏch cỏc chuỗi s và cặp sf tần số, nơi sf là số sỏch trong cỏc cụm, trong đú s là hiện tại. Vớ dụ, cụm c1 chứa 43 cuốn sỏch thuộc về nhận diện mụ hỡnh, cỏc mạng thần kinh, trớ tuệ nhõn tạo và tầm nhỡn mỏy tớnh; một phần của R(C1) đại diện của nú được đưa ra dưới đõy. W(C1) = ((B718,1), (C12,1), (D0,2), (D311,1), (D312,2), (D321,1), (D322,1), (D329,1),... (I46,3), (I461,2), (I462,1), (I463, 3), ... (J26,1), (J6,1), (J61,7), (J71,1))

Những cụm sỏch và mụ tả cluster tương ứng cú thể được sử dụng như sau: Nếu một người sử dụng đang tỡm kiếm sỏch, núi, về hỡnh ảnh phõn khỳc (I46), sau đú chỳng ta chọn cụm C1 vỡ đại diện của mỡnh cú chứa I46 chuỗi. Sỏch B2 (Neurocomputing) và B18 (Neural Networks: Lateral Inhibition) là cả hai thành viờn của nhúm C1 mặc dự số LCC của họ khỏ khỏc nhau (B2 là QA76.5.H4442, B18 là QP363.3.N33).

Bốn sỏch bổ sung cú nhón B101, B102, B103, B104 và đó được sử dụng để nghiờn cứu cỏc vấn đề của việc phõn cụng phõn loại số sỏch mới. Những số LCC của những cuốn sỏch này là: (B101) Q335.T39, (B102) QA76.73.P356C57, (B103) QA76.5.B76C.2, và (B104) QA76.9D5W44. Những quyển sỏch này được giao cho cỏc cụm dựa trờn phõn loại hàng xúm gần nhất. Những hàng xúm gần nhất của B101, một cuốn sỏch về nhõn tạo tỡnh bỏo, là B23 và vỡ vậy B101 được phõn cụng cụm C1. Nú được quan sỏt thấy sự phõn cụng của bốn sỏch cỏc cụm tương ứng là cú ý nghĩa, chứng tỏ rằng kiến thức dựa trờn phõn cụm dữ liệu rất hữu ớch trong việc giải quyết cỏc vấn đề liờn quan đến lấy tài liệu.

Một phần của tài liệu Phương pháp phân cụm và ứng dụng (Trang 77 - 82)