Thông tin hồi thông tin (Information Retrieval) có liên quan với lƣu trữtự động và lấy các tài liệu [Rasmussen 1992]. Nhiều thƣ viện các trƣờng đạihọc sử dụng hệ thống IR để cung cấp truy cập vào các cuốn sách, tạp chí, vàcác tài liệu khác. Các thƣ viện đó sử dụng đề án Libraryof CongressClassification (LCC) (Phân loại Thƣ viện Quốc hội M ), đề án này hiệu quảcho việc lƣu trữ và truy tìm sách. Đề án LCC bao gồm các lớp có nhãn A đếnZ [LC Classification Outline 1990] đƣợc sử dụng để ký tự hóa sách thuộc cácđối tƣợng khác nhau. Ví dụ, nhãn Q tƣơng ứng với sách trong lĩnh vực khoahọc, và bảo đảm chất lƣợng phân lớp đƣợc phân công toán học. Nhãn QA76tới Q 76.8 đƣợc sử dụng để phân loại sách liên quan đến máy tính và các lĩnh vực khác của khoa học máy tính.
Có một số vấn đề liên quan đến việc phân loại các sách bằng cách sử dụng sơ đồ LCC. Một số trong số này đƣợc liệt kê dƣới đây:
(1) Khi một ngƣời sử dụng đang tìm kiếm một cuốn sách trong thƣ viện mà với một chủ đề anh ta quan tâm, số LCC một mình có thể không thể để lấy tất cả các sách có liên quan. Điều này là do số lƣợng phân loại đƣợc chỉ định cho những cuốn sách hay các loại chủ đề thƣờng đƣợc nhập vào trong cơ sở dữ liệu không có đủ thông tin liên quan đến tất cả các chủ đề đƣợc bảo hiểmtrong một cuốn sách. Để minh họa điểm này, chúng ta hãy xem xét cuốn sách“Các thuật toán cho phân cụm dữ liệu” của Jain và Dubes [1988]. Số LCC củanó là 'QA 278.J35'. Trong số này LCC, Q 278 tƣơng ứng với chủ đề 'phântích cụm', J tƣơng ứng với tên tác giả đầu tiên và 35 là số serial phân công củaThƣ viện Quốc hội. Các loại chủ đề cho cuốn sách này đƣợc cung cấp bởi nhà xuất bản (mà thƣờng đƣợc nhập vào trong cơ sở dữ liệu để tạo điều kiện tìmkiếm) là nhóm phân tích, xử lý dữ liệu và thuật toán. Có một chƣơng trongsách này [Jain và Dubes 1988] rằng đề với tầm nhìn máy tính, xử lý hình ảnh,và phân khúc hình ảnh. Vì vậy, một ngƣời sử dụng tìm kiếm cho văn học trên máy vi tính và tầm nhìn, đặc biệt, hình ảnh phân khúc sẽ không thể truy cập cuốn sách này bằng cách tìm kiếm cơ sở dữ liệu với sự giúp đỡ của một tronghai số LCC
72 hoặc các loại đối tƣợng đƣợc cung cấp trong cơ sở dữ liệu. Số LCC cho sách tầm nhìn máy tính đƣợc T 1632 [LC Classification 1990] đó là rất khác với QA số 278.J35 đƣợc đăng ký cho cuốn sách này.
(2) Có một vấn đề cố hữu trong giao LCC số sách ở một khu vực phát triển nhanh. Ví dụ, chúng ta hãy xem xét các khu vực của các mạng thần kinh.Ban đầu, thể loại 'QP' trong LCC Đề án đã đƣợc sử dụng để nhãn sách và thủ tục tố tụng tại hội nghị khu vực này. Ví dụ, Proceedings of the JointInternational Conference on Neural Networks [IJCNN'91] đƣợc giao QP củasố 363,3 '. Tuy nhiên, hầu hết các cuốn sách gần đây trên các mạng thần kinh đƣợc cho một số cách sử dụng các nhãn thể loại 'QA'; Proceedings ofIJCNN'92 các [IJCNN'92] đƣợc phân công bảo đảm chất lƣợng của số 76,87 '.Nhiều nhãn cho sách đối phó với cùng một chủ đề sẽ buộc họ đƣợc đặt trên ngăn xếp khác nhau trong một thƣ viện. Do đó, có một cần phải cập nhật các nhãn phân loại theo thời gian trong một kỷ luật mới nổi.
(3) việc giao một số cho một cuốn sách mới là một vấn đề khó khăn.Một cuốn sách có thể đối phó với các chủ đề tƣơng ứng với hai hoặc nhiều số LCC, và do đó, chỉ định một số duy nhất cho cuốn sách nhƣ vậy là rất khó khăn.Murty và Jain [1995] mô tả một kiến thức dựa trên lƣợc đồ phân nhóm để đại diện nhóm các cuốn sách, trong đó thu đƣợc bằng cách sử dụng CRACM (Hội máy tính Máy vi tính Xem lại) phân loại cây [ACM CRClassifications 1994]. Cây này đƣợc sử dụng bởi các tác giả góp phần ACM ấn phẩm khác nhau để cung cấp các từ khóa trong các hình thức thể loại ACM nhãn CR. Cây này bao gồm 11 nút ở cấp độ đầu tiên. Các nút là có nhãn đến K. Mỗi nút trong cây này có một nhãn đó là một chuỗi của một hay nhiều ký hiệu. Những biểu tƣợng này đƣợc ký tự chữ-số. Ví dụ, I515 là nhãn của một nút cấp độ thứ tƣ trong cây.
1.1. Biểu diễn mẫu
Mỗi cuốn sách đƣợc thể hiện nhƣ một danh sách tổng quát [Sangal1991] của những dây bằng cách sử dụng phân loại cây ACM CR. Vì mục đích ngắn gọn trong đại diện, các cấp, các nút thứ tƣ trong cây phân loại ACM CR đƣợc gắn nhãn
73 bằng cách sử dụng chữ số 1-9 và ký tự đến Z. Ví dụ, các nútcon của I.5.1 (mô hình) đƣợc dán nhãn I.5.1 0,1 đến I.5.1.6. đây, I.5.1.1 tƣơng ứng với các nút có nhãn xác định, và I.5.1.6 là viết tắt của nút có nhãn structural.Ina thời trang tƣơng tự, tất cả các cấp, các nút thứ tƣ trong cây có thể đƣợc gắn nhãn là cần thiết. Từ bây giờ, các dấu chấm ở giữa biểu tƣợng kế tiếp sẽ đƣợc bỏ qua để đơn giản hóa các đại diện. Ví dụ, I.5.1.1 sẽ đƣợc ký hiệu là I511.
Minh họa cho quá trình này đại diện với sự giúp đỡ của các cuốn sách của Jain và Dubes [1988]. Có năm chap-ters trong cuốn sách này. Để đơn giản chế biến, chỉ xem xét có các thông tin trong các nội dung chƣơng. Cómột mục duy nhất trong bảng nội dung cho các chƣơng 1, 'Giới thiệu', và vì vậy không lấy bất kỳ từ khoá từ này. Chƣơng 2, có nhãn ' Dữ liệu Đại diện,'đã đề mục tƣơng ứng với các nhãn của các nút trong cây phân loại ACM CR[ACM CR Classifications 1994] đƣợc đƣa ra dƣới đây:
(1a) I522 (feature evaluation and selection), (2b) I532 (similarity measures), and
(3c) I515 (statistical).
Dựa trên những phân tích trên, Chƣơng 2 của Jain và Dubes [1988] có thể đƣợc đặc trƣng bởi sự phân ly trọng ((I522 ∨I532 ∨I515) (1,4)). Các trọng lƣợng (1,4) biểu thị rằng nó là một trong bốn chƣơng, trong đó có vai trò trong các đại diện của cuốn sách. Căn cứ vào bảng nội dung, chúng tôi có thể sử dụng một hoặc nhiều dây I522, I532, I515 và đại diện cho Chƣơng 2. Tƣơng tự nhƣ vậy, chúng tôi có thể đại diện cho chƣơng khác trong cuốn sách này nhƣ các phép tuyển trọng dựa trên các bảng nội dung và phân loại cây CM CR. Các đại diện của toàn bộ cuốn sách, sự kết hợp của tất cả các cơ quan đại diện chƣơng, đƣợc cho bởi (((I522
74 Hiện nay, các đại diện đƣợc tạo ra bằng tay bằng cách quét các bảng nội dung của sách trong lĩnh vực khoa học máy tính nhƣ CM cây phân loại CR cung cấp kiến thức về cuốn sách khoa học máy tính. Các chi tiết của bộ sƣu tập của cuốn sách đƣợc sử dụng trong nghiên cứu này có sẵn trong Murty và Jain [1995].
1.2. hép đo tƣơng tự
Sự giống nhau giữa hai cuốn sách dựa trên sự giống nhau giữa các chuỗi tƣơng ứng. Hai trong số các chức năng nổi tiếng, khoảng cách giữa một cặp dây đƣợc [Baeza-Yates 1992] khoảng cách Hamming và sửa khoảngcách. Không phải của các chức năng này khoảng cách hai có thể đƣợc sử dụng trong các ứng dụng có ý nghĩa này. Ví dụ sau minh hoạ điểm. Hãy xem xét ba dây I242, I233, và H242. Những chuỗi là các nhãn (predicate logic đại diện cho kiến thức, lập trình logic, và các hệ thống cơ sở dữ liệu phân tán) trong ba cấp độ thứ tƣ, các nút trong cây phân loại ACM CR. Các nút I242 và I233 là cháu của các nút có nhãn I2 (trí tuệ nhân tạo) và H242 là một cháu củacác nút có nhãn H2 (cơ sở dữ liệu quản lý). Vì vậy, khoảng cách giữa I242 vàI233 phải nhỏ hơn mà giữa I242 và H242. Tuy nhiên, khoảng cách Hamming và sửa khoảng cách [Baeza-Yates 1992] cả hai đều có một giá trị 2 giữa I242và I233 và giá trị của 1 giữa I242 và H242. Hạn chế này thúc đẩy định nghĩacủa một biện pháp tƣơng tự mới mà bắt đúng sự giống nhau giữa các chuỗi ởtrên. Sự giống nhau giữa hai chuỗi đƣợc định nghĩa là tỷ lệ chiều dài của tiền tố phổ biến nhất [Murty và Jain 1995] giữa hai dây với chiều dài của chuỗi đầu tiên Ví dụ, sự giống nhau giữa chuỗi I522 và I51 là 0,5. Các biện pháp tƣơng tự đƣợc đề xuất là không đối xứng, vì sự giống nhau giữa I51 và I522 là 0,67. Các giá trị tối thiểu và tối đa là biện pháp tƣơng tự này là 0,0 và 1,0, tƣơng ứng. Các kiến thức về các mối quan hệ giữa các nút trong cây phân loại ACM CR là bị bắt bởi các đại diện trong các hình thức dây. Ví dụ, nút có nhãn công nhận là mẫu đại diện là I5 chuỗi, trong khi I53 chuỗi tƣơng ứng với các nút có nhãn clustering. Sự giống nhau giữa hai nút (I5 và I53) là 1,0. Một biện pháp đối xứng của tƣơng [Murty và Jain 1995] đƣợc sử dụng để xây dựng một ma trận tƣơng tự
75 có kích thƣớc 100 x 100 tƣơng ứng với 100 cuốn sách đƣợc sử dụng trong các thí nghiệm.
1.3. Một giải thuật cho phân cụm dữ liệu sách
Vấn đề phân nhóm có thể đƣợc nêu nhƣ sau. Cho một bộ sƣu tập B củacuốn sách, chúng ta cần để có đƣợc một tập C thiết lập các cụm. Một gầndendrogram(cây các cụm) [Jain và Dubes 1988], sử dụng Thuật toán phân cụm kết nối kết tụ hoàn toàn hoàn để thu thập 100 cuốn sách đƣợc thể hiện trong hình 33. Bảy cụm thu đƣợc bằng cách chọn một ngƣỡ ị0,12. Nó nổi tiếng mà các giá trị khác ể cung cấp cho clusterings khác nhau. Ngƣỡng giá trị này đƣợc chọn bởi vì " khoảng cách "trong dendrogram giữa các cấp mà sáu và bảy cụm đƣợc hình thành là lớn nhất. Xét nghiệm các lĩnh vực chủ đề của cuốn sách [Murty và Jain 1995]trong các cụm tiết lộ rằng các cụm thu đƣợc là thực sự có ý nghĩa. Mỗi cụm đƣợc đại diện bằng cách sử dụng một danh sách các chuỗi s và cặp sf tần số,nơi sf là số sách trong các cụm, trong đó s là hiện tại. Ví dụ, cụm c1 chứa 43 cuốn sách thuộc về nhận diện mô hình, các mạng thần kinh, trí tuệ nhân tạo và tầm nhìn máy tính; một phần của R(C1) đại diện của nó đƣợc đƣa ra dƣới đây.
W(C1) = ((B718,1), (C12,1), (D0,2), (D311,1), (D312,2), (D321,1), (D322,1), (D329,1),... (I46,3), (I461,2), (I462,1), (I463, 3), ... (J26,1), (J6,1),
(J61,7), (J71,1))
Những cụm sách và mô tả cluster tƣơng ứng có thể đƣợc sử dụng nhƣsau: Nếu một ngƣời sử dụng đang tìm kiếm sách, nói, về hình ảnh phân khúc(I46), sau đó
76 chúng ta chọn cụm C1 vì đại diện của mình có chứa I46 chuỗi. Sách B2 (Neurocomputing) và B18 (Neural Networks: Lateral Inhibition) là cả hai thành viên của nhóm C1 mặc dù số LCC của họ khá khác nhau (B2 làQA76.5.H4442, B18 là QP363.3.N33).Bốn sách bổ sung có nhãn B101, B102, B103, B104 và đã đƣợc sửdụng để nghiên cứu các vấn đề của việc phân công phân loại số sách mới.
Những số LCC của những cuốn sách này là: (B101) Q335.T39, (B102)QA76.73.P356C57, (B103) QA76.5.B76C.2, và (B104) QA76.9D5W44.
Những quyển sách này đƣợc giao cho các cụm dựa trên phân loại hàng xómgần nhất. Những hàng xóm gần nhất của B101, một cuốn sách về nhân tạo tình báo, là B23 và vì vậy B101 đƣợc phân công cụm C1. Nó đƣợc quan sát thấy sự phân công của bốn sách các cụm tƣơng ứng là có ý nghĩa, chứng tỏ rằng kiến thức dựa trên phân cụm dữ liệu rất hữu ích trong việc giải quyết các vấn đề liên quan đến lấy tài liệu.
II. KHAI PHÁ DỮ LIỆU
Trong những năm gần đây chúng ta đã thấy bao giờ tăng khối lƣợng dữ liệu thu thập của tất cả các loại. Với rất nhiều dữ liệu có sẵn, nó là cần thiết để phát triển các thuật toán mà có thể lấy thông tin từ các cửa hàng có ý nghĩa rộng lớn. Tìm kiếm nuggets hữu ích của thông tin giữa các số lƣợng rất lớn của các dữ liệu đã đƣợc biết đến nhƣ là các lĩnh vực khai phá dữ liệu.Khai phá dữ liệu có thể đƣợc áp dụng cho quan hệ, giao dịch, và cơ sởdữ liệu không gian, cũng nhƣ các cửa hàng lớn dữ liệu có cấu trúc nhƣ WorldWide Web. Có nhiều dữ liệu trong hệ thống khai thác sử dụng ngày nay, và các ứng dụng bao gồm Cục Ngân khố Hoa Kỳ phát hiện rửa tiền, Hiệp hội Bóng rổ Quốc gia huấn luyện viên phát hiện xu hƣớng và mô hình của cáccầu thủ chơi cho cá nhân và các đội, và phân loại các mô hình của trẻ em trong hệ thống chăm sóc nuôi dƣỡng [Hedberg 1996] . Một số tạp chí gần đây đã có những vấn đề đặc biệt về khai phá dữ liệu [1996 Cohen, Cross 1996,Wah 1996].
77
2.1. Khai phá dữ liệu bằng phƣơng pháp tiếp cận.
Khai phá dữ liệu, giống nhƣ phân cụm dữ liệu, là một hoạt động thăm dò, do đó, phƣơng pháp phân cụm dữ liệu đang rất thích hợp để khai phá dữ liệu. Phân cụm dữ liệu thƣờng là một bƣớc khởi đầu quan trọng của một số trong quá trình khai phá dữ liệu [Fayyad 1996]. Một số phƣơng pháp khai phá dữ liệu sử dụng phƣơng pháp phân cụm dữ liệu đƣợc cơ sở dữ liệu phân khúc, mẫu tiên đoán, và trực quan hóa cơ sở dữ liệu lớn.
Phân đoạn. Phƣơng pháp phân cụm dữ liệu đƣợc sử dụng trong khai phá dữ liệu vào cơ sở dữ liệu phân khúc thành các nhóm đồng nhất. Điều này có thể phục vụ mục đích của nén dữ liệu (làm việc với các cụm hơn là các cá nhân), hoặc để nhận biết các đặc điểm của dân số phụ thuộc mà có thể đƣợc nhắm mục tiêu cho các mục đích cụ thể (ví dụ, tiếp thị nhằm vào ngƣời già).Thuật toán phân cụm dữ liệu K-means [Faber 1994] đã đƣợc sử dụng để phân cụm điểm ảnh trong hình ảnh Landsat [Faber et al. 1994]. Mỗi điểm ảnh ban đầu có 7 giá trị từ các ban nhạc vệ tinh khác nhau, bao gồm hồng ngoại. Những giá trị 7 là khó khăn cho con ngƣời để đồng hóa và phân tích mà không cần sự trợ giúp. Các điểm ảnh với các giá trị 7 tính năng đƣợc nhóm thành 256 nhóm, sau đó mỗi điểm ảnh đƣợc gán giá trị của cụm trung tâm. Hình ảnh này sau đó có thể đƣợc hiển thị với những thông tin không gian còn nguyên vẹn. Con ngƣời ngƣời xem có thể nhìn vào một hình ảnh đơn và xác định một khu vực quan tâm (ví dụ, đƣờng cao tốc hoặc rừng) và nhãn nó nhƣ là một khái niệm. Hệ thống này sau đó xác định điểm ảnh khác trong cùng một nhóm nhƣ là một ví dụ của khái niệm đó.
Đoán trƣớc mẫu. Thống kê phƣơng pháp phân tích dữ liệu thƣờng liên quan đến thử nghiệm một mô hình giả thuyết của các nhà phân tích đã có trong tâm trí. Khai thác dữ liệu có thể giúp ngƣời dùng phát hiện giả thuyết tiềm năng trƣớc khi sử dụng các công cụ thống kê. Đoán trƣớc mô hình sử dụng phân nhóm để các nhóm, sau đó infers quy tắc để characterize các nhómvà đề xuất các mô hình. Ví dụ, ngƣời đăng ký tạp chí có thể đƣợc nhóm dựa trên một số yếu tố (tuổi tác, giới
78 tính, thu nhập, vv), sau đó các nhóm kết quả đặc trƣng trong một nỗ lực để tìm một mô hình mà sẽ phân biệt các thuê bao này sẽ gia hạn đăng ký của họ từ những ngƣời mà sẽ không [Simoudis 1996].
Hình ảnh. Cụm trong cơ sở dữ liệu lớn có thể đƣợc sử dụng để hình dung, để hỗ trợ các nhà phân tích của con ngƣời trong việc xác định các nhóm và nhóm con có đặc điểm tƣơng tự. WinViz [Lee và Ong 1996] là một công cụ khai thác dữ liệu trực quan, trong đó có nguồn gốc cụm có thể đƣợc xuất khẩu nhƣ các thuộc tính mới mà sau đó có thể đƣợc đặc trƣng bởi hệ thống. Ví dụ, ngũ cốc ăn sáng đƣợc nhóm theo calo, đạm, chất béo, natri, chất xơ, carbohydrate,đƣờng, kali, vitamin và các nội dung trên phục vụ. Khi thấy các cụm kết quả,ngƣời sử dụng có thể xuất các cụm để Win-Viz là thuộc tính. Hệ thống này cho thấy rằng một trong những cụm đƣợc đặc trƣng bởi nội dung kali cao, và các nhà phân tích của con ngƣời nhận ra các cá nhân trong nhóm nhƣ là thuộc cám "gia đình ngũ cốc", dẫn đến một khái quát rằng "ngũ cốc, cám nhiều chất kali."
2.2. Khai phá dữ liệu có cấu trúc lớn.
Khai thác dữ liệu thƣờng đƣợc thực hiện trên cơ sở dữ liệu quan hệ giao dịch và cũng đã xác định các lĩnh vực mà có thể đƣợc sử dụng nhƣ là các tính năng, nhƣng đã đƣợc nghiên cứu gần đây về cơ sở dữ liệu có cấu trúc lớn nhƣ World Wide Web [Etzioni 1996].
Ví dụ về các nỗ lực gần đây để phân loại các văn bản web bằng cách sử dụng từ ngữ hoặc các chức năng của các từ nhƣ tính năng bao gồm Maarek và Shaul [1996] và Chekuri et al. [1999]. Tuy nhiên, bộ tƣơng đối nhỏ các mẫu đào tạo có nhãn và chiều hạn chế rất lớn sự thành công cuối cùng của tự động phân loại tài liệu web dựa trên những từ nhƣ tính năng.Chứ không phải là nhóm tài liệu trong một không gian tính từ,Wulfekuhler và Punch [1997] cụm từ từ một bộ sƣu tập nhỏ của World Wide Web tài liệu trong không gian văn bản. Các dữ liệu mẫu thiết lập bao gồm 85 tài liệu từ các miền trong sản xuất ngƣời dùng khác nhau 4-xác
79 định loại (laođộng, luật pháp, chính phủ, và thiết kế). 85 tài liệu chứa 5.190 thân cây khác biệt từ sau khi các từ thông dụng (các, và, trong) đã đƣợc gỡ bỏ. Kể từ từđƣợc chắc chắn không phải không tƣơng quan, họ sẽ rơi vào nơi cụm từ đƣợc sử dụng một cách thống nhất trên toàn bộ tài liệu có giá trị tƣơng tự nhƣ của tần số