Khai phỏ dữ liệu cú cấu trỳc lớn.

Một phần của tài liệu Phương pháp phân cụm và ứng dụng (Trang 84 - 85)

4. Khai phỏ dữ liệu

4.2 Khai phỏ dữ liệu cú cấu trỳc lớn.

Khai thỏc dữ liệu thường được thực hiện trờn cơ sở dữ liệu quan hệ giao dịch và cũng đó xỏc định cỏc lĩnh vực mà cú thể được sử dụng như là cỏc tớnh năng, nhưng đó được nghiờn cứu gần đõy về cơ sở dữ liệu cú cấu trỳc lớn như World Wide Web [Etzioni 1996].

Vớ dụ về cỏc nỗ lực gần đõy để phõn loại cỏc văn bản web bằng cỏch sử dụng từ ngữ hoặc cỏc chức năng của cỏc từ như tớnh năng bao gồm Maarek và Shaul [1996] và Chekuri et al. [1999]. Tuy nhiờn, bộ tương đối nhỏ cỏc mẫu đào tạo cú nhón và chiều hạn chế rất lớn sự thành cụng cuối cựng của tự động phõn loại tài liệu web dựa trờn những từ như tớnh năng.

Chứ khụng phải là nhúm tài liệu trong một khụng gian tớnh từ, Wulfekuhler và Punch [1997] cụm từ từ một bộ sưu tập nhỏ của World Wide Web tài liệu trong khụng gian văn bản. Cỏc dữ liệu mẫu thiết lập bao gồm 85 tài liệu từ cỏc miền trong sản xuất người dựng khỏc nhau 4-xỏc định loại (lao động, luật phỏp, chớnh phủ, và thiết kế). 85 tài liệu chứa 5.190 thõn cõy khỏc biệt từ sau khi cỏc từ thụng dụng (cỏc, và, trong) đó được gỡ bỏ. Kể từ từ được chắc chắn khụng phải khụng tương quan, họ sẽ rơi vào nơi cụm từ được sử dụng một cỏch thống nhất trờn toàn bộ tài liệu cú giỏ trị tương tự như của tần số trong mỗi tài liệu.

Phương phỏp phõn cụm bằng K-means cú nghĩa là phõn nhúm đó được sử dụng để nhúm cỏc từ 5.190 thành 10 nhúm. Một kết quả đỏng ngạc nhiờn là trung bỡnh 92% trong cỏc từ rơi vào một cụm duy nhất, mà sau đú cú thể

được loại bỏ để khai thỏc dữ liệu mục đớch. Cỏc cụm nhỏ nhất cú điều khoản đú vào một con người cú vẻ ngữ nghĩa liờn quan. Cỏc cụm 7 nhỏ nhất từ một hoạt động tiờu biểu được thể hiện trong hỡnh 34.

Điều khoản được sử dụng trong ngữ cảnh bỡnh thường, hoặc điều kiện duy nhất mà khụng xảy ra thường xuyờn trờn toàn bộ tài liệu đào tạo sẽ cú xu hướng cụm thành nhúm thành viờn lớn 4000. Điều này sẽ chăm súc cỏc lỗi chớnh tả, tờn riờng mà khụng thường xuyờn, và cỏc điều khoản được sử dụng theo cỏch tương tự trong suốt đặt toàn bộ tài liệu. Điều khoản sử dụng trong bối cảnh cụ thể (như tập tin trong bối cảnh nộp đơn sỏng chế, hơn là một tập tin mỏy tớnh) sẽ xuất hiện trong cỏc tài liệu phự hợp với điều kiện thớch hợp khỏc cho rằng bằng sỏng chế (bối cảnh đú, phỏt minh ra) và do đú sẽ cú xu hướng cụm lại với nhau. Trong số cỏc nhúm từ, ngữ cảnh đặc biệt nổi bật so với đỏm đụng.

Sau khi discarding cluster lớn nhất, cỏc thiết lập nhỏ hơn cỏc tớnh năng cú thể được sử dụng để xõy dựng cỏc truy vấn để tỡm ra cỏc tài liệu khỏc cú liờn quan trờn Web tiờu chuẩn sử dụng cụng cụ tỡm kiếm web (vớ dụ, Lycos, Alta Vista, mở văn bản). Tỡm kiếm trờn Web với cỏc điều khoản lấy từ cụm từ cho phộp phỏt hiện ra cỏc chủ đề hạt mịn (vớ dụ, gia đỡnh y tế để lại) trong vũng loại được định nghĩa rộng rói (vớ dụ, lao động).

Một phần của tài liệu Phương pháp phân cụm và ứng dụng (Trang 84 - 85)

Tải bản đầy đủ (PDF)

(100 trang)