Đánh giá kết quả thực nghiệm

Một phần của tài liệu WEB MINING với giải thuật SOM và ứng dụng cho máy tìm kiếm VINAHOO (Trang 53)

Trên hình 3.2, nếu nhìn trên ma trận U phía bên trái có thể thấy rõ ràng 7 dòng đầu tiên của SOM tạo nên một cụm khá rõ rệt. Đối chiếu sang bảng đã đƣợc gán nhãn ở bên phải, ta thấy cụm này ứng với các trang Web về Văn hóa (VH). Hai chủ đề còn lại là Sức khỏe (SK) và Pháp luật (PL) tạo nên hai cụm còn lạị Trên ma trận, sự phân biệt giữa hai cụm này có vẻ không thật rõ ràng, tuy nhiên trên bảng gán nhãn, chúng lại có sự phân biệt khá tốt. Nhận xét rằng kết quả thực nghiệm cho thấy thuộc tính lớp trang Web trong mạng VnExpress khá tƣơng ứng với các cụm đƣợc phân theo WEBSOM.

Hình 3.2: Sự phân cụm các trang Web thể hiện trên các nhãn

Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands)

Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands)

Formatted: Dutch (Netherlands)

Độ phức tạp thuật toán

Kết quả khảo sát, đánh giá độ phức tạp thuật toán và các đề xuất cải tiến đã đƣợc trình bày trong [4, 7, 9]. Lập luận đánh giá nhƣ vậy đƣợc tóm tắt nhƣ dƣới đâỵ Mỗi bƣớc huấn luyện theo giải thuật SOM bao gồm hai nhiệm vụ: tìm kiếm đơn vị BMU và thực hiện cập nhật lại trọng số của các láng giềng của BMU mới tìm đƣợc. Độ phức tạp thời gian để có thể tìm đƣợc BMU là O(dN)

trong đó d là số chiều của véctơ và N là số đơn vị láng giềng. Bƣớc cập nhật trọng số cũng đòi hỏi thời gian tƣơng tự. Nhƣ vậy, độ phức tạp thuật toán SOM đƣợc tính bằng O(dN2).

Trong những trƣờng hợp các bản đồ rất lớn đƣợc tạo ra trên dữ liệu nhiều chiều, việc tính toán đòi hỏi một lƣợng đáng kể không gian nhớ, không gian lƣu trữ và thời gian xử lý của CPU, khi đó thuật toán SOM chuẩn tắc không còn phù hợp nữạ Giải pháp khắc phục đƣợc thực hiện bao gồm các bƣớc: 1. Ƣớc lƣợng bản đồ lớn dựa trên các bản đồ cơ sở nhỏ hơn.

2. Thực hiện song song hoá: chia nhỏ dữ liệu cho các đơn vị xử lý của máy tính chia sẻ bộ nhớ dùng chung. Vì bản đồ chỉ thay đổi sau khi đƣợc cập nhật trọng số giữa hai lần huấn luyện, do đó nó hoàn toàn có thể đƣợc chia sẻ read- only trong suốt quá trình tìm kiếm BMỤ

3. Thực hiện việc tìm kiếm BMU cục bộ thay vì tìm kiếm trong toàn bộ map. BMU đƣợc tìm thấy ở lần huấn luyện trƣớc đó đƣợc sử dụng làm điểm bắt đầu và quá trình tìm kiếm BMU cục bộ đƣợc tiến hành ở các láng giềng của nó.

Nhờ sử dụng các biện pháp để tăng tốc độ thực hiện tìm kiếm BMU và ƣớc lƣợng bản đồ dựa trên các bản đồ cơ sở nhỏ hơn, độ phức tạp thuật toán đã giảm hẳn, chỉ còn O(dM2) + O(dN) + O(N2) trong đó M là số đơn vị trên bản đồ cơ sở.

Formatted: Dutch (Netherlands)

3.2 Đề xuất giải pháp ứng dụng phương pháp WEBSOM trong máy

tìm kiếm Vinahoọ

Hình 3.3. mô tả cấu trúc của máy tìm kiếm Vinahoọ Nhìn vào sơ đồ hoạt động này chúng ta thấy khả năng tích hợp WEBSOM vào một số thành phần, chẳng hạn nhƣ môđun tìm kiếm hoặc môđun crawler. Đề xuất của chúng tôi là, tích hợp WEBSOM ngay sau khi crawler thực hiện việc thu thập các trang Web từ Internet vì các lý do sau:

- Sau khi áp dụng WEBSOM, toàn bộ không gian dữ liệu đƣợc mô hình hóa dƣới dạng một bản đồ, trên đó thể hiện sự phân cụm của các nhóm trang Web có nội dung tƣơng tự nhaụ Nhờ đó, ngƣời dùng không chỉ có thể thực hiện thao tác tìm kiếm thông thƣờng, mà hơn thế họ đã có đƣợc cái nhìn toàn cảnh về sự phân bố thông tin, do đó có thể thực hiện các thao tác thăm dò thông tin dựa trên bản đồ phân bố. Điều này có thể đƣợc minh họa qua Vví dụ minh

họa bằng hình ảnh dƣới đây sẽ cho thấỵ

Kho trang web Bé t×m

duyÖt

Hình 3.3. Mô hình cấu trúc của một máy tìm kiếm

Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands)

Formatted: Dutch (Netherlands)

Hongkongissa pidätettiin Kiinan lipun häpäisijöitä 2.10. klo 10.00,

Kiina lähettää luovutusyönä 4 000 sotilasta 27.6. klo 15.00,

Uutisotsikot: 29.6. klo 13.00,

Thatcher arvosteli Kiinaa 30.6. klo 6.00,

Kiina ja Britannia pyrkivät hautaamaan luovutusongelmat 30.6. klo 10.00,

Kiina ja Britannia pyrkivät hautaamaan luovutusongelmat 30.6. klo 11.00,

Onnitteluja uusille isännille 30.6. klo 17.00,

- Thuật toán SOM rất hiệu quả trên những tập dữ liệu lớn, do đó việc áp dụng WEBSOM trên toàn bộ không gian dữ liệu (phân cụm offline) phù hợp hơn và có độ chính xác cao hơn so với việc áp dụng WEBSOM trên một tập dữ liệu nhỏ hơn rất nhiều, thỏa mãn yêu cầu tìm kiếm của ngƣời dùng.

Bản đồ thể hiện không gian dữ liệu ban đầụ

Ngƣời dùng view một điểm trên bản đồ, thăm dò vùng thông tin cần quan tâm.

Hình 3.4 Minh họa giao diện ngƣời dùng với máy tìm kiếm tích hợp WEBSOM.

Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands)

Formatted: Dutch (Netherlands)

Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands)

Formatted: Dutch (Netherlands)

KẾT LUẬN

Khai phá Web nói chung và phân cụm Web nói riêng đang là một nội dung nghiên cứu và thời sự hiện nay trên thế giớị Thuật toán SOM, một thuật toán phân cụm dựa trên mô hình mạng nơron trở nên rất thích hợp trong khai phá dữ liệu với mô hình học máỵ Thuật toán học mạng nơron theo SOM rất hữu dụng trong bài toán phân cụm Web với sản phẩm điển hình WEBSOM.

1. Luận văn đã thực hiện đƣợc kết quả sau:

- Trình bày tổng quan về bài toán phân cụm Web

- Nghiên cứu, phân tích các nội dung của thuật toán SOM giải quyết bài toán phân cụm theo mô hình mạng nơron. Nghiên cứu cấu trúc hoạt động của bộ công cụ WEBSOM để giải quyết bài toán phân cụm

WEB.

-

- Nghiên cứu cấu trúc hoạt động của bộ công cụ WEBSOM để giải quyết

bài toán phân cụm WEB.

- TThử nghiệm khai thác công cụ WEBSOM để phân cụm tập 150 trang Web đƣợc máy tìm kiếm Vinahoo tải về từ nguồn là Website

http://www.vnexpress.net. Kết quả phân cụm theo WEBSOM tƣơng đối

phù hợp với việc phân lớp sẵn có củatrênhttp://www.vnexpress.net.

- Đề xuất phƣơng án tích hợp thuật toán WEBSOM vào máy tìm kiếm

Vinahoọ

2. Tích hợp các thuật toán phân cụm vào máy tìm kiếm là một công việc rất cần thiết thi hành song đòi hỏi công sức nghiên cứu, triển khai công phụ Trong khuôn khổ thực hiện luận văn, chúng tôi chƣa thi hành đƣợc công việc nàỵ Trong thời gian tới, chúng tôi tiếp tục khảo sát và thử nghiệm để có thể tích hợp các thành phần của WEBSOM vào máy tìm kiếm tiếng Việt.

Formatted: Bullets and Numbering

Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Formatted: Bullets and Numbering

Formatted: Dutch (Netherlands)

Tài liệu tham khảo

Tài liệu tiếng Việt

[1]. Đỗ Cẩm Vân , Các thuật toán học mạng nơron theo mô hình SOM và ứng dụng cho bài toán Ngân hàng Luận văn thạc sỹ, Khoa CNTT – Trƣờng ĐH Công Nghệ - ĐHQG HN, 2004.

[2]. Nguyễn Đình Thúc, Trí tuệ nhân tạo Mạng nơron phương pháp & ứng dụng, Nhà xuất bản Giáo Dục, 2000.

[3]. Nguyễn Thị Hƣơng Giang, Giải pháp song song hóa thành phần crawler trong các máy tìm kiếm. – Khóa luận Đại học, Khoa CNTT – Trƣờng ĐH Công Nghệ - ĐHQG HN, 2004.

Tài liệu tiếng Anh

[4]. Lagus K., Text Mining with the WEBSOM – Acta Polytechnica Scandinavica, Mathematics and Computing Series Nọ 110, Espoo 2000, Published by the Finnish Academies of Technology, 2000.

[5]. Teuvo Kohonen, Self – Organizing Maps (third Edition) – Springer, 2002. [6]. T. Honkela, Self-Organizing Maps in Natural Language Processing, PhD

thesis, Helsinki University of Technology, Espoo, Finland, 1997.

[7]. Teuvo Kohonen, Samuel Kaski, Krista Lagus, Jarkko Salojärvi, Jukka Honkela, Vesa Paatero, and Antti Saarela, Self Organization of a Massive Document Collection. IEEE TRANSACTIONS ON NEURAL NETWORKS, 11 (3), MAY 2000, 574-585.

[8]. Juha Vesanto, Johan Himberg, Esa Alhoniemi and Juha Parhankangas,

Self-organizing map in Matlab: the SOM Toolbox, Laboratory of Computer and Information Science, Helsinki University of Technology, Finland, 1999. [9].T. Honkela, K. Lagus, and S. Kaski, Self-organizing maps of large

document collections, in Visual Explorations in Finance with Self- Organizing Maps (G. Deboeck and T. Kohonen, eds.), Springer, 1998, 168- 178.

[10] Kir Kolyshkin, VietSeek Manual, tham khảo tại Website

http://www.VietSeek.org, 2002. Formatted: Dutch (Netherlands)

Formatted: Dutch (Netherlands)

[11] G. Salton, Ạ Wong, and C. S. Yang, A vector space model for automatic indexing, Communications of the ACM, vol. 18, (11), 1975, 613-620.

Một phần của tài liệu WEB MINING với giải thuật SOM và ứng dụng cho máy tìm kiếm VINAHOO (Trang 53)