Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 68 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
68
Dung lượng
2,19 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ DƯ PHƯƠNG HẠNH WEB MINING với giải thuật SOM v ng dng cho mỏy tỡm kim VINAHOO luận văn thạc sĩ CễNG NGH THễNG TIN Hà nội - 2005 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ DƯ PHƯƠNG HẠNH WEB MINING với giải thuật SOM ứng dụng cho máy tìm kiếm VINAHOO Mã số luận văn thạc sĩ CễNG NGH THễNG TIN Ngi hng dẫn khoa học: TS Hà Quang Thuỵ Hµ néi - 2005 Formatted: Dutch (Netherlands) Mở đầu Formatted: Dutch (Netherlands) Lời cảm ơn Các từ viết tắt Chƣơng Phân cụm liệu Text Web 1.1 Khai phá liệu Text mô hình biểu diễn liệu…………… 1.1.1 1.1.2 1.2 2.1 2.1.2.1Cấu tạo mạng nơ ron nhân tạo 2.1.2.2Mơ hình nơ ron 2.2 2220 2.3 Phƣơng pháp WEBSOM……… …………………… ……………… h Formatted: Dutch (Netherlands) 2.3.2.2Các thao tác hoàn thiện, làm mịn đồ 2.4Công cụ SOM Toolbox…………………………………………… 34 2.4.1 Định 2.4.2 Xây dựn 2.4.3 Tiền xử 2.4.4 Khởi tạo 2.4.5 Biểu diễ Chƣơng 3.Ứng dụn trang Web… 42 3.1Thử nghiệm thi hành WEBSOM phân cụm trang Web…………… 42 40 3.1.1 Cấu trúc sở liệu 3.1.2 Cấu trúc số bảng Vinahoo …………………………… 40 3.1.3 Cấu trúc số file nhị ph 46 3.1.3.1Cấu trúc file nhị phân thƣ mục xxw: 3.1.3.2Cấu trúc file nhị phân thƣ mục Deltas 3.1.4 Tiến hành thử nghiệm 3.1.5 Đánh giá kết thực nghi 3.2Đề xuất giải pháp ứng dụng phƣơng pháp WEBSOM máy tìm kiếm Vinahoo…………………………………………… 53 KẾT LUẬN 55 Tài liệu tham khảo Mở đầu Lời cảm ơn Các từ viết tắt 51 Formatted: Dutch (Netherlands) Chƣơng Phân cụm liệu Text Web 1.1Khai phá liệu Text mơ hình biểu diễn liệu 1.1.1 Khai phá liệu Text 1.1.2 Các mơ hình biểu diễn liệu text 1.1.2.1Mơ hình khơng gian véc tơ 1.1.2.2Đánh mục theo ngữ nghĩa tiềm tàng 1.1.2.3Phép chiếu ngẫu nhiên 1.1.2.4Phân cụm từ khoá 1.2Phân cụm liệu khai phá WEB 1.2.1 Bài toán phân cụm trang Web 1.2.2 Sơ ứng dụng thuật toán SOM Chƣơng Phƣơng pháp WEBSOM công 2.1 Mạng nơ ron 2.1.1 Mạng nơ ron sinh học 2.1.2 Mạng nơ ron nhân tạo 2.1.2.1Cấu tạo mạng nơ ron nhân tạo 2.1.2.2Mơ hình nơ ron 2.2 Thuật toán SOM 2.3 Phƣơng pháp WEBSOM 2.3.1 Mã hóa tài liệu 2.3.2 Xây dựng đồ (document map) 2.3.2.1Xây dựng đồ dựa phần đồ nhỏ đƣợc hình thành trƣớc 2.3.2.2Các thao tác hoàn thiện, làm mịn đồ 2.4Công cụ SOM Toolbox 2.4.1 Định dạng liệu 2.4.2 Xây dựng tập liệu 2.4.3 Tiền xử lý liệu 2.4.4 Khởi tạo huấn luyện 2.4.5 Biểu diễn phân tích Formatted: Dutch (Netherlands) Chƣơng Ứ trang Web 3.1Cấu trúc sở liệu máy tìm kiếm Vinahoo 3.1.1 C Vinahoo 40 3.1.2 C 3.1.2.1 3.1.2.2 3.2 Cơ chế thực thi trình crawler module index máy tìm kiếm Vinahoo 3.2.1 Error! Bookmark not defined Mơ hình thực thi module đánh số (index) Vinahoo Error! Bookmark not defined 3.2.2 Quá trình crawler Vinahoo Error! Bookmark not defined 3.2.2.1 Cấu trúc hàng đợi url VinahooError! Bookmark not defined 3.2.2.2 Quá trình crawler VinahooError! Bookmark not defined 3.3 Mơ hình ứng dụng phƣơng pháp WEBSOM máy tìm kiếm Vinahoo 51 3.4 Đánh giá kết Error! Bookmark not defined 3.5 Kết luận Error! Bookmark not defined Tài liệu tham khảo Error! Bookmark not defined Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Mở đầu Trong năm gần đây, Internet trở thành phƣơng tiện cung cấp hiệu thông tin khoa học, thông tin kinh tế, thƣơng mại, quảng cáo mặt khác đời sống Sự phát triển nhanh chóng mạng Internet Intranet sinh khối lƣợng khổng lồ liệu dạng siêu văn (dữ liệu Web) Theo thống kê, lƣợng thông tin tồn cầu tăng gấp đơi sau khoảng hai năm theo số lƣợng nhƣ kích cỡ sở liệu (CSDL) tăng lên cách nhanh chóng Có thể nói, bị “ngập” liệu, để khai thác thơng tin cách hiệu từ “núi” liệu khổng lồ đó, phải viện đến hỗ trợ cơng cụ tìm kiếm, cụ thể Máy tìm kiếm (Search Engine) Tuy nhiên, thƣờng máy tìm kiếm Web cho kết nhanh nhƣng thiếu độ xác ngƣợc lại Các nhà nghiên cứu khắp nơi giới thực nỗ lực đáng kể để phát triển phƣơng pháp nhằm khắc phục yếu điểm trên, tức cố gắng tăng độ xác kết tìm kiếm mà khơng gây ảnh hƣởng tới tốc độ Một giải pháp đƣợc nhiều nhà nghiên cứu quan tâm triển khai giải thuật SOM (Self Organizing Map) giáo sƣ Teuvo Kohonen đề xuất SOM (Self Organizing Map) đƣợc giáo sƣ Teuvo Kohonen phát triển, cơng cụ thích hợp khai phá liệu SOM thuật tốn học mạng nơron khơng giám sát, qua q trình “tự tổ chức”, xếp liệu phức tạp nhiều chiều, cho liệu giống đƣợc nhận xếp cạnh đồ [5] Từ việc tìm hiểu phân tích giải thuật SOM, hƣớng tới mục tiêu nâng cao hiệu tìm kiếm, Luận văn với đề tài “WEB Mining với giải thuật SOM ứng dụng cho máy tìm kiếm Vinahoo” tập trung vào lĩnh vực khai phá liệu Web dùng mạng nơron, sử dụng phƣơng pháp học mạng nơron không giám sát, dùng thuật toán SOM để giải tốn phân cụm, ứng dụng cho máy tìm kiếm Vinahoo Nội dung Luận văn bao gồm phần nhƣ sau: Chương 1: Tìm hiểu mơ hình biểu diễn liệu trang Web , bBài toán phân cụm trang Web, đặc điểm, yêu cầu số độ đo tính xác Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) giải thuật phân cụm tTổng quan áp dụng giải thuật SOM cho toán phân cụm trang Web [4, 6, 8] Chương 2: Tìm hiểu giải thuật SOM Tìm hiểu cCấu trúc trình thực thi phƣơng pháp WEBSOM dựa giải thuật SOM phƣơng pháp học mạng nơron không giám sát, ứng dụng cho toán phân cụm trang Web Tìm hiểu cơng cụ SOM Toolbox [2, 5, 7, 8] Chương 3: Tìm hiểu cấu trúc sở liệu máy tìm kiếm Vinahoo [10] Thực nghiệm ứng dụng giải thuật SOM phân cụm trang Web lƣu trữ sở liệu máy tìm kiếm Vinahoo, đánh giá kết thực nghiệm , đƣa kết luận đề xuất giải pháp tích hợp WEBSOM Vinahoo Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Lời cảm ơn Luận văn đƣợc thực dƣới hƣớng dẫn thầy giáo TS Hà Quang Thụy Tôi xin gửi tới thầy lời cảm ơn chân thành quan tâm, tận tình dẫn, giúp đỡ mà thầy dành cho suốt trình hồn thành luận văn Xin trân trọng cảm ơn TS Nguyễn Tuệ - Chủ nhiệm Bộ môn Các hệ thống thông tin, PGS.TS Trịnh Nhật Tiến – Chủ nhiệm Khoa Công nghệ thông tin Xin cảm ơn bạn, đồng nghiệp Bộ môn Các hệ thống thơng tin, ngƣời nhiệt tình cho tơi dẫn, góp ý suốt q trình thực luận văn Tơi xXin gửi lời cảm ơn bố mẹ, em anhchân thành tới gia đình, bạn bè, ngƣời ln bên tơi, động viên nâng đỡ giúp đỡ, tạo điều kiện cho tiến tơi {Nên đặt vị trí gia đình khác với bàn bè} Hà Nội ngày 20/12/2005 Dư Phương Hạnh Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Bảng UrlwordNN (NN số từ 00 – 15): Các bảng chứa thông tin chi tiết nội dung Url đƣợc đánh số sở liệu (có mặt bảng urlword phía trên) Việc url đƣợc ghi vào bảng 16 bảng phụ thuộc vào giá trị url_id mod 16 Sở dĩ nội dung url đƣợc nhiều bảng nhƣ để tránh tải cho bảng sở liệu số lƣợng trang web đƣợc tải lớn Tên trường url_id Deleted wordcount totalcount Content-type Charset Title Txt Docsize keywords description Words Hrefs Bảng wordurl: chứa thông tin từ khóa (khơng phải từ dừng) xuất trang Web đƣợc index Giá trị trƣờng urls bảng (chứa địa url mà từ có xuất hiện) đƣợc lƣu file nhị phân xxw kích thƣớc lớn 1000 byte Điều giúp giảm tải cho bảng sở liệu SQL đồng thời tăng tốc độ trình tìm kiếm Tên trƣờng Formatted: Dutch (Netherlands) 44 Formatted: Dutch (Netherlands) word Word_id urls urlcount totalcount thân từ khóa, khơng phải từ dừng Số định danh từ( khóa chính) Thơng tin site url mà từ khóa xuất hiện.Trƣờng rỗng nhƣ kích thƣớc lớn 1000 byte, trƣờng hợp thông tin đƣợc lƣu trữ file nhị phân xxw Số lƣợng url có chứa từ khóa Tổng số lần xuất từ khóa tất tài liệu Bảng wordurl1: chứa thơng tin từ khóa sở liệu thời gian thực, cấu trúc giống hệt bảng wordurl nhƣng giá trị trƣờng urls khác rỗng, thông tin đƣợc lƣu bảng kích thƣớc Tên trường word word_id urls urlcount totalcount Miêu tả Nội dung từ khóa (khơng phải từ dừng) Số định danh từ ( khóa chính) Thông tin site url mà từ khóa xuất hiện.Trƣờng ln ln khác rỗng, kích thƣớc Số lƣợng url có chứa từ khóa Tổng số lần xuất từ tất tài liệu index Bảng Stat: chứa thông tin thống kê câu truy vấn ngƣời dùng Tên trƣờng addr Địa IP c proxy Địa IP c query Nội dung câ ul Giới hạn sp Không gian site SiteID dùng sites Số lƣợng c urls Số lƣợng c referer URLID Formatted: Dutch (Netherlands) 3.1.3 Cấu trúc số file nhị phân sở liệu Vinahoo Vinahoo sử dụng file nhị phân để lƣu: nội dung index ngƣợc url phục vụ cho trình tìm kiếm url theo từ khóa (thƣ mục xxw), nội dung liên kết trang web để phục vụ cho q trình tính hạng trang web (thƣ mục citation) Lý để sử dụng file nhị phân để giảm bớt gánh nặng cho hệ quản trị sở liệu nội dung thông tin lớn (lên tới hàng GB), đồng thời đảm bảo đƣợc tốc độ tìm kiếm Các file nhị phân đƣợc lƣu thƣ mục /usr/local/aspseek/var/aspseek12/ Các thành phần thƣ mục gồm: - 100 thƣ mục 00w -> 99w: thƣ mục chứa nội dung đƣợc index ngƣợc trang web, phục vụ cho việc ánh xạ từ từ khóa sang địa URL - Thƣ mục citations: chứa file nhị phân phục vụ cho q trình tính hạng (ranking) trang web - Thƣ mục deltas: chứa file nhị phân trung gian trình index, sau trình index kết thúc nội dung file bị xóa bỏ Ở tơi xin trình bày cấu trúc file thƣ mục xxw thƣ mục delta, thực đọc liệu từ file nhị phân để xây dựng tập liệu dƣới dạng mã ASCII, đầu vào cho thử nghiệm 3.1.3.1 Cấu trúc file nhị phân thư mục xxw: Các file nhị phân thƣ mục xxw (xx: 00-99) có nhiệm vụ lƣu nội dung index ngƣợc trang web đƣợc đánh số Nội dung file giá trị trƣờng urls bảng wordurl trƣờng hợp kích thƣớc trƣờng lớn 1000 bytes Mục đích phục vụ cho q trình tìm kiếm trang web theo từ khóa ngƣời dùng Các file đƣợc cấu trúc theo cách thức dễ dàng tìm url_id có chứa từ khóa word_id, đồng thời ta dễ dàng tìm đƣợc số lƣợng vị trí xuất word_id url_id Formatted: Dutch (Netherlands) 46 Formatted: Dutch (Netherlands) 3.1.3.2 Cấu trúc file nhị phân thư mục Deltas Thƣ mục deltas chứa file nhị phân kết trung gian trình index Sau module crawler tải trang web về, nội dung chúng việc đƣợc lƣu bảng sở liệu MySQL đƣợc lƣu tạm file nhị phân nhằm phục vụ cho trình index ngƣợc sau Sau trình index kết thúc, nội dung file bị xóa bỏ Các file thƣ mục gồm: - 100 file delta d00-d99 chứa nội dung từ khóa xuất url đƣợc tải q trình crawler vị trí xuất chúng - File h (href) chứa url outgoing từ url đƣợc index lần index - File r (redirect) chứa url mà có chuyển hƣớng tới url khác - File lm (lastmodify) chứa thời gian đƣợc sửa đổi gần url Ta quan tâm tới file delta, file chứa thông tin cần thiết Các file đƣợc tạo trình crawler để chứa từ vị trí xuất chúng url đƣợc index Việc lƣu từ khóa vào file delta phụ thuộc vào giá trị word_id mod 100 để tiện cho trình index ngƣợc sau Nhƣ nội dung url đƣợc ghi vào file delta khác Bảng 3.1: Cấu trúc file nhị phân delta d00 – d99 Offset 10 14 16 Formatted: Dutch (Netherlands) 16+(n- Lặp lại với từ khác url, bắt đầu wordID Lặp lại với url khác, bắt đầu siteID Với cấu trúc file nhƣ trên, thành lập véctơ biểu diễn trang Web (ứng với UrlID) thành phần véctơ WordID từ khoá giá trị thành phần số lần xuất từ khoá trang Web Đây q trình định dạng liệu (xem 2.4.1) để có đƣợc file liệu theo định dạng SOM Toolbox 3.1.4 Tiến hành thử nghiệm Để minh họa giải thuật SOM, lập vài tham số để máy tìm kiếm Vinahoo thực crawler 150 trang Web nguồn Website http://www.vnexpress.net , chủ để đƣợc lựa chọn để crawler là: Formatted: Dutch (Netherlands) Van_hoa: http://vnexpress.net/Vietnam/Van-hoa/ Formatted: Dutch (Netherlands) Suc_khoe: http://vnexpress.net/Vietnam/Suc-khoe Formatted: Dutch (Netherlands) Phap_luat: http://vnexpress.net/Vietnam/Phap-luat/ Formatted: Dutch (Netherlands) Sau đó, véctơ biểu diễn trang Web đƣợc lƣu trữ file webLog.data Chúng ta sử dụng công cụ SOM Toolbox, gồm hàm đƣợc viết Matlab để phân cụm tập liệu theo bƣớc sau: Đọc liệu Xử lý liệu trƣớc đƣa vào huấn luyện Khởi tạo mẫu huấn luyện theo thuật tốn SOM Mơ kết Chi tiết trình thử nghiệm diễn nhƣ sau: % BUOC 1: DOC DU LIEU TU FILE DATA sD = som_read_data('webLog.data'); data read ok 48 Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) % NHAN PHIM BAT KY DE TIEP TUC pause(); % BUOC CHUAN HOA DU LIEU TRUOC KHI HUAN LUYEN sD = som_normalize(sD,'var'); % NHAN PHIM BAT KY DE TIEP TUC pause(); % BUOC TIEN HANH HUAN LUYEN DU LIEU sM = som_make(sD); Determining map size map size [11, 6] Initialization Training using batch algorithm Rough training phase Training: 0/ s Training: 0/ s Finetuning phase Training: 0/ s Training: 0/ s Training: 0/ s Training: 0/ s Training: 0/ s Training: 0/ s Training: 0/ s Training: 1/ s Final quantization error: 0.0 Final topographic error: 0.0 Formatted: Dutch (Netherlands) 49 Formatted: Dutch (Netherlands) % NHAN PHIM BAT KY DE TIEP TUC pause(); % BUOC 4.1 MO PHONG TRUC QUAN DU LIEU DA DUOC PHAN CUM % som_show(sM,'umat','all','empty','Web Mining'); pause(); Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Hình 3.1: Ma trận U thể phân cụm trang Web Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) % BUOC 4.2 MO PHONG TRUC QUAN DU LIEU DA DUOC PHAN CUM Formatted: Dutch (Netherlands) % 50 Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) som_show_add('label',sM,'Textsize',8,'TextColor','r','subplot',2); Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Hình 3.2: Sự phân cụm trang Web thể nhãn Formatted: Dutch (Netherlands) 3.1.5 Đánh giá kết thực nghiệm Formatted: Dutch (Netherlands) Trên hình 3.2, nhìn ma trận U phía bên trái thấy rõ ràng dòng Formatted: Dutch (Netherlands) SOM tạo nên cụm rõ rệt Đối chiếu sang bảng đƣợc gán nhãn bên phải, ta thấy cụm ứng với trang Web Văn hóa (VH) Hai chủ đề lại Sức khỏe (SK) Pháp luật (PL) tạo nên hai cụm lại Trên ma trận, phân biệt hai cụm không thật rõ ràng, nhiên bảng gán nhãn, chúng lại có phân biệt tốt Nhận xét kết thực nghiệm cho thấy thuộc tính lớp trang Web mạng VnExpress tƣơng ứng với cụm đƣợc phân theo WEBSOM 51 Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Đợ phức tạp thuật tốn Kết khảo sát, đánh giá độ phức tạp thuật toán đề xuất cải tiến đƣợc trình bày [4, 7, 9] Lập luận đánh giá nhƣ đƣợc tóm tắt nhƣ dƣới Mỗi bƣớc huấn luyện theo giải thuật SOM bao gồm hai nhiệm vụ: tìm kiếm đơn vị BMU thực cập nhật lại trọng số láng giềng BMU tìm đƣợc Độ phức tạp thời gian để tìm đƣợc BMU O(dN) d số chiều véctơ N số đơn vị láng giềng Bƣớc cập nhật trọng số đòi hỏi thời gian tƣơng tự Nhƣ vậy, độ phức tạp thuật toán SOM đƣợc tính O(dN ) Trong trƣờng hợp đồ lớn đƣợc tạo liệu nhiều chiều, việc tính tốn địi hỏi lƣợng đáng kể không gian nhớ, không gian lƣu trữ thời gian xử lý CPU, thuật tốn SOM chuẩn tắc khơng cịn phù hợp Giải pháp khắc phục đƣợc thực bao gồm bƣớc: Ƣớc lƣợng đồ lớn dựa đồ sở nhỏ Thực song song hoá: chia nhỏ liệu cho đơn vị xử lý máy tính chia sẻ nhớ dùng chung Vì đồ thay đổi sau đƣợc cập nhật trọng số hai lần huấn luyện, hồn tồn đƣợc chia sẻ readonly suốt q trình tìm kiếm BMU Thực việc tìm kiếm BMU cục thay tìm kiếm tồn map BMU đƣợc tìm thấy lần huấn luyện trƣớc đƣợc sử dụng làm điểm bắt đầu trình tìm kiếm BMU cục đƣợc tiến hành láng giềng Nhờ sử dụng biện pháp để tăng tốc độ thực tìm kiếm BMU ƣớc lƣợng đồ dựa đồ sở nhỏ hơn, độ phức tạp thuật toán giảm 2 hẳn, O(dM ) + O(dN) + O(N ) M số đơn vị đồ sở Formatted: Dutch (Netherlands) 52 Formatted: Dutch (Netherlands) 3.2 Đề xuất giải pháp ứng dụng phương pháp WEBSOM máy tìm kiếm Vinahoo Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Kho trang web Bé t×m dut Hình 3.3 Mơ hình cấu trúc máy tìm kiếm Hình 3.3 mơ tả cấu trúc máy tìm kiếm Vinahoo Nhìn vào sơ đồ hoạt động thấy khả tích hợp WEBSOM vào số thành phần, chẳng hạn nhƣ mơđun tìm kiếm mơđun crawler Đề xuất chúng tơi là, tích hợp WEBSOM sau crawler thực việc thu thập trang Web từ Internet lý sau: - Sau áp dụng WEBSOM, tồn khơng gian liệu đƣợc mơ hình hóa dƣới dạng đồ, thể phân cụm nhóm trang Web có nội dung tƣơng tự Nhờ đó, ngƣời dùng khơng thực thao tác tìm kiếm thơng thƣờng, mà họ có đƣợc nhìn tồn cảnh phân bố thơng tin, thực thao tác thăm dị thơng tin dựa đồ phân bố Điều đƣợc minh họa qua Vví dụ minh họa hình ảnh dƣới cho thấy Formatted: Dutch (Netherlands) 53 Formatted: Dutch (Netherlands) Bản đồ thể không gian liệu ban đầu Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Ngƣời dùng view điểm đồ, thăm dị vùng thơng tin cần quan tâm Formatted: Dutch (Netherlands) Hongkongissa pidätettiin Kiinan lipun häpäisijöitä 2.10 klo 10.00, Kiina lähettää luovutusyönä 000 sotilasta 27.6 klo 15.00, Uutisotsikot: 29.6 klo 13.00, Thatcher arvosteli Kiinaa 30.6 klo 6.00, Kiina ja Britannia pyrkivät hautaamaan luovutusongelmat 30.6 klo 10.00, Kiina ja Britannia pyrkivät hautaamaan luovutusongelmat 30.6 klo 11.00, Onnitteluja uusille isännille 30.6 klo 17.00, Formatted: Dutch (Netherlands) Hình 3.4 Minh họa giao diện ngƣời dùng với máy tìm kiếm tích hợp WEBSOM - Thuật toán SOM hiệu tập liệu lớn, việc áp dụng WEBSOM tồn khơng gian liệu (phân cụm offline) phù hợp có độ xác cao so với việc áp dụng WEBSOM tập liệu Formatted: Dutch (Netherlands) nhỏ nhiều, thỏa mãn yêu cầu tìm kiếm ngƣời dùng Formatted: Dutch (Netherlands) 54 Formatted: Dutch (Netherlands) KẾT LUẬN Khai phá Web nói chung phân cụm Web nói riêng nội dung nghiên cứu thời giới Thuật toán SOM, thuật toán phân cụm dựa mơ hình mạng nơron trở nên thích hợp khai phá liệu với mơ hình học máy Thuật toán học mạng nơron theo SOM hữu dụng toán phân cụm Web với sản phẩm điển hình WEBSOM Luận văn thực đƣợc kết sau: - Trình bày tổng quan tốn phân cụm Web - Nghiên cứu, phân tích nội dung thuật toán SOM giải tốn phân cụm theo mơ hình mạng nơron Nghiên cứu cấu trúc hoạt động công cụ WEBSOM để giải toán phân cụm WEB Formatted: Bullets and Numbering - - Nghiên cứu cấu trúc hoạt động cơng cụ WEBSOM để giải tốn phân cụm WEB - TThử nghiệm khai thác công cụ WEBSOM để phân cụm tập 150 trang Web đƣợc máy tìm kiếm Vinahoo tải từ nguồn Website - http://www.vnexpress.net Kết phân cụm theo WEBSOM tƣơng đối Formatted: Dutch (Netherlands) phù hợp với việc phân lớp sẵn có củatrên http://www.vnexpress.net Formatted: Dutch (Netherlands) Đề xuất phƣơng án tích hợp thuật tốn WEBSOM vào máy tìm kiếm Vinahoo Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) Tích hợp thuật tốn phân cụm vào máy tìm kiếm cơng việc cần Formatted: Bullets and Numbering thiết thi hành song địi hỏi cơng sức nghiên cứu, triển khai cơng phu Trong khuôn khổ thực luận văn, chƣa thi hành đƣợc công việc Trong thời gian tới, tiếp tục khảo sát thử nghiệm để tích hợp thành phần WEBSOM vào máy tìm kiếm tiếng Việt Formatted: Dutch (Netherlands) 55 Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) 56 Formatted: Dutch (Netherlands) Tài liệu tham khảo Tài liệu tiếng Việt [1] Đỗ Cẩm Vân , Các thuật tốn học mạng nơron theo mơ hình SOM ứng dụng cho tốn Ngân hàng – Luận văn thạc sỹ, Khoa CNTT – Trƣờng ĐH Cơng Nghệ - ĐHQG HN, 2004 [2] Nguyễn Đình Thúc, Trí tuệ nhân tạo Mạng nơron phương pháp & ứng dụng, Nhà xuất Giáo Dục, 2000 [3] Nguyễn Thị Hƣơng Giang, Giải pháp song song hóa thành phần crawler máy tìm kiếm – Khóa luận Đại học, Khoa CNTT – Trƣờng ĐH Công Nghệ - ĐHQG HN, 2004 Tài liệu tiếng Anh [4] Lagus K., Text Mining with the WEBSOM – Acta Polytechnica Scandinavica, Mathematics and Computing Series No 110, Espoo 2000, Published by the Finnish Academies of Technology, 2000 [5] Teuvo Kohonen, Self – Organizing Maps (third Edition) – Springer, 2002 [6] T Honkela, Self-Organizing Maps in Natural Language Processing, PhD thesis, Helsinki University of Technology, Espoo, Finland, 1997 [7] Teuvo Kohonen, Samuel Kaski, Krista Lagus, Jarkko Salojärvi, Jukka Honkela, Vesa Paatero, and Antti Saarela, Self Organization of a Massive Document Collection IEEE TRANSACTIONS ON NEURAL NETWORKS, 11 (3), MAY 2000, 574-585 [8] Juha Vesanto, Johan Himberg, Esa Alhoniemi and Juha Parhankangas, Self-organizing map in Matlab: the SOM Toolbox, Laboratory of Computer and Information Science, Helsinki University of Technology, Finland, 1999 [9].T Honkela, K Lagus, and S Kaski, Self-organizing maps of large document collections, in Visual Explorations in Finance with Self-Organizing Maps (G Deboeck and T Kohonen, eds.), Springer, 1998, 168-178 [10] Kir Kolyshkin, VietSeek Manual, tham khảo Website Formatted: Dutch (Netherlands) http://www.VietSeek.org, 2002 Formatted: Dutch (Netherlands) 57 Formatted: Dutch (Netherlands) Formatted: Dutch (Netherlands) [11] G Salton, A Wong, and C S Yang, A vector space model for automatic indexing, Communications of the ACM, vol 18, (11), 1975, 613-620 Formatted: Dutch (Netherlands) 58 ... tiêu nâng cao hiệu tìm kiếm, Luận văn với đề tài ? ?WEB Mining với giải thuật SOM ứng dụng cho máy tìm kiếm Vinahoo? ?? tập trung vào lĩnh vực khai phá liệu Web dùng mạng nơron, sử dụng phƣơng pháp... Chƣơng Ứ trang Web 3.1Cấu trúc sở liệu máy tìm kiếm Vinahoo 3 .1. 1 C Vinahoo 40 3 .1. 2 C 3 .1. 2 .1 3 .1. 2.2 3.2 Cơ chế thực thi trình crawler module index máy tìm kiếm Vinahoo 3.2 .1 Error! Bookmark... HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ DƯ PHƯƠNG HẠNH WEB MINING với giải thuật SOM ứng dụng cho máy tìm kiếm VINAHOO Mã số luận văn thạc sĩ CễNG NGH THễNG TIN Ngi hng dẫn khoa học: TS Hà