Giáo trình khai phá dữ liệu web HÀ QUANG THỤY (Chủ biên) PHAN XUÂN HIÉU ĐOÀN SƠN NGUYÊN TRÍ THÀNH NGUYÊN THU TRANG NGUYỄN CẢM TÚ Giáo trình KHAI PHÁ DỮ LIỆU WEB■ ĐẠI HỌC TRÁI ÍvC u YỄK T R U N G TẮM H.
HÀ Q UANG THỤY (Chủ biên) PHAN XU ÂN HIÉU - ĐO ÀN SƠN - NGUYÊN TRÍ THÀNH NG U YÊN THU TRANG - NGUYỄN CẢM TÚ Giáo trình KHAI PHÁ DỮ LIỆU WEB ■ ĐẠI HỌC TRÁI ÍvC u YỄK TRUNG TẮM HỌC LIỆU NHÀ x u At Bả n g iá o d ụ c v iệ t n a m Công ty cổ phần sách Đại học - Dạy nghề - Nhà xuất Giáo dục Việt Nam giữ quyền công bố tác phẩm 375 - 2009/CXB/8 - 726/GD M ã số : 7B 753Y - DAI MỤC LỤC Trang LỜI GIỚI T H IỆ U Chương MỘT SÔ NỘI DUNG c BẢN VÉ KHAIPHÁ DỮ L IỆ U 1.1 Khai phá liệu phát tri thức sờ liệ u .9 1.2 Khai phá dử liệu xử lý sờ liệu truyền th ố n g 20 1.3 Một sô lĩnh vực ứng dụng khai phá liệu điển h ìn h 22 1.4 Kiểu liệu khai phá liệ u 24 1.5 Các toán khai phá liệu điển h in h 26 1.6 Tính liên ngành khai phá dử liệu 30 1.7 Khuynh hướng phát triển khai phá dử liệ u .33 Câu hỏi tậ p 38 Chương TỔNG QUAN VÊ KHAI PHÁ W E B 39 2.1 Giới thiệu khai phá T e x t 39 2.2 Giới thiệu khai phá W eb 48 Khai phá dụng W e b 56 2.4 Khai phá cấu trúc W eb 66 Câu hỏi tâ p 68 Chương MOT s ổ KIÊN THỨC TOÁN HỌC CHO KHAI PHÁ DỪ LIỆU W E B 69 3.1 Mơ hình đồ thị 70 3.2 Học máy xác suất B a ye s 79 3.3 Thuật toán V iterbi 88 Câu hỏi tậ p 93 Chương MỘT SỒ VÁN ĐẺ VẾ x LÝ NGỔN NGỮ TIẾNG VIỆT CHO KHAI PHÁ VÁN B Ả N 94 Giới thiệu 94 Kho liệu .96 Quan hệ ngữ nghĩa văn 96 4 Xử lý ngôn ngữ tiếng V iệ t 104 Giới thiẹu mọt số nghiên cứu xừ lý tiéng V iệt .119 Câu hỏi tậ p 120 Chương CÁC PHƯƠ NG PHÁP BIẾU DIỄN VĂN B Ả N 121 5.1 Phân tích văn b ả n 121 5.2 Các mô hình biểu diễn văn b ả n 125 5.3 Các phương pháp lựa chọn cáctừ biẻu diễn văn 129 5.4 Thu gọn đặc trưng biểu d iên 132 5.5 Phương pháp biểu diễn trang W e b 139 Câu hỏi tậ p 142 Chương HỆ THÔNG TÌM K IÊ M 143 6.1 T im kiếm W e b 143 Máy tìm kiế m 146 Cầu trúc hoạt động máy tim k iế m 151 Crawling trang W e b 153 6.5 Phân tích đánh sơ 167 6.6 Tính hạng trang W e b 6.7 Máy tim kiém thực th ề Câu hỏi vã tậ p C hương 173 '8 185 PHÁN CỤM VĂN B Ả N 186 7.1 Giới th iệ u 186 7.2 Thuật toán phân cụm k-means .191 7.3 Thu ậ t toán phân cụm phân cấp từ lê n 197 7.4 Thu ậ t toán phân hoạch từ x u ố n g 201 G án nhãn cho c ụ m 202 Đ ánh giá thuật toán phân cụm "' 204 7.7 M ô hlnh phân cụm kết tim kiém gán nhãn cụm tiếng V iệ t 211 Câu hòi b àĩ tậ p 219 C hư ơng PHÂN LỚ P VĂN B Ả N 220 8.1 Giới th iệ u 220 8.2 M ột số thuật tốn phân lứp có giám s t 223 8.3 Học bán giám sát số thuật toán phân lớp bán giám sát 232 Càu hòi tậ p 241 C hư ơng TR ÍC H CHỌ N TH Ô N G TIN TRỂN W E B 242 9.1 G iới th iệ u 242 9.2 C ác phương pháp trích chọn thơng tin từ vãn W eb phi cảu t r ú c .251 9.3 C ác phương pháp trích chọn thõng tin chủ đè W eb 267 Câu hỏi vá t ậ p 274 C hương 10 W E B N GỮ N G H ĨA 275 10.1 Giới thiệu W eb ngữ nghĩa 275 10.2 Kiến trúc W eb ngữ n g h ĩa 277 10.3 C ác ngôn ngữ tảng cho W eb ngữ n g h ĩa .280 10.4 Tiệm cận tới W eb ngữ n g h ĩa 292 Câu hỏi tậ p 299 TÀI LIỆU TH AM K H Ả O 300 113 tti - - l ô ã> J8 LI GII THIU rM\ đ ã rV ô ớt ô y ir 211 'V J J -JỈ " ■ • r.a-iaiiát 25 * = 24 !( “ í, Ti J « v r* ■- r:r: ỊỊ ĩ 'rĩ- Trong sách tiếng "Data Mining - Concepts and Techniques' hai tác già Jiawei Han Micheline Kamber nhận định rằng, tình tran; "giàu liệu mà nghèo thông tin" động lực phát triền lĩnh vựi khai phá liệu phát tri thức sờ liệu (CSDL) Hoạt độn: nghiên cứu triển khai xây dựng hệ thống tự động nhận mẫu c< giá trị, hữu ích tiềm hiếu khối liệu đồ sộ, nhằn bô sung tài nguyên tri thức cho người cần thiết có ý nghĩ tr o n g q u t r ì n h h ìn h th n h v p h t tr iế n k in h tế tri th ứ c Ngày nay, World Wide Web trở thành kho tài nguyên liệi khống lồ lĩnh vực; kho tài nguyên liệu không ngùn; tăng trường với tốc độ cao K.ho tài nguyên liệu Web tiềm ân nhiều mai thông tin quý giá hoạt động cộng đồng nói chung tirniỉ cá th nói riêng Các hệ thống khai phá liệu Web trờ thành công cụ cho tài ngun Web "kho trời chung vơ tận riêng mình" (Cao Bá Quát thực phát huy hiệu quà tới cộng đồng tới cá thê cộng đông Phù họp với phát triển cùa Web, hoạt động nghiên cứu triền khai V khai phá liệu Web không ngừng tăng trường, Hiệp hội nh khoa học Phát tri thức Khai phá liệu (The Association fo Computing Machinery's Special Interest Group on Knowledge Discover and Data Mining, viết tăt SIGKDD) tập hợp nhiêu nhà khoa học có nhiều nhà khoa học máy tính nơi tiêng thê giới Từ năm 1995 tc nay, hoạt động điển hinh SIGKDD tố chức Hội nghị Khoa họ quốc tế thường niên ACM SIGKDD Conference on Knowledge Discover and Data Mining K_hai phá liệu Web trớ thành nệ dung nhận nhiều quan tâm nhât ACM SIGKDD Conference o Knowledge Discovery and Data Mining hội nghị khoa học quốc t lớn khác Từ năm 2006, "Khai phủ liệu Web" dã mơn học tron Chương trình đào tạo ngành Công nghệ thône tin (CNTT) ngành H thống thông tin (HTTT) Khoa Công nghệ Thông tin, Trường Đại họ Công nghệ (ĐHCN), Đại học Quốc gia Hà Nội (ĐHQGHN) Giáo trìn Khai phá liệu Web tập hợp hoàn thiện từ nội dune bí giáng thời gian vừa qua, nhăm cung cãp tài liệu hoàn chinh phụ vụ hoạt độna giáng dạy học tập môn học Khoa CNTT Trườn ĐHCN bậc đại học sau đại học Các nội dung giáo trinh không đáp ứng yêu cầu đảo tạọ lĩnh vực khoa học cơng nghệ liên quan, mà cịn cung câp sô kiên thức kỹ mờ rộng chuvẻn sâu phục vụ nhu câu nghiên cứu phát triển lĩnh vực khai phá liệu Web không chi Trường ĐHCN mà sở đào tạo nghiên cứu khác nước Giáo trình gồm 10 chương, nội dung sơ sau: Chương - Một số nội dung bàn vể khai phá liệu cun° cấp kiên thức nhât vê lĩnh vực khai phá liệu phát tri thức CSDL, nhăm giúp độc già nắm bắt bàn chất cùa khái niệm khai phá liệu, phân biệt khái niệm với sô khái niệm liên quan số toán bàn xu hướng phát triển khai phá liệu, phát tri thức CSDL Chương — Tổng quan khai phá Web cung cấp kiến thức khai phá Text khai phá Web, nhằm giúp độc giá nắm bắt nội dung bàn khai phá Text khai phá Web Chương trình bày bàn khai phá cấu trúc Web khai phá sử dụng Web Chương - M ột số kiến thức toán học cho khai phá liệu Web nhăm mục tiêu cung cấp số kiến thức tảng toán học cho khai phá liệu Web Lý thuyết đồ thị lý thuyết xác suất thâm nhập sâu rộng vào khai phá liệu Web theo góc độ mơ hình, giải pháp kỹ thuật có nguồn gốc từ chất tụ nhiên xã hội cùa Web Chương M ột số vấn đề xử lý ngôn ngữ tiếng Việt cho khai phá văn ban cung cấp số kiến thức tảng vê xử lý ngơn ngữ tự nhiên nói chung xừ lý tiếng Việt nói riêng, cho phép nâng cao hiệu quà cùa giài pháp khai phá Web tiếng Việt Chương - Các phươ ng p h p biếu diễn văn trình bày tốn khn dạng biêu diễn dừ liệu cho thuật toán khai phá liệu Chm/ng - Hệ thong tìm kiếm, Chương - Phân cụm văn bàn, Chương 8— Phán lớp Web, Chương - Trích chọn thơng tin IVeb trình bày bốn tốn chủ yếu khai phá liệu Web Các khái niệm liên quan, mô hinh biêu diễn, thuật toán, kv thuật phương pháp đánh giá hiệu giới thiệu phân tích Chương 10 - Web ngữ nghĩa trình bày Web ngữ nghĩa, hệ Web gôm khái niệm, kiên trúc, ngơn ngữ q trình tiệm cận tới Web ngữ nghĩa Trong trinh bicn soạn giáo trinh khai thác nguôn tài nguyên phong phú bao gồm nhiều báo khoa học tiện ích san phẩm phần mềm thuộc lĩnh vực khai phá Web Đây thuận lợi lớn nguồn chất liệu biên soạn giáo trình N hóm tác giả xin bày tỏ lời cản ơn chân thành tới TS N guyễn Lê M inh, N ghiên cứu sinh N guyễn Việ Cường công tác V iện Khoa học Công nghệ tiên tiên Nhậ Bản N ghiên cứu sinh Đặng Thanh Hài công tác Đại họ< A ntw erp - Bị việc cộng tác triển khai hoạt động nghiên cứu liêr quan N hóm tác giả đánh giá cao chân thành cám ơn tập thể cán bộ, sin? viên thuộc Phịng Thí nghiệm Cơng nghệ tri thức, Trường ĐHCN cộnị tác nghiên cứu, triển khai đề tải K C 01.02/06-10, NCCB 203904 Q C.07.13, Q C.07.06 G iáo trình m ột sản phẩm Phịng Th nghiệm Công nghệ tri thức, Bộ m ôn HTTT hoàn thành 1( năm truyền thống Trường ĐHCN (tháng 10/2009) Trong môi trường cùa trường đại học định hướng nghiên cứu, tác giả nhậr đirợc tham gia đóng góp tích cực từ đội ngũ người học việc đàrr bảo tính cập nhật nội dung tính hiệu quà cấu trúc giáo trình M ột số nghiên cứu nhóm tác giả trình bày giáo trình \ì kết cộng tác nghiên cứu với c ố Giáo sư Susurm Horiguchi V iện K hoa học & Công nghệ tiên tiến N hật Bản Đại học Tohoku N hóm tác giả gặp số khó khăn biên soạn giáo trình Khc khăn thứ vấn đề lựa chọn thuật ngữ tiếng Việt Đối với lĩnh vực kha phá W eb, việc lựa chọn thuật ngữ tiếng V iệt khó khăn, lĩnl vực nghiên cứu cịn khơng V iệt N am m giới V vậy, m ột số thuật ngữ tiếng Anh có m ột vài phương án trình bà) hiểu ngữ nghĩa Khó khăn thứ hai tính hồn thiện nội dung tronị giáo trình m ột lĩnh vực nghiên cứu với nội dung phong phú Dù nhóm tác già cố gắng thu thập, nghiên cứu tổng hợp, song giác trình khó tránh khịi khiếm khuyết Chúng m ong nhận kiến đóng góp từ nhà khoa học, giảng viên người học để giát trình ngày thêm hồn thiện M ọi ý kiến đóng góp xin gửi về: C ông ty CP Sách Đ ại học - D ạy nghề N XB Giáo dục Việt Nam, 25 Hàn Thuyên - Hà Nội H Nội, tháng năm 2009 CÁC TÁC GIẢ ... 22 3 8.3 Học bán giám sát số thuật toán phân lớp bán giám sát 23 2 Càu hòi tậ p 24 1 C hư ơng TR ÍC H CHỌ N TH Ơ N G TIN TRỂN W E B 24 2 9.1 G iới th iệ u 24 2 9 .2. .. "' 20 4 7.7 M ô hlnh phân cụm kết tim kiém gán nhãn cụm tiếng V iệ t 21 1 Câu hòi b àĩ tậ p 21 9 C hư ơng PHÂN LỚ P VĂN B Ả N 22 0 8.1 Giới th iệ u 22 0 8 .2 M... .25 1 9.3 C ác phương pháp trích chọn thõng tin chủ đè W eb 26 7 Câu hỏi vá t ậ p 27 4 C hương 10 W E B N GỮ N G H ĨA 27 5 10.1 Giới thiệu W eb ngữ nghĩa 27 5 10 .2 Kiến