1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Giáo trình khai phá dữ liệu web

65 77 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 65
Dung lượng 21,62 MB

Nội dung

H À Q U A N G T H Ụ Y (C hủ biên) PH A N X U Â N H IÉ U - Đ O À N S Ơ N - N G U Y Ê N TR I TH À N H N G U Y Ê N TH U T R A N G - N G U Y Ê N C Á M TÚ Giáo trình KHAI PHÁ DỮ LIỆU WEB ■ NHÀ xu A t Bả n g iá o d ụ c v iệ t n a m Công ty cổ phấn sảch Đại học - Dạy nghề - Nhà xuất Giáo dục Việt Mam giữ quyền công bố tác phẩm 375 - 20 /C X B /8 - 726/GD M ã số : 7B 753Y - D A I MỤC LỤC • ■ Trang LỊ'I G IỚ I T H IỆ U C h o n g M Ộ T s ô N O l D U N G c BÁ N V É KH AI P H Á D Ử L IỆ U 1 Khai phá d ữ liệu p h t tri th ứ c c s d ữ liệ u Khai p há d liệu x lý c s d ữ liệu truyền th ố n g 20 M ột sỗ lĩn h v ự c n g d ụ n g khai phá d ữ liệu đién h in h 22 Kiéu d ữ liệu tro n g k h a i phá d ữ liệ u 24 1.5 C â c toán khai phá d ữ liệu đ iẻ n h in h 26 1.6 T in h liên ngânh c ủ a k h a i phá d ữ liệ u 30 1.7 K huynh h n g p h t triể n củ a k h a i p há d ữ liệ u 33 C âu hói v tậ p 38 C hương T Ổ N G Q U A N VÊ KH AI P H Á W E B 39 G iớ i th iệ u v ề khai p h T e x t 39 2 G iớ i th iệ u v ẻ khai p h W e b 48 Khai p há sử dụng W e b 56 Khai p há cá u trú c W e b .66 C âu hỏi tậ p 68 C hương M Ộ T s ô KIÈN T H Ứ C TO Á N HỌC C H O KHAI PHẢ D Ữ LIỆU W E B .69 3.1 M hình đ t h ị 70 3.2 H ọ c m áy xác su ấ t B a y e s 79 3.3 T h u ậ t to n V ite rb i .88 C àu hỏi tậ p 93 C hương M Ọ T s v a n đ ê v ê x l ý n g n ng ữ TIÉ N G v i ệ t c h o KH AI PH Á V Ả N B Ả N 94 4.1 G iớ i th iệ u 94 4.2 K ho d ữ liệ u 96 4.3 Q u a n hệ n g ữ n g h ĩa tro n g vă n b ả n 96 4 X lý ngốn n g ữ tiế n g V iệ t 104 G iớ i thiệu m ộ t s ố n g h iê n c ứ u x lý tiếng V iệ t 119 C àu hỏi t ậ p 120 C h n g C ÁC P H Ư Ơ N G P H Á P B IẾ U D IÊ N V Ä N BẢN 121 5.1 P hân tích vă n b ả n 121 5.2 C c m hình b iể u d iễ n vă n b ả n 125 5.3 C c p h n g p h p lự a chọn c c từ tro n g biêu diễn văn b ả n .129 5.4 T h u gọn đặ c trư n g b iể u d iễ n 132 5.5 P h n g p h p b iể u d iễ n tra n g W e b 139 C ảu hỏi bái t â p 142 C h n g H Ẹ T H Ồ N G T ÍM K IÊ M 143 T im kiếm W e b 143 6.2 M áy tim k iế m 146 6.3 C ấ u trúc vá hoạt đ ọ n g củ a m ộ t m y tim k iế m 151 6.4 C raw lin g trang W e b 153 6.5 P hân tic h đ n h c h ỉ s ổ 167 6 Tính hang tra n g W eb M áy tim kiếm th ự c thẻ C âu hỏi tâp .173 185 Chương P H Â N C Ụ M V Ã N B Ả N .186 7.1 G iớ i thiệu 186 T h u ậ t to n phân cum k-m eans 191 7.3 T h u ậ t to n phân cụm phân c ẳ p từ d i lên 197 7.4 T h u ậ t to n phản hoạch từ xuống 201 7.5 G án nhản c h o c ụ m 202 7.6 Đ án h giá th u ậ t toán phân c ụ m 204 7.7 M ô hình phân cụm kết tim kiém vâ gán nhãn c ụ m tiếng V i ệ t 211 C âu hỏi tâp 219 C hương P H Á N L Ớ P V Ắ N BẢN 2 8.1 G iớ i th iệ u .220 8.2 M ột s ố th u ậ t tốn phân lở p c ó giâm s t 223 8.3 H ọc bán giám sát m ột sồ thuật toán phân lớ p bán giám sát 232 C âu hỏi tậ p 241 C h n g TR ÍC H C H Ọ N T H Ô N G TIN TR ỂN W E B 242 G iớ i th iệ u 242 C c p h n g pháp trich chọn thõng t n từ văn W eb phi cá u trú c 251 C ả c p h n g pháp trich chọn thông t n ch ú đề trẽn W e b 267 C âu hỏi bái t ậ p 274 C h n g 10 W E B N G Ũ ’ N G H ĨA 275 10 G iớ i th iệ u W e b ngữ ng hĩa 275 10 Kiến trú c cù a W e b ngữ ng hĩa 277 10 C c ngôn n g ữ nèn táng ch o W e b ngữ n g h ĩa 280 10 Tiệm cậ n tó'i VVeb ngữ ng hĩa 292 C âu hói t â p 299 TẢI LIEU T H A M KH ẢO 300 LỜI GIỚI THIẸU 1ro ne sách nồi ticnu ''Data M ining - Concepts am i Techniques" hai tác gia Jiawei Han M icheline Kam bcr nhận định răng, tình trạnu "í>iủii vẻ liệu mi) Mịhèo vẻ thõng tin" m ột dộng lực phát trien lĩnh vực khai phá dừ liệu phái tri thức sứ liệu (C S l)l-) I loạt động nghiên cửu vá trien khai xây dựng hệ thống tự dộng nhận mầu có ui trị m ới hữu ích tiềm nanti liiẽu dược khối dừ liệu dồ sộ, nham bô sunu tài rmuyén tri thức cho người hốt sức cẩn thiỏt có ý nghĩa troI1 U trinh hình thành phát triên kinh le tri thức Ngày W orld Wide Web dà trở thành kho tài nguyên liệu khống lồ lình vực; kho tài nguyên dừ liệu dang không ngừng tăng trườn li vói lốc dộ cao Kho tài nguyên liệu Web tiềm ân nhiều mầu thòim tin quỷ liiá đổi với hoại dộng cua cộng dồng nói chung cá thê nói riêng, ('ác hệ thống khai phá dừ liệu Web dà trở thành công cụ làm cho lài nguyên Web "kho trời cluing vô lận cua riêng m ình" (Cao Bá Quát) llụrc phát huy hiệu qua lớ i cộng đồng lớ i cá thê cộng dồng Phù hợp với phát trien Web hoạt dộng nghicn cứu trien khai vè khai phá dừ liệu Web không ngừng dược tăng trướng Hiệp hội nhà khoa học vẻ Phát tri thức Khai phá dừ liệu ( The Association for C om puting Machinery's Special Interest G roup on Knowledge Discovery and Dala M in in g , viết tal S IG K D D ) tập hợp dược nhiều nhà khoa học, dó cỏ nhiều nhà khoa học máy tính nối tiếng giới Từ năm 1995 tới nay, hoạt động diên hình nhât S IG K D D tô chức Hội nghị Khoa học quốc tẻ ihirừng niên ACM SK ìK D D Conference on Knowledge Discovery and Dala Mining Khai phá dừ liệu Web dà trư thành nội dung nhận dược nhiều quan tâm A C M SIGKDD Conference on Knowledge Discovery and Data Mining hội nghị khoa học quôc tê lớn khác Từ năm 2006, "Khai phá d ữ liệu IVeb" dã môn học Chương trinh tạo nuành Công nghệ thông tin (C N T T ) ngành Hệ thong thông tin (H T T T ) Khoa Còng nghệ Thơng tin Trường Dại học Cơng nghệ (1)11CN), Đại học Quốc gia Hà N ội (Đ HQ G I1N) Giáo trình Khai phá liệu Web dược tập hợp hoán thiện lừ nội dung giáng thời gian vừa qua nham cung cấp tài liệu hoàn chinh phục vụ hoạt độ nu giảng dạy học tập môn học Khoa C N T T Trường Đ H C N cà bậc đại học sau dại học Các nội dung giáo trình khơng chi đáp ứng yêu cầu đào tạo lĩnh vực khoa học cơng nghẹ liên quan, mà cung cấp số kiến thức kỹ m rộng chuyên sâu phục vụ nhu cầu nghiên cứu phát triển lĩnh vực khai phá dừ liệu Web không chi Trường Đ H C N mà sở tạo nghicn cứu khác nước Giáo trình gồm 10 chương, nội dung sơ sau: Chương I - Một số nội dung ban khai phủ liệu cung cấp kiến thức lĩnh vực khai phá dừ liệu phái tri thức C SDL, nhằm giúp độc giả nắm bắt dược bán chất khái niệm băn khai phá liệu, phàn biệt khái niệm với sô khái niệm liên quan số toán bàn nhât xu hướng phát triên cùa khai phá liệu, phát tri thức CSDL Chương - Tỏng quan khai phá Web cung cấp kiến tliirc bán khai phá Text khai phá Web, nhăm giúp độc giá năm băt dược nội dung bàn khai phá Texl khai phá Web Chương trình bày bàn khai phá cấu trúc Web khai phá sử dụng Web Chương - Một số kiến thức toán học chu khui p hủ dừ liệu Web nhăm mục ticu cung cấp số kiến thức tàng toán học cho khai phá liệu Web Lý thuyết đồ thị lý thuyết xác suâi thâm nhập sâu rộng vào khai phá liệu Web theo góc độ mơ hình, giải pháp kỹ thuật có nguồn gốc lừ bàn chất tự nhiên xã hội cùa Web Chương Mộ! số vần đề vè x ứ lý ngôn ngữ tiéng Việt chu khai phú vãn ban cung cấp mộì số kiến thức tảng vê xừ lý ngơn ngừ tụ nhiên nói chung xừ lý tiếng V iệt nói riêng, cho phcp nâng cao hiệu cùa giải pháp khai phá Web tiếng Việt Chương - Các phương pháp biêu ciiẽn văn bán trình bày lốn khn dạng biểu diễn liệu cho thuật toán khai phá liệu Chương - Hệ thống lìm kiếm, Chương - Phán cụm văn ban c 'hinmg Phârt ỉờp Web, Chương - Trích chọn thơng tin trẽn Web trinh bày vê bơn tốn chũ yếu cùa khai phá dir liệu Web Các khái niệm liên quan, mò hinh biểu diễn, thuật toán, kv thuật phương pháp dánh giá hiệu quà dưực giới thiệu phân tích Chương 10 - Web ngữ nghía trình bày Web ngữ nghĩa, thố hệ cùa Web gồm khái niệm, kiến trúc, ngơn ngừ q trình tiệm cận tới Weh ngữ nghĩa Trong trình biên soạn giáo trinh này, chúng tòi dược khai thác nguồn tài nguyên phong phũ hao gồm nhiều báo khoa học, tiện ích sàn phẩm phần mềm thuộc lĩnh vực khai phá Web Dây thuận lợi khác thu nhận mẫu, C SDL, thống kê, trí tuệ nhân tạo, thu nhận tri thức hộ chuyên gia hướng tớ i mục tiêu thống nhất, trích lọc "trị thức" từ liệu C SD L khơng lồ Tính phong phú da dạng cua lĩnh vực khai phá liệu dần'đến thực trạng tôn quan niệm khác vê chuyên ngành khoa học - công nghệ gân gũi với lĩnh vực Giáo Irình tán thành quan niệm J Man M Kamber, coi lĩnh vực khai phá liệu giai đoạn phát triền công nghệ C S D L có liên quan mật thiết với nhiều liên ngành Như vậy, có thê gan lĩnh vực với chuyên ngành hộ thống thơng tin Vi dụ ì.l (Fraw ley, Piatctski-Shapiro Matheus [FPS96]) Hình 1.2 trinh bày Nợ tập dừ liệu già định vay nợ ngân hàng, gồm 23 trườns hựp dược biêu diễn không gian hai chiều M ỗi điêm trcn đồ th ị bicu diễn trường hợp vay nợ ngàn hàng khứ Trục hoành biêu diễn thu nhập, trục tung bicu diễn tông nợ cá nhân người di vay Thu nhập (tiền chấp, tiền chi trà ô Hinh 1.2 Tập dử liệu cò hai lớp X o tơ, ) Dừ liệu phân thành hai lóp: lóp X gom người thiếu khả trả nợ ngân hàng, lớp o gồm người có tình trạng tốt K h i niệm 1.1 [FPS96] Phút tri thức sớ d ữ liệu (đơi gọi khai phủ d ữ liệu) q trình khơng tam thường nhận mầu có giá trị, m ới , hữu ích tiềm hiểu d liệu Là lĩnh vực nghicn cứu triển khai dược phái triển nhanh chóng, có phạm vi rộng lớn, lại đirợc nhiều nhóm nghiên cứu nhiều trường đại học, viện nghiên cứu, công ty nhiều quốc gia giới quan tâm , lỏn lại nhiều cách tiếp cận khác lĩnh vực phát tri ihírc C SD L Chính lý dó, nhiều tài liệu, nói trên, nhà khoa học dã dùng nhiều thuật ngừ khác nhau, mà thuật ngữ dược coi mang nghĩa với K D D chiết lọc tri thức (knowledge extraction), phát thông tin (inform ation discovery), thu hoạch thòng tin (information harvesting), khai thác dừ liệu (data archaeology), 11 xử lý mẫu liệu (data pauern proccssirm) Ilơ n nhiêu Inrừng hợp hai khái niệm "Phái tri thức sờ d ữ liệu" "khai phá dừ liệu" dược dùng thay the |1-’PS96| Hai khái niệm khai phủ liệu phủi tri thức CSDL ihường cặp dôi với J I lan M Kamber quan niệm ràng, cụm từ tiếng Anh "Data Mining" chưa diễn tá dây dù toàn diện V nghĩa lình vực nghiên cứu - iriên khai mà mang tên M ột cách tươniỉ ừng tiếng Việt, cụm từ "khui phá dừ liệu" nhiều nhà khoa học Việt Nợ Khơng cho vay Nam băn khoăn cho ràng, cụm từ chưa bao hàm dược hết nội dune naữ nuhĩa cân dicn ta Tuv nhiên, tươnii ứng X với cụm lừ liếng Anh "Data M ining" (mang nội dung dược J Han M Kamber xác dịnh), Cho vay giáo trình chúng tơi chọn thuật ngữ tiêng V iệt T Thu nháp "khai pha í/ừ liệu" vỉ thuật ngữ tiếng V iệt dã Hinh 1.3 Ngưỡng đơn T theo thu nhập đé phân lớp trờ thành phô biến cho vay (Lưu ý, đường nghiêng rời nèt cho định tốt hơn) tài liệu tiếng V iệt licn quan Một số thuật ngữ có khái niệm 1.1 cân dược giái thích "dừ liệu, "m ẫu", "có giá trị", "m i", "hữu ích", "hiểu dược", Dưới trình bày số giải thích sơ vê khái niệm, nhăm làm urờng minh thêm ngừ nghĩa cùa khái niệm R D D khai niệm 1.1 • Dữ liệu (chính x c hon lập d ữ liệu) hiểu tập F gồm hữu hạn trướng hợp (sự kiện) Theo nội dung phát Iri tlúrc Irong C SDL liệu phai bao gồm nhiều trường hợp Trong ví dụ 1.1 F tập hợp gồm 23 trường hợp (hàn g h i) với trircVng thông tin (thuộc lính) tương ứng chứa giá trị so nợ, thu nhập lình trạng vay nợ I rong toán khai phá văn bán tập dừ liệu F tập hợp văn có thơ có miền ứng dụng T ron” tốn khai phá luật kct hợp giao dịch, tập 1- bao gồm tất cà giao dịch có thê cỏ dược miên áp dụng cua tốn 12 • Milli Ironiz trinh K D D người ta sứ dụng ngôn ngừ L dê biêu dien tập kiện (dữ liệu) thuộc vào tập kiện 1', theo dó bici thức I- ntiơn ngữ sè biêu diễn tập F) tương ứng kiện Hong H dược gọi mầu đơn gián hưn (theo ngữ cảnh dỏ) so với việc liệt kê kiện thuộc 1;|/ Chăng hạn biêu thức "TH U N 1IÁP < $1" (m ò hình chứa biến T IIU N I1 Á P ) mệnh dề "N ế TI IIJ N IỈẠP < $t thi người vay nợ rơi vào tình trạng khơng thẻ chi trà" la mầu cho biến t nhận giá trị thích hợp Như trinh bày ■dồ thị Hình 1.3 biến t nhận giá trị cụ the T mẫu (biểu diễn trường họp có T H Ư N H Ặ P < T ) hiển nhiên gọn so với việc liệt kè 14 irường họp cụ the Tương tự F tập trang Web Irong kho lưu trữ cua máy lim kiếm (chána hạn Gooule) mầu "tài liệu có chứa từ cụm tir "Search Engine" bicu diễn m ột tập bao gồm số lưựng lớn tài liệu Web có chira cụm từ "Search Engine" • Quá trình K D D thường bao gồm nhiều bước nhu clnuìn bị d liệu, lìm kiếỉiì mơn ước lượng tri thức, tinh chế tương lác nội lại sau chuyên dạnti liệu Quá trình thừa nhận không tầm Ihường theo nghĩa trình dỏ khơng chi nhiều bước, mà dược thực lặp, quan trọng q trình bao hàm mức độ tìm kicm lự dộng Chẳng hạn, Ví í/ụ I I, tính tốn ý nghĩa thu nhập cùa người, chi thòng qua tác động đơn giàn mà chúng la thu nhận két luận dó hữu ích đừng vội cho rang, khám phá (hoặc dừng cho m ột tri thức phát hiện) • Có ÍỊÌÚ trị: Mầu dược phát cần phái có giá trị dối với liệu m ới (xuất tương lai) theo mức độ chân thực Tính chất "cỏ giá trị" hiểu theo nghĩa liên quan tớ i ¿¡ộ ch tính có giá trị (chân thực) hàm c ánh xạ biếu thức thuộc ngôn ngữ biểu diễn mầu L tởi không gian (bộ phận toàn bộ) M f M ột biêu thức K irong I biểu diễn tập Fp c F có the dược gán dộ chân thực c = C(F., F) Chẳng hạn, dường biên xác định mẫu "T H Ư N H Ậ P < $t" chi dẫn Hình 1.3 dịch sang phải (biến T H U N H Ậ P nhận giá trị lớn hon) độ chân thực mẫu m ới bị giảm xuống, bới v i bao gói them linh vay tốt lại bị đưa vào vùng không cho vay nợ Tương tự, mẫu "Nếu a*T H Ư N H Ậ P + b *N Ợ < (thuộc mơ hình tuyến lính hai biến T H U N H Ậ P NỢ a *T H Ụ N H Ậ P + P*N Ợ ) người vay nợ rơi vào tình trạng khơng thê chi trà" biếu dien nừa mặt phăng phía cua dường rời nét H ình 1.3 cho dộ chân thực cao (hay dược coi "có giá trị hưn") so v i m ọi mầu thuộc mơ hình biến "T H U N H Ậ P < $t" 13 Có hai xu hướng khai phá sư dụniỉ W eb phân rich CÚI• mail truy cập (General Access Pattern Tracking) p h n licli X I I hướng cá nhân (Customi/.ied Usage tracking) - Phân tích mail truy cập: Phân lích hồ SO' Web dô biết dược mẫu xu hướng Iruy cập Các phân tích cỏ thê giúp câu trúc lại site phân nhóm hiệu quà hơn, hay xác dịnh vị Irí quang cáo hiệu quà nhất, gắn quãng cáo sán phàm nhát định cho người dùng định dế đạt hiệu cao nhai, - Phân lích X I I hướng cá nhân: M ục đích dế chuyên biệt ho Web site cho lớp dối tượng người dùng Các thông tin hiên thị độ sâu cùa cấu trúc site định dạng cùa tài nguycn tal cá dều có thò chun biệt hố cách tự độnu cho m ỗi người dùng theo thời gian dựa mẫu truy cập cùa họ Việc phân loại khai phá Web (nội dung, liên kết sứ dụnti) mò ta Hình 2.5 mang tinh tương dối Trong thực tiễn, ứng dụng khai phá Web tích hợp lừ m ột vài loại khai phá Web nói trẽn 2.2.4 S toán khai phá Web M ọi loán khai phá Web cần bao hàm tính đặc ihù cùa Web Có thổ phân chia toán khai phá Web thành hai loại là: Các bùi toán chung khai phá (lữ liệu Text với việc bổ su n g yểu tố miền ứng dụng liệu Web • Các tốn Phân lóp, Phàn cụm Phân đoạn khai phá Web tương tự toán tương ứng khai phá T ext, song cỏ bô sung đặc thù Web nội dung trang Web lại có siêu liên kết hướng tới trang Web khác Trong nhiều trường hợp bái tốn CỊ11 làm phù họp với môi trường online cùa Internet; hạn như, toán phàn cụm, phân lớp dối với m ộl tập trang Web lã kết ira vê lừ máy tim kiếm Các hài toán Phái ràng buộc (Associating) Phái luật kết hợp (Association Rule) liên quan tới khône chi yếu tố nội dung văn bàn mà liên quan lớ i yêu tò đặc thù W eb; hạn, ràng buộc cùa (rang Web, ràng buộc người sử dụng với Iran ti Web mà họ thường quan tâm phiên làm việc, ràng buộc nhóm người sử dụng với tập trang Web mà m ọi thành vicn Irong nhóm quan tâm • Các tốn kluii phá (lữ liệu m ang tính đặc thù Web Bài tốn Dự báo (Predicting) khai thác yếu tố th i gian liên quan tớ i thời điểm xuất trang Web đê có the dự báo xu vơ dặc trưng nhu nội dung, cấu trúc hình thức trình bày cùa trang Web Xliât 54 trcng thãi gian tới Khai phá xâu sư dụng Web phiên làm việc cĩn.g la m ội hài loàn nhận dirợc quan tâm cua nhiêu nhà khoa học Các toán D ự báo nhu cầu (Response prediction) Dánh giá khách hár.u khai thác Web (Custom er valuation) liên quan dến đối tượng sư dụng CSDI irang Web M ột số tốn diên hình cua khai phá liệu Web (tim kiếm, phân cụm phân lớp trích chọn thơng tin ) dược giới thiệu chương 2.2.5 K huyn h h n g khai phá Web Khuynh hướnii khai phá Web có xuất phát diốtn tứ q trình phát tricn cua lĩnh vực dó có nguycn nhân từ việc ứng dụng rộng rãi hiệu qua cua lĩnh vực khai phá Web thực tiễn kinh lé - xã hội Quan hệ hữu mật thiêt cua nghicn cứu khoa học tricn khai ứng dụng, việc chuyện hố nhanh chóng hiệu q từ kêt q nghiên cứu lý thuỵêi với nên tang loàn học tốt thành việc dời phát triên thành công nhiêu ứng dụng cùa khai phá dừ liệu Web xu phát triên cùa khai phá Web Theo Sergev Ananvan ỊAnaOl] kích cỡ thị trường cùa khai phá liệu \án bàn tăng trương theo don vị iriệu người tiến hành hoạt dộng dó Dơng thời, háng tý người dùng Internet thụ hướng tiện ích khai phá dừ liệu văn bán làm việc với hệ thống tìm kiếm ứng dụng phong phú khác Nhiều sán phẩm dicn hình khai phá liệu văn bán hạn sán phẩm T e xtA n a lvst* TextracterIM, W ebAnalvst PolyAnalyst, cùa Công ty Megaputer Intel liuence, In c " ’ [Kis95 AnaO l) WebFountain cùa IB M chiêm dược thị phân khơng nhỏ dược tích hợp vào nhiêu írng dụnu cua doanh nghiệp phát triên phân Thành công k ỳ diệu cùa hệ thống máy lìm kiém (search engine) (dien máy tìm kiểm Google) khăng định tính càn thict cua nghiC‘11 cứu khai phá dừ liệu vãn bàn Hệ thống tim kiếm Google hai nghiên cứu sinh Stanford U niversity Sergey B rin Lawrence Page sáng lập vào năm 1998 |B1>()8| Dcn năm 2006, hộ ihống dã đánh giá có giá trị lên tớ i hàng chục tý dô la M ỹ Hiện nay, thị trường cung câp dịch vụ ihôna qua máy tìm kiếm trở thành thị trươnu rât lớn, mà tlico dự háo dạt lớ i hàng irãm tỷ đô la M ỹ vào năm 2010‘2' v i dã thu hút quan tâm cua nhiều công ty C N T T hàng đâu trcn thê giới Mcgaputer Intelligence Inc ( http://www.mcgaputer.com) , '1 http://www.keynote.com/ncws events/releases 2006/06janI8.html: Google Poses Strong challenge to Leader ISaiiJu in C'hina Reports Keynote 111 http://searchenginewatch.com/scarchday/anicle.php/3575926: The State o f Search Engine Alarketing 55 vấ n dè bán dịa hoá Internet son ti hãnh với khai pha ilĩr liệu vàn Web Bản tiịa hoá lniernci liên quan tỏi nhiêu lình vực nghiên cứu dỏ liên quan mật thiêl Iihàl tói lình vực xir a Iiiiõn i i Ị i ữ lự nhiên, an 10(111 vù mà hố thơng tin (information securih and crypiouraphy)': Trong |Cha03|, Soumen Chakrabarti uiới thiệu xu lurứniỉ phát iriòn cua khai phá Wob tương lai liên quan tới trích chọn thơnu lin: vàn dề cua xứ lý ngôn ngữ tự nhiên (M ạng từ vụng O ntologv; Từ phân cloạn; Phân tích cú pháp trình diễn tri thức); hộ ihốnụ hói - dáp vàn dề mơ tã, cá thồ liố kết hợp nhóm 2.3 Khai phá s dụng Web Khai phá sir dụ nu Web tronii ba loại hình chinh cua khai phá Web Quá trinh khai phá sư dụng Web dược mỏ ta I lình 2.6 |C’oo00| Các vấn đề ban can quan lâm trone khai phá sư dụnii Web la nuuồn tái nuuyên dir liệu vá mô hinh liệu, liên xư lý liệu, phát mầu \a phán lích mầu [Pia06 CooOOỊ CoPteri ana ✓ S t f i c l j r e D a ta L j£m m P re p ro c e s s in g V P a tte rn D is c o v e ry P a tĩe rn A n a ly s is u R aw U sage “ r e p 'c c e s s e d D a ta C’ickstroan D a ta F?vi!es P a tte rn s ana 3l3t St cs "ln * e 'e s tin g ’ Pue$ Paner'45 a r đ S t a t is t ic s Hinh 2.6 Q u tr in h k h a i p h s ứ d ụ n g W e b [C o o O O ] Robert W alker Cooley [CooOO] giới Ihiệu nội dunu cụ thuộc van dề can quan lâm trẽn là: - Nguồn tlữ liệu : có lo tilìlc (tại má) phục vụ máy khách máy trung gian) cỏ CSDI khách hà nu I he OpcnNcl Initiative (http: w w w opcnncliniiialivc.nct ) Mơ hình (ilute ¡lié) (lừ liệu : naười sư dụng, khunụ nhìn trang Web lile li mu Web trình duyệt, phục vụ Web phục vụ nội dunu phiên nmrứi sư dụm; phiên phục vụ l i e n XII l ị í/ữ riu tỉọn dặc tn rn ii liệu : lie’ll liệu câu trúc, liệu nội tluim xứ lý văn bán xư lý liệu dôi với mơ hình dừ liệu Phủi mâu: tốn phát mail dãy bao uôm hàu hot toan khai phá liệu điên hình phàn tích thốrm kê phát luặl kết hợp, phân cụm phàn lớp mẫu mò hình phụ thuộc Vấn dồ mang dặc thù cùa khai phá sử dụng Web vấn dề lại den mang nội dung chuna cua trinh phát tri thức Nguồn tài ngm ên dừ liệu bao gồm flic bien bán sir duna Web máv chủ Web má\ khách v ị tri trung gian (khai phá mẫu Iruy cập) va C SD L niurời dùnu Như dã dược giứi thiệu, khai phá sứ dụng Web dược phân llìánh khai phá mầu truy cập khai phá xu hướng cá nhân (hoặc cá nhân hoa việc sư dụnii Web) Nhiều ứng dụna khai phá Web dã tích hợp hai loại khai phá sử dụnu W eb 2.3.1 Phân tích mẫu tru y nhập Web Kháo với tốn phân lích xu hirớnu cá nhân Irong khai phá sư dụ 1111 \ \ ch sò ninh bà> mục quan tâm tớ i cá nhân người dùng nhóm nụưòi dùng; tốn phân lích mẫu truy cập Web quan lâm den khai phá nhừim mầu có tinh phơ dụnu cua tập nmrời dùng truy nhập Web có the coi tập người dùng đối tượng phục vụ tốn phân tích mẫu truy nhập Web Thơim tin truy nhập người dùng dược Web server ghi nhận lại iron tỉ Web server log theo mau loa chung (Common Log Formal: C l.I; ), mẫu log chung m rộng (K xtended CLP: E C U ') Thông tin dược lưu ui ù liôn quan đến phiên truy nhập người dùng, thường bao gồm thòng tin địa chi IP cúa máy người dùnii (cho biết lèn máy người clùuu) thời dicm bất dầu truy nhập, nhu cầu người dùng (phương thức, dịa chi W eb giao thức), mã trạng thái dáp ứng ycu cầu (bình thường, truy nhập khơng hốn chinh, khơng tìm thấy ), kích thước liệu truy nhập, chi dein V C dịa chi U R l di lớ i yêu câu công C Ị I truv nhập Web cùa người dùng I lình 2.7 trình bày m ột sơ bán nhi E C U - sô trường liệu loii Theo lurÓTiLỉ tièp cận hộ thống khai phá sử dụng Web khơng đòi hỏi tlìơim tin nmrài dime Như trình bày trên, don vị liệu xác dịnh mội lần sử dụ l i l i Web phiên làm việc người dùng, liệu vê phiên làm \ i ộc dà dược ghi irong lo g lìle cùa hệ thống 57 IP Address Usend Time N(ethod/ƯRU Protocol S« lusSize Refer er 123456 73.9 - [2 wApr/1998 33 04 41 -D500] "0 :T A hlml HTTP/1.0' 2DO 3200 • 123456 78 - [2 /Apr/199S0305:34 -G500] 'G : T B hừnl HTTP/1.0* 200 2D50 fitml UoziKi'j 123.456 73 • • Ỉ2 Ap Y ) > minsup conf(X —> Y ) > minconl' với minsup m inconl' liai ngưỡng cho trước Tập mục X có độhồ trự qua niurững minsup (supp(X) > minsup) dược gọi lập phô biến M ục tiêu cua khai phá luật kếl họp tìm tấl cá luật kết hợp có giá trị IX’ giai tốn trên, trước hết cần lìm tập biến, mơi lập phơ bien dóng vai trò cua tập X Y luật kết hợp X —> Y • Thuật tốn Apriori Thuật tốn A p rio ri m ột thuật tốn đicn hình tìm luật kct họp |W K Ọ | Thuậl tốn dựa theo tính chất A p rio ri phátbiêu rang: "tập cùa tập phổ biến tập phô bien", tinh chất hiên nhiên dùng N ội dung quan trọng ihuật tốn A p rio ri tìm dược tất ca lập phố hiến có thề có D Thuật toán hoạt động theo quy tắc quy hoạch dộng, nghĩa từ tập F, = }Cj I c, tập phô biến, |c,| = i} gồm tập mục phố biến có dộ dài i với < i < k di tìm tập l'k -1 gồm tập mục phố biến có dộ dài k + Trong thuật toán, tên mục ¡1 , ¡2 , in (n D|) dược sáp xếp theo thứ tự cố định (thường dược (lánh chi số n) M lã thuật lốn A p rio ri sau: T h u ật toán Apriori [WKQ08]: In p u t: C s d ữ liệu g ia o dich D = {t 11 g ia o d ịc h } - Đ ô hỗ trơ tồ i thiẻu m insu p > O u u t - T ậ p h ợ p tấ t tập phố biến 61 0: m inco u n t = m insu p * |D|; F, = {các tập phố biến có đ ộ dài 1} fo r (k= 1 Fk * ; k+ + ) d o begin C k + = a p rio ri-g e n (FK);II s in h m o i ứ n g viê n đ ỏ dái k+1 f o r t D begin Ct = {c € C r i I c £ t}; //m ọ i ứ n g viê n ch ứ a tro n g t fo r c e C , c co u nt ++; end Fkt1 = {c e c k4i I c.c o u n t > 10 11 m in c o u n t} ; end A nsw er Fk ; Thủ tục Apriori-gen có nhiệm vụ sinh tập mục ứng vicn có độ dài k + tù Fk (các tập phơ biến có độ dài k) thi hành qua hai bước nhu sau: - Bước nối: Sinh tập mục Rk-I ứng viên lập phổ biến có độ dài k + cách kết họp hai tập phơ biến Pj, Qk có độ dài k vả trùng k - mục đầu tiên: Rk+I = Pk u Qk = { il, Ì2 v , ik-1 , ik ik } với pk = { i|, ¡2 ,-, ik-1, ik} vàQ k = {¡I, Ì2 ,- , ik-1, ik'} dó i| < i2 < < ik-1 < ik ^ ik'- Bước tia : G iữ lại tấl cà Rk+1 ihoà măn tính chất A p rio ri (V X ÇZ Rk+| |X| = k => X e Fk), nghĩa loại (tia) bớt di img vicn Rk+1 không đáp ứng tính chất Trong m ỗi bước k, thuật toán A p rio ri phải duyệt C S D L D K hởi động, duyệt D để có F| Các bước k sau dó, duyệt D dế tính số lượng giao dịch t thồ mãn ứng viên c cùa Cfc I (m ồi giao dịch chi xem xél lằn cho ứng viên c) Kêt thuật toán A p rio ri tập F = F| u I: u u I \ , dỏ k số xác định qua vòng lặp từ đến 10 cùa thuật tốn Sau dó, V c e F cho c dóng vai trò nlnr X u Y cùa luật kết hợp (X -> Y ) thực việc tách c thành hai tập mục rời X Y (c = X H Y ) tính độ tin cậy conf(X —>Y) = supp(c)/supp(X) = c c o u n t/x count Ví dụ: Trong [IV | Renáta Iváncsy István V a jk sừ dụng thuật tốn biến ihê từ A p rio ri dò phát luật kết họp luật tuần lự từ dir liệu log lì lo (H ình 2.10) 62 o p m io n L i n £ Iw d nsW i 'ni5S & 4p o r t * Op, r t O « & SPOilS m is c L b u s in e s s £ I r a t r l & ts c h i m «>c 81 b i ' s n i j s m i s c L b u s in e s s £ b b i ( cJ> fy Ir o i'B & s p o r t s i b b ti lo ^ a i & r n i« c £ b u « i r * s e I s p o d s 59% o n -a r 51% -=» n n / í news -> ncritpâge 43% rwvs IS% Trompage -* frontpage -> D icln e ss 35% t o n if a g e E % on - ¿air E6&5T neMvs -5* sfiorls 33% E % nerv«v5 23% ie % new s bbs t a n lp a g o EE % -> VO rt|f)A Q e E6?2* •*> fr o n a g e BB ? % -> K tn a g i 06 * tu n a g e EE IE % -> n -iir eG c e % -> » o n if a g e E £.C B % fr o n a g e f f i 99% V o n lp a g e 85 79% nans E6 70% -> % o n ip * g e e G K *% -> o n -a r f f i &£% -> tx > n * g < fâ % -> » o n lp a g e 57% -*> new » 85 m m rsc -* new/s -> V o n lp d Q e EE % t a n lp a g o f f i 32% nev\^ Iving on -ã r mtsc -> n u * * i L o p in o n £ b u t m o ^ t £ b b s r t f w r s S iiiiis c Ir»i>q & S fo it& -> fr o n a g e % na«A; £ o n -a n t - t a n lp d g o E6D 1% b u c in o t c L c p o r t t Qĩi-Hĩ -> ft am page -> f r o m p s g a L 'a c h £ o p in io n £ s p o H t »•»e»vs 72% lo c a l n i» * "; L I i» n L s p o r ts L b b ; m iw 53% o n - £ flr -> m r i c - d o r w a ir & o » » '3 ir £ r w s c ¿ D u s n e s s £ s p o ita (e c f> £ IM n Q i i t 'u « i r t « S £ s p o r ts local -? frontpage E? % t o c h L b j s i n « - i i I s p c r ls & b t $ 02% fro m p d D « t e < h & lid fiQ & s p o r t s J lib s o n - a ir L b u s in c s i £ s p o r ts i sporte % o n ip a g e m is c l< Irrin g iraverf nt.»VS & m iSC fro n ag e -4 fro ritp Eitt? -> n tr *»3 & < e c » i L 0 - a lt £ b u s r ie s s £ s p c n s & i i v u g & t u s in a e s & a p c e ls 07% rn e c "* local m rs c - * frontpacj? - * frcntpgge 1.16% 1.16 % o n - a r -> Icca l 1.15% h e a h h -> lo c a l m ts c - } c n -a ir 15% m sc fro ntpag e -> frorrtpac *5 -> living 14% lo c a l -» fro n ag e -> frontpage 13% h e a llh -> m e c 12% m e c -» cn -a ir lo c a l -> m isc orvair 10% 09% Icoal 06% oivair mrsc 1.06% 1.00% b) H inh 2.10 Két phát luật kết hợp luặl tuằn tự tử logfile [IV06] 2.3.2 Phân tích xu h n g cá nhân Như dà giới thiệu, phân tích xu hướng cá nhàn nhẩm tới tính cá nhân hố dừ liệu cần có tính cá nhàn hố, logíĩle máy khách, C S D L khách hàng, dừ liệu thu nhận online với khách hàng Phần g iớ i thiệu m ột số nội dung phân tích xu hướng cá nhân kh ơng có C S D L khách háng hệ thống tư vấn khách hàng • Phân tícli x u hướng cá nhân từ máy khách Mình 2.11 trình bày hệ thống khai phá sử dụng Web có sử dụng dừ liệu người dùng máy khách cùa Tarm o Robal A hto K alja Ị RK07J Thông tin người dùng phần mềm hệ thống máy khách dược trích chọn dừ liệu sử dụng hộ thống tư vấn cho người dùng cụ thê Trong fZ l 1105 Ị, Baoyao Zhou cộní> đề xuất hệ thống dựa theo lo g íĩle xà) dựng ontology sử dụng Web đê tư vấn người sứ dụng hệ thổng (H ình 2.12) 63 \\>b Sìr* LO G SY STEM U s a g e D ata c iprmmẹ - R e f in e d T o p o lo g y D am M in in g R ecom m ended S u b -T o p o lo g y I _ T n c d c a l A d a p tio n D e te c tio n o f L o ca lity W in d o w S iz e u MI.'UCRIC A d a p tio n E x trac led U se i Piofilcrs R anked Pages X ; R e c o m m a n d â t IOU E n g in e (R E ) W eb O ntology W e b Site O n ro lo p y M A PPIN G \ Pro files Ontology H i n h 1 S in h tư v ẩ n d ự a trê n tr ic h c h ọ n tiể u s n g i d ù n g [R K ] C liönl-skte ^ v ) A tc ề ti L o« W # b U t» 5i O ndogy G eneralien Semantic Wưb Ụ ie r Preprceainợ : •r / $ Cetfiirudirtỗj Ccrtitruỡirt WebUằge Web Usage LftUeô I : ■“ * í> N Prunirvg Web u 4* 3* G^oeraLng W eb UsAge c> ■ H in h 2 H ệ th ố n g k h a i p h s d ụ n g W e b t v ầ n h n g c ả n h â n K iế n tr ú c h ệ th ố n g (trẽ n ) v s in h o n to lo g y s d ụ n g W e b ( d i) [Z H F ] MỘI số thông tin hành v i người dùng m ột sổ hộ thống khai thác nhàm khai phá chuồi hành vi cùa người dùng từ dó có dự háo hành vi liếp theo cua người dùng dê chuẩn bị sẵn tài nguyên phù họp với thao lác liếp iheo cua người dime 64 • Các lie• til on” tu khỏch haw* ô> ợy I l ihnu Ur vun khách hàng ứng dụng dien hình cùa khai phá Web ironu IioịiI dộnu lư vắn khách liànu lio n a hệ thong CSD1 khách hàng lưu trữ vè Ihơng lin khách háng dăng ký Thơng tin có dược từ CSDL k h a c h hàn ii c h o p h é p : k ẽ i nòi tlirợc phiên iàm việc cua cùnu khách hànu vi lạo thuận tiện việc kháo sál mồi quan hộ khách hàng - mặt háng k ố i nhóm khách hànu cỏ cùnii (hoặc nhóm) thuộc linh u iỡ i dộ tuôi nghè nghiệp, thu nhập Trong số hệ thông, so ihuộc tinh mô tá thị hiếu khách hàng cũ nu dưa vào CSDL 1ro nu IB I S03J Pierre Baldi \à cộng dành chương trình bày 111 Ỏ hình \à irnii dụnu thương mại Web Dừ liệu khách hàng có lại máy phục vụ máy khách vị trí trung gian (chăng hạn, v ị tri cuna cap dịch vụ Internet lại máy phục vụ proxy), ú n g dụng dien binh hệ thôrm tư vân khách háng tự dộng Lọc cộnti tác cách tièp cận yếu hệ thống, theo dó hệ thống sừ dụng chọn lựa cùa cá nhân khứ de dir báo chọn lựa m ới đưa lư vân m ới I lai mơ hình lọc dien hình theo cách tièp cận khao sát, dó mơ hình lọc cộng tác người láng giềng gần mơ hinh lọc cộng tác dựa iron mơ hình Tư tương cua mơ hình lọc cộng tác người láng giềng gần rât đ n g iá n D ố i v i m ộ t n g i d ù n g (I, t r c h é t t ì m t ậ p c c n g i d ù n g "tirưng lự với fl" liệu lọc sau sứ dụng chọn lựa dôi với ihuộc linh cùa người dùng tương dồng với a dề dự báo chọn lựa cùa người dùng II dối v i thuộc tính dó Trong mơ hình lọc cộng tác người láng giềng gần nhất, cẩn giái toán xác định trọng số phương trình dự báo, thu gọn sơ chiêu tốn, tính tốn phàn cụm Trong mơ hình lọc cộng tác dựa mơ hình, tren sở thừa ké mầu lựa chọn cua naười dùng khứ, cần xây dựng không trực tuyến m ột mơ hình kỳ vọng m ối quan hệ mục hàng Sau mơ hình dược sứ dụng trực tuyến dê dụ báo chọn lựa cùa người dùng M hình hướng tớ i u cầu tính tốn thời gian thực, dó, với mơ hình dã dư ợt xây dựng, thời gian dự báo không phụ thuộc vào số lượng khách hàng có CSDL M hinh lọc cộng tác dựa mỏ hình dược phân loại thành mơ hình mật độ kct nơi mỏ hình phân bơ có điêu kiện Tồn m ột số mơ hình Irộn eiĩra lọc nội dung lọc cộng tác 65 2.4 Khai phá cấu trú c Web Theo Pierre lỉaldi cộng [BFS03] Internet dược nhìn nhặn dạng dồ thị theo nhiều khung nhìn khác Theo khung nhìn vật lý đồ thị có dinh dối tượng vật lý thực cung dường vật lý lien kết dinh Theo khung nhìn trừu tượng dồ thị có đinh trang Internet cung liên kết đinh Dây khung nhìn cùa Khai phá cấu trúc Web (và khai phá Web) Trên Internet có nhiều hệ thống dược nhìn nhận dạng dồ thị mạng dịa chi e-mail, mạng blog, mạng người dùng diễn dàn K hi quan niệm Internet xà hội ao mạng tồn Internet coi mạng xã hội Khai phá cấu trúc Web sử dụng kiến trúc liên kếl Web đê phát dưực mơ hình cấu trúc liên kết cua Web dựa trcn kiến trúc topo liên kết với mô tà không [Lee05 BFS03] Khai phá cấu trúc Web gôm hai loại bàn dó khai phá dồ thị Web khai phá cấu trúc trang Web- 2.4.1 Khai phá đồ th ị Web Khai phá dồ thị Web toán bàn dicn hình khai phá cấu Irúc Web Đồ thị Web dược coi ví dụ mạng xã hội dối tượng nghiên cứu dược quan tàm Nhắc lại dồ thị Web trang Web đinh Irang Web cỏ cung lớ i trang Web khác mà nội dung có liên kết trờ sang trang Web Đồ thị Web dược xem xét dạng có hướng vơ hướng tuỳ thuộc vào toán dược đặt M ột toán kinh điển đồ thị Web toán T inh hạng (độ quan trọng) trang Web Mạng trang Web sir dụng nhiều tình huons Chăng hạn hạng trang Web dùng đê dẫn dát đường di trơn Web trang có hạng cao dẫn dắt di thăm trước Trong máy tìm kiêm, hạng trang Web dẫn dắt thử tụ hiên thị kết quà tìm kiếm , theo đó, trang Web có hạng cao hiển thị trước trang Web có hạng thấp Tính hạng trang Web có liên quan tớ i mơ hình sinh trang Web hệ I hong Web [Hav02, Hop08, BFS03] Tính hạng dược ứng dụng tốn phái dịa chi mail sapm mạng e-m ail, theo địa chi e-m ail có hạng thấp có khả cao địa chí spam Pierre Baldi cộng [BFS03] cung cấp nhìn tổng quan đồ thị Web số vấn dề ban khai phá dồ th ị Web Trong giáo trinh này, so kiến thức sở tốn học thị Web trinh bày Chương tốn tính hạníỉ trang Web trình bày Chương 66 2.4.2 Khai phá cầu trú c trang Web I ran li Web dôi tưựng dừ liệu hán giám sát câu irúc cua trang VVcb luân theo qnv dịnh cua ngôn niìĩr định dạng tranií Web (chẳng hạn, 111M I ) Khai phá cấu trúc trang Web thực việc phát mầu lừ lập kiòn irúc Iranu Web Dôi urợne liệu trường hợp k illin g trail li Web Lỉồm dối tượng "the" cấu trúc the Kct tỊUíi cua khai phá cấu irúc trang Web dược sư dụng dể hỗ trợ toán khai phá dừ liệu Web khác T ronii nhiêu ứng dụng, khai phá câu trúc trang Web kôi hợp loại khai phá Web khác, dặc biệt khai phá nội dung Iranu Web Dà có li trình nghiên cửu có giá trị khai phá cấu trúc trang Web hạn |A C M 03 A M 03 IIA , LGZ03 RGS04 W1IW09], l) a \ i tic Castro Rcis cộnu [RGS04] nííhiên cứu tốn trích chọn tụ dộng tin tức Iren Web theo cách liếp cận khoảng cách Các tác ui chọn can trúc dạng dê biểu diễn trang Web sứ dụng dộ đo chi phí cintycn đơi (Tree lid it Distance) để đánh giá độ lương tự can trúc cùa cac trang Web V i tàng thuật toán R T D M (Restricted Top - Down M apping) Davi Castro Reis cộng dề xuất mơ hình trích chọn tin lức từ lĩ thòng tin (porlal) báo điện từ m cúc bước: ( 1) Dùng kỹ thuật phân cụm cấu trúc dc phân cụm trang báo điện từ (độ khoang cách hai trang Web chi phí chuycn đôi câu trúc tranu W eb); (2) Sinh mẫu trích chọn dạng cây; (3) Dối sánh liệu (kiếm tra dánh giá mầu trích chọn) dựa theo thuật tốn R T M I), dó dịnh giá cho thao lác thay dinh (Vertex Replacement), chcn dinh (Vertex Insertion) loại bò dinh (Vertex Removal); (4) Á p dụng mẫu dc trích chọn tin tức Hình 2.13 trình bày sơ dồ q trinh trích chọn tự dộng tin qua bước nói M hình trcn thi hành thành cơng sàn phẩm V'iennews "Cúc kênh báo điện lư thiết bị điện thoại di động thông m inh" đạt giai thi Trí tuệ V iệt Nam năm 2006 Trong [A M Ị A rvin d Arasu Hector Garcia-M oỉina cũnti khai thác khía cạnh tạo trang Web dế tìm mẫu trang sách Irưng bày công ty bán sách trực tuyến L A rllo ta cộng |.A C M 03| Bing L iu cộng |LG Z 03| p s Ilircm ath, Siddu p A lgur 11IA ], Junleng Wang cộng [W1 [W 09] đề xuất mô hinh khai phá c ấu trúc trang Web có kết họp với nội dung trang Web 67 T a in c n iỊ — ,4 t» ẩ n _ < Ạ io > _ _ «*afr>> m _„

Ngày đăng: 06/01/2020, 23:27

TỪ KHÓA LIÊN QUAN

w