1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận môn khai phá dữ liệu TÌM HIỂU VỀ WEB MINING.DOC

61 2,1K 22

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 2,64 MB

Nội dung

2.1.1 Sự trích lọc dữ liệu có cấu trúc2.1.1.1 Kỹ thuật Wrapper induction phương pháp quy nạp wrapper Cho một tập hợp các trang web được đánh nhãn một cách thủ công, và một phươngpháp máy

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

BÀI THU HOẠCH CHUYÊN ĐỀ KHAI PHÁ DỮ LIỆU VÀ NHÀ KHO DỮ LIỆU

ĐỀ TÀI

TÌM HIỂU VỀ WEB MINING

GIẢNG VIÊN: PGS.TS ĐỖ PHÚC

SINH VIÊN THỰC HIỆN:

CH0601043 PHAN NGUYỆT MINH

Tp Hồ Chí Minh – 08/ 2014

Trang 2

MỤC LỤC

Chương 1 Tổng quan 4

Chương 2 Công nghệ Web mining 5

2.1 Web content mining 5

2.1.1 Sự trích lọc dữ liệu có cấu trúc 6

2.1.2 Sự phân loại, phân tích và tổng hợp theo cảm tính của các cảm nhận khách hàng 11

2.1.3 Sự tích hợp thông tin và sự phù hợp giản đồ (schema) 13

2.1.4 Sự tổng hợp tri thức 18

2.1.5 Sự dò tìm các mẫu và sự phân đoạn trang web 21

2.2 Web structure mining 28

2.2.1 Cấu trúc mạng Internet 29

2.2.2 Page rank 30

2.2.3 HITS (Hyperlink-induced Topic Search) 32

2.3 Web usage mining 34

2.3.1 Tích hợp tri thức ngữ nghĩa vào tìm kiếm và khai thác thông tin từ người dùng 35

2.3.2 Khai thác thông tin về thói quen người dùng khi tìm kiếm 36

2.3.3 Hỗ trợ theo dõi người dùng trên các hệ thống thông tin hay hệ thống tìm kiếm 37

2.3.4 Phân tích việc sử dụng kết quả tìm kiếm 38

2.4 User profile data 39

2.4.1 Giới thiệu 39

2.4.2 Nội dung trong một user profile 40

2.4.3 Đặc tả công nghệ dùng chung profile data của các user 43

2.4.4 Lưu trữ user profiles 45

Chương 3 Ứng dụng của Web mining 46

3.1 Rút trích thông tin từ Web 46

3.2 Tìm kiếm thông tin từ Web 47

3.3 Cổng thông tin Web (Web Portal) 49

3.4 Theo dõi và phân tích Log Website 53

Chương 4 Google và Web mining 55

4.1 Giới thiệu Google 55

4.2 Bộ máy search engine của Google – Các kỹ thuật cơ bản 55

4.2.1 Lấy thông tin 55

4.2.2 Tìm kiếm thông tin và trả kết quả 56

4.3 Ứng dụng Web Mining trong Google 56

4.3.1 Ứng dụng Web Content Mining 56

4.3.2 Ứng dụng Web Structure Mining 57

4.3.3 Ứng dụng Web Usage Mining 58

Chương 5 Kết luận 60

Trang 3

DANH SÁCH CÁC HÌNH

Hình 1 Phương pháp quy nạp Wrapper 7

Hình 2 Phương pháp trích lọc tự động Wrapper 8

Hình 3 Xác định các vùng dữ liệu 9

Hình 4 Sắp xếp và trích lọc các đối tượng dữ liệu trong vùng dữ liệu 10

Hình 5 Mô hình giao tiếp truy vấn tổng quát 13

Hình 6 Sự phù hợp trong giao tiếp 14

Hình 7 Phát hiện sự liên quan của các thuộc tính 15

Hình 8 Xây dựng mô hình mức 2 15

Hình 9 Tạo các thành phần của mô hình 16

Hình 10 Kiểm tra độ tin cậy của mô hình 16

Hình 11 Vấn đề khai thác dữ liệu liên quan 17

Hình 12 Đánh giá sự tương quan 18

Hình 13 Phân biệt sự khác biệt của các điểm không tương quan 18

Hình 14 Giao diện trang Vivísimo - Search site 19

Hình 15 Một template của Yahoo 22

Hình 16 Cây CST 23

Hình 17 Phân khối trên Website CNN 25

Hình 18 Phân tích và xếp hạng khối 26

Hình 19 Cấu trúc mạng Internet 30

Hình 20 Mô hình cơ chế của Web Usage Mining 34

Hình 21 Phần mềm Website Ripper Copier 47

Hình 22 Google 49

Hình 23 KartOO 50

Hình 24 AOL - Cổng Web Portal đầu tiên 51

Hình 25 My Yahoo - Web Portal lớn nhất hiện nay 52

Hình 26 Phân tích log file 53

Trang 4

Chương 1 Tổng quan

Hệ thống website trên Internet là nguồn chứa và cung cấp thông tin rất lớn Hiệnnay ngày càng có nhiều người sử dụng Internet để truy cập thông tin hơn là phải đếnthư viện để dò tìm trong từng quyển sách vừa mất thời gian đôi khi lại không hiệuquả Nhưng bằng cách nào mà máy tính có thể giúp người ta có thể tìm kiếm thôngtin trên mạng một cách nhanh chóng và hiệu quả? Đó cũng là nhờ các công nghệsearch engine Search engine sẽ giúp người dùng có thể dễ dàng tìm kiếm thông tin

mà họ cần trên các World Wide Web Tuy nhiên do đặc thù của Internet nên việctìm kiếm gặp phải một số vấn đề như:

1 Định dạng dữ liệu khác nhau trên từng hệ thống (ví dụ dữ liệu dạngtext hoặc dạng binary)

2 Dữ liệu có cấu trúc khác nhau trên các hệ thống khác nhau

3 Dữ liệu được đặt tên khác nhau trên từng hệ thống

4 Làm sao có thể biết được nhu cầu thực sự của người dùng dựa vàonhững từ khóa tìm kiếm

Các hệ thống search engine đã sử dụng web mining để giải quyết các vấn đề trênmột cách hiệu quả và nhanh chóng

Web mining về cơ bản là kĩ thuật sử dụng data mining để tìm kiếm và phân tíchthông tin trên các website Web mining giúp người dùng có thể dễ dàng tìm kiếmthông tin họ cần trong thời gian ngắn nhất có thể

Trang 5

Chương 2 Công nghệ Web mining

Hiện nay, công nghệ Web mining đã định hình được 3 phương pháp cơ bản: webcontent mining, web structure mining và web usage mining Các hệ thống searchengine hiện nay khai thác các mô hình tìm kiếm và xây dựng các bộ máy tìm kiếmdựa trên 3 phương pháp cơ bản này

2.1 Web content mining

Web content mining : là sự khai thác, trích lọc và tích hợp các dữ liệu, thông tin vàtri thức hữu ích từ nội dung của trang Web

Có thể nghĩ như việc đưa cho cái máy tìm kiếm cơ bản công việc để thi hành Cácmáy tìm kiếm tìm web và tập hợp thông tin, kỹ thuật lập bảng mục lục để lưuthông tin, và cung cấp tiến trình truy vấn để cung cấp thông tin cho người dùng.Trong vài năm gần đây, sự phát triển của WWW đã vượt xa sự mong đợi Ngàynay, có vài tỉ tài liệu HTML, hình ảnh và những file đa phương tiện khác đươctruyền qua internet và số lượng đó vẫn còn đang tăng lên Nhưng vì số lượng trangweb khổng lồ đó, việc tìm kiếm thông tin mình quan tâm trở thành công việc vôcùng khó khăn Web content mining sử dụng những ý tưởng và nguyên tắc củadata mining Việc sử dụng Web như một người cung cấp thông tin thì phức tạphơn khi làm việc với cơ sở dữ liệu tĩnh Bởi vì bản chất rất động của Web và sốlượng lớn tài liệu của nó, cần phải có những giải pháp mới, mà những giải phápnày không dựa trên việc truy cập những data hoàn chỉnh ngay từ lúc bắt đầu Khíacạnh quan trọng khác là sự thể hiện những kết quả truy vấn Vì kích thước khổng

lồ của Web, một câu truy vấn Web có thể tìm được hàng ngàn trang web Vì vậynhững phương pháp có ý nghĩa trong việc thể hiện những kết quả rộng lớn đó thìcần thiết để giúp người dùng chọn lựa nội dung mà mình quan tâm nhất

Trang 6

2.1.1 Sự trích lọc dữ liệu có cấu trúc

2.1.1.1 Kỹ thuật Wrapper induction (phương pháp quy nạp wrapper)

Cho một tập hợp các trang web được đánh nhãn một cách thủ công, và một phươngpháp máy học được áp dụng để học cách trích lọc các luật hoặc các mẫu

Sử dụng máy học để tạo ra các luật trích lọc: Đầu tiên, người dùng sẽ đánh dấunhững đối tượng mục tiêu trong một số các trang dùng làm mẫu Kế đến, hệ thống

sẽ học cách trích lọc ra các luật từ những trang mẫu này Cuối cùng, các luật này sẽđược áp dụng để trích lọc ra những đối tượng mục tiêu từ những trang khác

Một số hệ thống sử dụng phương pháp quy nạp wrapper như: WIEN (Kushmerick

et al, IJCAL-97), Softmeanly (Hsu and Dung, 1998), Stalker (Muslea et al 99), BWI (Freitag and McCallum, AAAI-00), WL2 (Conhen et al WWW-02),Thresher (Hogue and Karger, WWW-05),

Agents-Hệ thống Stalker:

 Wrapper induction (phương pháp quy nạp wrapper) (của Stalker) là một thống hoạtđộng theo thứ bậc :

- Sự học tập của hệ thống wrapper theo một trình tự như sau:

o Đầu tiên sự trích lọc được thực hiện riêng biệt ở các mức độ cao nhất

o Cuối cùng là đưa dữ liệu vào các bản ghi dữ liệu (chủ yếu là các list)

- Mỗi đối tượng được trích lọc hoàn tòan độc lập với những đối tượng khác

- Mỗi đối tượng mục tiêu được trích lọc dựa trên việc sử dụng hai luật:

o Một luật bắt đầu (start rule) giúp dò tìm ra vị trí bắt đầu của một thẻ mụctiêu

o Một luật kết thúc (end rule) giúp dò tìm ra vị trí kết thúc của một thẻ mụctiêu

 Sự trích lọc theo trình tự dựa vào cấu trúc cây (ví dụ như hình bên dưới): Để tríchlọc mỗi đối tượng mục tiêu (một node trên cây), một wrapper cần một luật để tríchlọc ra đối tượng từ cha của nó

Trang 7

Hình 1 Phương pháp quy nạp Wrapper

 Một số ví dụ áp dụng cấu trúc cây trong hình 1:

VD1: 513 Pico, <b>Venice</b>, Phone 1-<b>800</b>-555-1515

VD2: 90 Colfax, <b>Palms</b>, Phone (800) 508-1570

VD3: 523 1st St., <b>LA</b>, Phone 1-<b>800</b>-578-2293

VD4: 403 La Tijera, <b>Watts</b>, Phone: (310) 798-0008

Chúng ta muốn trích lọc ra Area Code (mã vùng), ta cần cung cấp các luật sau:Start rules(các luật bắt đầu):

R1: SkipTo(() R2: SkipTo(-<b>)

End rules(các luật kết thúc):

R3: SkipTo()) R4: SkipTo(</b>) 2.1.1.2 Kỹ thuật trích lọc dữ liệu tự động

 Hệ thống đường chạy (RoadRunner):

- Cung cấp một tập hợp các mẫu xác định (gồm nhiều trang web mẫu), mỗitrang sẽ chứa đựng một hoặc nhiều bản ghi dữ liệu

- Từ những trang này hệ thống sẽ tạo ra một wrapper như là một sự kết hợp khá

tự do diễn đạt hợp quy tắc

- Hỗ trợ việc lưu trữ các bản ghi dữ liệu

 Tiếp cận hệ thống đường chạy:

Trang 8

- Đầu tiên chúng ta tạo ra một trang mẫu được xem như là một wrapper.

- Sau đó wrapper này được cải tiến bằng việc giải quyết những mâu thuẫn giữawrapper này với từng trang mẫu khác, điều này giúp cho việc tổng quát hóacho wrapper này Một mâu thuẫn xảy ra khi một số dấu hiệu trong các mẫunày không phù hợp với ngữ pháp của wrapper

Hình 2 Phương pháp trích lọc tự động Wrapper

- Các loại mâu thuẫn khác nhau và việc tổng quát hóa một wrapper:

 Những mâu thuẫn trong chuỗi văn bản: thường xảy ra trong cáctrường dữ liệu (còn gọi là các đối tượng)

 Sự mâu thuẫn trong các thẻ: thường xảy ra trong:

 Các thành phần tùy chọn

 Các đoạn lặp lại, danh sách các đoạn lặp lại:

Trang 9

o Các mâu thuẫn xảy ra tại điểm bắt đầu một đoạn lặp lại vàtại vị trí kết thúc danh sách các đoạn lặp này.

o Tìm ra dấu hiệu cuối cùng của vị trí mâu thuẫn và xác địnhmột số đọan còn có mâu thuẫn lặp lại từ trong wrapper vàtrong mẫu bằng cách tìm kiếm tới phía trước nữa

o So sánh các đoạn còn có mâu thuẫn này với phần trên củatrang mẫu để xác nhận lại

 Hệ thống EXALG (Arasu and Garcia-Molina, SIGMOD-03):

- Việc thiết lập cũng giống như đối hệ thống đường chạy: hệ thống này cũngcần nhiều trang đầu vào của cùng một loại trang mẫu

- Tiếp cận hệ thống EXALG:

Hình 3 Xác định các vùng dữ liệu

Bước 1: tìm tập hợp các dấu hiệu (được gọi là các lớp tương đương) thường xuyênxảy ra tương tự trong mỗi trang

Trang 10

Bước 2: mở rộng tập hợp này bằng cách tạo ra thêm các luật mới của các dấu hiệuđang được sử dụng trong các ngữ cảnh của trang Những dấu hiệu giống nhau trongcác ngữ cảnh khác nhau được xem như là những dấu hiệu khác nhau.

Bước 3: xây dựng một trang mẫu có sử dụng các lớp tương đương dựa vào những gìnằm giữa hai dấu hiệu liền kề nhau, hoặc là rỗng, hoặc là dữ liệu hoặc danh sách.Người dùng chỉ cung cấp một trang duy nhất với nhiều bản ghi dữ liệu, chúng ta sẽ

sử dụng mô hình trích dữ liệu như sau:

 Đầu vào: một trang web duy nhất với nhiều bản ghi dữ liệu (ít nhất là hai)

 Mục tiêu: tự động hóa (hoàn toàn không chịu tác động của con người):

 Bước 1: xác định bản ghi dữ liệu trong một trang, và

 Bước 2: sắp xếp lại dữ liệu trong các bản ghi dữ liệu và trích lọc racác đối tượng dữ liệu từ chúng

 Xác định các vùng dữ liệu (data region) và các bản ghi dữ liệu (data record)

 Sắp xếp và trích lọc các đối tượng dữ liệu (ví dụ: region1)

2.1.1.3 So sánh giữa kỹ thuật wrapper induction và kỹ thuật trích lọc

dữ liệu tự động

Hình 4 Sắp xếp và trích lọc các đối tượng dữ liệu trong vùng dữ liệu

Trang 11

Kỹ thuật trích lọc dữ liệu tự động khơng cĩ việc đánh nhãn bằng tay, nhưng lại cầnmột tập hợp các trang xác định của các mẫu tương tự nhau: Cách làm này khơngcần thiết nếu trang mẫu đã cĩ chứa nhiều bản ghi dữ liệu.

Kỹ thuật trích lọc dữ liệu tự động khơng sử dụng kỹ thuật wrapper để thao tác trêncác bản ghi dữ liệu, nhưng lại được dùng cho các trang (một trang thường chứadựng rất nhiều thơng tin khơng phù hợp)

Những hạn chế của kỹ thuật trích lọc dữ liệu tự động là :

- Khĩ điều khiển, thao tác trên từng đối tượng riêng biệt

- Khĩ đặt tên các thuộc tính đối với dữ liệu đã trích lọc

- Dữ liệu được trích lọc từ nhiều trang cần được tích hợp lại bằng tay hoặc tựđộng

2.1.2 Sự phân loại, phân tích và tổng hợp theo cảm tính của các cảm nhận khách hàng

2.1.2.1 Phân loại theo cảm tính

 Phân loại các cảm nhận theo cảm tính:

 Phân loại các cảm nhận dựa trên hồn tồn vào cảm nhận được diễn đạtbởi tác giả: khẳng định hay phủ định, khuyến khích hay khơng khuyếnkhích…

 Vấn đề này chủ yếu học theo cách xử lí ngơn ngữ tự nhiên (NLP)

 Tuy nhiên vấn đề này lại khác hẳn với việc phân loại văn bản truyềnthống

 Phân loại cảm nhận khơng được giám sát

 Phân loại cảm nhận theo cảm tính thơng qua việc sử dụng các phương phápmáy học (machine learning):

 Một trang web thường áp dụng rất nhiều kỹ thuật máy học để phân loạicác cảm nhận về phim ảnh là hay hay dở

 Ba kỹ thuật phân loại đã được thử nghiệm:

 Nạve Bayes

 Maximum entropy

Trang 12

 Support vector machine.

 Đó là:

 Rút ra các đặc điểm của nhận định được chú thích bởi khách hàng

 Xác định các chú thích này là khẳng định hay phủ định (sự định hướngngữ nghĩa)

 Tạo ra một đặc điểm dựa vào sự tổng hợp

2.1.2.2.2 Đặc điểm dựa vào sự tổng kết hóa:

 Việc trích lọc các đặc điểm của nhận định (được gọi là đặc điểm của ýtưởng) được chú thích bởi người dùng

 Việc xác định ý nghĩa của các câu trong mỗi nhận định và quyết định xem ýnghĩa mỗi câu là khẳng định hay phủ định

 Tổng quát hóa và so sánh các kết quả

 Lưu ý: một wrapper có thể được sử dụng để lọc trích ra các nhận định (cảmnhận) từ các trang web như là các nhận định được cấu trúc hợp quy tắc

Trang 13

 Với mỗi người cảm nhận j chú thích trên một tập con Sj của tập F, ví dụ:

Sj  F

 Với mỗi đặc điểm fk  F thì người cảm nhận j chú thích sẽ chọn một từhoặc đoạn w  Wk để biểu diễn thuộc tính này

 Hệ thống này không có bất kì thông tin nào về F hoặc Wi được biết trước

 Mô hình đơn giản này được áp dụng cho hầu hết các trường hợp nhưngkhông phải hoàn toàn

2.1.3 Sự tích hợp thông tin và sự phù hợp giản đồ (schema)

 Tích hợp giao diện truy vấn trên trang web:

 Nhiều tác vụ tích hợp:

- Việc tích hợp các giao diện truy vấn vào trang web (các form tìm kiếm)

Hình 5 Mô hình giao tiếp truy vấn tổng quát

Trang 14

Hình 6 Sự phù hợp trong giao tiếp

- Việc tích hợp các ontology (taxonomy: nguyên tắc phân loại)

- Việc tích hợp dữ liệu đã trích lọc

- Việc tích hợp thông tin nguyên bản

 Chúng ta chỉ khảo sát các giao diện tích hợp truy vấn:

- Nhiều website cung cấp các forms để truy vấn sâu vào trong trang web

- Các ứng dụng: siêu tìm kiếm và siêu truy vấn

 Giao tiếp truy vấn tổng quát:

 Xây dựng một giao diện truy vấn tổng quát:

 Một giao diện truy vấn thống nhất:

- Tính ngắn gọn – kết hợp với các trường giống nhau về ngữ nghĩa thông quagiao tiếp ban đầu (source) (các form truy vấn)

- Tính chất đầy đủ - giữ lại các trường cụ thể ban đầu (source)

- Tính thân thiện người dùng – các trường có quan khá chặt chẽ với nhau phảiđược đặt gần nhau

 Hai nhóm tích hợp:

Trang 15

Hình 7 Phát hiện sự liên quan của các thuộc tính

Hình 8 Xây dựng mô hình mức 2

- Sự phù hợp trong giao tiếp – xác định các trường có ngữ nghĩa giống nhau

- Tích hợp giao tiếp – kết hợp các giao tiếp truy vấn ban đầu

 Sự phát hiện mô hình ẩn:

 Phát hiện sự liên quan giữa các thuộc tính

 Cấu trúc mô hình:

 Mục tiêu: nắm bắt được sự liên quan giữa các thuộc tính

 Cấu trúc mô hình mức hai

 Thống kê sự thích hợp của lược đồ:

Trang 16

 Định nghĩa cấu trúc mô hình trừu tượng M để giải quyết một câu hỏi (truyvấn) mục tiêu: P(QI/M) = …

 Cho các QI, tạo ra các thành phần của mô hình

 Chọn một thành phần độ tin cậy cao nhất: kiểm tra giả thiết

 Sự phù hợp của lược đồ giống như việc khai thác chính xác:

 Thông qua nhiều nguồn:

Hình 9 Tạo các thành phần của mô hình

Hình 10 Kiểm tra độ tin cậy của mô hình

Trang 17

Hình 11 Vấn đề khai thác dữ liệu liên quan

- Các thuộc tính tương đồng là không tương quan với nhau: các thuộc tínhtương đồng là các lối diễn đạt ngữ nghĩa Thật ra, rất hiếm khi cùng xảy ratrong các giao diện truy vấn

- Lập nhóm các thuộc tính có tương quan với nhau: việc lập nhóm các thuộctính để bổ sung thêm ngữ nghĩa Thật ra, hay xảy ra trong các giao diện truyvấn

- Vấn đề khai thác dữ liệu tương quan (xem hình 11):

 Đo lường sự tương quan – hàm đo lường H:

 Hàm đo lường H: H = f01f10/(f+1f1+)

 Bỏ qua các ô trống:

Trang 18

Hình 12 Đánh giá sự tương quan

 Phân biệt sự khác biệt của các điểm không tương quan:

Hình 13 Phân biệt sự khác biệt của các điểm không tương quan

2.1.4 Sự tổng hợp tri thức

 Tìm kiếm trang web:

 Mô hình tìm kiếm:

- Cung cấp một câu truy vấn với một số từ cần tìm kiếm

- Một search engine sẽ trả về một danh sách các trang đã được xếp hạng

- Sau cùng người dùng chỉ việc duyệt qua và đọc những trang này để tìm ranhững thông tin mà họ cần

 Tính chất đủ và không đủ:

- Tính chất đủ thường thấy ở những người chỉ tìm kiếm mảng thông tin cá biệtchẳng hạn như: người dùng chỉ tìm kiếm về trang chủ của một người nào đó,hay tìm một báo nào đó…

- Tính chất không đủ thường thấy ở những người quan tâm đến công việcnghiên cứu, khảo cứu…

 Tổng hơp (clustering) kết quả tìm kiếm:

Trang 19

 Nhằm tạo ra một nguyên tắc phân loại để cung cấp sự hổ trợ trong việc tìmkiếm cũng như lướt web bằng cách tổ chức kết quả tìm kiếm thành một sốcác cluster có thứ tự.

 Một số search engine cũng cung cấp các kết quả tìm kiếm đã được phânloại, ví dụ: vivisimo.com (xem hình 14), northernlight.com

 Chú ý: Ontology learning cũng sử dụng cách tổng hợp này để xây dựngcác ontology (ví dụ: Maedche and Staab, 2001)

 Không dừng lại ở việc phân loại các kết quả tìm kiếm:

Hình 14 Giao diện trang Vivísimo - Search site

 Phân loại kết quả tìm kiếm là cách làm rất hiệu quả và thường được ápdụng trong các hệ thống thương mại

- Các cluster sẽ cung cấp việc hỗ trợ truy tìm để giúp người dùng có thể tậptrung vào những gì mà họ mong muốn tìm kiếm

 Không dừng lại ở đó: Câu hỏi đặt ra là liệu có thể có được một hệ thốngcung cấp thông tin một cách đầy đủ về một chủ đề cần tìm kiếm haykhông Chẳng hạn:

Trang 20

- Tìm và kết hợp các mẫu và các thành phần thông tin có quan hệ với nhau.

- Cung cấp một bức tranh hoàn chỉnh về chủ đề này

 Hướng tiếp cận: Khai thác sự dư thừa thông tin:

 Hiện tượng dư thừa thông tin trên web: nhiều trang web cùng chứa đựngnhững thông tin tương tự nhau

 Quan sát 1: nếu một số đoạn đã được đề cập trong một số trang, chúng cóthể là những khái niệm quan trọng hoặc là những chủ đề con của chủ đề đãcho

 Điều này có nghĩa là chúng ta có thể sử dụng data mining (phương phápkhai thác dữ liệu) để tìm ra khái niệm và những chủ đề con

 Quan sát 2: mỗi trang web thường được tổ chức như sau:

- Mức độ khác nhau của phần tiêu đề

 Không thể tin cậy vào chỉ duy nhất một trang web vì nó không hoàn chỉnh

và nó chủ yếu tập trung vào những gì mà tác giả của trang web ấy quenthuộc hoặc làm việc theo một thói quen nào đó

 Sử dụng các mẫu ngôn ngữ để tìm ra các chủ đề con:

 Các mẫu ngôn ngữ có cú pháp chính xác trình bày một số mối quan hệcủa các khái niệm

 Các mẫu sau đây trình bày các mối quan hệ có thứ tự, các khái niệm, vàcác khái niệm con:

- Such as (như là)

- For example (e.g.,) (ví dụ như)

- Including (gồm có)

Trang 21

2.1.5 Sự dò tìm các mẫu và sự phân đoạn trang web

 Khái quát chung:

 Hầu hết các trang web, đặc biệt là các trang web thương mại, sử dụng cácmẫu được thiết kế khá tốt:

- Một trang được làm mẫu là một trong số các trang dùng chung một giao diện

“look and feel”

 Một trang mẫu điển hình phải chứa đựng các khối:

- Các khối nội dung chính

- Các khối navigation:

- Khối dịch vụ

- Các quảng cáo,…

 Mỗi khối là một đơn vị thông tin cơ bản

 Vì những thông tin khác nhau trong các khối, các trang mẫu phải tác độngđến việc xếp hạng các kết quả tìm kiếm thông qua các thuật toán IR vàDM

 Dò tìm các đoạn mẫu (pagelet) thông dụng:

 Các mẫu (template) là các đoạn mẫu thông dụng:

- Một đoạn mẫu là một đoạn cùng nằm trong vùng logic trong một trang webnhằm định nghĩa đầy đủ một chủ đề hoặc một chức năng

 Định nghĩa 1: (đoạn mẫu (pagelet) – định nghĩa ngữ nghĩa): Một đoạn mẫu

là một vùng của một trang web (1) định nghĩa đầy đủ về một chủ đề hoặcmột chức năng và (2) và không nằm trong những vùng khác, nghĩa là takhông thể trích ra được cùng chủ hoặc chức năng đã định nghĩa trong đoạnmẫu trên

 Định nghĩa 2: (đoạn mẫu – định nghĩa cú pháp): Một phần tử HTML trongcây phân tích ngữ pháp của trang p là một đoạn mẫu nếu (1) không có mộtnode con nào có ít nhất k ( = 3) siêu liên kết và (2) không có phần tử tổtiên nào của nó là một đoạn mẫu

 Các mẫu là một tập hợp các trang:

Trang 22

 Định nghĩa 3: (mẫu (template) - đinh nghĩa ngữ nghĩa): một mẩu là mộttập hợp các trang (1) dùng chung một giao diện “look and feel” và (2) vàđược kiểm soát bởi một thành phần (authority) duy nhất.

Hình 15 Một template của Yahoo

 Định nghĩa 4: (mẫu – đinh nghĩa cú pháp): Một mẫu là một tập hợp củacác đoạn mẫu p1, p2, p3,…, pk thỏa mãn hai yêu cầu sau đây:

- C(pi) = C(pj )  1 ≤ i ≠ j ≤ k Trong đó: C(p) là nội dung của p

- O(p1), …, O(p2) tạo thành một thành phần kết nối không định hướng (đồ thị).(O là một trang của p)

 Thuật toán (cho một tập (G) các trang được liên kết với nhau ):

 Bước 1: chọn tất cả các “viên đá cuội” (được sàn lọc, mày giũa) pagelet(pagelet shingle) trong các PAGELETS sao cho có ít nhất hai đoạn mẫuđược chọn Kết quả được lưu trong bản TEMPLATE_SHINGLES Đây lànhững viên đá cuội được sàn lọc lại từ các đoạn mẫu (pagelet)

Trang 23

 Bước 2: Chỉ trích lọc từ PAGELETS những đoạn mẫu mà hòn đá cuội của

nó nằm trong TEMPLATE_SHINGLES Kết quả được lưu trong bảnTEMPLATE_CANDIDATES Đây là tất cả các đoạn mẫu xuất hiện nhiềulần trong G

 Bước 3: Với mỗi viện đá cuội (shingle) s nằm trong bảnTEMPLATE_SHINGLES ta định nghĩa GS là một nhóm các hòn đá cuội:bao gồm tất cả các trang có chứa các đoạn mẫu mà viến đá cuội của nó là

s Bằng cách kết hợp hai bản TEMPLATE_CANDIDATES và LINKS tatìm ứng với mỗi s tất cả những liên kết trong số các trang nằm trong GS.Kết quả lưu vào bản TEMPLATE_LINKS

Hình 16 Cây CST

 Bước 4: Đếm những viên đá cuội s này trong bảnTEMPLATE_SHINGLES Ứng vời mỗi viên đá cuội, ta nạp vào bộ nhớchính tất cả các liên kết trong số các trang nằm trong GS

 Bước 5: Sử dụng một thuật toán BFS để tìm ra tất cả các thành phần liênkết vô hướng trong GS Với mỗi thành phần hoặc là một mẫu hoặc là

Trang 24

singleton (duy nhất) Thuật toán xuất ra là một thành phần nếu nó khôngphải là singleton.

 Các mẫu giống như những cây DOM thông thường:

 Các trang với cùng giao diện “look and feel” cơ bản được phản ánh bởinhững cây DOM giống nhau của nó: giống nhau về bố cục hay cách thứctrình bày

 Cho một tập các trang, một phương thức sẽ kết hợp các cây DOM của nó

để xây dựng một cây cấu trúc được nén (CST : Compressed Structure Tree– xem hình 16):

- Kết hợp những nhánh giống nhau

- Cắt ra những phần khác nhau

 Cây CST thu được sẽ biểu diễn một tập hợp các mẫu (template):

- Một thuật toán sẽ sử dụng cây CST để quét qua trang web và tìm ra các khốinội dung chính

 Trích lọc các tin tức trong các trang web một cách tự động:

 Cung cấp một tập hợp các trang đã được dò tìm, tìm ra các mô hình mẫu

để xác định các bài bào viết về tin tức trong trang web:

- Trước hết tạo ra các cluster của các trang mà những trang này dùng chungmột mẫu

Trang 25

Hình 17 Phân khối trên Website CNN

- Sau đó với mỗi cluster sẽ được tạo thành một cây lọc trích

- Mô hình: một biểu diễn hợp quy tắc cho các cây

 Học (learning) các mô hình khối quan trọng:

 Các khối khác nhau trong một trang không có tầm quan trọng ngang nhau

 Người thiết kế web mong muốn tổ chức nội dung trang web nhằm để:

- Làm nỗi bậc lên đối với những đối tượng quan trọng

- Giảm nhẹ đi những phần không quan trọng vời những đặc tính, ví dụ: vị trí,kích thước, màu sắc, từ ngữ, hình ảnh, các liên kết…

Trang 26

 Một mô hình khối quan trọng là một chức năng ánh xạ từ những đặc tínhđến tầm quan trọng của mỗi khối:

- Các khối được phân loại thành nhiều mức độ quan trọng khác nhau

- Một phương pháp máy học được sử dụng để học mô hình này

Hình 18 Phân tích và xếp hạng khối

 Sự phân đoạn các khối thực hiện bằng việc sử dụng một phương pháp trựcquan cơ bản (xem hình 17)

 Máy học và người dùng học:

 Sự kiến thiết nên đặc tính:

- Không gian các đặc tính: Khối trung tâm X (BlockCenterX), Khối trung tâm

Y (BlockCenterY), Khối ngang hình chữ nhật (BlockRectWidth), khối cao

Trang 27

 Học các phương thức: SVM và các mạng nơron SVM thực hiện tốt hơn.

 Sự học hỏi của người dùng cũng được thực hiện bằng việc xem xét xem cónhiều sự đồng tình cho là một khối là quan trọng

 Dùng các phân tích về liên kết để xếp hạng các khối:

 Cho một trang web p từ một tập liên kết S,

- Trước tiên xây dựng các đồ thị tương tự nhau đối với cấu trúc liên kết này.Với mỗi node của đồ thị là một thành phần cơ sở của trang web này

- Sau đó thuật toán thuật toán xếp hạng trang để xếp hạng các thành phần cơsở

- Cuối cùng, kết hợp các thành phần này để hình thành nên các khối hình chữnhật (xem hình 18)

 Ứng dụng: tìm kiếm các trang về thiết bị di động (Mobile)

 Xây dựng đồ thị và biểu diễn việc xếp hạng:

 Người dùng nhập vào một trang web từ một tập càc liên kết S với một vănbản làm móc:

- Mỗi thành phần cơ sở trong trang web này được liên kết đến tập S với mộttrọng số, trọng số này được tính dựa vào kiểu, kích thước, vị trí, hình dạng vànội dung giống nhau đối với đoạn văn bản mục tiêu của tập S

 Mối quan hệ giữa hai thành phân cơ sở cũng được biểu diễn với các cạnhđược đánh trọng số:

- Trọng số này là một chức năng của các thuộc tính của hai thành phần, như làcác từ tương tự nhau và đối tượng gần nhau như nhau của các thành phầntrong trang web

 Xếp hạng của các thành phần (PageRank:xếp hạng trang): dựa vào côngthức sau:

1 t

t ( i ) ( 1 d ) d PR ( j ) / C ( i ) PR

 Dò tìm các đoạn (hay còn gọi là các khối):

 Cách dò tìm các đoạn cũng sử dụng phương pháp shinling (viên đá cuội)

Trang 28

 Sự phân đoạn các khối là công việc khá tỉ mỉ, dựa vào cây AF(Augmented Fragment Tree: cây phân đoạn tăng dần), đó là một cây DOMdầy đặc với:

- Các thẻ định dạng văn bản đã loại bỏ và

- Các giá trị được sàn lọc(mã hóa) đính kèm theo các node của cây

 Phương thức này dò tìm ra các đoạn dùng chung và sự cá nhân hóa hoàntòan dựa vào các đoạn

 Việc dò tìm các đoạn dùng chung:

 Cho một tập các cây AF, ta sử dụng các phương pháp sau để dò tìm cácđoạn dùng chung trong một tập các trang web

- Kích thước đoạn nhỏ nhất (MinFragSize): tham số này xác định rõ kích thướcnhỏ nhất của một đoạn đã dò tìm

- Nhân tố dùng chung (ShareFactor): nhân tố này cho biết số lượng nhỏ nhấtcủa các trang cần dùng chung một đoạn nhằm để nó được trình bày một đoạn

- Nhân tố phù hợp nhỏ nhất (MinMatchFactor): đối số này xác định phần giaonhau nhỏ nhất giữa các shingle trong cây con và được xem như là đoạn đượcdùng chung

 Các ứng dụng của sự phân đoạn trang web:

 Việc loại bỏ sự hỗn tạp hoặc xác định các khối nội dung chính của mộttrang, ví dụ: đối với thông tin phản hồi và khai thác dữ liệu

 Đơn vị cơ sở của thông tin hoặc tìm kiếm khối cơ sở trên web

 Tìm kiếm(browsing) các thiết bị di động nhỏ

 Trích lọc thông tin chẳng hạn như để thảo luận sẽ dễ dàng hơn

2.2 Web structure mining

Đối với các công cụ tìm kiếm trước kia thì việc tìm kiếm dữ liệu sẽ chủ yếu dựa vào

từ khoá của chủ đề cần tìm Ví dụ khi người tìm nhập vào chữ “web mining” thì dữliệu trả về sẽ chứa từ “web” hoặc từ “mining” hoặc cả hai Về sau có sự phát triểnlên một bước là các công cụ tìm kiếm sẽ không chỉ dựa vào từ khoá mà còn suy ra

Trang 29

các từ đồng nghĩa, nhiều nghĩa hay các chữ âm tắc của từ khoá đó Tuy nhiên, việctìm kiếm chỉ đơn thuần là thông tin dữ liệu của các trang Web được sử dụng.

Còn đối với các bộ máy tìm kiếm ngày nay thì có xuất hiện thêm 1 khái niệm mới

đó là LINK STRUCTURE Khái niệm này đóng một vai trò hết sức quan trọngtrong việc tìm kiếm sao cho nhanh nhất, hiệu quả nhất

2.2.1 Cấu trúc mạng Internet

Bên cạnh việc cung cấp các thông tin thông thường chủ yếu từ các tài liệu Webdạng văn bản thì trang Web còn cho chúng ta biết cái cách mà một trang Web nàykết nối đến một trang Web khác nhờ các siêu liên kết Vì thế, ta có thể xem mạngthông tin như là 1 đồ thị mà trong đó có các nút là các trang dữ liệu và được liên kếtlại với nhau bởi các siêu liên kết

Đã có rất nhiều nhà khoa học đã cố gắng tìm hiểu phân tích các đặc điểm của dạng

đồ thị này Một trong những nghiên cứu đáng giá đó là của Boder et al (2000), sửdụng dữ liệu từ một Altavista với 203 triệu địa chỉ và 1466 liên kết và lưu trữ 1 cấutrúc đồ thị nền trong 1 máy chủ liên kết, đã hỗ trợ việc liên kết các tài liệu một cách

có hiệu quả mà nhờ đó ta có thể tiến hành liên kết các trang Web lại với nhau mộtcách nhanh chóng Đồ thị này chiếm 9,5GB bộ nhớ và việc tìm kiếm có thể đạt 100triệu trang chỉ trong vòng 4 phút

Kết quả chính của cuộc nghiên cứu này là việc phân tích cấu trúc đồ thị của mạngthông tin Bao gồm phần lõi trung tâm SCC với 56 triệu trang và 2 phần ở hai bênvới 44 triệu trang mỗi phần Trong 2 phần này, một phần bao gồm các trang Webhướng liên kết đến SCC (the IN-set) và phần còn lại là các trang được hướng liênkết từ SCC ( the OUT-set) Giữa các trang IN-set, OUT-set có các đường liên kếtqua lại mà không cần qua SCC Bên cạnh đó thì có rất nhiều các “tendril” hướngcác liên kết từ các trang IN-set đi ra ngoài và hướng các liên kết từ bên ngoài vàocác trang OUT-set Cuối cùng là các thành phần nhỏ hơn nằm bên ngoài không cóliên hệ gì đến cấu trúc này Lưu ý là các hướng liên kết này chỉ mang tính chất mộtchiều

Trang 30

Hình 19 Cấu trúc mạng Internet

Dựa vào những phân tích về cấu trúc này Broder et al (2000) đã tính được rằng đạilượng diameter (chiều dài tối đa của những đường dẫn ngắn nhất giữa 2 trang đangtồn tại bất kỳ) của SCC lớn hơn 27, của cả đồ thị là hơn 500 và trung bình là khoảng

Ngày đăng: 11/04/2015, 23:32

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] – Athony Scime, Web Mining: Applications and Techniques,Idea Group Inc (IGI), 2005 Khác
[2] – Tu Bao Ho, David Cheung, Huan Liu (Eds.), Advances in Knowledge Discovery and Data Mining, PAKDD 2005 Khác
[3] – Bettina Berendt, Andreas Hotho, Dunja Mladenic, Maarten van Someren, Myra Spiliopoulou, Gerd Stumme (Eds.), Web Mining: From Web to Semantic Web, Springer, 2003 Khác
[4] – Krzystof J. Cios, Lukasz A, Kurgan, Trends in Data Mining and Knowledge Discovery, 2005 Khác
[5] – Yahiko Kambayashi, Mukesh Mohania, Data Warehousing and Knowledge Discovery Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w