v Những đặc điểm tiềm năng:
o Body: Phần thõn o Meta: Phần biến đổi o Title: Phần tiờu đề
o Snippet: Đoạn trớch, là những dũng cú nghĩa gửi kốm theo địa chỉ URL mà nú sẽ xuất hiện trong cỏc kết quả tỡm kiếm.
o Anchor Window: Cửa sổ đỏnh dấu, là những ký tự đỏnh dấu của một đường siờu liờn kết đến cỏc trang web khỏc trong trang web nguồn.
o MT: Sự kết hợp của phần Meta và Title o BMT: Sự kết hợp của Body, Meta và Ttile
Tỷ lệ cỏc từ sử dụng trong một trang web sử dụng thẻ HTML như bảng 4.1. [6][9][19]
Bảng 4.1. Tỷ lệ từ sử dụng trong một trang web
Sự phõn loại biểu diễn cỏc biểu thị đặc trưng của cỏc trang web được biểu diễn như bảng 4.2.
Bảng 4.2. Phõn loại giỏ trị biểu thị trang Web 4.2.2. Phộp đo tương tự
v Kiểu vectơ khoảng cỏch chứa trong phộp đo tương tự bao gồm:
o IR: Cỏc hệ thống luụn chấp nhận cỏc nhúm từ chỉ mục để xử lý cỏc truy vấn.
o Từ chỉ mục: Một từ khúa hay một nhúm từ được lựa chọn hoặc bất kỳ từ nào.
o Phần xen kẽ cú thể được sử dụng để kết nối
o Một tệp tin đảo ngược được xõy dựng cho nhúm từ chỉ mục. v Những khỏi niệm cơ bản của kiểu vectơ khoảng cỏch
o Ki là một thuật ngữ chỉ mục o Dj là một tài liệu
o t là số thuật ngữ chỉ mục
o K = (k1, k2, …, kt) là một tập của tất cả cỏc từ chỉ mục o wij >= 0 là một trọng số kết hợp với (ki,dj)
o wij = 0 chỉ ra rằng thuật ngữ đú khụng phụ thuộc vào tài liệu o vec(dj) = (w1j, w2j, …, wtj)
o vec(dj) = (w1j, w2j, …, wtj) là trọng số vectơ kết hợp với tài liệu dj o gi(vec(dj)) = wij là một hàm mà nú trả về trọng số kết hợp với
cặp(ki,dj)
v Mụ hỡnh của vectơ khoảng cỏch
Hỡnh 4.3. Mụ hỡnh vectơ khoảng cỏch
v Cụng thức tớnh được đưa ra như sau:
o Sim(dk,dj) = cos(Θ) = [vec(dk) • vec(dj)] / |dk| * |dj| = [Σ wik * wij] / |dk| * |dj|
o Từ wij > 0 và wik > 0, ta cú 0 <= sim(dk,dj) <=1 v Vớ dụ về vectơ khoảng cỏch
Hỡnh 4.4. Vớ dụ về vectơ khoảng cỏch
o Sim(q,dj) = [Σ wij * wiq] / |dj| * |q|
o Làm thế nào để tớnh được trọng số wij và wiq ?
o Một trọng số tốt phải thỏa món được một số điều kiện sau - Xỏc định được nội dung của Intra-Documents (Tương tự)
Thành phần tf, thuật ngữ về tần suất bờn trong tài liệu - Xỏc định được phần cắt của Inter-Documents (Phi tương tự)
Thành phần idf, tần suất đảo tài liệu - wij = tf(i,j) * idf(i)
Vớ dụ:
- Một thu thập cú 10,000 tài liệu
- Thuật ngữ A xuất hiện 20 lần trong những tài liệu cụ thể
- Khả năng xuất hiện lớn nhất của một thuật ngữ trong tài liệu là 50
- Thuật ngữ A xuất hiện trong 2000 tài liệu
• f(i,j) = freq(i,j) / max(freq(l,j)) = 20/50 = 0.4
• wij = f(i,j) * log(N/ni) = 0.4 * 2.32 = 0.93
4.3. PHÂN CỤM THEO CẤU TRÚC WEB
4.3.1. Đặc điểm và phộp đo tương tự
Trang web chứa đựng khụng chỉ một trang duy nhất mà cũn cú những siờu liờn kết trỏ tới cỏc trang web khỏc. Những siờu liờn kết đú chứa đựng một số lượng khổng lồ những lời chỳ thớch. Một siờu liờn kết trỏ tới một trang web khỏc cú thể được xem xột như là lời chứng thực của tỏc giả trang web [9][19].
ỉ Phộp phõn tớch liờn kết web được sử dụng cho những mục đớch:
- Sắp thứ tự tài liệu phự hợp với truy vấn của người sử dụng, đú là sự xếp hạng.
- Quyết định web nào được đưa vào lựa chọn. - Phõn trang
- Tỡm kiếm những trang liờn quan. - Tỡm kiếm những bản sao của web. ỉ Web được xem như là đồ thị:
- Liờn kết đồ thị: Mỗi nỳt là một trang, cú hướng từ u đến v nếu cú một siờu liờn kết từ trang web u sang trang web v.
- Đồ thị đồng trớch dẫn: Mỗi nỳt cho một trang, khụng cú hướng từ u đến v nếu cú một trang thứ ba (w) cú liờn kết đến cả u và v.
- Giả định: Một liờn kết từ trang A đến trang B được thụng bỏo ở trang B bởi trang A. Nếu A và B được kết nối bởi một đường liờn kết thỡ rất cú khả năng hai trang web này đều cú những nội dung giống nhau.
- Khỏm phỏ ra một nhúm những trang Web giống nhau để phõn cụm. Để phõn cụm, chỳng ta phải chỉ ra sự giống nhau của hai nỳt theo một tiờu chuẩn nào đú.
- Tiờu chuẩn I: Đối với mỗi trang web A và B. Ta núi A và B là quan hệ với nhau khi cú một siờu liờn kết từ A đến B hoặc từ B đến A.
Hỡnh 4.5. Quan hệ của hai trang web
- Tiờu chuẩn II:
Đồng trớch dẫn: Sự tương tự giữa A và B được đo bởi số trang dẫn tới cả A và B.
Hỡnh 4.6. Sốđo độ tương tự của hai trang web
Tương tự chỉ mục: Sự tương tự giữa A và B được đo bởi số trang mà A và B cựng trỏ tới.
4.3.2. Khỏm phỏ cộng đồng
ỉ Cộng đồnglà gỡ ?
Một cộng đồng trờn web là một nhúm những trang web cú chia sẻ với nhau những liờn quan phổ biến.
Vớ dụ:
o Nhúm trang web A núi về nhạc POC. o Nhúm trang web B núi về khai phỏ dữ liệu.
Những đặc điểm chớnh:
o Những trang trong cựng một cộng đồng sẽ giống nhau về nội dung. o Những trang trong một cộng đồng sẽ khỏc nội dung với những trang từ
cộng đồng khỏc.
o Những trang giống nhau sẽ thành một cụm.
ỉ Cỏc cộng đồng mỏy tớnh được minh họa như hỡnh 4.8.
Hỡnh 4.8. Cỏc cộng đồng mỏy tớnh
Cỏc cộng đồng được xỏc định rừ ràng: Tất cả mọi người đều được biết. Vớ dụ như cỏc nguồn tài nguyờn được liệt kờ bởi Yahoo.
Cỏc cộng đồng được xỏc định hoàn toàn: Chỳng là những cộng đồng bất ngờ xuất hiện hoặc ẩn với hầu hết người sử dụng.
Hỡnh 4.9. minh họa một cộng đồng những trang web liờn quan đến ca sỹ.
Hỡnh 4.9. Cộng đồng web liờn quan đến ca sỹ
ỉ Cỏc kiểu cộng đồng khỏc nhau:
Những cộng đồng hiện thỡ rất dễ nhận dạng. Vớ dụ như Yahoo!, InfoSeek, Clever System.
Để trớch dẫn ra được những cộng đồng ẩn, chỳng ta cần phõn tớch web đồ thị một cỏch khỏch quan.
Trong nghiờn cứu, mọi người ngày càng quan tõm đến cỏc cộng đồng ẩn.
ỉ Phương phỏp phõn cụm:
o Cỏc phương phỏp phõn cụm dựa trờn đồng trớch dẫn phõn tớch.
o Cỏc phương phỏp phõn cụm nhận được từ HITS (Kleinberg), sử dụng ma trận đồng trớch dẫn.
o Phương phỏp phõn cụm CT
Trung tõm (Hub): Trang web liờn kết để thu lượm những miền nổi bật trong những đề tài phổ biến.
Ủy quyền (Authority): Cỏc trang web liờn kết đến một tập hợp cỏc trang được ủy quyền trờn những đề tài được quảng bỏ, những trang web được chỉđến bởi Hubs.
Những liờn kết tăng cường: Một ủy quyền tốt là một trang mà nú được trỏ đến bởi nhiều trung tõm tốt. Bờn cạch đú, một trung tõm tốt là một trang mà nú trỏ tới nhiều ủy quyền tốt.
Hỡnh 4.10. Trung tõm và Ủy quyền Cỏc bước của phương phỏp HITS
- Bước 2: Tớnh toỏn trọng số
Trọng sốủy quyền (Authority Weight) được tớnh bởi cụng thức
Trọng số trung tõm (Hub Weight) được tớnh bởi cụng thức
Ma trận kề
A(i,j)=1 nếu trang web i trỏ tới trang web j. x,y được biểu diễn bởi cụng thức
Kết quả cuối cựng của HITS
v Phương phỏp CT
Phương phỏp HITS cú chi phớ cao, cú một phương phỏp khỏc đơn giản hơn đú là CT (Communities Trawling ). Phương phỏp này đó thực hiện trờn đồ thị của 200 triệu trang web, nú làm việc rất tốt.
í tưởng chớnh của phương phỏp CT
- Định nghĩa cộng đồng
- Đồ thị con trự mật phõn đụi trực tiếp
+ Đồ thị phõn đụi: Cỏc nỳt được phõn chia vào 2 tập F, C.
+ Cỏc cạnh trực tiếp trong đồ thị là cỏc cạnh được nối trực tiếp từ một tập u trong F đến một tập v trong C. + Gọi là trự mật nếu như rất nhiều cạnh tạo bởi F và C được hiện diện. - Mọi cộng đồng đều cú một nhõn với một điểm i, j xỏc định. Hỡnh 4.12. Đồ thị con trự mật phõn đụi trực tiếp - Cỏc nhõn phõn đụi
+ Một đồ thị con được gọi là phõn đụi hoàn toàn nếu cú ớt nhất một đỉnh i từ tập F và một đỉnh j từ tập C.
+ i, j là cỏc tham số điều hướng + A(i, j) là nhõn phõn đụi
Hỡnh 4.13. A(i=3,j=3) nhõn phõn đụi
- Một nhõn phõn đụi được xỏc định trong một cộng đồng.
- Dẫn ra tất cả cỏc cộng đồng là liệt kờ ra tất cả cỏc nhõn phõn đụi trờn web.
- Tỏc giả đó đề xuất ra một giải thuật cú hiệu quả để liệt kờ ra tất cả cỏc nhõn phõn đụi. í tưởng chớnh của nú là lặp lại quỏ trỡnh loại trừ (elimination- generation pruning)
ỉ Phõn cụm theo nội dung-cấu trỳc web
v Phõn cụm theo đường liờn kết nội dung
Theo CLC, mỗi trang web q trong tập dữ liệu D được biểu diễn bởi 3 vectơ (qOut, qIn, qKword) với M, N và L lần lượt là cỏc chiều của vectơ.
Thành phần thứ i của vectơ qOut (qIn) chỉ ra rằng q cú đường liờn kết ra tương ứng ở thành phần thứ i trong M đường liờn kết ra. Và khi đú thành phần đú sẽ là 1, ngược lại là 0.
Thành phần thứ k của vectơ qKword chỉ ra tần số xuất hiện tương ứng của k thành phần của chiều L trong trang web q.
Độ tương tự của hai trang web Q và R là sự kết hợp tuyến tớnh của 3 thành phần.
o poutS(Qout,Rout)+ pinS(Qin,Rin)+ ptermS(Qterm,Rterm) o pout +pin +pterm =1
S(Qout,Rout) được định nghĩa bởi cosin của hai vectơ liờn kết ra ngoài. v Sựđiều chỉnh độđo tương tự
Độ đo tương tự được điều chỉnh bởi sự biến đổi cỏc thành phần trong cụng thức thứ hai. Nú cú thể làm ảnh hưởng đến cỏc liờn kết ngoài hoặc liờn kết trong của quỏ trỡnh phõn cụm.
Kết quả của những giới hạn cơ bản trong phõn cụm cú thể kộm đi và luụn kốm theo nhiều cụm mới phỏt sinh. Điều này cú thể dẫn đến khỏc nhau về tổng thể ngữ nghĩa của cụm. Vớ dụ như với chủ đề về “bỏo đốm”, lại sinh ra hai cụm về “xe hơi” và “động vật” rất khỏc nhau về mặt ngữ nghĩa.
Do vậy, những giới hạn cơ bản trong phõn cụm cú thể chỉ tỏch ra được những trang cú nhiễu trong những cụm cú nghĩa được sinh ra và dẫn tới là sẽ sai đối với những trang thuần nhất (khụng cú nhiễu). Vớ dụ như trang về “đua xe” và “cõu lạc bộ lỏi xe” lại cú lẫn những trang về kiểu xe.
Những lý do chớnh của việc kộm về sự thuần nhất của cụm sinh ra bởi những giới hạn cơ bản là:
- Những trang nhiễu cú bao gồm những cụm bờn trong được thay thế từ những trang nhiễu cú chia sẻ một số thành phần khụng quan trọng với những trang khỏc.
- Trang mà trờn đú cú những chủ đề thuần nhất khỏc nhau (nhưng giống nhau về chủ đề chung) bị trộn lẫn.
Siờu liờn kết trỡnh bày quan niệm của tỏc giả với mối liờn hệ giữa cỏc trang web.
Phõn cụm dựa trờn những siờu liờn kết biểu thị sự liờn kết giữa cỏc trang web.
Tuy nhiờn, chỳng ta cú thể núi rằng cụm sinh ra bởi phõn cụm dựa trờn liờn kết là khả quan.
Vấn đề của phõn cụm dựa trờn liờn kết là một số trang giống nhau nhưng cú thể khụng cú đủ đồng trớch dẫn đến những nhúm giống nhau. Do đú, việc gọi lại được những trang này là thấp.
“T”, “L” và “CLC” biểu thị những thuật ngữ dựa trờn (với pout , pin và
pKword) là (0,0,1), liờn kết dựa trờn (với pout , pin và pKword) là (0.5, 0.5, 0) và nội dung liờn kết kộp dựa trờn (với pout , pin và pKword) là (0.2, 0.3, 0.5) phõn cụm tiếp cận cú thứ tự.
Cỏc tham số là: ngưỡng tương tự, thành phần trọng số.
Nhón cho mỗi cụm được xỏc định tự động bởi trọng tõm cỏc thành phần vectơ của mỗi cụm [8][19].
Vớ dụ: Kết quả phõn cụm của chủ đề “Salsa”
Bảng 4.3. Phõn cụm của chủđề Salsa
4.4. PHÂN CỤM THEO SỬ DỤNG WEB
KPDL theo sử dụng web (web usage mining) là tương đương với KPDL theo truy cập web (web log mining) [9][20].
Cỏc kỹ thuật KPDL nhận ra những mẫu sử dụng thụng thường liờn quan từ những dữ liệu thứ yếu truyền tải từ những người sử dụng khi lướt
web. Nú bao gồm (dữ liệu web truy cập, luồng dữ liệu được tải khi kớch chuột, dữ liệu trong bộ nhớ đệm, truy vấn người sử dụng và bất kỳ kết quả nào của sự tương tỏc giữa người sử dụng với web).
Cỏc ứng dụng
- Mục tiờu của những khỏch hàng tiềm năng trong thương mại điện tử. - Nõng cao chất lượng và sự truyền tải của cỏc dịch vụ thụng tin Internet
đến người sử dụng cuối.
- Cải tiến hiệu suất hệ thống của cỏc mỏy chủ web. - Xỏc định những quảng cỏo tiềm năng.
- Thuận tiện cho mục tiờu cỏ nhõn húa/ những miền tương ứng. - Cải tiến những thiết kế miền.
- Phỏt hiện những gian lận/ xõm nhập trỏi phộp. - Dự đoỏn những tỏc động của người sử dụng.
Một vớ dụ về nguồn dữ liệu tiềm năng như hỡnh 4.14.
Hỡnh 4.14. Nguồn dữ liệu tiềm năng
Cỏc ứng dụng của phõn cụm theo truy cập web
- Cỏc luật liờn hệ: Tỡm ra những trang web mà nú thường được xem cựng nhau.
- Phõn cụm: Cụm người sử dụng dựa trờn mẫu duyệt, cụm web dựa trờn nội dung.
Khai phỏ dữ liệu theo sử dụng web
- Người sử dụng (User): Nguyờn tắc chung là sử dụng mỏy trạm tương tỏc để lấy và gửi cỏc tài nguyờn.
- Xem trang (Page view): Cú thể nhỡn trực tiếp trang web từ một mụi trường mỏy trạm cụ thể tại một phiờn làm việc được chỉ rừ.
- Chọn luồng dữ liệu (Click Stream): Một chuỗi thứ tự cỏc trang xem được yờu cầu.
- Phiờn người sử dụng (User Session): Một tập phõn định những kớch chọn (kớch chọn luồng) của người sử dụng từ vượt qua từ một hoặc nhiều mỏy chủ web.
- Phiờn của mỏy chủ (Server Session): Một tập kớch chọn của người sử dụng tới một mỏy chủ web đơn lẻ trong suốt phiờn làm việc của người sử dụng.
- Hồi (Episode): Một tập con của những kớch chọn người sử dụng cú liờn quan xảy ra trong một phiờn của người sử dụng.
WUM-Quỏ trỡnh tiền xử lý
- Làm sạch dữ liệu: Loại bỏ những truy cập vào mà nú khụng cần thiết cho quỏ trỡnh KPDL.
- Tớch hợp dữ liệu: Đồng bộ húa dữ liệu từ cỏc truy cập ở nhiều mỏy chủ. - Xỏc định người sử dụng: Kết hợp cỏc trang tham chiếu với những người sử dụng khỏc nhau.
- Xỏc định phiờn/hồi: Nhúm cỏc trang người sử dụng tham chiếu trong cỏc phiờn sử dụng.
- Hoàn thiện đường dẫn: Điền vào những tham chiếu trang bị mất do trỡnh duyệt hoặc bộ nhớđệm của Proxy.
Hỡnh 4.15. Phiờn sử dụng Heristics
Hỡnh 4.16. Hoàn thành đường dẫn
- Khỏm phỏ ra sự tương quan giữa những trang mà hầu hết được tham chiếu cựng nhau trong một phiờn làm việc cụ thể.
- Cung cấp những thụng tin:
+ Tập hợp cỏc trang được truy cập thường xuyờn cựng nhau bởi người dựng dung web là gỡ ?
+ Trang nào sẽ được tỡm tiếp ?
+ Đường dẫn thường xuyờn được truy cập bởi người sử dụng web là gỡ ? - Luật kết hợp:
- Vớ dụ:
50% người khỏch truy cập vào đường dẫn URLs /infor-f.html and labo/infos.html thỡ cũng sẽ viếng thăm vào trang situation.html