Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
791,67 KB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
HOÀNG VŨ
PHÂN CỤMNGƯỜISỬDỤNGWEB
DỰA TRÊNMẪUTRUYCẬP
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
Người hướng dẫn khoa học: PGS. TS Trần Đình Quế
TÓM TẮT LUẬN VĂN THẠC SỸ
HÀ NỘI – 2012
- 1 -
MỞ ĐẦU
Khai phá Web là việc sửdụng các kỹ thuật khai phá dữ liệu để
khám phá và trích rút những thông tin hữu ích từ các tài liệu, các
dịch vụ và cấu trúc Web. Nói cách khác, khai phá Web là việc thăm
dò những thông tin quan trọng và những mẫu tiềm năng từ nội dung
Web, từ thông tin truycập Web, từ liên kết trang,… bằng việc sử
dụng các kỹ thuật khai phá dữ liệu, nó có thể giúp con người rút ra
những tri thức, cải tiến việc thiết kế các Web site và phát triển
thương mại điện tử tốt hơn[12].
Khai phá Web được phân loại thành 3 lĩnh vực chính [12]: Khai
phá nội dungWeb (Web Content Mining); Khai phá cấu trúc Web
(Web Structure Mining); Khai phá sửdụngWeb (Web Usage
Mining).
Khai phá sửdụngWeb là một trong những lĩnh vực nghiên cứu
chính trong khai phá Web tập trung vào việc xem xét ngườisửdụng
Web và tương tác của họ với các trang Web. Động lực của khai phá
sử dụngWeb là tìm những mô hình truycập của ngườisửdụng từ
khối lượng lớn dữ liệu đăng nhập Web, chẳng hạn như: đường dẫn
truy cập thường xuyên, tần xuất truycập nhóm trang và phân nhóm
người dùng. Thông qua khai phá sửdụng Web, thông tin đăng nhập
máy chủ, đăng ký thông tin và thông tin liên quan khác của người
- 2 -
truy cập sẽ cung cấp nền tảng cho việc ra quyết định đối với việc tổ
chức không gian Web, tối ưu Web site [9][11].
Phân cụmngườisửdụngWeb là việc tạo các nhóm ngườisử
dụng có các mẫutruycậpWeb tương tự nhau, cung cấp tri thức cho
việc cá nhân hóa các dịch vụ Web [10].
Việc nghiên cứu các mô hình phâncụm và áp dụng các phương
pháp phâncụmngườidùngWeb trong khai phá sửdụngWeb là một
xu thế tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn.
Luận văn tập trung nghiên cứu về ứng dụng của kỹ thuật phân
cụm ngườisửdụngWebdựatrênmẫutruycập Web. Dựatrên
những tiêu chuẩn khác nhau, ngườidùngWeb có thể được phâncụm
và tri thức hữu ích có thể được lấy ra từ các mẫutruycập của họ. Nội
dung bao gồm:
Tìm hiểu về bài toán phâncụmngườisửdụngWebdựatrên
mẫu truycập và các ứng dụng.
Nghiên cứu, cài đặt các thuật toán sửdụng trong quá trình tiền
xử lý dữ liệu, bao gồm các giải thuật trong các pha:
- Làm sạch dữ liệu
- Xác định ngườisửdụng
- Xác định phiên của ngườisửdụng
- Xác định phiên giao dịch với đường dẫn đầy đủ
- Biểu diễn dữ liệu theo mô hình không gian vector
- 3 -
Tiến hành thực nghiệm với nguồn dữ liệu thực tế: Từ nguồn dữ
liệu thực tế, sau các pha tiền xử lý, dữ liệu được biểu diễn theo
mô hình không gian vector, phù hợp với định dạng mà bộ công
cụ WEKA chấp nhận, tiến hành thực nghiệm phân cụm.
Dựatrên các kết quả thử nghiệm, phân tích và đánh giá, hỗ trợ
đưa ra khuyến cáo giúp cho việc phát triển các chiến lược tiếp
cận ngườisửdụng phù hợp, xây dựng và tổ chức một cách tốt
nhất không gian Web.
Luận văn được chia thành 3 chương chính như sau:
Chương 1 – Tổng quan về khai phá Web: Chương này trình
bày tổng quan về lĩnh vực khai phá Web, những vấn đề trong khai
phá sửdụngWeb cũng như các ứng dụng của bài toán. Giới thiệu
các đặc trưng và một số kỹ thuật phân cụm, một số phương pháp,
thuật toán tiêu biểu.
Chương 2 – PhâncụmngườisửdụngWebdựatrênmẫu
truy cập: Chương này giới thiệu về phâncụmngườisửdụng Web,
mẫu truy cập, phâncụmngườisửdụngWebdựatrênmẫutruy cập.
Chương này cũng đi sâu trình bày về kỹ thuật và các thuật toán liên
qua đến quá trình tiền xử lý dữ liệu và chuẩn bị dữ liệu để thực
nghiệm phân cụm.
Chương 3 – Cài đặt và thử nghiệm: Chương này sẽ mô tả chi
tiết về các công cụ, dữ liệu, phương pháp, kỹ thuật lựa chọn thực
nghiệm và toàn bộ quá trình tiến hành thực nghiệm. Kết quả thực
nghiệm sẽ được phân tích, so sánh và đánh giá.
- 4 -
- 5 -
Chương 1. TỔNG QUAN VỀ KHAI PHÁ WEB
1.1. Khai phá Web
Khai phá Web là việc sửdụng các kỹ thuật khai phá dữ liệu để
tự động hóa quá trình khám phá và trích rút những thông tin hữu ích
từ các tài liệu, các dịch vụ và cấu trúc Web.
Có thể phân các hướng nghiên cứu khai phá Web thành 3 lĩnh
vực chính, bao gồm:
Khai phá nội dungWeb (Web Content Mining): Khai phá nội
dung web là các quá trình xử lý để lấy ra các tri thức từ nội
dung các trang văn bản hoặc mô tả của chúng.
Khai phá cấu trúc Web (Web Structure Mining): Nhờ vào
các kết nối giữa các văn bản siêu liên kết, World Wide Web có
thể chứa đựng nhiều thông tin hơn nhiều so với các thông tin ở
bên trong văn bản. Nội dung của khai phá cấu trúc Web là các
quá trình xử lý nhằm rút ra các tri thức từ cách tổ chức và liên
kết giữa các tham chiếu của các trang Web.
Khai phá sửdụngWeb (Web Usage Mining): Phân tích các
nhật ký truycập (Web log) để khám phá ra các mẫutruycập
của ngườidùngtruycập vào trang Web.
1.2. Khai phá sửdụngWeb
Khai phá sửdụngWeb là việc xử lý để lấy ra các thông tin hữu
ích trong các log file truycậpWeb đã được ghi lại và tích luỹ về các
tương tác ngườidùng mỗi khi máy chủ nhận được yêu cầu truy cập.
- 6 -
Việc phân tích các log truycậpWeb của các Web site khác nhau sẽ
dự đoán các tương tác của ngườidùng khi họ tương tác với Web
cũng như tìm hiểu cấu trúc của Web.
Thông thường các máy chủ Web (Web Server) ghi lại và tích
lũy các dữ liệu về các tương tác của ngườidùng mỗi khi nó nhận
được một yêu cầu truy cập. Có hai xu hướng chính trong khai phá sử
dụng Web:
Theo dõi MẫutruycậpWeb (General Access Pattern
Tracking): phân tích các hồ sơ Web để biết được các mẫu và
các xu hướng truy cập.
Theo dõi Sửdụng cá nhân (Customizied Usage Tracking):
phân tích các xu hướng cá nhân. Mục đích là để chuyên biệt
hóa các Web site cho các lớp đối tượng người dùng. Các thông
tin được hiển thị, độ sâu của cấu trúc site và định dạng của các
tài nguyên, tất cả đều có thể chuyên biệt hóa một cách tự động
cho mỗi ngườidùng theo thời gian dựatrên các mẫutruycập
của họ.
Mục tiêu của khai phá việc sửdụngWeb là thu thập, mô hình
hóa và phân tích các mẫu hành vi của người dùng. Công việc này bao
gồm các giai đoạn được trình bày chi tiết lần lượt theo các đầu mục:
1.1.2.1. Thu thập dữ liệu
1.1.2.2. Tiền xử lý dữ liệu
1.1.2.3. Khám phá mẫu
1.1.2.4. Phân tích mẫu
- 7 -
Trong khai phá sửdụng Web, người ta thường sửdụng các kỹ
thuật:
Luật kết hợp: để tìm ra những trang Web thường được truy
cập cùng nhau của người dùng, những lựa chọn cùng nhau của
người dùng.
Kỹ thuật phân cụm: Phâncụmngườidùngdựatrên các mẫu
duyệt để tìm ra sự liên quan giữa những ngườidùngWeb và
các hành vi của họ.
Có rất nhiều định nghĩa khác nhau về kỹ thuật phân cụm, nhưng
về bản chất ta có thể hiểu phâncụm là các qui trình tìm cách nhóm
các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng
trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm
thì không tương tự (dissimilar) nhau. Mục đích của phâncụm là tìm
ra bản chất bên trong các nhóm của dữ liệu.
1.3. Các kỹ thuật phâncụm
Các kỹ thuật phâncụm dữ liệu được chia làm một số loại:
Phương pháp dựa vào phân hoạch ( Partition Based Data Clustering
Method), phương pháp phâncấp (Hierarchical Based Data Clustering
Method), phương pháp dựatrên mật độ (Density Based Data
Clustering Method), phương pháp dựatrên lưới (Grid Based Data
Clustering Method).
- 8 -
Các đặc trưng
Phân cụm dữ liệu là kỹ thuật tổ chức dữ liệu bằng cách nhóm
các đối tượng có độ tương đồng cao để khám phá cấu trúc của dữ
liệu. Mục tiêu của phương pháp phâncụm dữ liệu chỉ đơn giản là tìm
kiếm cách tổ chức hợp lệ và tiện lợi của dữ liệu. Các thuật toán phân
cụm hướng tới việc tìm kiếm cấu trúc trong dữ liệu. Phương pháp
này còn được gọi là “học không có giám sát” (Unsupervised
Learning) trong lĩnh vực nhận dạng mẫu (Pattern Recognition) nói
riêng và trong trí tuệ nhân tạo (Artificial Intelligence) nói chung [6].
Một cụm sẽ bao gồm một tập các đối tượng có độ tương đồng
cao. Hiện nay, có một số định nghĩa về cụm đang được phát biểu như
sau [6]:
1. Một cụm là một tập các thực thể (các đối tượng) giống nhau,
và các thực thể ở các cụm khác nhau thì không giống nhau.
2. Một cụm là sự kết hợp của các điểm trong không gian thỏa
mãn điều kiền là khoảng cách giữa hai điểm bất kỳ trong một
cụm bé hơn khoảng cách giữa một điểm bất kỳ trong cụm đó
với một điểm bất kỳ không không thuộc cụm.
3. Các cụm có thể được mô tả như là các vùng chứa các đối
tượng có mật độ cao trong không gian nhiều chiều, được tách
với các vùng chứa các đối tượng có mật độ thấp hơn.
Một tập các đối tượng bao gồm dữ liệu thô cho quá trình phân
cụm và có thể được biểu diễn dưới hai dạng chuẩn [6]: Ma trận dữ
liệu, và ma trận không tương đồng.
- 9 -
Các hàm khoảng cách
Có rất nhiều hàm được dùng để biểu diễn độ tương đồng giữa
các đối tượng. Ở đây, chúng tôi chỉ trình bày một số các hàm đo
tương đồng phổ biến hay còn gọi là các hàm khoảng cách. Khoảng
cách tương đồng giữa hai mẫu thứ i và mẫu thứ k ký hiệu là d(i,k)
phải thỏa mãn các tính chất sau:
1. d(i,i)=0 với mọi i.
2. d(i,k)=d(k,i) với mọi cặp (i,k).
3. d(i,k)>=0 với mọi cặp (i,k).
Một số cách xác định hàm đánh giá độ tương đồng: Giả sử rằng
chúng ta có một ma trận mẫu [x
ij
] với x
ij
là giá trị của đặc trưng thứ j
của mẫu i. tất cả các đặc trưng là liên tục và được ước lượng theo tỷ
xích tỷ lệ. Hàm khoảng cách phổ biến là khoảng cách Minkowski [3]
dùng để ước lượng độ bất tương đồng. Mẫu thứ i tương ứng với dòng
thứ i của ma trận mẫu được ký hiệu là một vector cột x
i
.
x
i
= ( x
i1
,x
i2
, ,x
in
)
T
,i=1,2, ,n
Với d là số đặc trưng, n là số lượng mẫu, T ký hiệu là vector
chuyển vị. Khoảng cách Minkowski được định nghĩa như sau:
d (i,k )= (
∑
j=
1
d
x
ij
− x
kj
r
)
1/r
với r>=1
Các hàm khoảng cách Minkowski thỏa mãn tính chất các tính
chất sau:
[...]... thuật phân cụm, bao gồm: 1.3.2 Phâncụmdựa vào phân hoạch Phương pháp phâncụmphân hoạch dựatrên ý tưởng ban đầu tạo ra k phân hoạch, sau đó lặp lại nhiều lần để phân bố lại các đối tượng dữ liệu giữa các cụm nhằm cải thiện chất lượng phâncụm - 11 1.3.3 Phâncụmdựa vào phâncấp Phương pháp phâncụmphâncấpdựatrên ý tưởng cây phâncấp để phâncụm dữ liệu Có hai cách tiếp cận đó là phâncụm dưới... trung nghiên cứu về ứng dụng của kỹ thuật phâncụmngườisửdụngWebdựatrênmẫutruycập Thông qua nghiên cứu, thực nghiêm, chúng tôi đã đạt được một số kết quả sau: Khảo sát các kỹ thuật phâncụm trong khai phá dữ liệu, tập trung nghiên cứu kỹ thuật phâncụm trong khai phá sửdụng Web, Nghiên cứu các pha tiền xử lý dữ liệu, phâncụmngườisửdụngWebdựatrênmẫutruycập Bước tiền xử lý dữ liệu... diễn các mẫu dữ liệu phù hợp với chuẩn của công cụ thực nghiệm) Bước 2: Phâncụmngườisửdụngdựatrênmẫutruy cập: Sửdụng công cụ WEKA, áp dụng một số kỹ thuật phâncụm tập dữ liệu So sánh, đánh giá kết quả Mẫutruycập của ngườisửdụngWeb được chiết xuất từ các file nhật ký trên máy chủ Web, sau đó tổ chức vào các phiên đại diện cho các giai đoạn của sự tương tác giữa ngườisửdụngWeb và... và phâncụmtrên xuống (Top down) 1.3.4 Phâncụmdựatrên mật độ Phương pháp phâncụmdựatrên mật độ, căn cứ vào hàm mật độ của các đối tượng dữ liệu để xác định cụm cho các đối tượng 1.3.5 Phâncụmdựatrên lưới Phương pháp phâncụmdựatrên lưới, ý tưởng của nó là đầu tiên lượng hoá không gian đối tượng vào một số hữu hạn các ô theo một cấu trúc dưới dạng lưới, sau đó thực hiện phâncụmdựa trên. .. Thuật toán phâncụm K-medoids 1.4.3 Thuật toán EM (Expectation Maximization) 1.4.4 Thuật toán BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) 1.4.5 Thuật toán CURE( Clustering Using Representatives) 1.4.6 Thuật toán CHAMELEON - 13 - Chương 2 PHÂNCỤMNGƯỜISỬDỤNGWEBDỰATRÊNMẪUTRUYCẬP 2.1 PhâncụmngườisửdụngWebSửdụng các kỹ thuật tiền xử lý dữ liệu, phâncụm để khám... máy chủ WebMẫu này bao gồm các trang mà họ đã đến thăm, và thời gian họ đã dành trên mỗi trang Mỗi ngườisửdụng sau đó có thể được đại diện bởi một tập hợp gồm cặp thuộc tính ( URL truy cập, Thời gian truy cập) Từ mỗi cặp thuộc tính này, chúng ta xác định một mẫu người sửdụng Mục tiêu chính của phâncụm người sửdụng Web là để tìm ra các tri thức, mô hình hóa, qua đó khám phá các mô hình truycập vào... truycập của người sửdụng từ khối lượng lớn dữ liệu đăng nhập Web như để tạo ra các nhóm người sửdụng có các mẫutruycậpWeb tương tự nhau, cung cấp tri thức cho việc cá nhân hóa các dịch vụ Web, phát hiện các hành vi xâm nhập bất hợp lệ, dự báo những hành vi của ngườidùng Việc nghiên cứu các giải pháp xử lý dữ liệu, cài đặt và ứng dụng các mô hình phâncụm và áp dụng các phương pháp phâncụm người. .. như xuất hiện một ngườisửdụng mới - Sửdụng nhật ký truycập với các liên kết và cấu trúc liên kết site để xác định tiến trình duyệt Web của ngườidùng Xác định phiên của ngườisử dụng: Phiên giao dịch ngườidùng là một tập giới hạn của các click ngườidùng theo một hoặc nhiều máy chủ Web Sau đây là các quy tắc được sửdụng để xác định phiên ngườisử dụng: - Nếu có một ngườidùng mới, có một phiên... Web trong khai phá sửdụngWeb là một xu thế tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn cao 2.2 Phâncụm người sửngườisửdụng Web dựatrênmẫutruycập Từ bộ dữ liệu thô, để có thể trích chọn các tri thức hữu ích, dữ liệu cần qua quá trình tiền xử lý, tổ chức dữ liệu và biểu diễn phù hợp với định dạng để có thể tiến hành thực nghiệm phâncụm Tiếp theo đó, dữ liệu phù hợp sẽ được sử. .. chúng tôi sửdụng công cụ WEKA và bộ phâncụm EM để tiến hành phâncụmtrên dữ liệu chưa gán nhãn Kết quả hệ thống trả về gồm 5 cụm riêng biệt Sau khi phân tích kỹ các mẫu có trong từng cụm, chúng tôi đánh giá và xác định 5 cụm này tương đương với 5 nhãn sau: visitor: Những ngườisửdụng thông thường, truy nhập và đọc tin tức thông qua Internet - 20 editor (admin): Biên tập viên, sửdụng các chức . -
Chương 2. PHÂN CỤM NGƯỜI SỬ DỤNG WEB
DỰA TRÊN MẪU TRUY CẬP
2.1. Phân cụm người sử dụng Web
Sử dụng các kỹ thuật tiền xử lý dữ liệu, phân cụm để khám. ứng dụng của kỹ thuật phân
cụm người sử dụng Web dựa trên mẫu truy cập Web. Dựa trên
những tiêu chuẩn khác nhau, người dùng Web có thể được phân cụm