3 So sánh các phương pháp phân cụm

Một phần của tài liệu Xây dựng hệ thống gợi ý cho website thương mại điện tử (Trang 54 - 57)

Ta thấy với các tập dữ liệu MovieLens 100K, sử dụng phương pháp phân cụm sản phẩm cĩ hiệu quả thấp hơn so với khơng phân cụm. Phân cụm trong trường hợp này chủ yếu để cải thiện tốc độ tính tốn, một điểm yếu của phương pháp lọc cộng tác trong tương lai khi số lượng sản phẩm tăng lên. Ở đây ta sẽ sử dụng phương pháp phân cụm phân cấp (Hierarchical Clustering) cụ thể là phân cụm đường trung bình (Average-link clustering).

Thuật tốn phân cụm Average-link clustering: (S.P.Borgatti, [10])

Cho N item và ma trận tương đồng NxN của các item đĩ, quá trình phân cụm sẽ diễn ra như sau:

52

- B1: Ban đầu cĩ N item thì coi như cĩ N cụm, khoảng cách giữa mỗi cụm với nhau chính là độ tương đồng.

- B2: Tìm 2 cụm (2 item) cĩ khoảng cách nhỏ nhất (tương đồng lớn nhất) và xếp nĩ vào 1 cụm mới

- B3: Khoảng cách giữa cụm mới này với các cụm khác được tính bằng khoảng cách trung bình (đối với average-link clustering) giữa các phần tử trong cụm với các cụm khác.

Lặp lại B2 và B3 cho đến bao giờ đạt được số lượng cụm mong muốn (hoặc điều kiện nào đĩ)

3.2.2.Hệ thống gợi ý thứ hai

Do sử dụng thêm thơng tin nhân khẩu học của người dùng nên hệ thống thành phần tiếp theo ta sử dụng kỹ thuật gợi ý dựa trên nhân khẩu học (demographic-based), sử dụng những thơng tin về độ tuổi, giới tính, nghề nghiệp của người dùng để tìm ra người dùng tương đồng, từ đĩ đưa ra dự đốn sản phẩm cho người dùng hiện tại.

3.2.3.Hệ thống gợi ý lai

Mục tiêu của hệ thống ở đây là để các hệ thống thành phần phát huy tồn bộ ưu điểm một cách độc lập, sau đĩ bổ sung khuyết điểm cho nhau ở phần kết quả gợi ý nên ta sẽ sử dụng phép lai trộn (mixed), 2 kỹ thuật lọc cộng tác và demographic- based được sử dụng độc lập, sau đĩ danh sách gợi ý của 2 kỹ thuật này được “trộn” lại với nhau theo phương pháp mà ta sẽ làm rõ ở phần sau.

53

3.3. Kiến trúc hệ thống

Từ đề xuất phương pháp tiếp cận như trên ta cĩ kiến trúc chung của hệ thống như sau :

Hình 3.1 Kiến trúc hệ thống

Bước tiền xử lý sẽ đưa ra được ma trận tương đồng sản phẩm, sau đĩ phân cụm thành các cụm sản phẩm. Hệ thống lọc cộng tác sử dụng ma trận tương đồng và đánh giá từ các cụm sản phẩm để đưa ra danh sách gợi ý. Hệ thống Demographic-

Bộ Dữ Liệu Dữ liệu người dùng Dữ liệu đánh giá Demograph ic-based Danh sách gợi ý Danh sách gợi ý Phép lai trộn Danh sách gợi ý Các cụm sản phẩm Phân cụm Ma trận tương đồng Lọc cộng tác sản phẩm

54

based sử dụng trực tiếp dữ liệu người dùng và dữ liệu đánh giá để đưa ra danh sách gợi ý. Hai danh sách sẽ được ‘trộn’ với nhau ở bước lai và đưa ra kết qủa cho người dùng.

3.4. Xây dựng hệ thống

Trong phần này sẽ giới thiệu từng bước xây dựng và thử nghiệm hệ thống trên tập dữ liệu mẫu nhằm so sánh đánh giá các phương pháp đề xuất. Hệ thống được xây dựng trên máy tính cấu hình Pentium Corei5, ram 4GB, Windows 7 x64, phần mềm Matlab 7.

3.4.1.Hệ gợi ý lọc cộng tác dựa trên sản phẩm

Chia tập dữ liệu theo tỉ lệ 4:1. Từ tập học 80000 đánh giá xuất ra được ma trận user- item với các đánh giá từ 1 đến 5.

Ví dụ một phần bảng ma trận đánh giá :

Item1 Item2 Item3 Item4

User1 1 3 5 1

User2 0 4 3 1

User3 5 4 2 0

User4 1 2 3 5

Một phần của tài liệu Xây dựng hệ thống gợi ý cho website thương mại điện tử (Trang 54 - 57)

Tải bản đầy đủ (PDF)

(83 trang)