Độ hỗ trợ (số lần) 201.3015 100.6508 50.32538 20.13015 10.065075 Độ hỗ trợ (%) 0.0005 0.00025 0.000125 0.00005 0.000025 FP_Growth 770 2212 6125 189508 536918066 FIN 770 2212 6125 189508 x FPMax 700 2025 5606 18578 40981 FPClose 770 2212 6125 20656 47363 Hình 4.5 Thống kê số tập phổ biến tìm đƣợc
Một vài kết quả nhận thấy sau đây sẽ giúp quá trình lựa chọn kết quả của thuật toán nào đƣợc áp dụng cho bƣớc tiếp theo:
Khi sử dụng ngƣỡng hỗ trợ là 10 cho bộ dữ liệu đầy đủ chƣa phân hoạch, và bằng thuật toán FPClose thì số tập phổ biến thu đƣợc là hơn 67.000 tập, cho số item có mặt trong tập phổ biến là hơn 4200. Đây là tỉ lệ tƣơng đối nhỏ trong toàn tập item là hơn 238.000. Sẽ cần xem xét để tính giảm độ hỗ trợ xuống.
Ngoài ra thống kê đƣợc những mặt hàng item thuộc 1-itemset và không thuộc tập phổ biến nào là gần 236.000 item; với 2-itemset trở lên là hơn 31.000 item. Số
transaction chứa 2 item là khoảng hơn 151.000 transaction. Số transaction chứa 3
item là hơn 80.000 transaction. Điều này cho thấy tỷ lệ ngƣời xem ít sản phẩm trong một phiên giao dịch là chiếm tới hơn 50% số transaction đang chạy thực nghiệm, những lý do có thể có trong trƣờng hợp này là ngƣời dùng có thể chƣa thực sự quan tâm đến sản phẩm đang xem, chƣa thấy gợi ý tốt hay sản phẩm tốt và không có ý định muốn tìm hiểu tiếp, hoặc cũng có thể ngƣời dùng thấy „hài lòng‟ với loại mặt hàng với ngay khi xem những item đầu tiên. Những tâm lý mua hàng này mới theo nhận định của ngƣời nghiên cứu, và chƣa có thống kê chính thức. Nói tóm lại những đối tƣợng
transaction này trong quá trình khai phá dữ liệu sẽ không giúp ích nhiều.
Tƣơng tự khi tìm hiểu lý do ngƣời dùng xem rất nhiều mặt hàng trong một phiên giao dịch, với thống kê đƣợc hơn 30.000 transaction (chiếm khoảng 7,5% số
transaction tổng) dài hơn 20 item, có thể nhận thấy những đối tƣợng ngƣời dùng xem hoặc là đang rất quan tâm nhƣng chƣa tìm ra đƣợc lựa chọn, quyết định; hoặc là ngƣời dùng muốn tham khảo và đánh giá,…Mục tiêu của hệ thống chính là giúp những ngƣời dùng này có thể đƣa ra những lựa chọn nhanh chóng, có thể giúp ngƣời dùng đánh giá các sản phẩm dựa theo lựa chọn của nhiều ngƣời khác.
Tuy nhiên với tập phổ biến tìm đƣợc ở ngƣỡng độ hỗ trợ 20 và độ tin cậy là 0.8, số luật tìm đƣợc lên tới hơn 90 triệu luật, bị quá tải với độ hỗ trợ 10. Lý do có sự phát sinh lớn là do độ dài tập phổ biến là lớn lên tới hơn 20 item, tập trung ở mặt hàng đồng hồ (với 20-itemset dẫn tới 2^20-2 luật có thể tìm đƣợc, công thức đã đƣợc chứng minh ở phần 2.4.1 trên). Bài toán sẽ gói gọn hơn và chỉ quan tâm đến những tập luật có X là
1-itemset (đƣợc mô tả ở phần phát biểu bài toán 3.1). Số luật thỏa mãn thu đƣợc là hơn 32.000 luật.
Nhƣ vậy sau khi thực nghiệm và đƣa ra so sánh với các thuật toán, luận văn đã quyết định chọn sử dụng thuật toán FPClose để tìm kiếm tập phổ biến và luật kết hợp.
Đối với dữ liệu đƣợc chia nhỏ phân hoạch nhƣ cách thức đƣợc nêu ở 2.4.1, dùng thuật toán đã lựa chọn là FPClose để tìm tập phổ biến và luật kết hợp, với đầu vào là các ngƣỡng tùy theo từng phần dữ liệu. Tuy nhiên ở bộ dữ liệu này đầu ra rất ít, có thể phân tích là dữ liệu quá thƣa, độ hỗ trợ trung bình của các item là thấp. Dẫn đến chƣa thể áp dụng gợi ý hay đánh giá đối với cách thức phân hoạch ở bộ dữ liệu này. Có thể dùng để mô tả hay thể hiện những luật hay tập phổ biến „thú vị‟ theo từng chủng loại nhƣ là có độ hỗ trợ rất lớn và giúp thể hiện rõ đƣợc phân bố của các chủng loại item
Tiếp theo sẽ nêu một vài ví dụ tiêu biểu cho tập phổ biến và tập luật thu đƣợc của các chủng loại mặt hàng.
Ví dụ với mặt hàng thời trang nữ Luật kết hợp tìm đƣợc
622616 ==> 120220 #SUP: 238 #CONF: 0.48081 #LIFT: 118.92281 #HM: 0.00245 #COS: 0.2648 #CONV: 1.91828
Bikini đi biển họa tiết ==>
Đồ bơi short hoa trắng ---
607202 ==> 599206 #SUP: 507 #CONF: 0.8099 #LIFT: 80.10887 #HM: 0.0031 #COS: 0.3172 #CONV: 5.20732
Đầm Thu Thảo Hoa Vai MD1712 ==>
Đầm HH Thu Thảo D10014NM
Luật thứ hai thể hiện khi xem sản phẩm „Đầm Thu Thảo Hoa Vai MD1712‟ thì sản phẩm „Đầm HH Thu Thảo D10014NM‟ cũng đƣợc xem với độ hỗ trợ là 507 lần, độ tin cậy là 0.8099, cũng có nghĩa là số lần hai sản phẩm này đƣợc xem với nhau là 507 lần, 81% khi xem sản phẩm đầu thì xem sản phẩm thứ hai. Độ đo thú vị lift là 80, có nghĩa là độ tƣơng quan thuận là lớn. Độ đo HM là 0.0031hệ số hài hòa giữa hai độ đo
support và confidence. Độ đo cosine là 0.3172 có thể dùng thay thế lift. Độ đo
conviction là 1.918. Tƣơng tự với các luật khác. Tập phổ biến tìm đƣợc
58831 529749 #SUP: 104 Áo Sơ mi pha ren hồng Full size ÁO THUN NỮ Ý VY -AT.0565 ---
525969 525997 589878 #SUP: 26 A42 ÁO SƠ MI VIỀN MÀU BE A70 ÁO SƠ MI CỔ TRỤ TAY PHỒNG Áo vest nẹp báo
---
508959 598058 #SUP: 628 Đầm Kim Sa Nhũ Ánh Kim Nâu ĐẦM VOAN CỔ ĐỖ
Tập phổ biến thứ hai đƣợc mô tả là tập những sản phẩm „A42 ÁO SƠ MI VIỀN MÀU BE‟, „A70 ÁO SƠ MI CỔ TRỤ TAY PHỒNG‟ „Áo vest nẹp báo‟ đƣợc xem cùng nhau 26 lần.
Đây là chủng loại có số lƣợng mặt hàng rất lớn, lƣợng xem trong CSDL rất nhiều chiếm khoảng 3/5 số lƣợng transaction, những tập phổ biến và luật tìm đƣợc trung bình có độ hỗ trợ lên tới 100 lƣợt xem cùng nhau, có những sản phẩm đƣợc xem cùng nhau tới hơn 600 lần với độ tin cậy lên tới 90%, thƣờng những mặt hàng quần áo đƣợc xem cùng nhau có sự đồng bộ về loại, kiểu dáng, mẫu thời trang. Nhờ có chỉ số độ tin
cậy cho thấy mức liên quan giữa các sản phẩm này cao hơn so với việc đƣa ra các sản phẩm đồng loại dựa trên nội dung.
Ví dụ nhƣ với mặt hàng đồng hồ Luật tìm đƣợc:
506020 ==>504651 506005 506006 506009 506010 506013 506014 506015 506016 506026 506172 #SUP: 23 #CONF: 0.92
Đồng Hồ Để Bàn - Hoa Đào Xuân ==>
Tranh Đồng Hồ - Thuận Bƣờm Xuôi Gió Tranh Đồng Hồ - HL13605 Tranh Đồng Hồ - BB1308 Tranh Đồng Hồ SueMall - HL13604 Tranh Đồng Hồ - DV121551 Tranh Đồng Hồ - DV12145 Đồng Hồ Để Bàn - Hoa Sứ Đỏ Tranh Đồng Hồ SueMall - BB1309 Đồng Hồ Để Bàn - Hoa Đồng Tiền Đồng Hồ Để Bàn - Hoa Tím Tinh Khiết Tranh Đồng Hồ - NT13903 Tập phổ biến tìm đƣợc 506009 506010 506011 506014 506015 506016 506024 506026 506172 #SUP: 21 Tranh Đồng Hồ SueMall - HL13604 Tranh Đồng Hồ - DV121551 Tranh Đồng Hồ - DV12152 Đồng Hồ Để Bàn - Hoa Sứ Đỏ Tranh Đồng Hồ SueMall - BB1309 Đồng Hồ Để Bàn - Hoa Đồng Tiền Đồng Hồ Để Bàn - Hoa Lan Đất Đồng Hồ Để Bàn - Hoa Tím Tinh Khiết Tranh Đồng Hồ - NT13903
---
575601 663361 #SUP: 36
Đồng hồ đeo tay ROLEX ZR 12 cực sành điệu 2014 ! Đồng hồ Oriando nam tính - 998
Mặt hàng đồng hồ đƣợc ngƣời xem rất nhiều một lúc, nhƣ tập mẫu phổ biến tìm đƣợc của loại mặt hàng này thƣờng dài, trung bình khoảng 5 sản phẩm mỗi lần xem, các sản phẩm đƣợc xem cùng nhau cũng có độ tƣơng tự về nội dung.
Ví dụ cho mặt hàng mẹ và bé Tập luật tìm đƣợc:
371359 493489 ==> 371377 #SUP: 27 #CONF: 0.72973 Combo đồ bộ sọc ngang cho mẹ và bé
Combo đầm đôi xinh cho mẹ và bé ==>
Combo bộáo+váysọc cho mẹ và bé ---
567170 ==> 629176 #SUP: 50 #CONF: 0.20243 Đầm công sở Bà bầu Thanh lịch MH
==>
Tập phổ biến:
371359 371377 493489 #SUP: 27 Combo đồ bộ sọc ngang cho mẹ và bé Combo bộáo+váysọc cho mẹ và bé Combo đầm đôi xinh cho mẹ và bé
Ví dụ cho mặt hàng phụ kiện công nghệ
344044 357400 ==> 378377 #SUP: 5 #CONF: 1 DÂY CÁP KẾT NỐI OTG
Đầu Chia Âm Thanh ==>
Chân Máy Điện Thoại Mobile Holder - Giá 90.000 ---
621658 665062 ==> 569719 #SUP: 8 #CONF: 0.57143 Pin dự phòng SONY 10000mah cực đẹp Vip
Mua 1 tặng 1.PIN DỰ PHÕNG POWERBANK 20000mAh có đèn pin ==>
Pin dự phòng POWER BANK 20.000mAh
Tập phổ biến:
569719 621658 #SUP: 31
Pin dự phòng POWER BANK 20.000mAh Pin dự phòng SONY 10000mah cực đẹp Vip ---
383251 203803 #SUP: 12
Headphone Beat Nhét Tai CÓ MÍC TAI NGHE ZIN IPHONE 5
Mặt hàng phụ kiện công nghệ tƣơng đối ít trong tập dữ liệu transaction và số mặt hàng cũng không nhiều khoảng hơn 5000 sản phẩm, do đó số lần xem dòng sản phẩm này cũng không lớn, do đó hƣớng giải quyết là chia bộ dữ liệu và sử dụng độ hỗ trợ cho dòng hàng này là 7 lần. Vấn đề này đƣợc đề cập ở trên và có thực nghiệm, tuy nhiên trong quá trình thực nghiệm nhận thấy việc „chẻ dọc‟ dữ liệu có thể làm mất tính quan hệ với các chủng loại mặt hàng khác. Đối với dữ liệu vào thực tế có thể lớn hơn nhiều thì có thể xem xét đến phƣơng pháp này.
Từ dữ liệu có thể nhận thấy đây không phải là loại hàng đƣợc xem nhiều, có thể nhận định là đối tƣợng ngƣời dùng phần lớn và phụ nữ và họ quan tâm nhiều đến lĩnh vực thời trang, phụ kiện thời trang, số lƣợt xem mỗi transaction cho các dòng hàng liên quan đến thời trang lên tới hơn 10 lần, cho các mặt hàng đồng hồ lên tới 16 lần.
Việc sử dụng luật kết hợp để tìm kiếm những tập luật mang lại nhiều ý nghĩa, đặc biệt với hành vi xem một sản phẩm ngƣời dùng thƣờng có xu hƣớng xem những sản phẩm tƣơng tự để đƣa ra quyết định.
4.2. Kết quả của gợi ý sản phẩm cho từng ngƣời dùng
Sau khi đánh chỉ số các tập phổ biến và các luật, việc gợi ý cho ngƣời dùng sẽ dễ dàng hơn, ví dụ khi muốn gợi ý cho ngƣời dùng một số sản phẩm tƣơng tự nhƣ sản phẩm họ đang xem, những tập phổ biến tìm đƣợc sẽ đƣợc định dạng nhƣ sau:
139332 156954 #SUP: 16, 139358 156954 #SUP: 17, 525994 156954 #SUP: 10, 229376 156954 #SUP: 13, 266908 156954 #SUP: 17, 525997 156954 #SUP: 26, 530845 156954 #SUP: 10, 286236 156954 #SUP: 18, 540917 156954 #SUP: 22, 559420 156954 #SUP: 13, 525969 156954 #SUP: 31, 250020 156954 #SUP: 11, 397893 156954 #SUP: 33]
<=> Áo sơ mi chiffon cổ đính ngọc trai=
Áo sơ mi chiffon cổ đính ngọc trai, Áo sơ mi Double Layer Collar, #SUP: 10.0; Áo sơ mi Hoa hồng, Áo sơ mi chiffon cổ đính ngọc trai, #SUP: 16.0;
Áo sơ mi đính ngọc trai, Áo sơ mi chiffon cổ đính ngọc trai, #SUP: 17.0; A105 ÁO SƠ MI CỔ BẺ, Áo sơ mi chiffon cổ đính ngọc trai, #SUP: 10.0;
ÁO SƠ MI HOẠ TIẾT BÔnG SÕ, Áo sơ mi chiffon cổ đính ngọc trai, #SUP: 13.0;
ÁO SƠ MI ĐỎ ĐÍNH NÖT THỜI TRANG, Áo sơ mi chiffon cổ đính ngọc trai, #SUP: 17.0; A70 ÁO SƠ MI CỔ TRỤ TAY PHỒNG, Áo sơ mi chiffon cổ đính ngọc trai, #SUP: 26.0; Áo voan đính nơ vai 0113, Áo sơ mi chiffon cổ đính ngọc trai, #SUP: 10.0;
ÁO SƠ MI REN NGẮN TAY THỜI TRANG, Áo sơ mi chiffon cổ đính ngọc trai, #SUP: 18.0; Áo sơ mi Caro tay dài phong cách - MSP 71, Áo sơ mi chiffon cổ đính ngọc trai, #SUP: 22.0; Áo voan ren tay phối nút cổ, Áo sơ mi chiffon cổ đính ngọc trai, #SUP: 13.0;
A42 ÁO SƠ MI VIỀN MÀU BE, Áo sơ mi chiffon cổ đính ngọc trai, #SUP: 31.0; Áo vai nơ tay cánh tiên, Áo sơ mi chiffon cổ đính ngọc trai, #SUP: 11.0;
ÁO CHẤM BI TAY DÀI CÁCH ĐIỆU, Áo sơ mi chiffon cổ đính ngọc trai, #SUP: 33.0;
Những tập luật tìm đƣợc đƣợc định dạng nhƣ sau:
156954=[139332 #SUP: 16 #CONF: 0.06531 #LIFT: 94.48509 #HM: 0.0012 #COS: 0.0612 #CONV: 1.06913,
139338 #SUP: 10 #CONF: 0.04082 #LIFT: 104.94164 #HM: 0.0012 #COS: 0.05099 #CONV: 1.04215, 139358 #SUP: 17 #CONF: 0.06939 #LIFT: 91.83253 #HM: 0.0012 #COS: 0.06219 #CONV: 1.07375, 229376 #SUP: 13 #CONF: 0.05306 #LIFT: 26.21614 #HM: 0.0012 #COS: 0.02906 #CONV: 1.0539, 250020 #SUP: 11 #CONF: 0.0449 #LIFT: 5.50362 #HM: 0.0012 #COS: 0.01225 #CONV: 1.03847, 266908 #SUP: 17 #CONF: 0.06939 #LIFT: 30.64434 #HM: 0.0012 #COS: 0.03592 #CONV: 1.07213, 286236 #SUP: 18 #CONF: 0.07347 #LIFT: 17.50679 #HM: 0.0012 #COS: 0.02794 #CONV: 1.07477, 397893 #SUP: 33 #CONF: 0.13469 #LIFT: 16.29804 #HM: 0.00121 #COS: 0.0365 #CONV: 1.14611, 525969 #SUP: 31 #CONF: 0.12653 #LIFT: 15.61929 #HM: 0.00121 #COS: 0.03463 #CONV: 1.13559, 525994 #SUP: 10 #CONF: 0.04082 #LIFT: 36.21063 #HM: 0.0012 #COS: 0.02995 #CONV: 1.04138, 525997 #SUP: 26 #CONF: 0.10612 #LIFT: 32.06375 #HM: 0.00121 #COS: 0.04545 #CONV: 1.11502, 530845 #SUP: 10 #CONF: 0.04082 #LIFT: 9.76635 #HM: 0.0012 #COS: 0.01555 #CONV: 1.0382, 540917 #SUP: 22 #CONF: 0.0898 #LIFT: 15.61018 #HM: 0.00121 #COS: 0.02917 #CONV: 1.09233, 559420 #SUP: 13 #CONF: 0.05306 #LIFT: 7.3654 #HM: 0.0012 #COS: 0.0154 #CONV: 1.04843] <==> Áo sơ mi chiffon cổ đính ngọc trai=
Áo sơ mi Hoa hồng,;
Áo sơ mi Double Layer Collar,; Áo sơ mi đính ngọc trai,;
ÁO SƠ MI HOẠ TIẾT BÔnG SÕ,; Áo vai nơ tay cánh tiên,;
ÁO SƠ MI REN NGẮN TAY THỜI TRANG,; ÁO CHẤM BI TAY DÀI CÁCH ĐIỆU,; A42 ÁO SƠ MI VIỀN MÀU BE,; A105 ÁO SƠ MI CỔ BẺ,;
A70 ÁO SƠ MI CỔ TRỤ TAY PHỒNG,; Áo voan đính nơ vai 0113,;
Áo sơ mi Caro tay dài phong cách - MSP 71,; Áo voan ren tay phối nút cổ,;
Sử dụng các cách đƣợc nêu ở 3.2. và 3.3 ở trên để chọn ra trong tập phổ biến và luật kết hợp trên một số để đƣa ra gợi ý tiếp theo cho ngƣời dùng thông qua một giao diện web mô phỏng việc gợi ý cho ngƣời dùng nhƣ hình 4.6 và 4.7.
Hình 4.7 Gợi ý cho ngƣời dùng theo một sản phẩm mẹ và bé
Ví dụ khác về thời trang nữ, khi ngƣời xem nhấp chuột một sản phẩm là „Đầm Kim Sa Nhũ Ánh Kim Nâu’ hệ thống sẽ liệt kê ra hàng loạt các tập phổ biến có chứa sản phẩm này
Đầm Kim Sa Nhũ Ánh Kim Nâu
Set Chân váy Vintage và áo voan hoa nổi bật 508959 634507 #SUP: 228
---
Đầm Kim Sa Nhũ Ánh Kim Nâu Đầm Kim Sa Nhũ Ánh Kim Xanh 508959 662544 #SUP: 796 ---
Đầm Kim Sa Nhũ Ánh Kim Nâu Đầm Xòe Poly : 13023100 508959 282185 #SUP: 240 ---
Đầm Kim Sa Nhũ Ánh Kim Nâu ĐẦM LIỀN VOAN TRẮNG HỒNG 508959 598361 #SUP: 362
---
Đầm Kim Sa Nhũ Ánh Kim Nâu Đầm Công Sở
508959 533035 #SUP: 336 ...
Những luật có vế trái X là sản phẩm đang xem
508959 ==> 621656 #SUP: 735 #CONF: 0.10165 Đầm Kim Sa Nhũ Ánh Kim Nâu
==>
Đầm Họa tiết bƣớm ---
508959 607202 ==> 599206 #SUP: 86 #CONF: 0.86 Đầm Kim Sa Nhũ Ánh Kim Nâu
Đầm Thu Thảo Hoa Vai MD1712 ==>
Đầm HH Thu Thảo D10014NM
Dựa vào độ hỗ trợ liệt kê ra những sản phẩm hay đƣợc xem cùng với độ hỗ trợ giảm dần „Đầm Kim Sa Nhũ Ánh Kim Xanh’, „ĐẦM LIỀN VOAN TRẮNG HỒNG‟,...
Ví dụ gợi ý về thời trang trên cho thấy đƣợc sự liên quan giữa các sản phẩm, việc thể hiện ra độ đo hỗ trợ là số lần cùng đƣợc xem sẽ cho thấy đƣợc chất lƣợng gợi ý,