XÂY DỰNG CÔNG CỤ HỖ TRỢ TƯ VẤN MUA HÀNG QUA MẠNG

XÂY DỰNG CÔNG CỤ HỖ TRỢ TƯ VẤN MUA HÀNG QUA MẠNG CAO THÁI PHƯƠNG THANH ( * ) TRẦN ĐÌNH NGHĨA ( ** ) NGUYỄN QUỐC HUY ( *** ) TÓM TẮT Với sự phát triển cực kì nhanh chóng của thương mại điện tử, thế giới đang dần trở thành một siêu thị toàn cầu. Hiện đã có một số ứng dụng đã được phát triển nhằm mục tiêu hỗ trợ thương mại điện tử và chúng được gọi là các Hệ tư vấn (Recommender systems). Các Hệ tư vấn được xây dựng dựa trên một số kĩ thuật khác nhau và đều có những ưu và khuyết điểm riêng. Bài này đưa ra một phương pháp mới nhằm cải tiến khả năng tư vấn và tạo sự ứng dụng rộng rãi cho các hệ tư vấn. Phương pháp mới thực hiện được các tư vấn với thời gian hồi đáp gần như ngay lập tức, mức độ quan trọng của mỗi sản phẩm cũng được xem xét đến. ABSTRACT The strong growth of e-commerce makes the world nowadays become a global supermarket. At present, many programs which are developed to support e-commerce, are called the Recommender systems. They are based on various techniques but have some advantages and disadvantages. This paper proposes a new method that can improve recommendation capabilities and make recommender systems become widely applicable to many recommendation systems. This new method can make recommendations and give feedback immediately including the recommendations on the importance of each product. 1. GIỚI THIỆU Hoạt động kinh doanh, thương mại dựa trên các ứng dụng Internet được định nghĩa theo nhiều thuật ngữ khác nhau nhưng thương mại điện tử (e-commerce) và kinh doanh điện tử (e- business) là những thuật ngữ thường được dùng nhiều nhất. Thương mại điện tử là thuật ngữ mô tả quá trình mua, bán, trao đổi hàng hoá, dịch vụ và thông tin được thực hiện thông qua các mạng máy tính, bao gồm cả mạng Internet. Mỗi hoạt động tuân theo định nghĩa này còn được gọi là một giao dịch điện tử. Hầu hết những người tiêu dùng đã sử dụng Amazon.com hay các Web site thương mại điện tử lớn khác đều đã có nhận được những lời khuyên về một quyển sách, CD nhạc, DVD, hay các vấn đề về y phục họ có thể muốn mua sắm. Đây là nhiệm vụ của một dạng công cụ, được gọi là hệ tư vấn, được phát triển nhằm hỗ trợ thương mại điện tử. Ban đầu, các hệ tư vấn còn tương đối thô thiển. Nó chỉ đơn giản tư vấn các sản phẩm có vẻ giống như các sản phẩm khác do người mua đã mua sắm trước đó. Tuy nhiên, chúng đã trở nên tinh vi hơn nhiều và hiện nay nó đã là một phần thiết yếu của nhiều mô hình kinh tế bán lẻ trực tuyến. Các hệ tư vấn sử dụng các thuật toán phức tạp nhằm phân tích một số lượng lớn dữ liệu và xác định những sản phẩm có tiềm năng được người tiêu dùng muốn mua sắm dựa trên những sở thích đã được ghi nhận của họ, những chọn lựa mua sắm trực tuyến, và các lần mua sắm của những người có thị hiếu hay đặc trưng sử dụng tương tự. Điều này tạo ra những cơ hội thu lợi mới và làm tăng cường về cả việc duy trì khách hàng lẫn về số lượng người mua sắm sẽ thực sự mua hàng. ( * ) , ( ** ) , ( *** ) ThS, Khoa Công Nghệ Thông Tin, Trường Đại học Sài Gòn. Bên cạnh những thành công và lợi ích do các hệ tư vấn đem lại cho thương mại điện tử, một số hạn chế vẫn còn tồn tại do bản chất các kĩ thuật được sử dụng bên trong các hệ tư vấn. Bài này đề xuất một phương pháp sử dụng kĩ thuật luật kết hợp và kĩ thuật lập chỉ mục, nhằm xây dựng một công cụ hỗ trợ cho các web site thương mại điện tử về mặt tư vấn sản phẩm mua sắm cho khách hàng. 2. CÁC CÔNG CỤ TRỢ GIÚP CHO THƯƠNG MẠI ĐIỆN TỬ Với người tiêu dùng mua sắm trực tuyến hiện nay, thông tin cần thiết về sản phẩm không chỉ đơn thuần là giá cả, cách thức chi trả, mà họ còn cần nhiều thông tin liên quan khác đến sản phẩm định mua, ví dụ: những sản phẩm phụ trợ hay liên quan mật thiết đến những sản phẩm đã chọn mua cũng là thông tin rất cần thiết. Tuy nhiên, số lượng thông tin quá nhiều cũng đồng nghĩa với khả năng có thể gây bối rối trong chọn lựa của người dùng. Trong cuộc sống hàng ngày, mọi người thường dựa vào những thông tin không đầy đủ khi quyết định mình nên đọc những quyển sách nào, xem những phim nào hay mua những đĩa nhạc nào. Khi gặp phải một số chọn lựa vốn không quen thuộc, con người thường có khuynh hướng tìm lời khuyên từ bạn bè hay từ các tạp chí chuyên môn trước khi ra quyết định. Trong vài năm gần đây, với sự phát triển của công nghệ thông tin, các hệ thống tư vấn trực tuyến đã được xây dựng và triển khai nhằm phục vụ cho thương mại điện tử với mục tiêu đề xuất lời khuyên cho khách hàng. Các hệ thống tư vấn đã trở nên ngày càng phổ biến trên web, cả trong các hệ thống nghiên cứu (GroupLens, MoviesLens) lẫn các site thương mại trực tuyến (Amazon.com, CDNow.com) nhằm đề xuất cho khách hàng những sản phẩm có thể họ muốn mua. Các hệ thống tư vấn được sử dụng bởi các site thương mại điện tử hoạt động theo nguyên tắc sản phẩm được đề xuất có thể được dựa trên những mặt hàng bán chạy nhất, theo thông tin về đặc trưng người dùng của khách hàng, hay dựa trên sự phân tích hành vi mua sắm trước đây của khách hàng. Việc tư vấn bao gồm những hình thức như: đề nghị sản phẩm cho khách hàng, cung cấp những thông tin sản phẩm riêng biệt, tóm lược các ý kiến đánh giá, và cung cấp những lời phê bình tổng thể. Các hệ thống tư vấn được triển khai sử dụng nhiều kĩ thuật khác nhau và được phân loại theo nhiều cách thức. Sự phân loại dưới đây dựa trên cách thức tạo ra các tư vấn: Các hệ thống dựa trên nội dung tư vấn các sản phẩm tương tự với các sản phẩm đã được khách hàng ưu thích trước đây. Những hệ thống dạng này thu thập thông tin về sở thích của khách hàng thông qua các bản câu hỏi hay thông qua tiểu sử mua sắm được lưu trữ trong cơ sở dữ liệu. Các hệ thống này gặp phải những giới hạn sau:  Phân tích nội dung bị giới hạn: Do các đặc tính được kết hợp tường minh với các đối tượng được các hệ thống này tư vấn. Do đó, để có đủ các đặc tính, nội dung hoặc phải tuân theo một dạng thức có thể thực hiện phân tích cú pháp một cách tự động bởi máy tính (ví dụ, văn bản) hoặc các đặc tính phải được ấn định thủ công cho các đối tượng và rất khó có thể áp dụng cho dữ liệu đa truyền thông.  Quá chuyên biệt: Khi hệ thống chỉ có thể tư vấn các sản phẩm có điểm cao đối với đặc trưng sử dụng của khách hàng, khách hàng sẽ bị tư vấn giới hạn bởi các sản phẩm có độ tương tự với các sản phẩm do mình đánh giá, nghĩa là, bị sa vào “lối mòn” trong việc tư vấn. Trong trường hợp nào đó, các sản phẩm không nên được tư vấn nếu chúng quá tương tự với những sản phẩm khách hàng đã từng biết qua, như bài báo có tin tức khác mô tả cùng một sự kiện.  Vấn đề khách hàng mới: Khách hàng phải đánh giá đủ số lượng sản phẩm trước khi một hệ thống tư vấn dựa trên nội dung có thể thực sự hiểu về sở thích của mình và giới thiệu cho mình những tư vấn có thể tin cậy. Theo đó, một khách hàng mới, có quá ít các đánh giá, sẽ không có khả năng được tư vấn chính xác những gì mình mong muốn. Các hệ thống dựa trên cộng tác cung cấp các tư vấn vốn được xuất phát từ sở thích mua sắm của các khách hàng có cùng sở thích hay đặc trưng sử dụng, dựa trên việc trả lời các bản câu hỏi hay các tiểu sử sử dụng được ghi nhận từ các hoạt động trực tuyến của khách hàng. Kĩ thuật được các hệ thống loại này sử dụng được phân thành hai loại: dựa trên bộ nhớ và dựa trên mô hình. Tuy khắc phục được những hạn chế của các hệ thống dựa trên nội dung, các hệ thống dựa trên cộng tác vẫn tồn tại những hạn chế sau:  Vấn đề khách hàng mới: Giống với các hệ thống dựa trên nội dung.  Vấn đề sản phẩm mới: Các sản phẩm mới được thêm vào các hệ thống tư vấn rất thường xuyên. Các hệ thống cộng tác chỉ đơn độc dựa trên các sở thích của khách hàng để tạo ra các tư vấn. Do đó, cho đến khi nào sản phẩm mới được đánh giá bởi một lượng khách hàng đáng kể thì hệ thống tư vấn mới có khả năng tư vấn nó.  Mật độ đánh giá trên từng sản phẩm quá thưa (Sparsity): Trong bất kì hệ thống tư vấn nào, số lượng các đánh giá thu được thường rất nhỏ so với số lượng các đánh giá cần thiết cho dự đoán. Dự đoán hiệu quả các đánh giá từ một tập ví dụ nhỏ là vấn đề rất quan trọng. Vấn đề này đã được khắc phục phần nào. [2] Các mô hình lai ghép có thể kết hợp các phần tách biệt của các mô hình cộng tác và dựa trên nội dung. Theo những hạn chế đã trình bày của các hệ tư vấn hiện nay, ta có thể thấy rõ rằng, những kĩ thuật tư vấn hiện nay chỉ có thể đáp ứng rất ít và chưa thực sự tốt cho nhu cầu cần được tư vấn của khách hàng. Do các tư vấn được đề xuất thông qua các kĩ thuật tư vấn trên xuất phát từ các đánh giá của khách hàng trên mỗi sản phẩm chọn mua nên nó chắc chắn luôn phải gánh chịu những hạn chế từ: 1) khách hàng mới 2) sản phẩm mới 3) việc lưu trữ đặc trưng sử dụng của khách hàng dựa trên các lần mua sắm của họ sẽ dễ dàng dẫn đến những tư vấn có khả năng mâu thuẫn và 4) không thể phản ánh chính xác xu hướng mua sắm của các khách hàng tại thời điểm hiện tại. Về bản chất, một tư vấn có dạng như: “Khách hàng mua sản phẩm A thì thường cũng mua các sản phẩm B, C, … sau đó”. Đây chính là một dạng luật kết hợp [4]. Không những thế, với một luật kết hợp cụ thể A  B [supp,conf] ta còn biết được mức độ liên quan giữa các sản phẩm được đề xuất nhằm lọc bỏ những sản phẩm có mức độ liên quan không cao. Ngoài ra, hầu hết các phương pháp đều không lưu tâm hoặc quan tâm chưa đúng mức đến số lần một sản phẩm xuất hiện trong một giao tác. Đương nhiên việc chỉ cần lấy tổng số lần xuất hiện của một sản phẩm là đủ để đánh giá tầm quan trọng của nó là không hoàn toàn đúng. 3. ĐỀ XUẤT CÔNG CỤ Từ ứng dụng đầu tiên của luật kết hợp dùng cho phân tích dữ liệu mua hàng hay bán hàng trong siêu thị, đã có nhiều nghiên cứu nhằm cải tiến nhiều khía cạnh khác nhau. Tuy nhiên, nếu chỉ đơn thuần áp dụng kĩ thuật luật kết hợp truyền thống hay các biến thể của nó vào vấn đề tư vấn sản phẩm cho thương mại điện tử, ta sẽ gặp phải những hạn chế như sau:  Đọc cơ sở dữ liệu nhiều lần  Dễ phát sinh các luật khó hiểu và suy biến  Kĩ thuật lược bỏ không còn thích hợp  Không xem xét đến mức độ quan trọng về sự xuất hiện của từng sản phẩm hoặc quan tâm chưa đúng mức [2,10].  Không có khả năng hỗ trợ cập nhật bộ luật linh động theo từng thay đổi của cơ sở dữ liệu. Điều này nhằm đảm bảo được tính đúng đắn cũng như khả năng phản ánh được chính xác xu hướng mua sắm hiện thời trong các luật kết hợp đã khai phá. Một số các nghiên cứu điển hình về vấn đề này đã được thực hiện và có được những thành công đáng kể. Phương pháp được sử dụng trong các nghiên cứu này chủ yếu là quét lại cơ sở dữ liệu để tìm ra những cập nhật vừa được thực hiện trong một khoảng thời gian xác định nào đó. Bộ luật kết hợp đã khai phá được điều chỉnh chỉ dựa trên những thay đổi này. Thực tế, phương pháp này không phù hợp với một ứng dụng được triển khai trên Internet khi xét về mặt hiệu suất thi hành. Khi thực hiện sự kết hợp giữa luật kết hợp với kĩ thuật lập chỉ mục cộng thêm một số cải tiến ta hoàn toàn có thể nạp toàn bộ dữ liệu vào bộ nhớ nhằm khắc phục các vấn đề trên. Hơn nữa, dựa trên đặc trưng của các thuật toán luật kết hợp, các tư vấn được đề xuất phản ánh được xu hướng chung của toàn bộ dữ liệu, không hoàn toàn phụ thuộc vào đặc trưng sử dụng của một nhóm người dùng riêng biệt hay các đánh giá sản phẩm của họ như các kĩ thuật trước đây. Điều này cho thấy, phương pháp tư vấn mới được đề xuất có thể khắc phục được các hạn chế về người dùng mới, lối mòn trong tư vấn,… Đồng thời, phương pháp mới vẫn tạo khả năng cho khách hàng đánh giá các sản phẩm họ đã mua và sử dụng thông tin này cho việc ấn định tầm quan trọng cho các sản phẩm. 3.1. Cơ chế hoạt động Công cụ được đề xuất sẽ hoạt động theo nguyên tắc: sử dụng kĩ thuật lập chỉ mục Inverted File từ Truy tìm Thông tin cho cơ sở dữ liệu đầu vào nhằm thực hiện lưu trữ trên bộ nhớ chính và tạo khả năng truy xuất nhanh nhất có thể. Công cụ sau đó sẵn sàng được sử dụng cho tìm tất cả các luật kết hợp hay tư vấn sản phẩm. Về chức năng tư vấn sản phẩm, thực tế nó cố gắng trả lời câu hỏi sau: giả sử chúng ta có một cơ sở dữ liệu chứa các giao tác hiện có, và một khách hàng tạo ra một giao tác mới. Những giao tác nào gần đúng nhất với giao tác của khách hàng này, dựa trên các sản phẩm đã có trong cơ sở dữ liệu của khách hàng? 3.2. Tổ chức lưu trữ Nhằm tạo chỉ mục inverted file, trước tiên ta phải tạo ra bộ tự điển (lexicon) tương ứng cho tập dữ liệu. Lexicon thực chất là một danh sách tất cả các item xuất hiện trong cơ sở dữ liệu. Trong trường hợp này, lexicon đã sẵn có do chúng ta biết rất rõ tất cả các sản phẩm đang được bán, và do đó không có cách nào mà một item không được chứa trong lexicon lại hiện hữu trong cơ sở dữ liệu. Một chỉ mục inverted file cũng chứa tương ứng với mỗi item trong lexicon một inverted list dùng lưu trữ một danh sách các con trỏ đến tất cả các xuất hiện của item đó trong cơ sở dữ liệu cũng như số lần xuất hiện của nó. ItemID 1 Count Trans 1 … Trans k … … … … … ItemID n Count Trans i … Trans j Cơ sở dữ liệu SERVER Giao tác mới Lập chỉ mục Giao tác mới Công cụ đề xuất Tư vấn sản phẩm Giao tác mới Hình 1. Cơ chế hoạt động Bộ dữ liệu cho ví dụ minh họa được cho trong Bảng 1. Trước tiên, các sản phẩm sẽ được đọc từ cơ sở dữ liệu và tạo ra Inverted File. Song song, bảng các giao tác sẽ được xây dựng. Các mối liên kết giữa bảng giao tác với Inverted File ngay sau đó sẽ được thiết lập. Kết quả cuối cùng của ví dụ được cho trong Hình 2. 3.3. Phương pháp đề xuất tư vấn dựa trên mức độ tương quan giữa các sản phẩm Giả sử chúng ta có một công ti bán sản phẩm thông qua một web site nào đó trên Internet. Khách hàng duyệt qua các sản phẩm và tại một thời điểm nào đó khách hàng chọn đưa sản phẩm B vào giỏ hàng của mình. Bây giờ chúng ta muốn tìm tất cả các kết hợp của B với các sản phẩm khác và giới thiệu cho khách hàng những sản phẩm thường xuyên nhất. Thông thường người dùng chỉ quan tâm đến ba hay tối đa là bốn sản phẩm được đề nghị. Hầu hết các web site đề xuất sản phẩm cho khách hàng của họ (ví dụ Amazon, Egghead, Ebay v.v) cũng dừng lại ở mức đề nghị bốn sản phẩm. Nếu chúng ta giới thiệu cho khách hàng nhiều hơn ba sản phẩm đóng vai trò đề nghị thì sẽ tạo ra sự lúng túng và quá tải thông tin hơn là sự trợ giúp. Dĩ nhiên người dùng có quyền điều chỉnh hệ thống cho phù hợp với nhu cầu của mình, và định ra số lượng sản phẩm sẽ được đề xuất cho khách hàng. Chủ định của bài này cũng giới hạn số lượng cụ thể là bốn. Chúng ta bắt đầu từ các sản phẩm đã có trong giỏ hàng. Dò tìm các sản phẩm này trong cấu trúc Inverted File, ta sẽ xác định được các giao tác cùng chứa chúng. Từ các giao tác này ta sẽ thu được các sản phẩm khác cùng xuất hiện với chúng. Sau đó chúng ta bắt đầu kết hợp các sản phẩm và dừng lại khi chúng ta đã thu được bốn sản phẩm thường xuyên nhất. Các sản phẩm được chọn tư vấn dựa trên khái niệm về hệ số tương liên. Hệ số tương liên là một phép đo cho thấy mức độ liên hệ chặt chẽ giữa một số sản phẩm, và nó được định nghĩa như trong Định nghĩa 1: Định nghĩa 1 [hệ số tương liên]. Đặt I = {i 1 , i 2 , . . . , i m } là tập tất cả các item trong cơ sở dữ liệu. Giả sử chúng ta có một tập các item T = {i 1 , i 2 , . . . , i k } tạo thành các sản phẩm được mua bởi một khách hàng tại một thời điểm sao cho T  I, và sup(T) là độ hỗ trợ của sản phẩm này. Hệ số tương liên giữa sản phẩm T với mỗi sản phẩm i c , xuất hiện trong cùng các giao tác với T, được định nghĩa như là tỉ số giữa độ hỗ trợ của sản phẩm T chia cho độ hỗ trợ của sản phẩm chúng ta xem xét trong toàn bộ cơ sở dữ liệu (biểu thị bởi suptotal(i c )):       ctotal k ck i iii iiiicc sup ,,,sup ,,, 21 21    CSDL D Hình 2. Cấu trúc lưu trữ cho dữ liệu trong Bảng 1 TI D Sản phẩm 100 A B E F 101 A E F G T 102 A B C E 103 E G T Bảng 1. Cơ sở dữ liệu mẫu chứa k giao tác, với mỗi dòng là 1 giao tác B 2  100 102 F 2  100 101 A 3  100 101 102 C 1  102 E 4  100 101 102 103 G 2  101 103 T 2  101 103 100 101 102 103 TRANS_TABLE Inverted File Giá trị càng cao của hệ số cho thấy mức độ quan hệ càng chặt chẽ giữa các sản phẩm được xem xét. GetRecommend Input: k-Itemset Ik Output: tập item Ir có độ tương liên cao nhất Itemset Itmp = Ø Với mỗi trans thuộc InvertedList[Ik] Itmp = Itmp  {item i, i  trans} Ir = Ø, ccIr[1 n] = 0 Với mỗi item i thuộc Itmp Nếu (cc[Iki] > ccIr[n]) Thì Chèn i vào Ir, cc[Iki] vào ccIr theo thứ tự tăng Trả về Ir Hình 3. Thuật giải chọn k-sản phẩm có liên quan chặt chẽ nhất. 3.4. Phương pháp đề xuất tư vấn dựa trên tầm quan trọng của các sản phẩm Đã có rất nhiều nghiên cứu cố gắng chú tâm đến vấn đề chỉ dùng một phép đo độ hỗ trợ đơn thuần cho tất cả các sản phẩm trong cơ sở dữ liệu. Nghiên cứu thành công nhất được trình bày trong [12], với mỗi sản phẩm được ấn định một giá trị độ hỗ trợ khác biệt nhằm phản ánh bản chất và nhiều loại tần suất xuất hiện của các item trong cơ sở dữ liệu. Tuy nhiên, phương pháp này cũng không xử lí số lần một sản phẩm xuất hiện trong một giao tác mà chỉ xem chúng như là nhị phân và quan trọng nhất là phương pháp này sử dụng cách thức ấn định độ hỗ trợ có tính thành kiến và tuỳ ý cho các item. Trong [13] có đề xuất một phương pháp khác xem xét tầm quan trọng đặc trưng mà một sản phẩm có thể có. Mỗi sản phẩm đều được ấn định một trọng số khác nhau nhằm phản ánh tầm quan trọng của nó. Tích số của độ hỗ trợ của một sản phẩm với trọng số được ấn định của nó cho chúng ta phép đo độ hỗ trợ có trọng số. Nếu độ hỗ trợ có trọng số của một sản phẩm lớn hơn một ngưỡng được chỉ định bởi người dùng (được gọi là độ hỗ trợ tối thiểu có trọng số – wminsup), thì sản phẩm này được xem là large itemset. Phương pháp này đã giải quyết thành công vấn đề ấn định tầm quan trọng cho tất cả các sản phẩm, nhưng lại bị vướng phải những hạn chế khác như quy trình phát sinh và lược bỏ các sản phẩm ứng viên không thể tránh việc gây ảnh hưởng rất lớn trên sự thi hành cuối cùng. Phương pháp này cũng không xử lí số lần một item xuất hiện trong một giao tác. Đồng thời, các phương pháp này đều giả định rằng các item đều đã được ấn định trước một trọng số mà không đặt quan tâm về việc ấn định trọng số tự động một cách hiệu quả và chính xác. Tuy các phương pháp ấn định trọng số cho các sản phẩm vẫn đang được nghiên cứu nhằm khắc phục những vấn đề trên. Một giải pháp khác là cho phép người dùng chọn sử dụng phương pháp ấn định trọng số mà mình mong muốn. Công cụ được triển khai sẽ áp dụng giải pháp này với ba phương pháp ấn định trọng số cho người dùng chọn lựa như sau: + Không sử dụng phương pháp ấn định trọng số. Nếu chọn phương pháp này, công cụ sẽ thực hiện tư vấn các sản phẩm dựa trên hệ số tương liên đã trình bày trong Định nghĩa 1. + Sử dụng trọng số sẵn có, nếu người dùng đã có ấn định sẵn các trọng số cho từng sản phẩm bằng phương pháp nào đó và đã lưu trữ trọng số này trong cơ sở dữ liệu. + Trọng số dựa trên lợi nhuận đem lại của sản phẩm. Tuy đây là phương pháp khó thực hiện nhất do những thông tin cần cung cấp cho công cụ thường được các công ti bảo mật cẩn trọng, nhưng phương pháp này lại có tiềm năng lớn nhất cho mục tiêu nâng cao doanh thu. Để sử dụng phương pháp này, người dùng cần cung cấp cho công cụ thông tin về lãi ròng của từng sản phẩm và tổng lợi nhuận tối đa chúng ta có được từ một sản phẩm trong cơ sở dữ liệu. Trọng số này có chức năng tương tự như hệ số IDF trong lược đồ TFIDF, hay nói cách khác nó làm giảm ảnh hưởng của các item không quan trọng, hay làm tăng cường ảnh hưởng của các item quan trọng. Nếu chúng ta xem xét lần nữa cơ sở dữ liệu siêu thị với sự ưu tiên hàng đầu dành cho tổng lợi nhuận được tạo ra từ sản phẩm thì chúng ta có thể dùng công thức sau:           k ii i TP PMf w max 718.1ln với maxTP k là tổng lợi nhuận tối đa chúng ta có được từ một sản phẩm trong cơ sở dữ liệu, f i là số lần xuất hiện của sản phẩm I và PM là lãi ròng của sản phẩm i. Thực tế điều này có nghĩa rằng một lần xuất hiện của một sản phẩm rất có khả năng lợi nhuận sẽ được đếm nhiều hơn 10 lần xuất hiện của một sản phẩm không có khả năng lợi nhuận như thế. 4. THỬ NGHIỆM Nhằm thử nghiệm hiệu suất cho công cụ, các tập dữ liệu tương tự với các tập dữ liệu nhân tạo được sử dụng trong [14] và trong hầu hết các nghiên cứu sau đó được sử dụng. Dữ liệu được phát sinh từ bộ phát sinh nhân tạo này được xem là giả lập thành công các mẫu mua sắm trong môi trường bán lẻ. Ngoài ra, các bộ dữ liệu thực (http://www.bhsu.edu) cũng được đưa vào thử nghiệm. 4.1. Dữ liệu nhân tạo Phương pháp được thử nghiệm với 20 cơ sở dữ liệu khác nhau, tám trong số chúng nhằm mục tiêu thử nghiệm hoạt động trên các sản phẩm có chiều dài các giao tác biến động và có độ lớn trung bình cho khả năng tần suất cực đại và các cơ sở dữ liệu còn lại được dùng cho tất cả các thông số khác ổn định và biến đổi theo số lượng giao tác. Với tám cơ sở dữ liệu đầu tiên, đặt |D| = 100K, |N| = 1000 và |L| = 2000. Các giá trị của |T| được đặt về 5, 10 và 20. Độ lớn trung bình của các sản phẩm có tần suất khả năng cực đại là 2, 4, 6, và 8. 4.1.1. Thời gian xây dựng chỉ mục Hình 4 trình bày cho chúng ta thấy thời gian cần thiết cho việc xây dựng các tập dữ liệu được mô tả trong mục 4.1, có tất cả 100,000 giao tác. Hình 5 cho chúng ta thấy thời gian cần thiết cho việc xây dựng chỉ mục cho ba tập dữ liệu với các giao tác biến động (bắt đầu từ 100,000 đến 1,000,000 giao tác). Các tập dữ liệu này có kích thước trong phạm vi từ nhỏ nhất là 40MB (T5.I2.D250K) đến lớn nhất là 644MB (T20.I6.D1000K). Thời gian xây dựng Inverted Files D100K 1.5 1.6 3.1 3.5 3.3 8.4 6.3 6.4 6.4 0 1 2 3 4 5 6 7 8 9 T5I2 T5I4 T10I2 T10I4 T10I6 T20I2 T20I4 T20I6 T20I8 giây Series1 Thời gian xây dựng Inverted Files D250K -> D1000K 4.2 14.2 12.5 27.2 10.3 26 51.1 70.2 23.5 56.7 166.1 157.8 0 20 40 60 80 100 120 140 160 180 D250K D500K D750K D1000K giây T5I2 T10I4 T20I6 Hình 4 Hình 5 4.1.2. Thời gian đáp ứng Do mong muốn công cụ của mình có chức năng tương tự như một công cụ truy tìm và tư vấn hoạt động trực tuyến, thời gian cần thiết để ước lượng mỗi tư vấn phải thấp nhất đến mức có thể chấp nhận. Người dùng không cần phải chờ quá lâu để nhận được một đề nghị. Hệ thống được xây dựng thực chất có hiệu suất tương tự như bất kì công cụ truy tìm trên web nào và do đó việc trả lời cho bất kì truy vấn nào là hầu như ngay lập tức hay với một khoảng thời gian có thể chấp nhận được. Cụ thể hơn, thời gian đáp ứng cho mỗi tư vấn chỉ dao động từ 0 đến 48 mili giây. 4.1.3. Không gian lưu trữ Theo thử nghiệm, kích thước Inverted Files được tạo ra luôn nhỏ hơn 50% kích thước ban đầu của cơ sở dữ liệu. Với kích thước này, Inverted Files hoàn toàn có thể được lưu trữ trong bộ nhớ chính. Yêu cầu về dung lượng bộ nhớ 0 10,000,000 20,000,000 30,000,000 40,000,000 50,000,000 60,000,000 70,000,000 T5I2 T5I4 T10I2 T10I4 T10I6 T20I2 T20I4 T20I6 T20I8 Dataset Dung lượng (bytes) Program Database Yêu cầu về dung lượng bộ nhớ 0 100,000,000 200,000,000 300,000,000 400,000,000 500,000,000 600,000,000 700,000,000 Prog DB Prog DB Prog DB Prog DB D250K D500K D750K D1000K Dataset Dung lượng (bytes) T5I2 T10I4 T20I6 Hình 6 Hình 7 4.2. Dữ liệu thực tế Thử nghiệm được thực hiện trên cơ sở dữ liệu bán lẻ (retail) và cơ sở dữ liệu phim ảnh (movies) được cung cấp tại trang web http://www.bhsu.edu không sử dụng trọng số sản phẩm. Kết quả các tư vấn được trình bày trong bảng dưới đây. Với bộ dữ liệu Retail, các sản phẩm được đề xuất trong tư vấn hoàn toàn có độ tương liên cao nhất với sản phẩm đã chọn mua. Việc kiểm tra tính đúng đắn của tư vấn được thực hiện thông qua sự sử dụng T-SQL trong SQL Server. Theo đó, bộ dữ liệu Movies cho thấy các đề xuất về các bộ phim tương ứng với các phim được chọn mua của khách hàng. Ví dụ, khi chọn mua phim Terminator 2: Judgment Day, hệ thống sẽ đề xuất 4 phim có độ tương liên cao nhất: Battle of Neretva, Blacula, Mr. Frost và Tango & Cash. Retail Movies Sản phẩm được chọn Sản phẩm đề xuất Sản phẩm được chọn Sản phẩm đề xuất beaded-ear  medicine wheel earrings m.z.  am. legacy bull fighter  medallion necklace beaded  wheeler mfg.krb608 ring 4 Titanic  Above and Beyond  Empire of the Sun  King of the Khyber Rifles  Madame Curie tea-box-24k  sd badlands shot glass/cedar  lighting buffalo/stampede tee  20 oz. diet coke Once More, My Darling  Bolero  In Name Only  Lost Boundaries 24k gld tea  potpourri  seed/bead neck  ears-10kt ke 052  milk cow morey coldiron From Russia With Love  Desert Song  Dont't Cry  It's Only Thunder  Something to Sing About figure-bear  antler bolo  buffalo tooth necklace k.willc  buff.tooth necklace k.scheutzo  mr1347ant rushmore gold 8 Terminator 2: Judgment Day  Battle of Neretva  Blacula  Mr. Frost  Tango & Cash Bảng 2. Các tư vấn đề xuất trên các bộ dữ liệu Retail và Movies. 4.3. Dữ liệu từ một siêu thị trong TpHCM Bộ dữ liệu từ siêu thị bao gồm 26.497 giao tác, mỗi giao tác chứa trung bình 39 sản phẩm. Số lượng bản ghi là 1.046.175. Tổng thời gian cho công tác xây dựng Inverted File và TRANS_TABLE là 12 giây. Thử nghiệm về các tư vấn trên bộ dữ liệu này cho một số kết quả mẫu như bảng sau: Sản phẩm đã chọn Sản phẩm được đề xuất Ao thun TE ktay 1- 3 Q.lung TE 3-4 Dam TE ctay s55 Ao thun TE NT s12 C-Ao somi nam DT Ao the thao nu C-Xi kho KANGAROO den 40g Q.dai jean TE 3-4 Quan dai thun TE s9 Giay the thao nu Tra sam linh chi ILHwa hop200g SChua dau VINAMILK 21DA 120g Banh dua GAP salad 50g Banh dua GAP tomyum 50g Truc thang giat day 6838 Vi 5 sieu nhan Bo thun TE q.lung s20 Kem Rivet nho Son nuoc LIP ON LIP htnhien 2g Bo thun TE qngan 14-16 Lan kmui FA power men 50ml C-Ping pong ban Bo thun TE q.lung s5 Dam lien TE khong tay CL s3 Cay lau nha vat tron Super C-Kemdgtr.da POND'S hong 7x2g Vi robo 9330K Bo thun TE q.dai s16 Ta baby UNIDRY tkhi L26+4PULPY Bo TE qdai s4 SRM lam sang da POND'S 50g Thong chan nhua 30CM Q.dai kaki TE s8 C-So long xe buom GIADINH Ao TE NT s1 R.champagne ANHDAO 12% 750ml Choco ASSORTMENT Vochelle 180g C-Ly ttinh Brighita MX 150ml Binh hoa so 1B- 04 Binh hoa t.tinh mau 436-35cm Bảng 3. Các tư vấn đề xuất trên các bộ dữ liệu bán hàng tại siêu thị trong TP.HCM. Với sản phẩm rượu sâm-panh Anh Đào được chọn mua, hệ thống sẽ tư vấn 4 sản phẩm tương ứng là sô-cô-la ASSORTMENT Vochelle, Ly thủy tinh Brighita MX, Bình hoa 1B-04 và Bình hoa thủy tinh màu 436. 4.4. Triển khai thực tế công cụ Công cụ không có một giao diện cụ thể do nó được xây dựng với mục đích sử dụng trên Internet, cụ thể hơn là trên các website thương mại điện tử có hỗ trợ COM. Bên cạnh đó, việc giao tiếp với Web Application sẽ được thực hiện thông qua các lời gọi đến phương thức cùng với các tham số được truyền theo quy định. Kết quả trả về của các phương thức này sẽ là các chuỗi kết quả theo dạng chuẩn được quy định trước hoặc theo dạng XML. Các tham số truyền vào cho các phương thức đều ở dạng chuỗi. Hình 8. Trang chủ của ứng dụng triển khai công cụ tư vấn được đề xuất. Nhằm minh họa cho công tác triển khai trên Web, công cụ được triển khai trên một Web site thương mại điện tử tự xây dựng bằng ASP với giao diện trang chủ như Hình 8. Công cụ được sử dụng trên toàn Web site do đó nó nên được khai báo tại dòng đầu tiên trong global.asa. Các lời gọi đến phương thức tư vấn sản phẩm, GetRecommend, có thể được đặt tại bất kì nơi nào muốn thực hiện tư vấn. Đơn cử, có thể thực hiện tư vấn sản phẩm khi khách hàng chọn bất kì sản phẩm nào vào giỏ hàng của mình. Hình 9 minh họa kết quả đề xuất của công cụ. Ngoài ra, công cụ còn cung cấp một số chức năng khác nhằm phục vụ công tác cập nhật động các giao tác cũng như các sản phẩm. 5. KẾT LUẬN Các ưu khuyết điểm của từng kĩ thuật tư vấn hiện nay đã được trình bày đầy đủ và ngắn gọn. Đề xuất thành công phương pháp kết hợp kĩ thuật Luật Kết hợp trong Khai thác Dữ liệu với kĩ thuật Inverted File trong Truy tìm Thông tin cho công cụ tư vấn sản phẩm hỗ trợ cho thương mại điện tử. Khắc phục được các hạn chế của các kĩ thuật tư vấn trước đây. Tuy nhiên, công cụ còn cần được cải tiến thêm để có thể phục vụ riêng biệt các nhóm khách hàng với các xu hướng mua sắm khác biệt, đặc trưng. Công cụ được xây dựng và triển khai thành công trên website bán sách trực tuyến. Các tư vấn được đề xuất với thời gian gần như ngay lập tức khi thử nghiệm triển khai công cụ trên môi trường Web. Mức độ quan trọng của sản phẩm tư vấn được công cụ lưu tâm đúng mức. TÀI LIỆU THAM KHẢO 1. Trần Đình Nghĩa (2006), Ứng dụng các kĩ thuật Data Mining hỗ trợ cho E-Commerce, Luận văn Thạc sĩ Khoa học máy tính, ĐH Công nghệ Thông tin, ĐHQG TP.HCM. 2. Kurgan, L., Cios, K.J., and Trombley, M. (2002) The WWW Based Data Mining Toolbox Architecture, Proceedings of the 6th International Conference on Neural Networks and Soft Computing, pp. 855-860, Zakopane, Poland. 3. Gediminas Adomavicius and Alexander Tuzhilin, (VOL. 17, NO. 6, JUNE 2005) Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions, IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING. 4. R. Agrawal, R. Srikant (1994), Fast algorithms for mining generalized association rules, in: Proceedings of the 20th International Conference on Very Large Databases (VLDB_94), Santiago, Chile, September, pp. 487–499. 5. C.H. Cai, A.W C. Fu, C.H. Cheng, W.W. Kwong (July 1998) Mining association rules with weighted items, in: Proceedings of 1998 International Database Engineering and Applications Symposium (IDEAS_98), Cardi., Wales, UK, , pp. 68–77. 6. S. Zhang, C. Zhang, X. Yan (2003) ,PostMining: maintenance of association rules by weighting, Information Systems 28 (7) 691–707. 7. Yin-Ling Cheung and Ada Wai-Chee Fu (September 2004) Mining Frequent Itemsets without Support Threshold: With and without Item Constraints, IEEE, (Vol. 16, No. 9) pp. 1052-1069. Hình 9. Minh họa cho công tác tư vấn sản phẩm . 101 102 C 1  102 E 4  100 101 102 103 G 2  101 103 T 2  101 103 100 101 102 103 TRANS_TABLE Inverted File Giá trị càng cao của hệ. 487–499. 5. C.H. Cai, A.W C. Fu, C.H. Cheng, W.W. Kwong (July 199 8) Mining association rules with weighted items, in: Proceedings of 199 8 International Database Engineering and Applications Symposium. Extensions, IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING. 4. R. Agrawal, R. Srikant (199 4), Fast algorithms for mining generalized association rules, in: Proceedings of the 20th International

Định dạng
Số trang	11
Dung lượng	641,94 KB