Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 21 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
21
Dung lượng
344,18 KB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Trần Thu Hà
NGHIÊN CỨULUẬTKẾTHỢPHIẾMVÀKHUYẾNNGHỊÁPDỤNGCHOBÀITOÁNTIẾPTHỊ
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2013
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: Tiến sĩ Hà Hải Nam
Phản biện 1:
……………………………………………………………………………
Phản biện 2:
…………………………………………………………………………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học
viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
1
MỞ ĐẦU
Phát hiện luậtkếthợp là phát hiện các mối quan hệ đó trong phạm vi của một
tập dữ liệu đã cho. Trong lĩnh vực khai phá dữ liệu (data mining), luậtkếthợp
(association rule) được dùng để chỉ mối quan hệ "kéo theo" giữa các tập dữ liệu (ví
như sự xuất hiện của mặt hàng này "kéo theo" sự xuất hiện của mặt hàng kia) trong
một tập bao gồm nhiều đối tượng dữ liệu. Phát hiện luậtkếthợp đang được ứng
dụng thành công trong một số lĩnh vực kinh tế xã hội khác nhau như thương mại, , y
tế, tài chính,…. Một trong những vấn đề mới mà các nhà nghiêncứu hiện nay quan
tâm là vấn đề phát hiện luậtkếthợp hiếm( gọi tắt là luật hiếm) và ứng dụngluật
hiếm vào các lĩnh vực của cuộc sống.
Yếu tố thành công trong mọi hoạt động kinh doanh ngày nay là việc biết sử
dụng thông tin một cách có hiệu quả. Có nghĩa là từ các dữ liệu có sẵn phải tìm ra
các thông tin tiềm ẩn mà trước đó chưa được phát hiện, tìm ra xu hướng và các yếu
tố tác động lên chúng. Trong chiến lược kinh doanh thìTiếpthị luôn được xem là
cốt lõi của vấn đề, bởi muốn thành công trong kinh doanh thì chương trình tiếp thị,
quảng bá đến người tiêu dùng luôn là khâu quan trọng nhất.
Từ những yêu cầu thực tế trên, em chọn đề tài “Nghiên cứuluậtkếthợp
hiếm vàkhuyếnnghịápdụngchobàitoántiếp thị”.
Từ những mục tiêu và yêu cầu của đề tài nghiên cứu, đề tài được xây dựng
gồm phần mở đầu, 3 chương nội dungvà phần kết luận, cụ thể như sau:
Chương 1: Tổng quan về vấn đề phát hiện luậtkết hợp.
Chương 2: Luậtkếthợp hiếm.
Chương 3:Khuyến nghịápdụngluậtkếthợphiếmchobàitoántiếp thị.
Trong quá trình hình thành luận văn học viên đã được sự giúp đỡ tận tình của
thầy hướng dẫn TS. Hà Hải Nam, cùng sự giúp đỡ của các thầy cô giáo trong Học
viện Bưu chính viễn thông cùng các bạn bè đồng nghiệp. Học viên xin chân thành
cảm ơn và mong nhận được sự đóng góp tích cực để bản thân được tự hoàn thiện
mình hơn.
2
CHƯƠNG I: TỔNG QUAN VỀ VẤN ĐỀ PHÁT HIỆN LUẬT
KẾT HỢP.
Trước tiên, chương này sẽ giới thiệu tổng quan về phương pháp chung phát
hiện luậtkết hợp. Tiếp theo là trình bày quá trình phát hiện luậtkếthợp từ CSDL
tác vụ và vấn đề phát hiện luậtkếthợp từ CSDL định lượng.
1.1 Luậtkếthợpvà các phương pháp chung phát hiện luậtkết hợp.
1.1.1. Bàitoán phát hiện luậtkếthợp
Ngày nay việc phát hiện luậtkếthợp đang trở thành một khuynh hướng quan
trọng trong khai phá dữ liệu. Luậtkếthợp là luật ngầm định một số quan hệ kếthợp
giữa một tập các đối tượng, mà các đối tượng này có thể độc lập hoàn toàn với
nhau. Khái niệm luậtkếthợp (Association Rule) và phát hiện luậtkếthợp
(Association Rule Mining) được Rakesk Agrawal và các cộng sự đề xuất lần đầu
tiên vào năm 1993 nhằm phát hiện các mẫu có giá trị trong CSDL tác vụ
(Transaction Database) tại các siêu thị.
Mục đích của bàitoán phát hiện luậtkếthợp là tìm ra mối quan hệ giữa các
tập mục dữ liệu trong các CSDL lớn và các mối quan hệ này là có ích trong hỗ trợ
quyết định. Trong CSDL dân số, quan hệ “60% số người lao động ở độ tuổi trung
niên có thu nhập thấp hơn mức thu nhập bình quân” sẽ rất có ích cho việc điều
chỉnh chính sách thu nhập. Trong CSDL siêu thị, việc phát hiện được quan hệ “78%
số khách hàng mua sữa và đường cũng mua bơ” sẽ rất có ích cho quyết định kinh
doanh, chẳng hạn, quyết định về số lượng nhập các mặt hàng này hoặc bố trí chúng
tại các ngăn hàng liền kề nhau.
Luật kếthợp (Association rule) được định nghĩa là biểu diễn mối quan hệ
giữa hai tập mục dưới dạng X
Y, trong đó X
I, Y
I, X
Y =
. X được gọi
là phần tiền đề (antecedent) và Y được gọi là phần hệ quả (consenquent) của luật.
1.1.2. Quy trình phát hiện luậtkếthợp
3
Theo thống kê của Microsoft [5], đã có 2671 tác giả công bố 1526 công
trình khoa học có giá trị (với 10224 lần được chỉ dẫn) về phát hiện luậtkết hợp.
Mục đích của bàitoán phát hiện luậtkếthợp trong CSDL tác vụ D là đi tìm tất cả
các luậtkếthợp mạnh (độ hỗ trợ cực tiểu và độ tin cậy cực tiểu do người sử dụng
đưa ra trong quá trình phát hiện luật). Các thuật toán phát hiện luậtkếthợp thường
chia quá trình giải bàitoán này thành hai bước như sau:
(1) Bước 1: Tìm tất cả các tập phổ biến trong CSDL D.
(2) Bước 2: Với mỗi tập phổ biến I
1
tìm được ở bước 1 tất cả các luật
mạnh có dạng I
2
I
1
– I
2
, I
2
I
1
Trong đó, ở bước thứ 1 đây là giai đoạn khó khăn, phức tạp và tốn nhiều chi
phí. Bước 2 được giải quyết đơn giản hơn khi đã có các tập phổ biến và độ hỗ trợ
của chúng. Bàitoán tìm tập phổ biến trong không gian các tập con của tập mục I có
độ phức tạp tính toán là O(2
I
).
2.1 Phát hiện luậtkếthợp từ CSDL tác vụ.
Nghiên cứu phát hiện luậtkếthợp trong CSDL tác vụ được khởi đầu từ phát
hiện luậtkếthợp với một ngưỡng độ hỗ trợ, tới phát hiện luậtkếthợp với độ hỗ trợ
khác nhau cho các mục dữ liệu.
1.2.1. Phát hiện luậtkếthợp với một ngưỡng độ hỗ trợ.
Bài toán phát hiện luậtkếthợp đưa ra một ngưỡng độ hỗ trợ chung( độ hỗ trợ
cực tiểu) do người sử dụng đưa vào. Việc phát hiện luậtkếthợp tuân thủ theo quy
trình hai bước, tập chung vào bước tìm ra tập các tập phổ biến, với ba hướng giải
quyết:
- Tìm tất cả các tập phổ biến.
- Tìm tất cả các tập phổ biến đóng.
- Tìm tất cả các tập phổ biến cực đại.
1.2.1.1. Phát hiện luậtkếthợp từ tất cả các tập phổ biến
4
Các phương pháp được sử dụng ở đây là phương pháp duyệt không gian tìm
kiếm, các phương pháp xác định trước hỗ trợ. Bỏ qua độ phức tạp vào – ra và tính
toán khi duyệt CSDL, các thuật toán này đều thực hiện tìm kiếm trên cây các tập
con của tập mục vì vậy độ phức tạp tính toán là O( ).
Phương pháp duyệt không gian tìm kiếm được chia thành hai nhóm tương
ứng: duyệt theo chiều rộng (Breadth First Search - BFS) và duyệt theo chiều
sâu(Depth First Search - DFS).
Duyệt theo chiều rộng là duyệt theo kích thước k của các tập mục ứng viên
lần lượt từ kích thước 1, 2, ….Một số thuật toán phổ biến theo cách tiếp cận này là
Apriori, Partition, ….,thuật toán Apriori( hình 1.1) được xếp vào tốp 10 thuật toán
khai phá dữ liệu điển hình nhất.
Thuật toán Apriori thực hiện nhiều lần duyệt dữ liệu, trong lần duyệt thứ
nhất, ta tính độ hỗ trợ của tập mục riêng và xác định mục phổ biến trong chúng,
nghĩa là thỏa mãn độ hỗ trợ cực tiểu. Trong mỗi lần duyệt sau ta sử dụng các tập
phổ biến đã tìm được trong lần duyệt trước để sinh ra tập phổ biến tiềm năng, gọi là
tập ứng viên và tính độ hỗ trợ của tập ứng viên này khi duyệt qua dữ liệu, ở cuối
mỗi lần duyệt ta xác định được tập item nào là tập phổ biến thực sự trong các tập
ứng viên. Quá trình đó thực hiện cho tới khi không còn tập mục phổ biến nào mới
được tìm thấy nữa.
Bảng 11.1: Bảng kí hiệu sử dụng trong thuật toán Apriori
Ký hiệu
Ý nghĩa
k-itemset
Tập có k-mục dữ liệu
L
k
Tập chứa k= itemset phổ biến. Mỗi phần tử của tập này có hai trường:
i) itemset và ii) độ hỗ trợ của itemset đó
C
k
Tập chứa các k-itemset ứng viên( các tập phổ biến à tiềm năng). Mỗi
phần tử của tập này có hai trường: i) itemset và ii) độ hỗ trợ.
5
Đầu vào: CSDL D, độ hỗ trợ cực tiểu minSup
Kết quả: Tập các tập phổ biến
Thuật toán Apriori tìm các tập phổ biến:
1. L1 = {1-tập mục dữ liệu phổ biến};
2. for ( k = 2; L
k-1
; k++ ) do begin
3. C
k
= apriori-gen(L
k-1,
minsupp); // sinh ra các ứng cử viên L
k-1
4. forall transactions t D do begin
5. C
t
= subset(C
k
, t); // ứng cử viên được chứa trong t
6. forall candidates c C
t
do
7. c.count++;
8. end
9. L
k
= {c C
k
c:count minSup}
10. end
11. Answer = U
k
L
k
Hàm Apriori – Gen sinh ra các ứng cử viên:
Procedure apriori-gen(L
k-1
)
insert into C
k
//bước kết nối
select p.item
1
, p.item
2
,…,p.item
k-1
, q.item
k-1
from L
k-1
p, L
k-1
q
where p.item
1
= q.item
1
,…,p.item
k-2
= q.item
k-2
, p.item
k-1
<q.item
k-1
;
forall itemsets c C
k
do //bước tỉa
forall (k-1)-supsets s of c do
if (s L
k-1
) then
Delete c from C
k
;
Hình 21.1: Thuật toán Apriori
Với các CSDL lớn, độ phức tạp vào – ra và tính toán khi duyệt CSDL là rất
lớn, cho nên các phương pháp xác định trước độ hỗ trợ được phát triển nhằm làm
giảm số lần truy cập CSDL.
1.2.1.2. Phát hiện luậtkếthợp từ các tập phổ biến đóng
Bài toán tìm tập phổ biến nói chung có độ phức tạp tính toán O( ). Một
trong các hướng giảm độ phức tạp tính toán là phát triển các phương pháp giảm số
lượng tập mục phải duyệt. Về lý thuyết, kích cỡ của dàn tập mục đóng là
với K là độ dài của tập đóng cực đại. Kết quả của thực nghiệm cho
thấy tốc độ phát triển trung bình không gian tìm kiếm nhỏ hơn .
1.2.1.3. Phát hiện luậtkếthợp từ các tập phổ biến cực đại.
6
Với những CSDL quá dầy( mọi giao dịch đều có số lượng lớn các mặt hàng)
thì số lượng tập phổ biến đóng cũng rất lớn và phương pháp chỉ tìm các tập phổ
biến cực đại được đề xuất để khác phục tình huống này.
Tập phổ biến X là cực đại nếu không có tập phổ biến khác chứa nó. Như vậy
không gian tập phổ biến cực đại là nhỏ hơn không gian tập phổ biến đóng. Từ các
tập phổ biến cực đại cho phép sinh ra được tất cả các tập phổ biến nhưng có hạn chế
là không ghi được độ hỗ trợ của chúng. Một số thuật toán tìm tập phổ biến cực đại
điển hình là Max – Miner, MAFIA, GENMAX…
1.2.2. Phát hiện luậtkếthợp với độ hỗ trợ khác nhau.
1.2.2.1. Phát hiện luậtkếthợp có ràng buộc mục dữ liệu
Phát hiện luậtkếthợp trong CSDL sinh ra rất nhiều luật trong khi người sử
dụng lại chỉ quan tâm đến một phần trong các luật được phát hiện, như là chỉ quan
tâm đến các luật có chứa một mục dữ liệu cụ thể, vì vậy, các nghiêncứu phát hiện
luật kếthợp theo ràng buộc mục dữ liệu ra đời.
1.2.2.2. Phát hiện luậtkếthợp với độ hỗ trợ nhiều mức
Thực tiễn cho thấy, với cùng một CSDL, có thể có nhiều tập mục có tần suất xuất
hiện rất cao nhưng có nhiều tập mục khác lại có tần suất xuất hiện rất thấp và việc
sử dụng một ngưỡng độ hỗ trợ (tương ứng với giả thiết tần suất xuất hiện của các
mục là như nhau) là không hợp lý. Hướng tiếp cận phát hiện luậtkếthợp với độ hỗ
trợ nhiều mức được đưa ra nhằm khắc phục điều bất hợp lý này, theo đó, người
dùng có thể đưa ra ngưỡng độ hỗ trợ cực tiểu khác nhau cho từng mục dữ liệu. Bằng
việc đặt độ hỗ trợ cực tiểu thấp cho các mục dữ liệu tần số thấp cho phép người sử
dụng sẽ tìm được các luậtkếthợp đa dạng hơn.
1.2.2.3. Phát hiện luậtkếthợp có trọng số
Một khái niệm mang tính thực tế là các tập mục không đơn thuần chỉ được
xét là “có” hay “không” trong khi tính độ hỗ trợ mà mỗi tập mục được kèm theo
một trọng số mô tả mức quan trọng của tập mục đó. Tập mục càng quan trọng thì
7
cần được gắn trọng số lớn. Phát hiện luậtkếthợp có trọng số đã dựa trên tính chất
đóng của trọng số( weighted downward closure property). Thứ tự ưu tiên chọn các
tập mục dựa vào tầm quan trọng của nó thay vì tần suất xuất hiện. Như vậy, các luật
kết hợp sinh ra theo hướng này phụ thuộc vào việc sử dụng trọng số. Để có được
các luậtkếthợp hữu ích thì phải xác định được cách thức gắn trọng số phù hợpcho
các mục dữ liệu. Các tác giả[10] đã đề xuất hai loại trọng số là: Trọng số mục dữ
liệu( item weight) và trọng số tập mục dữ liệu( itemset weight). Trọng số mục dữ
liệu w(i) được gắn với một mục dữ liệu và thể hiện tầm quan trọng của nó( chẳng
hạn trong CSDL siêu thị có thể chọn dựa vào lợi nhuận của mặt hàng). Trọng số tập
mục dữ liệu được tính dựa vào trọng số của mục dữ liệu. Cách đơn giản nhất để xác
định trọng số của tập mục dữ liệu là dựa vào giá trị trung bình cộng của trọng số
mục dữ liệu.
1.2.2.4. Phát hiện luậtkếthợp có ràng buộc độ hỗ trợ.
Sử dụng ràng buộc độ hỗ trợ giảm dần theo độ dài của tập mục (length-
decreasing support constraint), Thuật toán LPMiner được đề xuất [8]. Thuật toán
hướng tới việc tìm các tập mục dữ liệu thỏa mãn điều kiện f(1) với 1 là độ dài của
tập mục dữ liệu, cụ thể f( l
a
)
f( l
b
) với mọi l
a
và l
b
thỏa mãn điều kiện l
a
< l
b
. Các
tác giả đưa ra ngưỡng độ hỗ trợ mà theo đó sẽ giảm dần theo chiều dài của tập mục
dữ liệu. Một tập mục được coi là phổ biến nếu thỏa mãn ràng buộc độ hỗ trợ giảm
dần theo độ dài của nó. Trái với cách tiếp cận truyền thống, tập mục được coi là phổ
biến ngay cả khi tập con của nó là không phổ biến. Như vậy tính chất đóng về độ hỗ
trợ theo thuật toán Apriori đã không còn đúng. Để khắc phục vấn đề này, các tác giả
đã phát triển tính chất giá trị nhỏ nhất ( SVE – smallest valid extension). Cách tiếp
cận này đề cao các tập mục nhỏ, tuy nhiên tập mục dài có thể rất hữu ích, ngay cả
khi chúng ít phổ biến hơn. Thuật toán tìm ra các tập dài mà không cần phải sinh một
số lượng lớn các tập ngắn tránh được sự bùng nổ số lượng lớn các tập mục nhỏ.
1.2.2.5. Phát hiện luậtkếthợp không sử dụng độ hỗ trợ cực tiểu.
[...]... hiện luậtkếthợp hiếm, quá trình phát hiện luậtkếthợphiếm từ CDSL định lượng, và vấn đề phát hiện luậthiếm Sporadic với một số khuynh hướng nghiêncứu về luậthiếm 13 CHƯƠNG III: KHUYẾNNGHỊÁPDỤNGLUẬTKẾTHỢPHIẾM TRONG BÀITOÁNTIẾP THỊ: Nội dung chương 3 đưa ra vấn đề ứng dụngluậtkếthợphiếm vào bàitoántiếpthị trong kinh doanh Lĩnh vực mà luận văn quan tâm ở đây là đưa ra mô hình bài toán. .. động và phân tích xu hướng Thử nghiệm được ápdụng với CSDL của một của hàng bán đồ trẻ em cũng đã mang lại kết quả hữu ích mà bàitoántiếpthị cần quan tâm Đưa ra được một số luật cần thiết ápdụngchotiếpthị 17 PHẦN KẾT LUẬN Các kết quả đạt được: Luận văn đã nghiêncứu về lý thuyết và ứng dụng vấn đề phát hiện luậtkết hợp, ứng dụng khai phá luậtkếthợp với luậtkếthợphiếm vào bàitoántiếp thị. .. hành chỉ đưa ra một số luậthiếm khá đơn giản, thử nghiệm cũng minh chứng được khả năng ápdụng khai phá luậthiếm trong các ứng dụngtiếpthị sản phẩm dịch vụ Kết luận chương: Trong chương thứ 3, luận văn đã trình bày kết quả ứng dụng khai phá dữ liệu với luậtkếthợphiếmchobàitoántiếpthị Việc ứng dụngluậtkếthợphiếm được khuyếnnghịápdụng vào ba phạm vi chính của tiếpthị dựa trên tri thức... về luậtkếthợphiếmvàkhuyếnnghịápdụng khai phá dữ liệu vàluậtkếthợphiếm vào bàitoántiếpthị Đây chỉ là ứng dụng một phần nhỏ vào mảng tiếpthị để giúp phát triển kinh doanh cho các doanh nghiệp Trong thời gian tới học viên muốn tìm hiểu sâu hơn về Khai phá dữ liệu và phát triển luậtkếthợp góp phần đưa các ứng dụng của nó trong mọi mặt của đời sống xã hội đưa vào bàitoántiếpthị trong... thảo luận ngắn gọn về khuynh hướng nghiên cứuluậtkếthợphiếm 2.1 Giới thiệu chung về luật kếthợphiếmLuậtkếthợphiếm hàm ý chỉ các luậtkếthợp không xảy ra thường xuyên trong các CSDL Mặc dù ít khi xảy ra, nhưng trong nhiều trường hợp chúng lại là các luật rất có giá trị Luậtkếthợphiếm được ứng dụng ở nhiều các lĩnh vực khác nhau Các luậthiếm sẽ giúp cho việc học phát âm từ, xác định ảnh... quan tâm của các nhà nghiêncứu 2.2 Phát hiện luật kếthợphiếm Phần này sẽ nghiêncứuvà giới thiệu vấn đề phát hiện luậthiếm từ CSDL định lượng với việc phát hiện luậtkếthợphiếm Sporadic 2.2.1 Phát hiện luậtkếthợphiếm từ các CSDL định lượng Nhằm phát hiện luậtkếthợp định lượng hiếm Định nghĩa về luậtkếthợp định lượng có ý nghĩa được các tác giả [2] đưa ra như sau: 11 Luật chung (genral rule):... trung vào giao diện khách hàng và quản lý các tương tác với khách hàng 18 Qua quá trình làm luận văn học viên đã thu nhận được những kết quả sau: Hiểu được các kiến thức về khai phá dữ liệu nói chung và luật kếtkếthợphiếm nói riêng Đề xuất ápdụng kỹ thuật khai phá dữ liệu với luậtkếthợphiếmcho Hướng nghiêncứutiếp theo: Phạm vi nghiêncứu của đề tài chỉ nghiêncứu cơ sở lý thuyết về luật kết. .. phù hợp 3.2 Khuyếnnghịápdụng khai phá dữ liệu với luậtkếthợphiếmchobàitoántiếpthị Các quyết định tiếp thị, như là khuyến mãi, các kênh phân phối và phương tiện quảng cáo, dựa trên các phương pháp tiếp cận phân đoạn truyền thông dẫn đến tỷ lệ áp ứng kém và giá thành cao Khách hàng ngày nay có các thị hiếu và sở 14 thích khó có thể nhóm thành các nhóm đồng nhất để phát triển các chiến lược tiếp. .. ra mô hình bàitoántiếpthị với đề xuất các luậtkếthợphiếm vừa tìm được ở trên ứng dụng vào bài toán, đưa ra giải pháp chobàitoántiếpthị nhằm phát triển kinh doanh 3.1 Khai phá dữ liệu vàbàitoántiếpthị Như chúng ta đã biết trong kinh doanh, muốn đạt kết quả cao thì Maketing đóng một vai trò quan trọng không thể thiếu trong việc tiếp cận với khách hàng, quảng bá sản phẩm và phát triển kinh... đã giúp cho học viên có kiến thức và căn cứ cơ sở để lựa chọn và thực hiện hướng nghiêncứu của mình 10 CHƯƠNG II: LUẬTKẾTHỢPHIẾM Chương 2 giới thiệu chung về luậtkếthợp hiếm, trọng tâm là luậtkếthợphiếm Sporadic tuyệt đối và không tuyệt đối Một số thuật toán phát hiện tập hiếm được trình bày trong chương này là tiền đề cho các cài đặt thử nghiệm ở chương 3 Tiếp theo,chương 2 cũng đưa ra thảo . trình bày kết quả ứng dụng khai phá dữ liệu
với luật kết hợp hiếm cho bài toán tiếp thị. Việc ứng dụng luật kết hợp hiếm được
khuyến nghị áp dụng vào ba. về khuynh hướng nghiên cứu
luật kết hợp hiếm.
2.1. Giới thiệu chung về luật kết hợp hiếm.
Luật kết hợp hiếm hàm ý chỉ các luật kết hợp không xảy ra