Thông tin tài liệu
- 1 -
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
LÊ VĂN ĐÔNG
N
N
G
G
H
H
I
I
Ê
Ê
N
N
C
C
Ứ
Ứ
U
U
L
L
U
U
Ậ
Ậ
T
T
K
K
Ế
Ế
T
T
H
H
Ợ
Ợ
P
P
V
V
À
À
Ứ
Ứ
N
N
G
G
D
D
Ụ
Ụ
N
N
G
G
T
T
R
R
O
O
N
N
G
G
C
C
Ô
Ô
N
N
G
G
T
T
Á
Á
C
C
Q
Q
U
U
Ả
Ả
N
N
L
L
Ý
Ý
K
K
H
H
O
O
H
H
À
À
N
N
G
G
T
T
Ạ
Ạ
I
I
S
S
I
I
Ê
Ê
U
U
T
T
H
H
Ị
Ị
M
M
E
E
T
T
R
R
O
O
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số : 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng - Năm 2011
- 2 -
Công trình ñược hoàn thành tại
ĐẠI HỌC ĐÀ NẴNG
Người hướng dẫn khoa học: PGS.TSKH TRẦN QUỐC CHIẾN
Phản biện 1 : TS. HUỲNH CÔNG PHÁP
Phản biện 2 : TS. TRƯƠNG CÔNG TUẤN
Luận văn ñược bảo vệ tại Hội ñồng chấm Luận văn tốt
nghiệp thạc sĩ kỹ thuật họp tại Đại học Đà Nẵng vào ngày 10 tháng
09 năm 2011.
Có thể tìm hiểu luận văn tại:
• Trung tâm Thông tin - H
ọc liệu, Đại học Đà Nẵng
• Trung tâm Học liệu, Đại học Đà Nẵng.
- 3 -
MỞ ĐẦU
1. Lý do chọn ñề tài
Trong những năm gần ñây, sự phát triển mạnh mẽ của
công nghệ thông tin ñã làm cho khả năng thu thập và lưu trữ
thông tin của hệ thống thông tin tăng một cách nhanh chóng.
Bên cạnh ñó, việc tin học hóa một cách ồ ạt và nhanh chóng các
hoạt ñộng sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt
ñộng khác ñã tạo cho chúng ta một lượng dữ liệu cần lưu trữ và
xử lý khổng lồ.
Trong bối cảnh ñó, việc nghiên cứu ñề ra các phương
pháp, công cụ mới hỗ trợ con người khám phá, phân tích, tổng
hợp thông tin nhằm ñể tìm và rút ra các tri thức hữu ích, các qui
luật tiềm ẩn hỗ trợ tiến trình ra quyết ñịnh là một nhu cầu bức
thiết. Từ ñó giúp cho nhà quản lý có cái nhìn tổng quan hơn về
dữ liệu, có thể ñưa ra những nhận ñịnh, quyết ñịnh, những dự
ñoán mang tính chiến lược nhất.
Hiện nay vấn ñề khai phá luật kết hợp chỉ mới ñược ñề
cập và ñang trở thành một khuynh hướng quan trọng của khai
phá dữ liệu. Luật kết hợp là luật ngầm ñịnh một số quan hệ kết
hợp giữa một tập các ñối tượng mà các ñối tượng có thể ñộc lập
hoàn toàn với nhau. Do ñây là một hướng ñi tiềm năng, có nhiều
khả năng phát triển trong tương lai, nên em ñã chọn ñề tài :
“Nghiên cứu luật kết hợp và ứng dụng trong công tác quản lý
kho hàng tại siêu thị Metro” trong ñợt thực hiện Luận văn tốt
nghiệp này.
- 4 -
2. Đối tượng và phạm vi nghiên cứu
Đối tượng
Lý thuyết
Kỹ thuật khai phá dữ liệu
Nghiệp vụ quản lý kho hàng trong Siêu thị
Dữ liệu
Cơ sở dữ liệu: các mặt hàng, khách hàng . . .
Các văn bản, qui ñịnh liên quan ñến công tác quản
lý trong siêu thị.
Công nghệ
Công cụ lập trình: Visual Studio C#.
Cơ sở dữ liệu: Microsoft SQL Server 2005
Phạm vi
Nghiên cứu các kiến thức cơ bản về phương pháp
phát hiện luật kết hợp
Nghiên cứu các quá trình tác nghiệp trong hệ thống
Xây dựng Hệ hỗ trợ ra quyết ñịnh phục vụ cho công
tác quản lý.
3. Mục tiêu và nhiệm vụ
Mụ c tiêu
Ứng dụng luật kết hợp vào công tác quản lý kho
hàng.
Giúp cho nhà quản lý có thể ñưa ra những nhận
ñịnh, những dự ñoán mang tính chiến lược.
Nhiệm vụ
Nghiên cứu cơ sở lý thuyết
Nghiên cứu kỹ thuật khai phá dữ liệu.
- 5 -
Nghiên cứu và phát triển các thuật giải tìm tập mục
phổ biến, luật kết hợp, luật phân lớp, luật gom cụm
dữ liệu.
Ứng dụng các thuật toán trên vào cơ sở dữ liệu
quản lý kho hàng.
Triển khai xây dựng ứng dụng
Xây dựng cơ sở dữ liệu mẫu.
Xây dựng các ứng dụng.
4. Phương pháp nghiên cứu
Tham khảo các tài liệu liên quan, các bài báo cáo
khoa học. . .
Lập kế hoạch, lên quy trình, tiến ñộ thực hiện
Nghiên cứu kỹ thuật khai phá dữ liệu bằng luật kết
hợp vào việc quản lý kho hàng tại siêu thị.
5. Ý nghĩa khoa học và thực tiễn của ñề tài
Ý nghĩa khoa học
Ứng dụng tin học trong công tác quản lý.
Ý nghĩa thực tiễn
Giải quyết ñược các công việc tác nghiệp
Hỗ trợ ñưa ra các quyết ñịnh, các dự ñoán mang tính
chiến lược cho người quản lý.
Giúp nhà quản lý có cái nhìn tổng quan về dữ liệu.
6. Tên ñề tài
“NGHIÊN CỨU LUẬT KẾT HỢP VÀ ỨNG DỤNG
TRONG CÔNG TÁC QUẢN LÝ KHO HÀNG TẠI
SIÊU TH
Ị METRO”
- 6 -
7. Cấu trúc luận văn
Nội dung chính của luận văn ñược chia thành 2 chương như sau:
Chương 1: Cơ sở lý thuyết về khai phá dữ liệu và
luật kết hợp.
Chương 2: Ứng dụng khai phá luật kết hợp trong
công tác quản lý kho hàng tại siêu thị .
- 7 -
CHƯƠNG 1
CƠ SỞ LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU
VÀ LUẬ T KẾT HỢP
1.1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1.1. Định nghĩa khai phá dữ liệu
Khai phá dữ liệu là tiến trình khám phá tri thức tiềm ẩn
trong các CSDL, cụ thể hơn, ñó là tiến trình lọc, sản sinh những
tri thức hoặc các mẫu tiềm ẩn, chưa biết, những thông tin hữu ích
từ các CSDL lớn.
1.1.2. Các ứng dụng của khai phá dữ liệu
Phát hiện tri thức và khai phá dữ liệu liên quan ñến nhiều
ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, CSDL, thuật
toán, tính toán song song… Đặc biệt phát hiện tri thức và khai
phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các
phương pháp thống kê ñể mô hình hóa dữ liệu và phát hiện các
mẫu. Khai phá dữ liệu có nhiều ứng dụng trong thực tế, ví dụ
như: Bảo hiểm, tài chính và thị trường chứng khoán; Thống kê,
phân tích dữ liệu và hỗ trợ ra quyết ñịnh; Điều trị y học và chăm
sóc y tế; Sản xuất và chế biến; Text mining và Web mining; Lĩnh
vực khoa học. . .
1.1.3. Các bước của quy trình khai phá dữ liệu
Quy trình khai phá dữ liệu thường tuân theo các bước sau:
Bước thứ nhất: Hình thành, xác ñịnh và ñịnh nghĩa bài toán
Bước thứ hai: Thu thập và tiền xử lý dữ liệu
Bước thứ ba: Khai phá dữ liệu, rút ra các tri thức
B
ước thứ tư: Phân tích và kiểm ñịnh kết quả
Bước thứ năm: Sử dụng các tri thức phát hiện ñược
- 8 -
Tóm lại, khám phá tri thức là một quá trình kết xuất ra
tri thức từ kho dữ liệu mà trong ñó khai phá dữ liệu là công
ñoạn quan trọng nhất.
1.1.4. Nhiệm vụ chính trong khai phá dữ liệu
Quá trình khai phá dữ liệu là quá trình phát hiện ra mẫu
thông tin. Trong ñó giải thuật khai phá tìm kiếm các mẫu ñáng
quan tâm theo dạng xác ñịnh như các luật, phân lớp, hồi quy,
cây quyết ñịnh, …
1.1.4.1. Phân lớp (phân loại – classification)
1.1.4.2. Hồi quy (regression)
1.1.4.3. Phân nhóm (clustering)
1.1.4.4. Tổng hợp (summarization)
1.1.4.5. Mô hình hóa sự phụ c thuộc (dependency
modeling)
1.1.4.6. Phát hiện sự biến ñổi và ñộ lệch (change and
deviation dectection)
1.1.5. Các phương pháp khai phá dữ liệu
1.1.5.1. Các thành phần của giải thuật khai phá dữ
liệu
1.1.5.2. Phương pháp suy diễn/ quy nạp
1.1.5.3. Phương pháp ứng dụng K – láng giềng gần
1.1.5.4. Phương pháp sử dụng cây quyết ñịnh và luật
1.1.5.5. Phương pháp phát hiện luật kết hợp
1.1.6. Lợi thế của khai phá dữ liệu so với các phương
pháp cơ bản
1.1.6.1. H
ọc máy (Machine Learning)
1.1.6.2. Phương pháp hệ chuyên gia
1.1.6.3. Phát kiến khoa học
- 9 -
1.1.6.4. Phương pháp thống kê
1.1.7. Lựa chọn phương pháp
1.1.8. Thách thức trong ứng dụng và nghiên cứu kỹ
thuật khai phá dữ liệu
Ở ñây, ta ñưa ra một số khó khăn trong việc nghiên cứu
và ứng dụng kỹ thuật khai phá dữ liệu. Tuy nhiên, có khó khăn
không có nghĩa là việc giải quyết là hoàn toàn bế tắc mà chỉ
muốn nêu lên rằng ñể khai phá ñược dữ liệu không phải là ñơn
giản, mà phải xem xét cũng như tìm cách giải quyết những vấn
ñề này. Ta có thể liệt kê một số khó khăn sau:
1.1.8.1. Các vấn ñề về CSDL
Đầu vào chủ yếu của một hệ thống khám phá tri thức là
các dữ liệu thô cơ sở, phát sinh trong khai phá dữ liệu chính là
từ ñây. Do các dữ liệu trong thực tế thường ñộng, không ñầy ñủ,
lớn và bị nhiễu. Trong những trường hợp khác, người ta không
biết CSDL có chứa các thông tin cần thiết cho việc khai phá hay
không và làm thế nào ñể giải quyết với sự dư thừa những thông
tin không thích hợp.
1.1.8.2. Một số vấn ñề khác
• “Quá phù hợp”
• Đánh giá tầm quan trọng thống kê
• Khả năng biểu ñạt các mẫu
• Sự tương tác giữa người sử dụng và các tri thức sẵn có
- 10 -
1.2. LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU
1.2.1. Vài nét về khai phá luật kết hợp
1.2.2. Một số ñịnh nghĩa cơ bản
Định nghĩa 1.1: Luật kết hợp
Hạng mục (item) là mặt hàng trong giỏ hàng hay một
thuộc tính.
Tập các hạng mục (itemset) là tập các mặt hàng trong
giỏ hàng hay tập các thuộc tính, I = {i
1
, i
2
, , i
m
}
Ví dụ : tập I = { sữa, bánh mì, ngũ cốc, sữa chua}
Giao dịch (Transation) là tập các hạng mục ñược mua
trong một giỏ hàng (có TID là mã giao dịch). Giao dịch t là tập
các hạng mục sao cho t
⊆ Ι.
Ví dụ: t = {bánh mì, sữa chua, ngũ cốc}
Cơ sở dữ liệu giao dịch là tập các giao dịch, ví dụ cơ sở
dữ liệu giao dịch D = {t
1
, t
2, . . .
t
n
}.
Một luật kết hợp là một mệnh ñề kéo theo có dạng
X→Y, trong ñó X, Y ⊆ I, thỏa mãn ñiều kiện X∩Y=∅. Các tập
X và Y ñược gọi là tập các hạng mục (itemset). Tập X gọi là
nguyên nhân, tập Y gọi là hệ quả.
Định nghĩa 1.2: Độ hỗ trợ
Độ hỗ trợ của tập các hạng mục X trong cơ sở dữ liệu
giao dịch D là tỷ lệ giữa số các giao dịch chứa X trên tổng số
các giao dịch trong D, ký hiệu là Support(X ) hay
Supp(X).
Ta có: 0 ≤ Supp(X) ≤ 1 với mọi tập hợp X.
Độ hỗ trợ của một luật kết hợp X→Y sẽ là:
Supp(X
→
Y) = Supp(X
∪
Y)
[...]... PHÁ LU T K T H P TRONG CÔNG TÁC QU N LÝ KHO HÀNG T I SIÊU TH 2.1 Phát bi u v n ñ Đ tài nghiên c u lý thuy t khai phá d li u, tìm hi u v lu t k t h p và áp d ng thu t toán cây quy t ñ nh ñ khai phá trên cơ s d li u qu n lý kho hàng t i siêu th ñã có v i mong mu n tìm ra nh ng k t qu khai phá thú v , h u ích nh m giúp cho nhà qu n lý có cái nhìn t ng quan hơn, n m b t ñư c nh ng mã lo i hàng nào mang l... tính c a 5 mã lo i hàng ñã ch n (lo i hàng 1, lo i hàng 2, lo i hàng 3, lo i hàng 4, lo i hàng 5) và l i nhu n thu ñư c tương ng Trong b ng này ta có 347 giao d ch (d a trên b ng chi ti t hóa ñơn), m i giao d ch có 6 thu c tính B ng 2.6 : B ng doanh thu trư c khi r i r c Loaihang1 Loaihang2 Loaihang3 T b ng doanh thu Loaihang4 Loaihang5 LoiNhuan trên, ta ti n hành r i r c các thu c tính trong b ng trên... nhu n c a doanh nghi p 2.2 Cơ s d li u qu n lý kho hàng siêu th • Xác ñ nh các th c th : Th c th Khách hàng : dbo.Khachhang Th c th Hóa ñơn : dbo.Hoadon Th c th Hàng hóa : dbo.Hanghoa Th c th Lo i hàng : dbo.Loaihang Th c th Chi ti t hóa ñơn : dbo.Chitiethoadon • Sơ ñ quan h các th c th : - 22 • B ng mô t chi ti t các ràng bu c toàn v n d li u c a các th c th và d li u m u cho các th c th : • Sơ ñ quan... k t qu ñ t ñư c trong ph m vi c a lu n văn có th chưa có ý nghĩa thi t th c vào công vi c qu n lý nhưng nó cũng góp m t ph n nh h tr giúp cho ngư i qu n lý ñưa ra ñư c nh ng nh n ñ nh ñúng ñ n hơn, mang tính chi n lư c hơn Bài toán c th ñ t ra ñây là : Xây d ng H h tr ra quy t ñ nh d a trên mã các lo i hàng ñ ñưa ra nh ng ñánh giá, nh ng nh n ñ nh v vi c doanh thu c a nh ng mã lo i hàng ñó có nh hư... Ai∩Aj = ∅, ∀i, j =1,2, ,m, i ≠ j và U A = A i i =1 - Ai là t p h p các dòng trong A có giá tr t i X là x i, nghĩa là Ai = {t∈A|t.X = x i}, ∀i = 1, 2, , m Đ nh nghĩa 1.8 : G i TX là m t phép tách như trong ñ nh A nghĩa 1.7 V i m i i t 1 ñ n m, g i ny1i là s b ng Ai th a ñi u ki n Y = y1, ký hi u tư ng t cho , , A ny ki dòng trong A ny2i Đ phân tán thông tin c a phép tách TX , ký hi u E(TX), là m t giá... phân lo i khách hàng là VIP ho c không VIP: có kh i lư ng giao d ch trung bình m i tháng ñ t t 3,000,000 VND tr lên, có t n su t giao d ch trung bình 10 l n m i tháng V n ñ ñ t ra c a doanh nghi p là c n xác ñ nh các ñ c trưng chung c a nhóm khách hàng VIP, ñ t ñó làm cơ s d báo v m t khách hàng (m i) có ti m năng tr thành khách hàng VIP hay không? Gi s (c a khách hàng) ñ doanh nghi p d a vào các thu c... N, Y), trong ñó Y là thu c tính output (thu c tính c n d báo) và X 1, X 2, , XN là các thu c tính input Gi s Y ñã ñư c r i r c hóa thành k giá tr là y1 , y2 , , yk (nghĩa là giá tr t i Y c a m t dòng b t kỳ trong A ph i là m t trong các y1, y2 , , yk ) G i n y1 là s dòng trong b ng A th a ñi u ki n Y = y1 , ký hi u tương t cho n y 2 , , n y k Đương nhiên ta có các n y i ph i l n hay b ng 0 và ( n... v cho công tác qu n lý 2 Nh ng h n ch • Ch m i minh h a h th ng trên cơ s d li u c a siêu th Walmart, chưa minh h a trên nhi u cơ s d li u khác • H th ng còn ñơn gi n, chưa có nhi u ch c năng - 26 b) Hư ng phát tri n • Ti p t c hoàn thi n ñ tài, xây d ng h th ng nhi u ch c năng hơn, th nghi m và ñánh giá k hơn các thu t toán trên d li u l n • Đưa thêm các phương pháp khác c a khai phá d li u vào vi... (dòng) có giá tr t i Y gi ng nhau T ñó, phép tách TX là t t khi E(TX) th p, và ngư c l i Gi i thu t xây d ng cây quy t ñ nh * Phát bi u bài toán: Cho b ng d li u A g m n dòng v i các thu c tính (X 1, X2 , , XN , Y), trong ñó Y là thu c tính Output (thu c tính c n d báo) và X 1, X 2, , X N là các thu c tính input T t c thu c tính c a A ñ u có giá tr r i r c và w là ngư ng ñ tin c y ch p nh n ñư c * Input:... 0 n u không thu c lo i khách hàng VIP, b ng 1 n u ngư c l i Khi ñó, các ñ c trưng chung mà doanh nghi p c n tìm chính là m t s phân l p hay gom c m có ñ nh hư ng (trên b ng d li u ñã có trên) mà các k t qu có th ñư c bi u di n d ng lu t k t h p E(X)→E(Y) Trong ñó: Y chính là thu c tính “Là KH VIP” và E(Y) là ñi u ki n “Y=1” (ho c th m chí là Y =0), nghĩa là m i dòng t trong b ng trên ñư c g i là th . ñã chọn ñề tài :
“Nghiên cứu luật kết hợp và ứng dụng trong công tác quản lý
kho hàng tại siêu thị Metro trong ñợt thực hiện Luận văn tốt
nghiệp này dữ liệu và
luật kết hợp.
Chương 2: Ứng dụng khai phá luật kết hợp trong
công tác quản lý kho hàng tại siêu thị .
- 7 -
CHƯƠNG 1
CƠ SỞ LÝ THUYẾT
Ngày đăng: 11/03/2014, 14:20
Xem thêm: Luận văn:Nghiên cứu luật kết hợp và ứng dụng trong công tác quản lý kho hàng tại siêu thị metro potx, Luận văn:Nghiên cứu luật kết hợp và ứng dụng trong công tác quản lý kho hàng tại siêu thị metro potx