BO GIAO DUC VA DAO TAO
DAI HOC HUE
TRUONG DAI HOC KHOA HOC
PHAM VAN HOANG
UNG DUNG LUAT KET HOP
DE XAY DUNG HE HO TRO TU VAN
TUYEN SINH DAI HOC
CHUYEN NGANH: KHOA HOC MAY TiNH MA SO: 8 48 01 01
LUAN VAN THAC SI KHOA HOC
ĐỊNH HƯỚNG NGHIÊN CỨU
Trang 2théng - kết quả chính của luận văn, sẽ giúp học sinh lựa chọn cho mình một trường đại học phù hợp với trình độ và năng lực của bản thân để đạt được kết quả tối ưu
Nội dung luận văn gồm 3 chương
Chuong 1 TONG QUAN VE HE HO TRO RA QUYET DINH
Trong chương này, nguyên cứu tổng quan về Hệ hỗ trợ ra quyết định, một số
khái niệm và định nghĩa quyết định, hoàn cảnh ra đời Hệ hỗ trợ ra quyết định, các bước xây dựng Hệ hỗ trợ ra quyết định, các thành phan của Hệ hỗ trợ ra quyết định, tổ chức đữ liệu mô hình cơ sở
Chương 2 MƠ HÌNH LUẬT KÉT HỢP
Trong chương này, nguyên cứu khai phá dữ liệu, ứng dụng của khai phá dữ
liệu, một số kỹ thuật trong khai phá dữ liệu đặc biệt về phân cụm và phân lớp, luật
kết hợp
Chương 3 XÂY DỰNG HỆ HỖ TRỢ TƯ VÂN TUYẾN SINH
Sau khi nguyên cứu các về Hệ hỗ trợ ra quyết định, khai phá dữ liệu và đặc
biệt là luật kết hợp, tôi xây dựng cơ sở dữ liệu, xác định tập mục, thiết kế mô hình
luật kết hợp từ đó mô tả hệ thống bằng giao diện và đánh giá kết quả
Cuối cùng là kết luận và để xuất một số hướng nghiên cứu tiếp tục trong tương lai Trong quá trình nghiên cứu, do còn nhiều hạn chế về khả năng và thời gian thực hiện nên luận văn không thể tránh khỏi những thiếu sót Kính mong nhận được sự chỉ bảo của quý Thầy Cô giáo, các nhận xét và góp ý của bạn bè, đồng
Trang 3LOI CAM ON
Thực tế luôn cho thấy, sự thành công nào cũng đều gắn liền với những sự hỗ trợ, giúp đỡ của những người xung quanh dù cho sự giúp đỡ đó là ít hay nhiều, trực tiếp hay gián tiếp Trong suốt thời gian từ khi bắt đầu làm luận văn đến nay,
Tôi đã nhận được sự quan tâm, chỉ bảo, giúp đỡ của thầy cô, gia đình và bạn bè xung quanh
Với tắm lòng biết ơn vô cùng sâu sắc, Tôi xin gửi lời cảm ơn chân thành nhất từ đáy lòng đến quý Thầy Cô của trường Đại học Khoa Học Huế đã dùng những tri thức và tâm huyết của mình để có thê truyền đạt cho chúng tôi vốn kiến thức quý báu trong suốt thời gian học tập
Đặc biệt, Tôi xin chân thành cảm ơn PGS.TS Lê Mạnh Thạnh đã tận tâm chỉ
hướng dẫn Tôi qua từng buổi học, từng buổi nói chuyện, thảo luận về dé tai n cứu Nhờ có những lời hướng dẫn, dạy bảo đó, bài luận văn này của em đã hoàn thành Một lần nữa, Tôi xin gửi lời cảm ơn chân thành đến thay
G) Xin được cảm ơn trường Đại học Khoa học — Đại Học Huế đã tạo điều kiện
“tát nhất để Tôi được tham gia và hoàn thành khóa học
Cuối cùng, Tôi xin gửi lời cảm ơn đến cơ quan và gia đình, chính vì có sự hỗ trợ từ phía cơ quan và gia đình mà Tôi yên tâm học tập và hồn thành khố học
Tơi xin chân thành cảm ơn!
Thừa Thiên Huế, tháng 04 năm 2020
Tác giả luận văn
| Pham Van Hoang
|
\
Trang 4MUC LUC
00281100169 (e0:70 c1 i
DANH MUC CAC KY HIEU, CAC TU VIET TAT wo.eecceccecssessseesseesseesseesssees ii DANH MUC CAC HINH .essecsssssssssesssssssssccssssscsscsssssscssccssssessscssssseseasesesseeesees iii 2790089670007 ddẨẬậẬH ,ÔỎ 1 Chương 1 TÔNG QUAN HỆ HỖ TRỢ QUYÉT ĐỊNH 4 1.1 MỘT SÓ KHÁI NIỆM VÀ ĐỊNH NGHĨA -2222222222222 e6 4 1.1.1 Quyết định . - 225 221222122212212212222222121222222 ra 4 1.1.2 Hoàn cảnh ra đời của Hệ hỗ trợ ra quyết định .ccc c2 4 1.1.3 Ứng dụng của Hệ hỗ trợ ra quyết định 22-22222212221221 22c 6 1.2 CÁC BƯỚC XÂY DỰNG HỆ HỖ TRỢ QUYÉT ĐỊNH - 7 1.2.1 Mô hình ra quyết định -52222221222122121122221122222 xe 7 1.2.2 Các bước xây đựng Hệ hỗ trợ quyết định
1.2.3 Phương án tạo lập quyết định 22 22222222212211121121121122 2e
1.3 CAC THANH PHAN CỦA HỆ HỖ TRỢ QUYÉT ĐỊNH 14 1.3.1 Cấu trúc của Hệ hỗ trợ quyết định - 22 2222222225121122112212 222C 14 1.3.2 Các phân hệ của Hệ hỗ trợ quyết định .-2- 22 22222222222222-e2 15 1.4 TÔ CHỨC DỮ LIỆU 2- 222 2221221222122212111221211211211211221222 xe 15 1.5 MÔ HÌNH CƠ SỞ 222 22222122212112211211211221122222 ae 16 1.6 XÂY DỰNG GIAO DIỆN NGƯỜI DỪNG 2222222222222 22 17 1.7 TIEU KẾT CHƯƠNG l 2-22222222221222122121122121.21221 te 17 Chương 2 MƠ HÌNH LUẬT KẾT HỢPP 2©©<°©secccsecccscee 18 2.1 GIỚI THIỆU VẺ KHAI PHÁ DỮ LIỆU . ©-22222222222E22222222ce2 18
2.1.1 Khái niệm khai phá dữ liệu .- S2 S2 Srererrerrreree 18
2.1.2 Kiến trúc của một hệ thống khai phá đữ liệu . - 2-22 21
2.1.3 Ứng dụng của khai phá dữ liệu .-©-222222222221221222122 e6 22
2.1.4 Một số khó khăn trong khai phá đữ liệu - 2222222222222 22 2.2 MỘT SÓ KỸ THUẬT TRONG KHAI PHÁ DỮ LIỆU - 24
Trang 52.2.2 PHAN CUM 0.00 ccc cece cececcccsesceecsececsseeccsssesccssteceseescssseseruteeeseeeenteteensaes 25
2.3 LUẬT KẾT HỢP ©222222225122512211211121111112111211121112212 re 25 2.3.1 Định nghĩa luật kết hợp 52-222 222222122212221121121122222 e6 26 2.3.2 Một số tính chất của luật kết hợp -2- 222 2222212221221221 2x6 30 2.3.3 Phân loại luật kết hợp - 522222 221222122112211211211221122 e6 31 2.4 CAC DAC TRUNG CUA LUẬT KÉT HỢP 222222222222222zce2 35 2.4.1 Không gian tìm kiếm luật - 52222 22222211221121122122222 2 xee 35 2.4.2 Độ hỗ trợ luật 2- 2222 22122121122121121121211211212212122 re 37 2.5 GIẢI THUẬT APRIORI - 22 222222122512111211121112111211121221121 xe 38 2.5.1 Giới thiệu bài tốn - 5-22 222221221122212211221212222ee 38
2.5.2 Mơ phỏng thuật toán ApTIOTI c c ctS nhe 40
2.6 TIỂU KÉT CHƯƠNG 2 22 22 222225122112211211121112111211211212 re 47 Chương 3 XÂY DỰNG HE HO TRO TU VAN TUYẾN SINH 48
3.1 THỰC TRẠNG VÀO ĐẠI HỌC CỦA HỌC SINH TRƯỜNG THPT TRẤN QUỐC TUẦN .- 5: 1 12 2212112211211011221 1 1n rerau 48 3.2 PHƯƠNG PHÁP GIẢI QUYẾT . s22 E222 2.Errrrrri 51 3.2.1 Thiết kế cơ sở dữ liệu - 2222222211211221112112221222212 xe 51 3.2.2 Huấn luyện - 22 2222222221221121112111211111122112222222122 re 56
3.2.3 Trình bày giao diện của hệ thống 222 222222223221222111221 221C 58
Trang 6DANH MUC CAC BANG
Trang Bảng 1.1 Định nghĩa HHTQĐ bằng so sánh 222222 2222251221122112111211211 4 Bảng 1.2 Một số cách định nghĩa HHTQĐ 52 2222222225121112111211221222 2e 6
Bảng 2.1 Ví dụ về một cơ sở dữ liệu dạng giao dịch - D à.cccceeiecrey 27
Bảng 2.2 Các tập phổ biến trong CSDL ở bảng 2.1 với minsup 50% 28
Trang 7DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT BFS CD CSDL DM DH HHTQD Item Itemset K-itemset Lx Minconf Minsup TCCN THPT T TID Tid-List xXx>Y Breadth first Search Cao dang Cơ sở dữ liệu Data Mining Đại học Hệ hỗ trợ quyết định Mục Tap mục Tập mục gồm k mục Tập các k-itemset phổ biến
Ngưỡng tin cậy tối thiểu (minimum confidence) Ngưỡng hỗ trợ tối thiéu (minimum support) Trung cấp chuyên nghiệp
Trung học phổ thông
Giao dịch
Định danh của giao dịch (Transaction Identifier)
Danh sách các định danh của giao dịch
Luật kết hợp (Với X là tiên đề, Y là hệ quả)
Trang 8Hinh 1.1 Hinh 1.2 Hinh 1.3 Hinh 1.4 Hinh 1.5 Hinh 1.6 Hinh 1.7 Hinh 1.8 Hinh 2.1 Hinh 2.2 Hinh 2.3 Hinh 2.4 Hinh 2.5 Hinh 3.1 Hinh 3.2 Hinh 3.3 Hinh 3.4 DANH MỤC CÁC HÌNH Trang
Cấu trúc tổng quát của một mô hình - 2222222E22E2E2E.zxcce2 8 Các giai đoạn của quá trình ra quyết định ceceeeteneeee 8 Phương pháp truyền thống trong tạo lập quyết định 13 Tạo lập quyết định có sử dụng tr1 thức .- - 5-5 ccs: 13 Các thảnh phần của Hệ hỗ trợ quyết định 2-5: scszzszss+2 15 Te hate dữ TÍỀNi panhangtrttrikutirNGGNGEUSIGH.8M00103840408REEWAN0308đ2018083808 15 0000101 - -:aAaAAa 16 Xây dựng giao diện người dùng
Quá trình khai phá đữ liệu 5-5-2 5222 2222222 csxey Kiến trúc của một hệ thống khai phá dữ liệu
Di cho LẤBj1 = {1:2:3/Ì suaessonnoydbetBtÐbtÐBBSliBtlÐSiISNIDIARGRIUSRPRSENGI 36 Cây cho tập IE{1, 2, 3, 4} nh Huee 37
Vị dụ thuật toán ADTIOTI c1: 2212212221151 121 1111 111118111 46
Trường THPT Trần Quốc Tuần - Phú Hòa - Phú Yên 48
Một số hình ảnh tư vấn tuyển SInH 2 nh nhờ 50
Trang 9PHAN MO DAU
Trong những năm gần đây, công nghệ thông tin phát triển mạnh mẽ và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực đời sống, kinh tế xã hội đã làm
lượng dữ liệu được thu thập và lưu trữ ở các hệ thống thông tin tăng lên một cách nhanh chóng Trước tình hình đó, việc khai thác và chọn lọc những dữ liệu có ích tử
lượng dữ liệu khống lồ là việc rất cần thiết, đóng vai trò quyết định thành công
trong mọi hoạt động Các dữ liệu chắc lọc đó sẽ giúp cải thiện hoạt động trong hiện
tại hay đưa ra những dự đoán giúp việc đưa ra quyết định trong tương lai sẽ chính
xác hơn
Với những lý do đó, nhu cầu phát triển các kỹ thuật thu thập, lưu trữ, phân
tích dữ liệu, được đặt ra và nó đòi hỏi phải được xử lý thông minh và hiệu qua
hơn Từ đó đã làm phát triển kỹ thuật mới và với kỹ thuật này cho phép ta khai thác
duoc tri thức hữu dụng từ cơ sở dữ liệu lớn được gọi là các kỹ thuật khai phá dữ
liệu (Data Mining - DM) Các kỹ thuật khai phá dữ liệu được ứng dụng trong nhiều
lĩnh vực như: kinh tế, tài chính, y tế, giáo dục,
Việc ứng dụng khai phá dữ liệu vào nhiều lĩnh vực khác nhau của đời sống,
khai phá dữ liệu trong lĩnh vực giáo dục đang dần có được sự quan tâm đúng mức Chúng ta cần phải nhìn nhận rằng giáo dục là nhân tố quyết định sự phát triển của
đất nước về nhiều mặt Mục tiêu phát triển xã hội một cách bền vững đang đặt ra cho giáo dục những yêu cầu mới Giáo dục đào tạo có nhiệm vụ định hướng và hoạch định chính sách cho đối tượng chính của giáo dục là thế hệ trẻ, là lực lượng
kế thừa của việc xây dựng, bảo vệ và phát triển đất nước trong tương lai một cách đúng đắn và kịp thời Chính vì vậy, việc định hướng và xây dựng chính sách trong
giáo dục đào tạo cần phải được hỗ trợ bởi các công cụ khoa học để tránh những sai
Trang 10Mặc dù chưa có số liệu thống kê cụ thể, nhưng có thể thấy rằng hầu hết học
sinh sau khi hoàn thành chương trình lớp 12 đều tiếp tục lựa chọn cho mình những trường ĐH, CĐ, TCCN Thông qua việc chọn trường, chọn ngành nghề sẽ giúp các em có được kiến thức, bằng cấp, kỹ năng làm việc để đáp ứng nhu cầu lao động của xã hội sau khi các em tốt nghiệp Việc chọn đúng ngành nghề giúp các em định hướng đi phù hợp với khả năng của bản than minh và tránh khỏi những lựa chọn vội vàng để rồi phải bỏ lỡ rất nhiều cơ hội mà đáng ra nếu chọn đúng và định hướng sớm các em sẽ thành công Do rất nhiều yếu tố khách quan, chủ quan khác và đa phần các em ở các tỉnh thành, việc tiếp cận các thông tin về chọn ngành nghề cũng
hạn chế và thiếu thông tin để lựa chọn và định hướng cho mình
Việc chọn đúng ngành học trong bối cảnh kinh tế, xã hội hiện nay nhằm tránh việc có nhiều cá nhân lựa chọn sai nghề sẽ dẫn tới giảm sút chất lượng đào
tạo, gây lãng phí cho công tác đào tạo và đào tạo lại Chất lượng nguôn nhân lực sau đào tạo không đảm bảo dẫn tới năng suất lao động không cao, nảy sinh nhiều xáo
trộn cho hoạt động của các tổ chức, doanh nghiệp bởi các hiện tượng như: bỏ nghề, chuyển nghề, các doanh nghiệp mất thêm chi phi dao tao va dao tao lai cho đội
ngũ của mình
Học tập là một quá trình dài và khó khăn, đòi hỏi học sinh phải đầu tư nhiều
công sức, tiền bạc của cá nhân cũng như gia đình, nếu thất bại trong việc chọn
ngành nghẻ sẽ dẫn đến những tốn thất lớn về tinh thần lẫn vật chất cho học sinh và gia đình họ Việc định hướng chọn đúng ngành sẽ giúp các em tránh khỏi những vấn để trên
Vì vậy, công tác hướng nghiệp hỗ trợ tư vấn chọn ngành nghẻ cho học sinh
THPT là hết sức cần thiết
Trước thực tế đó và được sự đồng ý của PGS.TS Lê Mạnh Thạnh, Tôi chọn
Trang 11théng - kết quả chính của luận văn, sẽ giúp học sinh lựa chọn cho mình một trường đại học phù hợp với trình độ và năng lực của bản thân để đạt được kết quả tối ưu
Nội dung luận văn gồm 3 chương
Chuong 1 TONG QUAN VE HE HO TRO RA QUYET DINH
Trong chương này, nguyên cứu tổng quan về Hệ hỗ trợ ra quyết định, một số
khái niệm và định nghĩa quyết định, hoàn cảnh ra đời Hệ hỗ trợ ra quyết định, các bước xây dựng Hệ hỗ trợ ra quyết định, các thành phan của Hệ hỗ trợ ra quyết định, tổ chức đữ liệu mô hình cơ sở
Chương 2 MƠ HÌNH LUẬT KÉT HỢP
Trong chương này, nguyên cứu khai phá dữ liệu, ứng dụng của khai phá dữ
liệu, một số kỹ thuật trong khai phá dữ liệu đặc biệt về phân cụm và phân lớp, luật
kết hợp
Chương 3 XÂY DỰNG HỆ HỖ TRỢ TƯ VÂN TUYẾN SINH
Sau khi nguyên cứu các về Hệ hỗ trợ ra quyết định, khai phá dữ liệu và đặc
biệt là luật kết hợp, tôi xây dựng cơ sở dữ liệu, xác định tập mục, thiết kế mô hình
luật kết hợp từ đó mô tả hệ thống bằng giao diện và đánh giá kết quả
Cuối cùng là kết luận và để xuất một số hướng nghiên cứu tiếp tục trong tương lai Trong quá trình nghiên cứu, do còn nhiều hạn chế về khả năng và thời gian thực hiện nên luận văn không thể tránh khỏi những thiếu sót Kính mong nhận được sự chỉ bảo của quý Thầy Cô giáo, các nhận xét và góp ý của bạn bè, đồng
Trang 12Chuong 1 TONG QUAN HE HO TRO QUYET DINH 1.1 MOT SO KHAI NIEM VA DINH NGHIA
1.1.1 Quyét dinh
Quyét định là một lựa chọn về “đường lối hành động” (Simon 1960; Costello & Zalkind 1963; Churchman 1968), hay “chiến lược hành động” (Fishbum 1964)
dẫn đến “một mục tiêu mong muốn” (Churchman 1968)
Ra quyết định là quá trình lựa chọn có ý thức giữa hai hay nhiều phương án
để chọn ra một phương án tạo ra được một kết quả mong muốn trong các điều kiện
ràng buộc đã biết [ 1]
1.1.2 Hoàn cảnh ra đời của Hệ hỗ trợ ra quyết định
Đầu thập kỷ 70, Gorry và Scott-Morton (1971) định nghĩa Hệ thống trợ giúp quản lý là các hệ thống dựa trên hệ thống tương tác với máy tính giúp cho các nhà ra quyết định dùng các đữ liệu và mô hình đề giải quyết các vấn dé phi cấu trúc
Litle (1970) đưa ra Hệ hỗ trợ quyết định là tập các thủ tục dựa vào các mô
hình để xử lý đữ liệu và phán xét nhằm trợ giúp các nhà ra quyết định, hệ thống cần
phải đơn giản, dễ điều khiến, thích nghị, dễ liên lạc với nhau [1]
Alter (1980): định nghĩa HHTQĐ bằng cách so sánh với các hệ thống xử lý dữ liệu: Bảng 1.1 Định nghĩa HHTQĐ bằng so sánh Khía cạnh HHTQĐ Hệ xử lý dữ liệu Sử dụng Chủ động BỊ động
Người sử dụng Nhà quản lý Văn phòng
Mục tiêu Tính hiệu quả, tính linh Hiệu quả máy móc, tính
hoạt phi mâu thuẫn
Trang 13Pham vi vé thoi gian Hién tai va tuong lai Quá khứ
Mục đích, tiêu đề Tính tinh hoạt Kiên định
Moore và Chang (1980) cho rằng tính cấu trúc (structured) trong các định nghĩa trước đây không thật sự có ý nghĩa vì rằng bài tốn mơ tả là có cấu trúc hay phi cấu trúc chỉ tương ứng theo người ra quyết định/tỉnh huống cụ thê Vì vậy, nên định nghĩa HHTQĐ như là hệ thống hỗ trợ các mô hình quyết định và phân tích dữ
liệu tùy biến, được sử dụng ở các khoảng thời gian bất kỳ, không hoạch định trước
Do đó, hệ HTQĐ là:
+ Hệ thống có khả năng mở rộng
+ Có khả năng trợ giúp phân tích đữ liệu và mô hình hóa quyết định + Hướng tới lập kế hoạch cho tương lai
+ Được sử đụng cho những hoàn cảnh và thời gian bất thường
Bonezek, Holsapple, Whinston (1980) đưa ra khái niệm tổng quan hơn về Hệ hỗ trợ quyết định gồm các thành phần chính: + Có một hệ ngôn ngữ là cơ chế cho phép tương tác giữa người dùng và các thành phần khác của hệ + Một hệ tri thức chứa các tri thức về lĩnh vực bao gồm dữ liệu và các loại thủ tục + Hệ xử lý bài toán, chứa đựng các khả năng xử lý bài toán và người ra quyết định cần đến
Keen (1980) cho rằng Hệ hỗ trợ quyết định là sản phẩm của quá trình phát
triển, trong đó người sử dụng Hệ hỗ trợ quyết định, người tạo ra Hệ hỗ trợ quyết
định và chính bản thân Hệ hỗ trợ quyết định có khả năng ảnh hưởng tác động đến sự phát triên của hệ thống và các thành phân
Trang 14Bang 1.2 Mét sé cach dinh nghia HHTQD
Nguon Dinh nghia hé HTQD theo cac khia canh
Gorry va Scott-Morton (1971) Kiểu bài toán, chức năng của hệ thống Little Chức năng hệ thống đặc trưng giao điện
Alter Mẫu thử và tiêu đề của hệ thống Moore Mẫu thử, khả năng của hệ thống Bonczel Các thành phần của hệ thống
Vậy, Hệ hỗ trợ ra quyết định là hệ thống thông tin hỗ trợ bằng máy tính có
thể thích nghỉ linh hoạt và tương tác với nhau đặc biệt được phát triển đề hỗ trợ
một vấn đề quản lý không có cấu trúc nhằm cải tiễn việc ra quyết định Nó tập hợp dữ liệu cung cấp cho người sử dụng một giao diện thân thiện và cho phép tự ra quyết định một cách sáng suốt Nó hỗ trợ tất cả các giai đoạn của việc ra quyết định và bao gồm cả một cơ sở trì thức HHTQD là hệ các phương pháp xử lý dit
liệu để lấy trị thức nhằm lựa chọn phương án tối tru theo mục tiêu
1.1.3 Ứng dụng của Hệ hỗ trợ ra quyết định
Hệ hỗ trợ ra quyết định được ứng dụng vào nhiễu lĩnh vực hiện nay như:
Kinh doanh — thương mại:
- Xác định thói quen mua hàng của khách hàng - Dự đoán chu kỳ kinh doanh sản phẩm
- Liên hệ giữa khách hàng và yếu tố khác
- Xác định khách hàng tiềm năng, đối tượng có khả năng trở thành khách hàng
- Dự đoán hiệu quả của một đợt quảng cáo, tiếp thị Thuong mai — điện tử:
Trang 15Ngân hàng: - Dự đoán các dấu hiệu của một cuộc giao dịch trái luật - Xác định khách hàng sẽ cộng tác lâu dài - Dự đoán rủi ro của các khoản cho vay - Xác định nhân tố dẫn đến vỡ nợ vay - Liên hệ các chỉ số tài chính đến hoạt động ngân hàng Báo hiểm: - Loại khách hàng có rủi ro cao, gian lận - Xác định khách hàng tiềm năng - Xác định các đối tượng sẽ trở thành khác hàng Viên thông:
- Nhận biết các dấu hiệu của cuộc gian lận dịch vụ
- Xu thế phát triển khách hàng, đối tượng, khu vực cần phát triển Yte:
- Chuẩn đoán bệnh qua các triệu chứng
- Liên hệ giữa các loại bệnh
- Dự đoán hiệu quả của một cuộc phẫu thuật, điều trị
1.2 CÁC BƯỚC XÂY DỰNG HỆ HỖ TRỢ QUYẾT ĐỊNH 1.2.1 Mô hình ra quyết định
Một đặc trưng cơ bản của hệ hỗ trợ quyết định là phải có ít nhất một mô hình
trợ giúp ra quyết định Việc chọn lựa và xây dựng mô hình nằm trong giai đoạn thứ 2 (Design Phase) của quá trình ra quyết định
Mô hình là một khái quát hóa hay trừu tượng hóa các vấn đề thực tế thành
Trang 16Một mô hình gồm ba thành phần cơ bản:
1 Decision Variables: Day là các lựa chọn xác định bởi người ra quyết định Chang han trong bai toán quyết định thưởng phạt nhân viên
2 Uncontrollable Variables: Day là các biến không nằm trong sự kiểm soát của người ra quyết định (bị tác động bởi các yếu tố bên ngoài)
3 Result Variables: Đây là biến kết quả của mô hình Các biến khung điều khiển Uncontrollable Variables r Môi quan hệ giữa
Các biến quyết định các biên Các biến kết quả
Decision Variables Mathematical Result Variables
relationShips
Hình 1.1 Câu trúc tông quát của một mô hình
1.2.2 Các bước xây dựng Hệ hỗ trợ quyết định
Trang 171.2.2.1 Giai đoạn tìm kiém van dé hoặc nhận biết vẫn đê
Bước này liên quan đên việc tìm kiêm môi trường cho điêu kiện yêu câu quyết định
Quá trình tìm kiếm có các đặc điểm khác nhau tùy thuộc vào việc nó có thể được cấu trúc và liệu nó là liên tục hay không
Những khác biệt này được tóm tắt trong ba loại tìm kiếm: 1 Tìm kiếm phi cấu trúc
2 Tìm kiếm không có cấu trúc
3 Tìm kiếm cấu trúc liên tục
s* Tìm kiếm phi cấu trúc:
Trong nhiều trường hợp, thuật toán tìm kiếm hoặc thông minh không thê được chỉ định Hệ thống hỗ trợ quyết định phải cho phép người dùng tiếp cận nhiệm vụ theo phương pháp heurist thông qua thử nghiệm và lỗi thay vì thiết lập lại các bước logic cố định Hỗ trợ tìm kiếm phi cấu trúc chủ yếu dựa trên quyển truy cập
linh hoạt vào cơ sở dữ liệu
Người dùng cần có khả năng thực hiện các chức năng như truy xuất, quét bản trình bày, phân tích và so sánh trên dữ liệu để khám phá các mối quan hệ mới và kết
luận mới chưa được xác định trước đây
Các hệ thống tương tác tăng cường hiệu suất tìm kiếm phi cấu trúc bằng cách cho phép người dùng thay đổi các thông số của vấn đề và nhanh chóng thấy tác dụng của chúng Trong một số trường hợp, hỗ trợ hệ thống có thê bao gồm hệ thống thông tin phân tích và mô hình đại điện trong các trường hợp khác hỗ trợ hệ thống có thé là hệ thống ngăn kéo tệp có quyền truy cập nhanh vào cơ sở dữ liệu
s* Tìm kiếm không có cấu trúc (thông thường):
Trang 18không xây ra với tần suất đủ để biện minh cho cơ sở đữ liệu và quét thường xuyên cho các vị trí của nhà may
Thay vào đó, quy trình thông minh được cấu trúc, nhưng nó chỉ được áp dụng
khi các chỉ số khác gol y su cần thiết của nó Hỗ trợ hệ thống cho các hệ thống thông tin phân tích có cấu trúc và các mô hình đại diện có thể được sử dụng
4* Tìm kiếm cấu trúc liên tục:
Một số lĩnh vực có vấn đề, chẳng hạn như số dư hàng tổn kho và giá sản phẩm so với đối thủ cạnh tranh, có cấu trúc tương đối và có thể được kiểm tra
thường xuyên Hệ thống báo cáo định kỳ cung cấp dữ liệu điều kiện hỗ trợ loại tìm kiếm này Các hệ thống hỗ trợ quyết định cho phép mở rộng phạm vi, số lượng và tần suất của thông tin đầu ra với việc quét tất cả các chỉ số đã biết về các vấn đề
hoặc cơ hội tiêm ân
Đầu ra có thể được sản xuất trên cơ sở định kỳ hoặc bất cứ khi nào phát hiện ra vấn đề hoặc cơ hội Hệ thống phân tích dữ liệu và hệ thống gỢI ý có thể hỗ trợ
loại tìm kiếm này Bước thứ hai trong giai đoạn này được gọi là xây dựng vấn đề
hoặc cấu trúc vấn đề, xảy ra khi nhiều thông tin được tìm kiếm để xác định vấn đề
rõ ràng hơn
Giai đoạn đầu ra quyết định này có khả năng ảnh hưởng đến hướng của tất cả các giai đoạn thành công Trong bước này, người ra quyết định hình thành một mô
hình tinh thần của vấn đẻ
Mô hình tỉnh thần phản ánh sự hiểu biết của người quản lý về cấu trúc vấn đề Cấu trúc vấn để đề cập đến các biến xảy ra trong vấn để và cách chúng tương
tác Do đó, đại diện định tính của vấn để được hình thành mạnh mẽ ảnh hưởng đến
lĩnh vực của các giải pháp có thể Nghiên cứu đã chỉ ra rằng đồ họa máy tính rất
hữu ích trong việc hỗ trợ vấn để hữu ích trong việc mô tả và truyền đạt nhận thức
Trang 191.2.2.2 Giai doan thiét ké
Sau giai doan tim kiếm vấn để hoặc nhận biết cơ hội, giai đoạn thiết kế bao
gồm phát minh, phát triển và phân tích các khóa hành động có thê Hỗ trợ cho giai đoạn thiết kế nên cung cấp các quy trình lặp trong việc xem xét các lựa chọn thay
thế
e - Các bước lặp sau đây là điển hình:
“ Hỗ trợ tìm hiểu vấn đề:
Một mô hình chính xác của tình huống cần được áp dụng hoặc tạo ra, và các giả định của mô hình được thử nghiệm
s* Hỗ trợ tạo giải pháp:
Việc tạo ra các khóa học hành động có thể được hỗ trợ bởi;
a Bản thân mô hình Thao tác của mô hình thường xuyên cung cấp cái nhìn sâu sắc dẫn đến việc tạo ra các ý tưởng giải pháp
b Hệ thống truy xuất cơ sở đữ liệu Các khả năng truy xuất mang lại dữ liệu hữu ích trong việc tạo ra các ý tưởng giải pháp
Trong nhiều trường hợp, mô hình thiết kế sẽ cung cấp một giải pháp được đề xuất Ví dụ, một mô hình sắp xếp lại hàng tồn kho có thể đề xuất một giải pháp cho vấn để đặt hàng bao nhiêu Số lượng này là một gợi ý có thể được sửa đổi, nhưng nó đại điện cho một giải pháp khả thi (và có lẽ là một giải pháp tối ưu dựa trên các yếu tố trong mô hình)
Thông thường Hệ hỗ trợ quyết định sẽ dẫn đắt người dùng trong chiến lược tìm kiếm hợp lý cho các giải pháp Ví dụ: quy trình tìm kiếm giải pháp có thể bắt đầu bằng một bộ câu hỏi liên quan đến các giải pháp phổ biến Những câu hỏi này
có thể được theo sau bởi một loạt các câu hỏi hỗ trợ nguoi ra quyét định xem xét tat cả các lựa chọn thay thế
Trang 20Ưu điểm của phương pháp tiếp cận có cấu trúc là chúng hỗ trợ khám phá một cách có hệ thống không gian quyết định thông thường: nhược điểm là xu hướng triệt tiêu tìm kiếm bên ngồi khơng gian quyết định thông thường
s* Hỗ trợ kiểm tra tính khả thi của các giải pháp:
Một giải pháp được kiểm tra tính khả thi bằng cách phân tích nó theo các môi
trường mà nó ảnh hưởng đến khu vực có vấn để, toàn bộ tổ chức, đối thủ cạnh tranh và xã hội Việc phân tích có thể được thực hiện một cách thận trọng đối với các biện
pháp rộng rãi của môi trường của họ Một cách tiếp cận khác là phân tích các giải pháp được đề xuất bằng cách sử dụng các mô hình của môi trường khác nhau Những mô hình này thường sẽ liên quan đến các chương trình máy tính và cơ sở dữ
liệu Cơ sở mơ hình trong MIS tồn diện sẽ có một số mô hình như Vậy có thể được
sử dụng trong các giải pháp thử nghiệm
1.2.2.3 Giai đoạn hoạt động lựa chọn
Các nhiệm vụ chính trong giai đoạn lựa chọn là đánh giá các lựa chọn thay thế có thể và chọn một phần mềm hỗ trợ tốt nhất cho các giai đoạn thông minh và thiết kế hỗ trợ trong việc cung cấp các lựa chọn thay thế Giai đoạn lựa chọn yêu cầu áp dụng một quy trình lựa chọn và thực hiện phương án đã chọn
Một hệ thống hỗ trợ quyết định, theo định nghĩa, không đưa ra lựa chọn Tuy nhiên, các mô hình tối ưu hóa và mô hình để xuất có thể được sử dụng để xếp hạng các lựa chọn thay thế và áp dụng các quy trình lựa chọn quyết định để hỗ trợ sự lựa
chọn của người ra quyết định
Ví dụ: Quyết định mua máy từ một số lựa chọn thay thế có thể được cấu trúc theo một hoặc nhiều tiêu chí như, tỷ lệ hoàn vốn, số năm hoàn vốn, chi tiêu tiền mặt tối thiểu, ưu tiên điều hành, ưu tiên nhân viên, rủi ro tối thiểu, v.v được áp dụng bằng cách sử dụng phần mềm quyết định Sự lựa chọn sau đó được đưa ra bởi một
người ra quyết định và truyền đạt cho người có thể thực hiện kết quả
Trang 21dan xen và lặp đi lặp lại, và chúng điễn ra trong một môi trường ra quyết định năng động Một DSS nên hỗ trợ tất cả các khía cạnh của quy trình này
1.2.3 Phương án tạo lập quyết định
Trang 221.3 CAC THANH PHAN CUA HE HO TRO QUYET DINH 1.3.1 Cấu trúc của Hệ hỗ trợ quyết định
Có 3 loại quyết định như sau:
Dữ liệu có cẫu trúc (structured database): Có nghĩa là cơ sở dữ liệu được định hình theo một cấu trúc xác định từ trước Chúng ta có thể hình dung như một văn bản đã được xác định tiêu để, có các dòng và cột với tiêu để xác định trước, các
thông tin chỉ tiết được lấp đầy các bảng này và không thay đổi khi cập nhật Một
hình dung khác về cơ sở đữ liệu có cấu trúc là một thư viện với các tủ hồ sơ được
đánh nhãn, trong mỗi tủ được phân ngăn rõ ràng Cơ sở đữ liệu có cấu trúc được xây dựng sẽ đễ dàng quản lý và truy cập thông tin
Dữ liệu phi cầu trúc (unstructured database): Là cơ sở dữ liệu không được xác định cấu trúc thông tin từ trước Thường là tập hợp các dữ liệu thô, hỗn tạp và
không đồng nhất Các thành phần của cơ sở dữ liệu không có đặc điểm chung Chúng ta có thể hình dung cơ sở đữ liệu này là tập hợp các thông tin, đữ liệu bao
gồm: thư điện tử, đữ liệu ảnh, video, âm thanh, các bài viết, Dữ liệu phi cầu trúc
có mặt ở khắp mọi nơi và được sản sinh ra từ các nguồn khác nhau Để quản lý, dữ liệu phi cấu trúc cần được chuyển đổi thành dữ liệu có cấu trúc qua quá trình chuẩn
hóa
Dữ liệu bán cấu trúc (semi-structured database): Thường là dữ liệu có cấu trúc nhưng không đồng nhất Cấu trúc của dữ liệu phụ thuộc vào chính nội dung của dữ liệu ấy Chúng ta có thể thấy được rằng trong thực tế đữ liệu được lưu dưới dạng
XML tự do (không kèm theo lược đỏ), với định dạng này thông tin mô tả về đối tượng thể hiện trong các thẻ Đây là cơ sở dữ liệu có nhiều ưu điểm do lưu trữ được hầu hết các loại dữ liệu khác nhau nên cơ sở dữ liệu bán cấu trúc là hướng mới
trong nghiên cứu và ứng dụng và được sử dụng thông dụng trên mạng Internet Tuy nhiên cũng cần lưu ý rằng XML cũng có thể được mô tả dữ liệu có cấu trúc bằng
Trang 231.3.2 Các phân hệ của Hệ hỗ trợ quyết định
Hệ hỗ trợ quyết định bao gồm các hệ con quản trị dữ liệu, hệ con quản trị mô hình, hệ con quản trị trí thức và hệ con quản trị hội thoại Dit lieu: trong Cac he thong may Internet, intranet va va ngoai tính khác extranet I I Quan lý dữ liệu Quan lý mô hình Các mơ hình ngồi Các phân hệ dựa trên kiên thức | Phần hệ giao điện người đùng ia) = Nha quan lý (người dùng) Cơ sử kien thức tô chức Hình 1.5 Các thành phần của Hệ hỗ trợ quyết định 1.4 TÔ CHỨC DỮ LIỆU
Gồm một cơ sở đữ liệu (database) chứa các dữ liệu cần thiết của tình huống và được quản lý bởi một hệ quản trị cơ sở dữ liệu (DBMS - database management system) Phân hệ này có thể được kết nối với nhà kho dữ liệu của tổ chức (data
warehouse) - là kho chứa đữ liệu của tổ chức có liên đới đến vấn để ra quyết định Cac nguén da == li€u ngoai ge a Tai chanh | | San xude | | "Tiếp thị | | TNghiên cứu | — SN le Di Hiệu cá : _ ` nhan, riéng tur Se = = Prich xudt Nha kho di Hiệu của tô chứ Co sé di Hệu hỗ eo auyee ain Quan lý giao diện Hé quan tri co so dir lidu Quan 1ý mô L = hinh Danh mục | |- Truxc&p
©) Chat wan Phan hé dua
Trang 241.5 MƠ HÌNH CƠ SỞ
Còn được gọi là hệ quản trị cơ sở mô hình (MBMS - model base
management system) là gói phần mềm gồm các thành phần về thống kê, tài chính, khoa học quản lý hay các phương pháp định lượng nhằm trang bị cho hệ thống năng lực phân tích; cũng có thể có các ngôn ngữ mô hình hóa ở đây Thành phần này có thê kết nối với các kho chứa mô hình của tổ chức hay bên ngoài nào khác
Các mô hình (cơ sở mô hình)
s Chiên lược, chiên thuật, vận hành
s Thống kê tài chính, tiếp thị
s Giao diện cơ sở dữ liệu
s Các khối xây dựng mô hình
Các mô hình (cơ sở mơ hình)
® Các lệnh của mô hình: tạo mới ® Bảo trì: cập nhật
s Giao diện cơ sở dữ liệu
Trang 251.6 XAY DUNG GIAO DIEN NGUOI DUNG
Giúp người sử đụng giao tiếp và ra lệnh cho hệ thống Các thành phần kể trên
tạo nên DSS, có thể kết nối với intranet/extranet của tổ chức hoặc kết nối trực tiếp với Internet Quản lý dữ liệu Quản lý mô và hệ quản trị Phân hệ dựa trên hình và hệ quản
cơ sở dữ liệu kiên thức trị cơ sở mô NI A a Ỷ ye Quan ly giao dién người dùng 2 Ỷ Bộ xử lý ngôn ngữ tự nhiên Nhập Xuất Các ngôn ngữ Các ngôn ngữ hành động hiên thị A Bộ xử lý ngôn ngữ tự nhiên Người dùng
Hình 1.8 Xây dựng giao diện người dùng
1.7 TIEU KET CHUONG 1
Trong phần này chúng ta đưa ra một số khái niệm về quyết định, ra quyết
định, Hệ hỗ trợ ra quyết định Nêu các bước xây dựng Hệ hỗ trợ ra quyết định và
các thành phần của nó
Trang 26Chương 2 MƠ HÌNH LUẬT KÉT HỢP
2.1 GIGI THIEU VE KHAI PHA DU LIEU
2.1.1 Khái niệm khai phá dữ liệu
Khai phá đữ liệu (Data Mining) là một khái niệm ra đời vào cuối những năm 1980 Nó là quá trình khám phá thông tin ân được tìm thấy trong các cơ sở dữ liệu và có thê xem như là một bước trong quá trình khám phá tri thức Khai phá dữ liệu là giai đoạn quan trọng nhất trong tiến trình khai phá tri thức từ cơ sở đữ liệu, các tri
thức này hỗ trợ trong việc ra quyết định trong các lĩnh vực như: khoa học, giáo dục, kinh doanh,
Giao su Tom Mitchell đã đưa ra định nghĩa của Khai phá dữ liệu như sau: “Khai phá đữ liệu là việc sử đụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai” Tiến sĩ Fayyad đã phát biểu: “Khai phá dữ
liệu, thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một qua
trình xuất những thông tin ân, trước đây chưa biết và có khả năng hữu ích, dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở đữ liệu” Hay nói cách khác “Khai phá đữ liệu-Data Mining là tiến trình khám phá tri thức tiềm ấn trong các cơ sở dữ
liệu Cụ thể hơn, đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ân, chưa biết nhưng hữu ích từ cơ sở dữ liệu lớn”
Nói tóm lại, Khai phá dữ liệu là một quá trình học tri thức mới từ những dữ liệu đã thu thập được
Khai phá dữ liệu là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành
các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra
quyết định Khai phá dữ liệu là việc trích rút trị thức một cách tự động và hiệu quả từ một khối đữ liệu rất lớn Tri thức đó thường ở dạng các mẫu tin có tính chất
Trang 27Đề hình dung vấn để này ta có thể sử dụng một ví dụ đơn giản như sau: Khai phá dữ liệu được ví như tìm một cây kim trong đống cỏ khô Trong ví dụ này, cây
kim là một mảnh nhỏ trị thức hoặc một thông tin có giá trị và đồng có khô là một
kho cơ sở đữ liệu rộng lớn Như vậy, những thông tin có giá trị tiềm ân trong kho cơ
sở dữ liệu sẽ được chiết xuất ra và sử dụng một cách hữu ích nhờ khai phá dữ liệu Chức năng khai phá dữ liệu gồm có gộp nhóm phân loại, dự báo, dự đoán và
phân tích các liên kết Năm 1989 Fayyad, Smyth và Piateslsky-Shapiro đã dùng khái niệm phát hiện trị thức từ cơ so dit ligu (Knowledge Discovery in Database -
KDD) Trong đó khai phá dữ liệu là một giai đoạn rất đặc biệt trong toàn bộ quá trình, nó sử dụng các kỹ thuật để tìm ra các mẫu từ dữ liệu Có thể coi khai phá dữ
liệu là cốt lỗi của quá trình phát hiện tri thức [2]
Quá trình khai phá đữ liệu sẽ tiến hành qua 6 giai đoạn như hình 2.1 Đánh giá luật Khai phá dữ liệu Chuyển đổi dữ liệu Tiền xử lý và chuẩn | bị dữ À_ “Tri thức Trích lọc dữ at M6 hinh Dir \ đã Dữ liệu đã chuyển đổi Ww liệu đích xử lý
Hình 2.1 Quá trình khai phá dữ liệu
Quá trình khai phá dữ liệu bắt đầu của quá trình là kho dữ liệu thô và kết thúc
với tri thức được chiết xuất ra Về lý thuyết thì có lẽ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăn gặp phải rất nhiều vướng mắc như: quản lý các tập dữ
liệu, phải lặp đi lặp lại toàn bộ quá trình,
1 Gom đữ liệu (Gathering): Tập hợp đữ liệu là bước đầu tiên trong quá trình
khai phá dữ liệu Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web
Trang 282 Trích loc dit liéu (Selection): Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó, ví dụ chọn tất cả những người có tuổi đời 25-35 và có trình độ đại học
3 Làm sạch, tiền xử lý và chuẩn bị trước đữ liệu (Cleaning, Pre-processing
and Preparation): Giai đoạn thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước rất quan trọng trong quá trình khai phá đữ liệu Một số lỗi thường mắc phải trong khi gom dữ liệu là tính không đủ chặt chữ, logic Vì vậy, đữ liệu thường chứa các giá trị vô nghĩa và không có khả năng kết nối đữ liệu Ví dụ: tuổi = 273 Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu không chặt chữ nói trên Những dữ liệu dạng này được xem như thông tin thừa, không có giá trị Bởi vậy, đây là một quá trình rất quan trọng vì đữ liệu này nếu không được “làm sạch - tiền xử lý — chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiêm trọng
4 Chuyển đổi đữ liệu (Transformation): Tiếp theo là giai đoạn chuyên đổi dữ
liệu, dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó Dữ
liệu đã được chuyển đổi phù hợp với mục đích khai thác
5 Phát hiện và trích mẫu đữ liệu (Pattern Extraction and Discovery): Đây là bước mang tính tư đuy trong khai phá dữ liệu Ở giai đoạn này nhiều thuật toán
khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu Thuật toán thường dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự,
6 Đánh giá kết quả mẫu (Evaluation of Result): Đây là giai đoạn cuối trong
quá trình khai phá dữ liệu Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi
Trang 292.1.2 Kiến trúc của một hệ thống khai phá dữ liệu
+ Máy chủ cơ sở dữ liệu hay máy chủ kho dữ liệu (Database or Warehouse server): Máy chủ này có trách nhiệm lấy dữ liệu thích hợp đựa trên những yêu cầu khai phá của người dùng
+ Cơ sở tri thức (Knowledge base): Đây là miền tri thức được dùng để tìm kiếm hay đánh giá độ quan trọng của các hình mẫu kết quả
+ Máy khai phá dữ liệu (Data mining engine): Một hệ thống khai phá dữ liệu
cần có một tập các modun chức năng để thực hiện công việc, chẳng hạn như đặc trưng hóa, kết hợp, phân lớp, phân cụm, phân tích sự tiến hóa,
+ Modun đánh giá mẫu (Pattern evaluation): Bộ phận này tương tác với các modun khai phá đữ liệu để tập trung vào việc đuyệt tìm các mẫu đang được quan tâm Cũng có thể modun đánh giá mẫu được tích hợp vào modun khai phá tùy theo
sự cài đặt của phương pháp khai phá được dùng
+ Giao diện đồ họa cho người dùng (Graphical user interface): Thông qua giao diện này, người đùng tương tác với hệ thống bằng cách đặc tả một yêu cầu khai
phá hay một nhiệm vụ, cung cấp thông tin trợ giúp cho việc tìm kiếm và thực hiện
khai phá thăm đò trên các kết quả khai phá trung gian ‡ t Giao diện đồ họa cho người dùng Ỷ t Danh gia mau
Máy khai phá dữ liệu
Trang 302.1.3 Ứng dụng của khai phá dữ liệu
Khai phá dữ liệu được vận dụng trong nhiều lĩnh vực khác nhau nhằm khai
thác nguồn đữ liệu phong phú được lưu trữ trong các hệ thống thông tin Tùy theo
bản chất của từng lĩnh vực, việc vận dụng khai phá dữ liệu có những cách tiếp cận khác nhau
Ngân hàng: Xây dựng mô hình dự báo rủi ro tín đụng Tìm kiếm tri thức, quy luật của thị trường chứng khoán và đầu tư bất động sản
Thương mại điện tử: Tìm hiểu, định hướng thúc đẩy, giao tiếp với khách
hàng Phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thị phù hợp
với nhiều loại khách hàng
Marketing: Phân tích nhu cầu khách hàng dựa trên mẫu dữ liệu mua bán hàng
từ đó xác định chiến lược kinh doanh, quảng cáo, kế hoạch sản xuất,
Khai phá dữ liệu cũng được vận dụng hiệu quả để giải quyết các bài toán phức tạp trong các ngành đòi hỏi kỹ thuật cao, như tìm kiếm mỏ đầu từ ảnh viễn thám, cảnh báo hỏng hóc trong các hệ thống sản xuất, Các kỹ thuật khai phá đữ
liệu đã được áp dụng thành công trong việc dự đoán tải sử dụng điện năng cho các
công ty cung cấp điện, lưu lượng viễn thông cho các công ty điện thoại, mức độ tiêu thụ sản phâm cho các nhà sản xuất, giá trị của sản phẩm trên thị trường cho các công ty tài chính,
Ngoài ra, khai phá dữ liệu còn được áp dụng cho các vấn đề xã hội như phân
tích các kết quả phòng chống và điều trị một số loại bệnh, phân tích tác hại của ma túy, phát hiện tội phạm hay tăng cường an ninh xã hội, Việc vận dụng thành công
đã mang lại những hiệu quả thiết thực cho các hoạt động điễn ra hàng ngày trong đời sống
2.1.4 Một số khó khăn trong khai phá dữ liệu
Trang 31tera-byte (hang ngan giga-byte) Voi kích thước như thé, thời gian xử lý thường cực kỳ đài Mặc đù kích thước bộ nhớ trong của máy tính đã gia tăng đáng kề trong thời gian gần đây, nhưng việc gia tăng này cũng không thể đáp ứng kịp với việc tăng
kích thước dữ liệu Vì vậy, việc vận dụng các kỹ thuật xác suất, lấy mẫu, đệm, song
song, vào các giải thuật để tạo ra các phiên bản phù hợp với các yêu cầu của khai phá dữ liệu trở nên ngày càng quan trọng
+ Dữ liệu thiếu và nhiễu: Mức độ nhiễu cao trong dữ liệu điều này dẫn đến việc dự đoán thiếu chính xác
+ Van dé “qua phi hop” (Overfitting): Khi thuật toán khai phá tìm kiếm với
các tham số tốt nhất cho một mô hình đặc biệt và một giới hạn của tập dữ liệu Mô
hình đó có thể “quá phù hợp” trên tập đữ liệu đó nhưng lại thi hành không chính xác
trên tập dữ liệu kiểm tra
+ Sự thay đổi của dữ liệu và tri thức: Dữ liệu là không tĩnh, dữ liệu thay đổi
nhanh chóng có thê dẫn đến những tri thức đã khai phá trước đây trở nên không còn phù hợp thậm chí là vô giá trị
+ Đánh giá các mẫu dữ liệu tìm được: Nhiều mẫu phát hiện không thực sự
hữu ích với người sử dụng và thách thức với các hệ khai phá dữ liệu
+ Làm việc với các dữ liệu quan hệ phức tạp: Do các hệ cơ sở dữ liệu quan hệ được sử dụng rộng rãi nên vấn để làm tốt với các hệ cơ sở dữ liệu này là van dé
cần quan tâm đối với các hệ khai phá dữ liệu
+ Khai phá thông tin trong các hệ cơ sở dữ liệu hỗn hợp và hệ thống thơng tin
tồn cầu: Với sự ra đời của mạng máy tính, dữ liệu có thể được thu thập từ nhiều nguồn khác nhau với định dạng khác nhau với số lượng rất lớn Việc phát hiện tri thức từ các dạng dữ liệu hỗn hợp này là một thách thức đối với khai phá dữ liệu
Trang 322.2 MOT SO KY THUAT TRONG KHAI PHA DU LIEU
Các kỹ thuật khai phá dữ liệu thường được chia thành 2 nhóm chính:
+ Kỹ thuật khai phá dữ liệu mô tả: Có nhiệm vụ mô tả về các tính chất hoặc
các đặc tính chung của dữ liệu trong cơ sở đữ liệu hiện có Các kỹ thuật này gồm có: Phân cụm (clustering), tóm tắt (summarization), trực quan hóa (visualization),
phân tích sự phát triển và độ lệch (Evolution and deviation analysis), phat hién luat
két hop (association rules),
+ Kỹ thuật khai phá dữ liệu dự đoán: Có nhiệm vụ đưa ra các dự đoán dựa
vào các suy diễn trên dif liệu hiện thời Các kỹ thuật này gồm có: phân lớp (classification), hdi quy (regression),
Tuy nhiên, do khuôn khổ có hạn nên tôi chỉ giới thiệu 2 phương pháp thông
dụng nhất là: Phân lớp dữ liệu và phân cụm dữ liệu 2.2.1 Phân lớp
Phân lớp đữ liệu (classification) là chia các đối tượng dữ liệu thành các lớp
dựa trên các đặc trưng của tập dữ liệu Với một tập các dữ liệu huấn luyện cho trước và sự huấn luyện của con người, các giải thuật phân loại sẽ lọc ra bộ phân loại
(classifier) dùng để phân các đữ liệu mới vào một trong những lớp (còn gọi là loại) đã được xác định trước Phương pháp này rất có ích trong giai đoạn đầu của quá trình nghiên cứu khi ta biết rất ít về đối tượng cần nghiên cứu, nó là tiền đề đề tiến hành các phương pháp phát hiện tri thức Có nhiều phương pháp phân lớp: phân lớp dựa trên cây quyết định, phân lớp Bayesian, Quá trình phân lớp đữ liệu thường gồm hai bước:
+ Bước l: Xây dựng mô hình dựa trên việc phân tích các mẫu đữ liệu có sẵn Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là thuộc
Trang 33+ Bước 2: Sử dụng mô hình để phân lớp đữ liệu Chúng ta phải tính độ chính
xác của mô hình, nếu độ chính xác là chấp nhận được thì mô hình sẽ được sử dụng
đê đự đoán lớp cho các mẫu dữ liệu khác trong tương lai 2.2.2 Phần cụm
Phân cụm (clustering) là việc nhóm các đối tượng dữ liệu thành các lớp đối tượng có sự tương tự nhau dựa trên các thuộc tính của chúng Mỗi lớp đối tượng được gọi là một cụm (cluster) Một cụm bao gồm các đối tượng mà giữa bản thân chúng có sự ràng buộc lẫn nhau và có sự khác biệt so với các lớp đối tượng khác Phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu đữ liệu huấn luyện
Vì thế, có thể coi phân cụm đữ liệu là một cách học bằng quan sát (learning by observation), trong khi phân lớp dữ liệu là học qua ví du (learning by example) Trong phương pháp này ta không thê biết kết quả các cụm thu được sẽ như thế nào khi bắt đầu quá trình Các cụm có thê tách riêng hay phân cấp hoặc gối lên nhau, có
nghĩa là một mục dữ liệu có thể vừa thuộc cụm này vừa thuộc cụm kia Vì vậy,
thông thường cần có một chuyên gia về lĩnh vực đó dé đánh giá các cụm thu được
Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân loại thị trường, phân loại khách hàng, nhận dạng mẫu, phân loại trang Web, Ngoài ra, phân cụm còn được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác
2.3 LUẬT KÉT HỢP
Từ khi nó được giới thiệu từ năm 1993, bài toán khai thác luật kết hợp nhận
được rất nhiều sự quan tâm của nhiều nhà khoa học Ngày nay việc khai thác các luật như thế vẫn là một trong những phương pháp khai thác mẫu phổ biến nhất trong việc khám phá tri thức và khai phá dữ liệu (KDD: Knowledge Discovery and Data Mining)
Một cách ngắn gọn, một luật kết hợp là một biểu thức có dang: X=> Y, trong
đó X và Y là tập các trường gọi là em Ý nghĩa của các luật kết hợp khá đễ nhận thấy: Cho trước một cơ sở dữ liệu D là tập các giao tác - trong đó mỗi giao tác 7' e
Trang 34D là tap cac item - khi do Y=> Y dién dat y nghĩa rằng bất cứ khi nào giao tác T có
chứa X thì chắc chắn 7 có chứa Y Độ tin cậy của luật (rule confidence) có thể được hiểu như xác suất điều kiện pd cT /XcT).Y tưởng của việc khai thác các luật
kết hợp có nguồn gốc từ việc phân tích dữ liệu mua hàng của khách và nhận ra rằng “Một khách hàng mua mặt hàng x1 và x2 thì sẽ mua mặt hàng y với xác suất là c%” Ứng dụng trực tiếp của các luật này trong các bài toán kinh doanh cùng với tính dễ hiểu vốn có của chúng - ngay cả đối với những người không phải là chuyên gia khai
thác dữ liệu - làm cho luật kết hợp trở thành một phương pháp khai thác phổ biến
Hơn nữa, luật kết hợp không chỉ bị giới hạn trong phân tích sự phụ thuộc lẫn nhau
trong phạm vi các ứng dụng bán lẻ mà chúng còn được áp dụng thành công trong
rất nhiều bài toán kinh doanh
Việc phát hiện luật kết hợp giữa các mục (item) trên dữ liệu “giỏ” là bài toán rất đặc trưng của khai phá dữ liệu Dữ liệu giỏ là dữ liệu bao gồm các mục được
mua bởi khách hàng với các thông tin như ngày mua hàng, số lượng, giá cả, Luật
kết hợp chỉ ra tập các mục mà thường được mua nhất với cùng các tập mục khác Hiện nay, có nhiều thuật toán dùng cho việc phát hiện luật kết hợp Tuy
nhiên, vấn để nảy sinh là số lần quét (duyệt) cơ sở dữ liệu quá nhiều sẽ ảnh hưởng
rất lớn đến hiệu quả và tính khả thi của thuật toán trên các cơ sở dữ liệu lớn Đối với các cơ sở dữ liệu được lưu trên đĩa, phép duyệt cơ sở dữ liệu sẽ gây ra số lần đọc
đĩa rất lớn Chẳng hạn một cơ sở dữ liệu kích thước 1GB sẽ đòi hỏi khoảng 125.000 lần đọc khối cho mỗi lần duyệt (với kích thước khối là 8KB) Nếu thuật toán có 10
lần duyệt thì sẽ gây ra 1.250.000 lần đọc khối Giả thiết thời gian đọc trung bình là
l2ms một trang, thời gian cần thiết để thực hiện một thao tác I/O này là
1250000*12ms hay sắp sỉ 4 tiếng đồng hồ
2.3.1 Định nghĩa luật kết hợp
Trang 35Một giao dich (transaction) 7 được định nghĩa như một tập con (subset) của các khoản mục trong 7 (7 <7) Tương tự như khái niệm tập hợp, các giao dịch
không được trùng lặp, nhưng có thê nới rộng tính chất này của tập hợp và trong các thuật toán sau này, người ta đều giả thiết rằng các khoản mục trong một giao dịch và trong tất cả các tập mục (#emsef) khác, có thể coi chúng đã được sắp xếp theo
thứ tự từ điển của các /em
Gọi Ð là cơ sở dữ liệu của n giao dich và mỗi giao dịch được đánh nhãn với
một định đanh duy nhất (Unique Transaction IDentifier-TID) Nói rằng, một giao
dịch 7 e D hỗ trợ (support) cho mot tập X c7 nếu nó chứa tất ca cdc item cha X,
nghia la_Y CT, trong mét sé trường hợp người ta ding ky hiéu T(X) dé chỉ tập các giao dịch hỗ trợ cho X Ki hiéu support(X) (hodc supp(X), sŒX)) là tỷ lệ phần trăm của các giao dịch hỗ trợ X trên tổng các giao dịch trong D, nghĩa là:
|TeD|X cT|
Supp(X) = Dị % (2.1)
Ví dụ về cơ sở dữ liệu (dạng giao dịch) : I= {A, B, C, D, E}, T = £1, 2, 3,
4, 5, 6} Thông tin về các giao dịch cho ở bảng sau:
Trang 36Ta co:
supp( {A }) = 4/6 (%)= 66.67%; supP((ABDE)) = 3/6 =50%;
supp({ABCDE}) = 1/6 = 16.67%;
Tap phé bién (frequent itemset):
Support téi thiêu minsup €( 0, 1] (Minimum Support) la mot giá trị cho trước bởi người sử dụng Nếu tập mục Ý Œ7 có suppCÄ)G minsup thì ta nói X là một tập phé bién-frequent itemset (hoac large ifemset) Một ƒrequent itemset được sử dụng như một tập đáng quan tâm trong các thuật toán Ngược lại, những tập không phải requenf itemsef là những tập không đáng quan tâm Trong các trình bày sau nay, ta sẽ sử dụng những cụm từ khác như “X có suppor tối thiêu”, hay “X không có support toi thiểu” cũng dé nói lên rằng X thỏa mãn hay không thỏa mãn spporf(X)
Cc minsupp
Ví dụ: Với cơ sở dữ liệu D cho ở bảng 2.1, va gia tri nguéng minsupp = 50% sé liét ké tat ca cac tap phé bién (frequent-itemsef) nhw sau:
Bang 2.2 Cac tập phô biến trong CSDL ở bảng 2.1 với minsup 50% Các tập mục phố biến Độ hỗ trợ (supp) tương ứng B 100% (6/6) E, BE 83% (5/6) A, C, D, AB, AE, BC, BD, ABE 67% (4/6) AD, CE, DE, ABD, ADE, BCE, BDE 50% (3/6)
Một số tinh chất (TC) liên quan đến cdc frequent itemset:
Trang 37TC2 Néu mét item A khong c6 support téi thiéu trén D nghia là support(A) < minsupp thi một superset B cua A sẽ không phải là một frequent vi support(B) < support(A) < minsup
TC3 Néu item B la frequent trén D, nghia la support(B) > minsup thi moi subset A cua B la frequent trén D vi support(A) > support(B) > minsup
Định nghĩa luật kết hợp:
Một luật kết hợp có dạng R: X —Y, trong đó X, Y la cac itemset, X, YoI va X AY = 6 X được gọi là tiên để và Y được gọi là hệ quả của luật
Luật X —Y tổn tại một độ hỗ trợ support - supp Supp(X =Y) duoc dinh
nghĩa là khả năng mà tập giao dịch hỗ trợ cho các thuộc tính có trong cả X lẫn Y, nghĩa là:
Support(XY) = support(XUY)
Luật X = Y tổn tại một độ tin cay c (confidence - conf) Conf ¢ duoc định
nghĩa là khả năng giao dịch 7 hỗ trợ X thì cũng hỗ trợ Y Nói cách khác c biểu thị số phân trăm giao địch có chứa luôn 44 trong số những giao địch có chứa X
Ta có công thức tính confc nhu sau:
pỮ CTAXCT)_ supp(X (2T) confX = Y) = p(Y cTỊX c7)=
)~sŒ cTi pŒ c7) sup p(X) % (2.2)
Ta noi rang, luat_Y =Y la thoa trén D néu véi mét support téi thiểu minsup và một ngưỡng eoƒfiđence tối thiéu minconf cho trước nào đó mà:
Support(X > Y) = minsup va confidence(X > Y) = minconf
Chú ý rằng, nếu luật X = Y ma thoa trén D thi ca Y va Y déu phai 1a cdc
frequent Itemset trén D va khi xét một luật có thoả hay không, thi ca support va confidence của nó đều phải quan tâm, vì một luật cé thé cé confidence = 100% > minconƒ nhưng có thê là nó không đạt suppor† tôi thiéu minsup
Trang 382.3.2 Một số tính chất của luật kết hợp
Trước hết ta phải giả sử rằng với luật X = Y, X có thể là rỗng, còn Y phải luôn khác rỗng và X # Y vì nếu không thì:
support(XUY) _ 1
confidence(X => Y)=
support(X) (2.3)
Ta có các tinh chất sau:
1) Nếu X =Z và Y = Z là thoả trên D, thì không nhất thiết là X cz Y— Z
Trường hợp X 2 Y = Øvà các giao dịch trên 7 hỗ trợ Z nếu và chỉ nếu
chúng hỗ trợ X hoặc hỗ trợ Y Khi đó, support(X UY) =0 va cofidence(X UY) = 0
Tương tự ta cũng có: Nếu Y = Y và X > Z khong thé suy ra YYZ
2) Nếu luật XL# =Z là thoả trên D thì Y—Z và Y=Z có thể không thoả trên
Chẳng hạn, khi Z là có mặt trong một giao dịch chỉ nếu cả X và Y đều có mặt
trong giao dịch đó, nghĩa 1a support(XUY)=support(Z) Néu support cho X và Y lớn hon support(XUY), thi 2 luat trén sé khéng cé confidence yéu cau Tuy nhién, néu XY=YUZ là thoả trên D thì có thể suy ra Y= và X=Z cũng thoả trên D Vi
support(XY) = support(XYZ) và support(XZ) = support(XYZ)
3) Nếu X= Y va Y=9Z la thoa trén D thi khong thé khang dinh ring YZ
cũng giữ được trên D
Gia sử T(X)CT(Y)CT(Z) va confidence(X=>Y) = confidence(Y>Z) = minconf Khi đó ta có confidence(X=Z) = minconf’ < minconf vi minconf <1, nghia la ludt YZ khéng c6 cofidence tôi thiêu
4) Nếu luật 4— (1-44) không có confidence tối thiêu thì cũng không có luật nào trong các luật З (1-B) có confidenee tối thiêu trong dé L-A, B là các ifemsef
Trang 39That vay, theo tinh chat TC1, vi BCA Nén support(B) > support(A) và theo định nghĩa của confidence, ta có :
support(L) < SUP port(L)
Confidence(B => (L-B))= <
support(B) sup port(A) < min conf (2.4)
Cũng vậy, nếu luật (L-C) =C là thoả trên D, thì các luật (L-K) =K voi KCC
va K#2 ciing thoa trén D
Bài toán khai phá luật kết hop:
Có thể diễn đạt một bài toán khai phá luật kết hợp như sau:
Cho một tập các 7e 1, một cơ sở dữ liệu giao dich D, nguéng support tối
thiéu minsup, nguéng confidence t6i thiéu minconf, tìm tất cả các luật kết hợp X—Y trên D sao cho: swpporf(X>Y)>minsup và confidence(ŒX=>Y) >minconƒ
2.3.3 Phân loại luật kết hợp
Tuy theo ngữ cảnh các thuộc tính dữ liệu cũng như phương pháp trong các thuật toán mà người ta có thê phân bài toán khai phá luật kết hợp ra nhiều nhóm
khác nhau Chẳng hạn, nếu giá trị của các item chỉ là các giá trị theo kiểu boolean
thì người ta gọi là khai phá luật kết hợp boolean (Mining Boolean Association
Rules), còn nếu các thuộc tính có tính đến khoảng giá trị của nó (như thuộc tính
phân loại hay thuộc tính số lượng chẳng hạn) thì người ta gọi nó là khai phá luật kết
hợp định lượng (Mining Quantitative Association Rules) Ta sé xem xét cu thể các nhóm đó
Lĩnh vực khai thác luật kết hợp cho đến nay đã được nghiên cứu và phát triển
theo nhiều hướng khác nhau Có những để xuất nhằm cải tiến tốc độ thuật toán, có
những đề xuất nhằm tìm kiếm luật có ý nghĩa hơn, v.v và có một số hướng chính sau đây
Luật kết hop nhi phan (binary association rule hodc boolean association
rule): là hướng nghiên cứu đầu tiên của luật kết hợp Hầu hết các nghiên cứu ở thời kỳ đầu về luật kết hợp đều liên quan đến luật kết hợp nhị phân Trong dạng luật kết
Trang 40hợp này, các mục (thuộc tính) chỉ được quan tâm là có hay không xuất hiện trong giao tác của cơ sở đữ liệu chứ không quan tâm về “mức độ” xuất hiện Có nghĩa là
việc gọi 10 cuộc điện thoại và | cuộc được xem là giống nhau Thuật toán tiêu biểu
nhất khai phá đạng luật này là thuật toán Apriori và các biến thể của nó Đây là dạng luật đơn giản và các luật khác cũng có thể chuyển về dạng luật này nhờ một số
phương pháp như rời rạc hoá, mờ hoá, v.v Một ví dụ về dang luật này : “gọi liên
tinh= ‘yes’ AND goi di déng= ‘yes’ goi quéc té= ‘yes’ AND goi dich vu 108 =
‘yes’, voi d6 hỗ trợ 20% và độ tin cậy 80%”
Luật kết hợp có thuộc tính số và thuéc tinh hang muc (quantitative and
categorial association rule):
Các thuộc tính của các cơ sở dữ liệu thực tế có kiểu rất đa đạng (nhị phân - binary, SỐ - quantitative, hang mục - categorial, v.v)
Đề phát hiện luật kết hợp với các thuộc tính này, các nhà nghiên cứu đã đề
xuất một số phương pháp rời rạc hoá nhằm chuyển dạng luật này về dạng nhị phân để có thể áp dụng các thuật toán đã có Một ví dụ về dạng luật này “phương thức gọi = “Tự động' AND giờ gọi? '23:00:39 23:00:59° AND Thời gian đàm thoại? *200 300” gọi liên tỉnh = “có”, với độ hỗ trợ là 23 53% , và độ tin cậy là 809%%”,
Luật kết hợp tiếp cận theo hướng tập thô (mining association rules base on rough set): Tim kiếm luật kết hợp dựa trên lý thuyết tập thô
Luật kết hợp nhiều mức (multi-level association rule):
Với cách tiếp cận theo luật này sẽ tìm kiếm thêm những luật có dạng “mua máy tính PC => mua hệ điều hành AND mua phần mềm tiện ích văn phòng, .” thay vì chỉ những luật quá cụ thể như “mua máy tính IBM PC => mua hệ điều hành Microsoft Windows AND mua phan mém tién ich van phong Microsoft Office, .” Như vậy dạng luật đầu là dạng luật tổng quát hoá của dạng luật sau và tổng quát
theo nhiều mức khác nhau