1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng luật kết hợp để xây dựng hệ hỗ trợ tư vấn tuyển sinh đại học

88 6 0
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 88
Dung lượng 36,11 MB

Nội dung

Trang 1

BO GIAO DUC VA DAO TAO

DAI HOC HUE

TRUONG DAI HOC KHOA HOC

PHAM VAN HOANG

UNG DUNG LUAT KET HOP

DE XAY DUNG HE HO TRO TU VAN

TUYEN SINH DAI HOC

CHUYEN NGANH: KHOA HOC MAY TiNH MA SO: 8 48 01 01

LUAN VAN THAC SI KHOA HOC

ĐỊNH HƯỚNG NGHIÊN CỨU

Trang 2

théng - kết quả chính của luận văn, sẽ giúp học sinh lựa chọn cho mình một trường đại học phù hợp với trình độ và năng lực của bản thân để đạt được kết quả tối ưu

Nội dung luận văn gồm 3 chương

Chuong 1 TONG QUAN VE HE HO TRO RA QUYET DINH

Trong chương này, nguyên cứu tổng quan về Hệ hỗ trợ ra quyết định, một số

khái niệm và định nghĩa quyết định, hoàn cảnh ra đời Hệ hỗ trợ ra quyết định, các bước xây dựng Hệ hỗ trợ ra quyết định, các thành phan của Hệ hỗ trợ ra quyết định, tổ chức đữ liệu mô hình cơ sở

Chương 2 MƠ HÌNH LUẬT KÉT HỢP

Trong chương này, nguyên cứu khai phá dữ liệu, ứng dụng của khai phá dữ

liệu, một số kỹ thuật trong khai phá dữ liệu đặc biệt về phân cụm và phân lớp, luật

kết hợp

Chương 3 XÂY DỰNG HỆ HỖ TRỢ TƯ VÂN TUYẾN SINH

Sau khi nguyên cứu các về Hệ hỗ trợ ra quyết định, khai phá dữ liệu và đặc

biệt là luật kết hợp, tôi xây dựng cơ sở dữ liệu, xác định tập mục, thiết kế mô hình

luật kết hợp từ đó mô tả hệ thống bằng giao diện và đánh giá kết quả

Cuối cùng là kết luận và để xuất một số hướng nghiên cứu tiếp tục trong tương lai Trong quá trình nghiên cứu, do còn nhiều hạn chế về khả năng và thời gian thực hiện nên luận văn không thể tránh khỏi những thiếu sót Kính mong nhận được sự chỉ bảo của quý Thầy Cô giáo, các nhận xét và góp ý của bạn bè, đồng

Trang 3

LOI CAM ON

Thực tế luôn cho thấy, sự thành công nào cũng đều gắn liền với những sự hỗ trợ, giúp đỡ của những người xung quanh dù cho sự giúp đỡ đó là ít hay nhiều, trực tiếp hay gián tiếp Trong suốt thời gian từ khi bắt đầu làm luận văn đến nay,

Tôi đã nhận được sự quan tâm, chỉ bảo, giúp đỡ của thầy cô, gia đình và bạn bè xung quanh

Với tắm lòng biết ơn vô cùng sâu sắc, Tôi xin gửi lời cảm ơn chân thành nhất từ đáy lòng đến quý Thầy Cô của trường Đại học Khoa Học Huế đã dùng những tri thức và tâm huyết của mình để có thê truyền đạt cho chúng tôi vốn kiến thức quý báu trong suốt thời gian học tập

Đặc biệt, Tôi xin chân thành cảm ơn PGS.TS Lê Mạnh Thạnh đã tận tâm chỉ

hướng dẫn Tôi qua từng buổi học, từng buổi nói chuyện, thảo luận về dé tai n cứu Nhờ có những lời hướng dẫn, dạy bảo đó, bài luận văn này của em đã hoàn thành Một lần nữa, Tôi xin gửi lời cảm ơn chân thành đến thay

G) Xin được cảm ơn trường Đại học Khoa học — Đại Học Huế đã tạo điều kiện

“tát nhất để Tôi được tham gia và hoàn thành khóa học

Cuối cùng, Tôi xin gửi lời cảm ơn đến cơ quan và gia đình, chính vì có sự hỗ trợ từ phía cơ quan và gia đình mà Tôi yên tâm học tập và hồn thành khố học

Tơi xin chân thành cảm ơn!

Thừa Thiên Huế, tháng 04 năm 2020

Tác giả luận văn

| Pham Van Hoang

|

\

Trang 4

MUC LUC

00281100169 (e0:70 c1 i

DANH MUC CAC KY HIEU, CAC TU VIET TAT wo.eecceccecssessseesseesseesseesssees ii DANH MUC CAC HINH .essecsssssssssesssssssssccssssscsscsssssscssccssssessscssssseseasesesseeesees iii 2790089670007 ddẨẬậẬH ,ÔỎ 1 Chương 1 TÔNG QUAN HỆ HỖ TRỢ QUYÉT ĐỊNH 4 1.1 MỘT SÓ KHÁI NIỆM VÀ ĐỊNH NGHĨA -2222222222222 e6 4 1.1.1 Quyết định . - 225 221222122212212212222222121222222 ra 4 1.1.2 Hoàn cảnh ra đời của Hệ hỗ trợ ra quyết định .ccc c2 4 1.1.3 Ứng dụng của Hệ hỗ trợ ra quyết định 22-22222212221221 22c 6 1.2 CÁC BƯỚC XÂY DỰNG HỆ HỖ TRỢ QUYÉT ĐỊNH - 7 1.2.1 Mô hình ra quyết định -52222221222122121122221122222 xe 7 1.2.2 Các bước xây đựng Hệ hỗ trợ quyết định

1.2.3 Phương án tạo lập quyết định 22 22222222212211121121121122 2e

1.3 CAC THANH PHAN CỦA HỆ HỖ TRỢ QUYÉT ĐỊNH 14 1.3.1 Cấu trúc của Hệ hỗ trợ quyết định - 22 2222222225121122112212 222C 14 1.3.2 Các phân hệ của Hệ hỗ trợ quyết định .-2- 22 22222222222222-e2 15 1.4 TÔ CHỨC DỮ LIỆU 2- 222 2221221222122212111221211211211211221222 xe 15 1.5 MÔ HÌNH CƠ SỞ 222 22222122212112211211211221122222 ae 16 1.6 XÂY DỰNG GIAO DIỆN NGƯỜI DỪNG 2222222222222 22 17 1.7 TIEU KẾT CHƯƠNG l 2-22222222221222122121122121.21221 te 17 Chương 2 MƠ HÌNH LUẬT KẾT HỢPP 2©©<°©secccsecccscee 18 2.1 GIỚI THIỆU VẺ KHAI PHÁ DỮ LIỆU . ©-22222222222E22222222ce2 18

2.1.1 Khái niệm khai phá dữ liệu .- S2 S2 Srererrerrreree 18

2.1.2 Kiến trúc của một hệ thống khai phá đữ liệu . - 2-22 21

2.1.3 Ứng dụng của khai phá dữ liệu .-©-222222222221221222122 e6 22

2.1.4 Một số khó khăn trong khai phá đữ liệu - 2222222222222 22 2.2 MỘT SÓ KỸ THUẬT TRONG KHAI PHÁ DỮ LIỆU - 24

Trang 5

2.2.2 PHAN CUM 0.00 ccc cece cececcccsesceecsececsseeccsssesccssteceseescssseseruteeeseeeenteteensaes 25

2.3 LUẬT KẾT HỢP ©222222225122512211211121111112111211121112212 re 25 2.3.1 Định nghĩa luật kết hợp 52-222 222222122212221121121122222 e6 26 2.3.2 Một số tính chất của luật kết hợp -2- 222 2222212221221221 2x6 30 2.3.3 Phân loại luật kết hợp - 522222 221222122112211211211221122 e6 31 2.4 CAC DAC TRUNG CUA LUẬT KÉT HỢP 222222222222222zce2 35 2.4.1 Không gian tìm kiếm luật - 52222 22222211221121122122222 2 xee 35 2.4.2 Độ hỗ trợ luật 2- 2222 22122121122121121121211211212212122 re 37 2.5 GIẢI THUẬT APRIORI - 22 222222122512111211121112111211121221121 xe 38 2.5.1 Giới thiệu bài tốn - 5-22 222221221122212211221212222ee 38

2.5.2 Mơ phỏng thuật toán ApTIOTI c c ctS nhe 40

2.6 TIỂU KÉT CHƯƠNG 2 22 22 222225122112211211121112111211211212 re 47 Chương 3 XÂY DỰNG HE HO TRO TU VAN TUYẾN SINH 48

3.1 THỰC TRẠNG VÀO ĐẠI HỌC CỦA HỌC SINH TRƯỜNG THPT TRẤN QUỐC TUẦN .- 5: 1 12 2212112211211011221 1 1n rerau 48 3.2 PHƯƠNG PHÁP GIẢI QUYẾT . s22 E222 2.Errrrrri 51 3.2.1 Thiết kế cơ sở dữ liệu - 2222222211211221112112221222212 xe 51 3.2.2 Huấn luyện - 22 2222222221221121112111211111122112222222122 re 56

3.2.3 Trình bày giao diện của hệ thống 222 222222223221222111221 221C 58

Trang 6

DANH MUC CAC BANG

Trang Bảng 1.1 Định nghĩa HHTQĐ bằng so sánh 222222 2222251221122112111211211 4 Bảng 1.2 Một số cách định nghĩa HHTQĐ 52 2222222225121112111211221222 2e 6

Bảng 2.1 Ví dụ về một cơ sở dữ liệu dạng giao dịch - D à.cccceeiecrey 27

Bảng 2.2 Các tập phổ biến trong CSDL ở bảng 2.1 với minsup 50% 28

Trang 7

DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT BFS CD CSDL DM DH HHTQD Item Itemset K-itemset Lx Minconf Minsup TCCN THPT T TID Tid-List xXx>Y Breadth first Search Cao dang Cơ sở dữ liệu Data Mining Đại học Hệ hỗ trợ quyết định Mục Tap mục Tập mục gồm k mục Tập các k-itemset phổ biến

Ngưỡng tin cậy tối thiểu (minimum confidence) Ngưỡng hỗ trợ tối thiéu (minimum support) Trung cấp chuyên nghiệp

Trung học phổ thông

Giao dịch

Định danh của giao dịch (Transaction Identifier)

Danh sách các định danh của giao dịch

Luật kết hợp (Với X là tiên đề, Y là hệ quả)

Trang 8

Hinh 1.1 Hinh 1.2 Hinh 1.3 Hinh 1.4 Hinh 1.5 Hinh 1.6 Hinh 1.7 Hinh 1.8 Hinh 2.1 Hinh 2.2 Hinh 2.3 Hinh 2.4 Hinh 2.5 Hinh 3.1 Hinh 3.2 Hinh 3.3 Hinh 3.4 DANH MỤC CÁC HÌNH Trang

Cấu trúc tổng quát của một mô hình - 2222222E22E2E2E.zxcce2 8 Các giai đoạn của quá trình ra quyết định ceceeeteneeee 8 Phương pháp truyền thống trong tạo lập quyết định 13 Tạo lập quyết định có sử dụng tr1 thức .- - 5-5 ccs: 13 Các thảnh phần của Hệ hỗ trợ quyết định 2-5: scszzszss+2 15 Te hate dữ TÍỀNi panhangtrttrikutirNGGNGEUSIGH.8M00103840408REEWAN0308đ2018083808 15 0000101 - -:aAaAAa 16 Xây dựng giao diện người dùng

Quá trình khai phá đữ liệu 5-5-2 5222 2222222 csxey Kiến trúc của một hệ thống khai phá dữ liệu

Di cho LẤBj1 = {1:2:3/Ì suaessonnoydbetBtÐbtÐBBSliBtlÐSiISNIDIARGRIUSRPRSENGI 36 Cây cho tập IE{1, 2, 3, 4} nh Huee 37

Vị dụ thuật toán ADTIOTI c1: 2212212221151 121 1111 111118111 46

Trường THPT Trần Quốc Tuần - Phú Hòa - Phú Yên 48

Một số hình ảnh tư vấn tuyển SInH 2 nh nhờ 50

Trang 9

PHAN MO DAU

Trong những năm gần đây, công nghệ thông tin phát triển mạnh mẽ và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực đời sống, kinh tế xã hội đã làm

lượng dữ liệu được thu thập và lưu trữ ở các hệ thống thông tin tăng lên một cách nhanh chóng Trước tình hình đó, việc khai thác và chọn lọc những dữ liệu có ích tử

lượng dữ liệu khống lồ là việc rất cần thiết, đóng vai trò quyết định thành công

trong mọi hoạt động Các dữ liệu chắc lọc đó sẽ giúp cải thiện hoạt động trong hiện

tại hay đưa ra những dự đoán giúp việc đưa ra quyết định trong tương lai sẽ chính

xác hơn

Với những lý do đó, nhu cầu phát triển các kỹ thuật thu thập, lưu trữ, phân

tích dữ liệu, được đặt ra và nó đòi hỏi phải được xử lý thông minh và hiệu qua

hơn Từ đó đã làm phát triển kỹ thuật mới và với kỹ thuật này cho phép ta khai thác

duoc tri thức hữu dụng từ cơ sở dữ liệu lớn được gọi là các kỹ thuật khai phá dữ

liệu (Data Mining - DM) Các kỹ thuật khai phá dữ liệu được ứng dụng trong nhiều

lĩnh vực như: kinh tế, tài chính, y tế, giáo dục,

Việc ứng dụng khai phá dữ liệu vào nhiều lĩnh vực khác nhau của đời sống,

khai phá dữ liệu trong lĩnh vực giáo dục đang dần có được sự quan tâm đúng mức Chúng ta cần phải nhìn nhận rằng giáo dục là nhân tố quyết định sự phát triển của

đất nước về nhiều mặt Mục tiêu phát triển xã hội một cách bền vững đang đặt ra cho giáo dục những yêu cầu mới Giáo dục đào tạo có nhiệm vụ định hướng và hoạch định chính sách cho đối tượng chính của giáo dục là thế hệ trẻ, là lực lượng

kế thừa của việc xây dựng, bảo vệ và phát triển đất nước trong tương lai một cách đúng đắn và kịp thời Chính vì vậy, việc định hướng và xây dựng chính sách trong

giáo dục đào tạo cần phải được hỗ trợ bởi các công cụ khoa học để tránh những sai

Trang 10

Mặc dù chưa có số liệu thống kê cụ thể, nhưng có thể thấy rằng hầu hết học

sinh sau khi hoàn thành chương trình lớp 12 đều tiếp tục lựa chọn cho mình những trường ĐH, CĐ, TCCN Thông qua việc chọn trường, chọn ngành nghề sẽ giúp các em có được kiến thức, bằng cấp, kỹ năng làm việc để đáp ứng nhu cầu lao động của xã hội sau khi các em tốt nghiệp Việc chọn đúng ngành nghề giúp các em định hướng đi phù hợp với khả năng của bản than minh và tránh khỏi những lựa chọn vội vàng để rồi phải bỏ lỡ rất nhiều cơ hội mà đáng ra nếu chọn đúng và định hướng sớm các em sẽ thành công Do rất nhiều yếu tố khách quan, chủ quan khác và đa phần các em ở các tỉnh thành, việc tiếp cận các thông tin về chọn ngành nghề cũng

hạn chế và thiếu thông tin để lựa chọn và định hướng cho mình

Việc chọn đúng ngành học trong bối cảnh kinh tế, xã hội hiện nay nhằm tránh việc có nhiều cá nhân lựa chọn sai nghề sẽ dẫn tới giảm sút chất lượng đào

tạo, gây lãng phí cho công tác đào tạo và đào tạo lại Chất lượng nguôn nhân lực sau đào tạo không đảm bảo dẫn tới năng suất lao động không cao, nảy sinh nhiều xáo

trộn cho hoạt động của các tổ chức, doanh nghiệp bởi các hiện tượng như: bỏ nghề, chuyển nghề, các doanh nghiệp mất thêm chi phi dao tao va dao tao lai cho đội

ngũ của mình

Học tập là một quá trình dài và khó khăn, đòi hỏi học sinh phải đầu tư nhiều

công sức, tiền bạc của cá nhân cũng như gia đình, nếu thất bại trong việc chọn

ngành nghẻ sẽ dẫn đến những tốn thất lớn về tinh thần lẫn vật chất cho học sinh và gia đình họ Việc định hướng chọn đúng ngành sẽ giúp các em tránh khỏi những vấn để trên

Vì vậy, công tác hướng nghiệp hỗ trợ tư vấn chọn ngành nghẻ cho học sinh

THPT là hết sức cần thiết

Trước thực tế đó và được sự đồng ý của PGS.TS Lê Mạnh Thạnh, Tôi chọn

Trang 11

théng - kết quả chính của luận văn, sẽ giúp học sinh lựa chọn cho mình một trường đại học phù hợp với trình độ và năng lực của bản thân để đạt được kết quả tối ưu

Nội dung luận văn gồm 3 chương

Chuong 1 TONG QUAN VE HE HO TRO RA QUYET DINH

Trong chương này, nguyên cứu tổng quan về Hệ hỗ trợ ra quyết định, một số

khái niệm và định nghĩa quyết định, hoàn cảnh ra đời Hệ hỗ trợ ra quyết định, các bước xây dựng Hệ hỗ trợ ra quyết định, các thành phan của Hệ hỗ trợ ra quyết định, tổ chức đữ liệu mô hình cơ sở

Chương 2 MƠ HÌNH LUẬT KÉT HỢP

Trong chương này, nguyên cứu khai phá dữ liệu, ứng dụng của khai phá dữ

liệu, một số kỹ thuật trong khai phá dữ liệu đặc biệt về phân cụm và phân lớp, luật

kết hợp

Chương 3 XÂY DỰNG HỆ HỖ TRỢ TƯ VÂN TUYẾN SINH

Sau khi nguyên cứu các về Hệ hỗ trợ ra quyết định, khai phá dữ liệu và đặc

biệt là luật kết hợp, tôi xây dựng cơ sở dữ liệu, xác định tập mục, thiết kế mô hình

luật kết hợp từ đó mô tả hệ thống bằng giao diện và đánh giá kết quả

Cuối cùng là kết luận và để xuất một số hướng nghiên cứu tiếp tục trong tương lai Trong quá trình nghiên cứu, do còn nhiều hạn chế về khả năng và thời gian thực hiện nên luận văn không thể tránh khỏi những thiếu sót Kính mong nhận được sự chỉ bảo của quý Thầy Cô giáo, các nhận xét và góp ý của bạn bè, đồng

Trang 12

Chuong 1 TONG QUAN HE HO TRO QUYET DINH 1.1 MOT SO KHAI NIEM VA DINH NGHIA

1.1.1 Quyét dinh

Quyét định là một lựa chọn về “đường lối hành động” (Simon 1960; Costello & Zalkind 1963; Churchman 1968), hay “chiến lược hành động” (Fishbum 1964)

dẫn đến “một mục tiêu mong muốn” (Churchman 1968)

Ra quyết định là quá trình lựa chọn có ý thức giữa hai hay nhiều phương án

để chọn ra một phương án tạo ra được một kết quả mong muốn trong các điều kiện

ràng buộc đã biết [ 1]

1.1.2 Hoàn cảnh ra đời của Hệ hỗ trợ ra quyết định

Đầu thập kỷ 70, Gorry và Scott-Morton (1971) định nghĩa Hệ thống trợ giúp quản lý là các hệ thống dựa trên hệ thống tương tác với máy tính giúp cho các nhà ra quyết định dùng các đữ liệu và mô hình đề giải quyết các vấn dé phi cấu trúc

Litle (1970) đưa ra Hệ hỗ trợ quyết định là tập các thủ tục dựa vào các mô

hình để xử lý đữ liệu và phán xét nhằm trợ giúp các nhà ra quyết định, hệ thống cần

phải đơn giản, dễ điều khiến, thích nghị, dễ liên lạc với nhau [1]

Alter (1980): định nghĩa HHTQĐ bằng cách so sánh với các hệ thống xử lý dữ liệu: Bảng 1.1 Định nghĩa HHTQĐ bằng so sánh Khía cạnh HHTQĐ Hệ xử lý dữ liệu Sử dụng Chủ động BỊ động

Người sử dụng Nhà quản lý Văn phòng

Mục tiêu Tính hiệu quả, tính linh Hiệu quả máy móc, tính

hoạt phi mâu thuẫn

Trang 13

Pham vi vé thoi gian Hién tai va tuong lai Quá khứ

Mục đích, tiêu đề Tính tinh hoạt Kiên định

Moore và Chang (1980) cho rằng tính cấu trúc (structured) trong các định nghĩa trước đây không thật sự có ý nghĩa vì rằng bài tốn mơ tả là có cấu trúc hay phi cấu trúc chỉ tương ứng theo người ra quyết định/tỉnh huống cụ thê Vì vậy, nên định nghĩa HHTQĐ như là hệ thống hỗ trợ các mô hình quyết định và phân tích dữ

liệu tùy biến, được sử dụng ở các khoảng thời gian bất kỳ, không hoạch định trước

Do đó, hệ HTQĐ là:

+ Hệ thống có khả năng mở rộng

+ Có khả năng trợ giúp phân tích đữ liệu và mô hình hóa quyết định + Hướng tới lập kế hoạch cho tương lai

+ Được sử đụng cho những hoàn cảnh và thời gian bất thường

Bonezek, Holsapple, Whinston (1980) đưa ra khái niệm tổng quan hơn về Hệ hỗ trợ quyết định gồm các thành phần chính: + Có một hệ ngôn ngữ là cơ chế cho phép tương tác giữa người dùng và các thành phần khác của hệ + Một hệ tri thức chứa các tri thức về lĩnh vực bao gồm dữ liệu và các loại thủ tục + Hệ xử lý bài toán, chứa đựng các khả năng xử lý bài toán và người ra quyết định cần đến

Keen (1980) cho rằng Hệ hỗ trợ quyết định là sản phẩm của quá trình phát

triển, trong đó người sử dụng Hệ hỗ trợ quyết định, người tạo ra Hệ hỗ trợ quyết

định và chính bản thân Hệ hỗ trợ quyết định có khả năng ảnh hưởng tác động đến sự phát triên của hệ thống và các thành phân

Trang 14

Bang 1.2 Mét sé cach dinh nghia HHTQD

Nguon Dinh nghia hé HTQD theo cac khia canh

Gorry va Scott-Morton (1971) Kiểu bài toán, chức năng của hệ thống Little Chức năng hệ thống đặc trưng giao điện

Alter Mẫu thử và tiêu đề của hệ thống Moore Mẫu thử, khả năng của hệ thống Bonczel Các thành phần của hệ thống

Vậy, Hệ hỗ trợ ra quyết định là hệ thống thông tin hỗ trợ bằng máy tính có

thể thích nghỉ linh hoạt và tương tác với nhau đặc biệt được phát triển đề hỗ trợ

một vấn đề quản lý không có cấu trúc nhằm cải tiễn việc ra quyết định Nó tập hợp dữ liệu cung cấp cho người sử dụng một giao diện thân thiện và cho phép tự ra quyết định một cách sáng suốt Nó hỗ trợ tất cả các giai đoạn của việc ra quyết định và bao gồm cả một cơ sở trì thức HHTQD là hệ các phương pháp xử lý dit

liệu để lấy trị thức nhằm lựa chọn phương án tối tru theo mục tiêu

1.1.3 Ứng dụng của Hệ hỗ trợ ra quyết định

Hệ hỗ trợ ra quyết định được ứng dụng vào nhiễu lĩnh vực hiện nay như:

Kinh doanh — thương mại:

- Xác định thói quen mua hàng của khách hàng - Dự đoán chu kỳ kinh doanh sản phẩm

- Liên hệ giữa khách hàng và yếu tố khác

- Xác định khách hàng tiềm năng, đối tượng có khả năng trở thành khách hàng

- Dự đoán hiệu quả của một đợt quảng cáo, tiếp thị Thuong mai — điện tử:

Trang 15

Ngân hàng: - Dự đoán các dấu hiệu của một cuộc giao dịch trái luật - Xác định khách hàng sẽ cộng tác lâu dài - Dự đoán rủi ro của các khoản cho vay - Xác định nhân tố dẫn đến vỡ nợ vay - Liên hệ các chỉ số tài chính đến hoạt động ngân hàng Báo hiểm: - Loại khách hàng có rủi ro cao, gian lận - Xác định khách hàng tiềm năng - Xác định các đối tượng sẽ trở thành khác hàng Viên thông:

- Nhận biết các dấu hiệu của cuộc gian lận dịch vụ

- Xu thế phát triển khách hàng, đối tượng, khu vực cần phát triển Yte:

- Chuẩn đoán bệnh qua các triệu chứng

- Liên hệ giữa các loại bệnh

- Dự đoán hiệu quả của một cuộc phẫu thuật, điều trị

1.2 CÁC BƯỚC XÂY DỰNG HỆ HỖ TRỢ QUYẾT ĐỊNH 1.2.1 Mô hình ra quyết định

Một đặc trưng cơ bản của hệ hỗ trợ quyết định là phải có ít nhất một mô hình

trợ giúp ra quyết định Việc chọn lựa và xây dựng mô hình nằm trong giai đoạn thứ 2 (Design Phase) của quá trình ra quyết định

Mô hình là một khái quát hóa hay trừu tượng hóa các vấn đề thực tế thành

Trang 16

Một mô hình gồm ba thành phần cơ bản:

1 Decision Variables: Day là các lựa chọn xác định bởi người ra quyết định Chang han trong bai toán quyết định thưởng phạt nhân viên

2 Uncontrollable Variables: Day là các biến không nằm trong sự kiểm soát của người ra quyết định (bị tác động bởi các yếu tố bên ngoài)

3 Result Variables: Đây là biến kết quả của mô hình Các biến khung điều khiển Uncontrollable Variables r Môi quan hệ giữa

Các biến quyết định các biên Các biến kết quả

Decision Variables Mathematical Result Variables

relationShips

Hình 1.1 Câu trúc tông quát của một mô hình

1.2.2 Các bước xây dựng Hệ hỗ trợ quyết định

Trang 17

1.2.2.1 Giai đoạn tìm kiém van dé hoặc nhận biết vẫn đê

Bước này liên quan đên việc tìm kiêm môi trường cho điêu kiện yêu câu quyết định

Quá trình tìm kiếm có các đặc điểm khác nhau tùy thuộc vào việc nó có thể được cấu trúc và liệu nó là liên tục hay không

Những khác biệt này được tóm tắt trong ba loại tìm kiếm: 1 Tìm kiếm phi cấu trúc

2 Tìm kiếm không có cấu trúc

3 Tìm kiếm cấu trúc liên tục

s* Tìm kiếm phi cấu trúc:

Trong nhiều trường hợp, thuật toán tìm kiếm hoặc thông minh không thê được chỉ định Hệ thống hỗ trợ quyết định phải cho phép người dùng tiếp cận nhiệm vụ theo phương pháp heurist thông qua thử nghiệm và lỗi thay vì thiết lập lại các bước logic cố định Hỗ trợ tìm kiếm phi cấu trúc chủ yếu dựa trên quyển truy cập

linh hoạt vào cơ sở dữ liệu

Người dùng cần có khả năng thực hiện các chức năng như truy xuất, quét bản trình bày, phân tích và so sánh trên dữ liệu để khám phá các mối quan hệ mới và kết

luận mới chưa được xác định trước đây

Các hệ thống tương tác tăng cường hiệu suất tìm kiếm phi cấu trúc bằng cách cho phép người dùng thay đổi các thông số của vấn đề và nhanh chóng thấy tác dụng của chúng Trong một số trường hợp, hỗ trợ hệ thống có thê bao gồm hệ thống thông tin phân tích và mô hình đại điện trong các trường hợp khác hỗ trợ hệ thống có thé là hệ thống ngăn kéo tệp có quyền truy cập nhanh vào cơ sở dữ liệu

s* Tìm kiếm không có cấu trúc (thông thường):

Trang 18

không xây ra với tần suất đủ để biện minh cho cơ sở đữ liệu và quét thường xuyên cho các vị trí của nhà may

Thay vào đó, quy trình thông minh được cấu trúc, nhưng nó chỉ được áp dụng

khi các chỉ số khác gol y su cần thiết của nó Hỗ trợ hệ thống cho các hệ thống thông tin phân tích có cấu trúc và các mô hình đại diện có thể được sử dụng

4* Tìm kiếm cấu trúc liên tục:

Một số lĩnh vực có vấn đề, chẳng hạn như số dư hàng tổn kho và giá sản phẩm so với đối thủ cạnh tranh, có cấu trúc tương đối và có thể được kiểm tra

thường xuyên Hệ thống báo cáo định kỳ cung cấp dữ liệu điều kiện hỗ trợ loại tìm kiếm này Các hệ thống hỗ trợ quyết định cho phép mở rộng phạm vi, số lượng và tần suất của thông tin đầu ra với việc quét tất cả các chỉ số đã biết về các vấn đề

hoặc cơ hội tiêm ân

Đầu ra có thể được sản xuất trên cơ sở định kỳ hoặc bất cứ khi nào phát hiện ra vấn đề hoặc cơ hội Hệ thống phân tích dữ liệu và hệ thống gỢI ý có thể hỗ trợ

loại tìm kiếm này Bước thứ hai trong giai đoạn này được gọi là xây dựng vấn đề

hoặc cấu trúc vấn đề, xảy ra khi nhiều thông tin được tìm kiếm để xác định vấn đề

rõ ràng hơn

Giai đoạn đầu ra quyết định này có khả năng ảnh hưởng đến hướng của tất cả các giai đoạn thành công Trong bước này, người ra quyết định hình thành một mô

hình tinh thần của vấn đẻ

Mô hình tỉnh thần phản ánh sự hiểu biết của người quản lý về cấu trúc vấn đề Cấu trúc vấn để đề cập đến các biến xảy ra trong vấn để và cách chúng tương

tác Do đó, đại diện định tính của vấn để được hình thành mạnh mẽ ảnh hưởng đến

lĩnh vực của các giải pháp có thể Nghiên cứu đã chỉ ra rằng đồ họa máy tính rất

hữu ích trong việc hỗ trợ vấn để hữu ích trong việc mô tả và truyền đạt nhận thức

Trang 19

1.2.2.2 Giai doan thiét ké

Sau giai doan tim kiếm vấn để hoặc nhận biết cơ hội, giai đoạn thiết kế bao

gồm phát minh, phát triển và phân tích các khóa hành động có thê Hỗ trợ cho giai đoạn thiết kế nên cung cấp các quy trình lặp trong việc xem xét các lựa chọn thay

thế

e - Các bước lặp sau đây là điển hình:

“ Hỗ trợ tìm hiểu vấn đề:

Một mô hình chính xác của tình huống cần được áp dụng hoặc tạo ra, và các giả định của mô hình được thử nghiệm

s* Hỗ trợ tạo giải pháp:

Việc tạo ra các khóa học hành động có thể được hỗ trợ bởi;

a Bản thân mô hình Thao tác của mô hình thường xuyên cung cấp cái nhìn sâu sắc dẫn đến việc tạo ra các ý tưởng giải pháp

b Hệ thống truy xuất cơ sở đữ liệu Các khả năng truy xuất mang lại dữ liệu hữu ích trong việc tạo ra các ý tưởng giải pháp

Trong nhiều trường hợp, mô hình thiết kế sẽ cung cấp một giải pháp được đề xuất Ví dụ, một mô hình sắp xếp lại hàng tồn kho có thể đề xuất một giải pháp cho vấn để đặt hàng bao nhiêu Số lượng này là một gợi ý có thể được sửa đổi, nhưng nó đại điện cho một giải pháp khả thi (và có lẽ là một giải pháp tối ưu dựa trên các yếu tố trong mô hình)

Thông thường Hệ hỗ trợ quyết định sẽ dẫn đắt người dùng trong chiến lược tìm kiếm hợp lý cho các giải pháp Ví dụ: quy trình tìm kiếm giải pháp có thể bắt đầu bằng một bộ câu hỏi liên quan đến các giải pháp phổ biến Những câu hỏi này

có thể được theo sau bởi một loạt các câu hỏi hỗ trợ nguoi ra quyét định xem xét tat cả các lựa chọn thay thế

Trang 20

Ưu điểm của phương pháp tiếp cận có cấu trúc là chúng hỗ trợ khám phá một cách có hệ thống không gian quyết định thông thường: nhược điểm là xu hướng triệt tiêu tìm kiếm bên ngồi khơng gian quyết định thông thường

s* Hỗ trợ kiểm tra tính khả thi của các giải pháp:

Một giải pháp được kiểm tra tính khả thi bằng cách phân tích nó theo các môi

trường mà nó ảnh hưởng đến khu vực có vấn để, toàn bộ tổ chức, đối thủ cạnh tranh và xã hội Việc phân tích có thể được thực hiện một cách thận trọng đối với các biện

pháp rộng rãi của môi trường của họ Một cách tiếp cận khác là phân tích các giải pháp được đề xuất bằng cách sử dụng các mô hình của môi trường khác nhau Những mô hình này thường sẽ liên quan đến các chương trình máy tính và cơ sở dữ

liệu Cơ sở mơ hình trong MIS tồn diện sẽ có một số mô hình như Vậy có thể được

sử dụng trong các giải pháp thử nghiệm

1.2.2.3 Giai đoạn hoạt động lựa chọn

Các nhiệm vụ chính trong giai đoạn lựa chọn là đánh giá các lựa chọn thay thế có thể và chọn một phần mềm hỗ trợ tốt nhất cho các giai đoạn thông minh và thiết kế hỗ trợ trong việc cung cấp các lựa chọn thay thế Giai đoạn lựa chọn yêu cầu áp dụng một quy trình lựa chọn và thực hiện phương án đã chọn

Một hệ thống hỗ trợ quyết định, theo định nghĩa, không đưa ra lựa chọn Tuy nhiên, các mô hình tối ưu hóa và mô hình để xuất có thể được sử dụng để xếp hạng các lựa chọn thay thế và áp dụng các quy trình lựa chọn quyết định để hỗ trợ sự lựa

chọn của người ra quyết định

Ví dụ: Quyết định mua máy từ một số lựa chọn thay thế có thể được cấu trúc theo một hoặc nhiều tiêu chí như, tỷ lệ hoàn vốn, số năm hoàn vốn, chi tiêu tiền mặt tối thiểu, ưu tiên điều hành, ưu tiên nhân viên, rủi ro tối thiểu, v.v được áp dụng bằng cách sử dụng phần mềm quyết định Sự lựa chọn sau đó được đưa ra bởi một

người ra quyết định và truyền đạt cho người có thể thực hiện kết quả

Trang 21

dan xen và lặp đi lặp lại, và chúng điễn ra trong một môi trường ra quyết định năng động Một DSS nên hỗ trợ tất cả các khía cạnh của quy trình này

1.2.3 Phương án tạo lập quyết định

Trang 22

1.3 CAC THANH PHAN CUA HE HO TRO QUYET DINH 1.3.1 Cấu trúc của Hệ hỗ trợ quyết định

Có 3 loại quyết định như sau:

Dữ liệu có cẫu trúc (structured database): Có nghĩa là cơ sở dữ liệu được định hình theo một cấu trúc xác định từ trước Chúng ta có thể hình dung như một văn bản đã được xác định tiêu để, có các dòng và cột với tiêu để xác định trước, các

thông tin chỉ tiết được lấp đầy các bảng này và không thay đổi khi cập nhật Một

hình dung khác về cơ sở đữ liệu có cấu trúc là một thư viện với các tủ hồ sơ được

đánh nhãn, trong mỗi tủ được phân ngăn rõ ràng Cơ sở đữ liệu có cấu trúc được xây dựng sẽ đễ dàng quản lý và truy cập thông tin

Dữ liệu phi cầu trúc (unstructured database): Là cơ sở dữ liệu không được xác định cấu trúc thông tin từ trước Thường là tập hợp các dữ liệu thô, hỗn tạp và

không đồng nhất Các thành phần của cơ sở dữ liệu không có đặc điểm chung Chúng ta có thể hình dung cơ sở đữ liệu này là tập hợp các thông tin, đữ liệu bao

gồm: thư điện tử, đữ liệu ảnh, video, âm thanh, các bài viết, Dữ liệu phi cầu trúc

có mặt ở khắp mọi nơi và được sản sinh ra từ các nguồn khác nhau Để quản lý, dữ liệu phi cấu trúc cần được chuyển đổi thành dữ liệu có cấu trúc qua quá trình chuẩn

hóa

Dữ liệu bán cấu trúc (semi-structured database): Thường là dữ liệu có cấu trúc nhưng không đồng nhất Cấu trúc của dữ liệu phụ thuộc vào chính nội dung của dữ liệu ấy Chúng ta có thể thấy được rằng trong thực tế đữ liệu được lưu dưới dạng

XML tự do (không kèm theo lược đỏ), với định dạng này thông tin mô tả về đối tượng thể hiện trong các thẻ Đây là cơ sở dữ liệu có nhiều ưu điểm do lưu trữ được hầu hết các loại dữ liệu khác nhau nên cơ sở dữ liệu bán cấu trúc là hướng mới

trong nghiên cứu và ứng dụng và được sử dụng thông dụng trên mạng Internet Tuy nhiên cũng cần lưu ý rằng XML cũng có thể được mô tả dữ liệu có cấu trúc bằng

Trang 23

1.3.2 Các phân hệ của Hệ hỗ trợ quyết định

Hệ hỗ trợ quyết định bao gồm các hệ con quản trị dữ liệu, hệ con quản trị mô hình, hệ con quản trị trí thức và hệ con quản trị hội thoại Dit lieu: trong Cac he thong may Internet, intranet va va ngoai tính khác extranet I I Quan lý dữ liệu Quan lý mô hình Các mơ hình ngồi Các phân hệ dựa trên kiên thức | Phần hệ giao điện người đùng ia) = Nha quan lý (người dùng) Cơ sử kien thức tô chức Hình 1.5 Các thành phần của Hệ hỗ trợ quyết định 1.4 TÔ CHỨC DỮ LIỆU

Gồm một cơ sở đữ liệu (database) chứa các dữ liệu cần thiết của tình huống và được quản lý bởi một hệ quản trị cơ sở dữ liệu (DBMS - database management system) Phân hệ này có thể được kết nối với nhà kho dữ liệu của tổ chức (data

warehouse) - là kho chứa đữ liệu của tổ chức có liên đới đến vấn để ra quyết định Cac nguén da == li€u ngoai ge a Tai chanh | | San xude | | "Tiếp thị | | TNghiên cứu | — SN le Di Hiệu cá : _ ` nhan, riéng tur Se = = Prich xudt Nha kho di Hiệu của tô chứ Co sé di Hệu hỗ eo auyee ain Quan lý giao diện Hé quan tri co so dir lidu Quan 1ý mô L = hinh Danh mục | |- Truxc&p

©) Chat wan Phan hé dua

Trang 24

1.5 MƠ HÌNH CƠ SỞ

Còn được gọi là hệ quản trị cơ sở mô hình (MBMS - model base

management system) là gói phần mềm gồm các thành phần về thống kê, tài chính, khoa học quản lý hay các phương pháp định lượng nhằm trang bị cho hệ thống năng lực phân tích; cũng có thể có các ngôn ngữ mô hình hóa ở đây Thành phần này có thê kết nối với các kho chứa mô hình của tổ chức hay bên ngoài nào khác

Các mô hình (cơ sở mô hình)

s Chiên lược, chiên thuật, vận hành

s Thống kê tài chính, tiếp thị

s Giao diện cơ sở dữ liệu

s Các khối xây dựng mô hình

Các mô hình (cơ sở mơ hình)

® Các lệnh của mô hình: tạo mới ® Bảo trì: cập nhật

s Giao diện cơ sở dữ liệu

Trang 25

1.6 XAY DUNG GIAO DIEN NGUOI DUNG

Giúp người sử đụng giao tiếp và ra lệnh cho hệ thống Các thành phần kể trên

tạo nên DSS, có thể kết nối với intranet/extranet của tổ chức hoặc kết nối trực tiếp với Internet Quản lý dữ liệu Quản lý mô và hệ quản trị Phân hệ dựa trên hình và hệ quản

cơ sở dữ liệu kiên thức trị cơ sở mô NI A a Ỷ ye Quan ly giao dién người dùng 2 Ỷ Bộ xử lý ngôn ngữ tự nhiên Nhập Xuất Các ngôn ngữ Các ngôn ngữ hành động hiên thị A Bộ xử lý ngôn ngữ tự nhiên Người dùng

Hình 1.8 Xây dựng giao diện người dùng

1.7 TIEU KET CHUONG 1

Trong phần này chúng ta đưa ra một số khái niệm về quyết định, ra quyết

định, Hệ hỗ trợ ra quyết định Nêu các bước xây dựng Hệ hỗ trợ ra quyết định và

các thành phần của nó

Trang 26

Chương 2 MƠ HÌNH LUẬT KÉT HỢP

2.1 GIGI THIEU VE KHAI PHA DU LIEU

2.1.1 Khái niệm khai phá dữ liệu

Khai phá đữ liệu (Data Mining) là một khái niệm ra đời vào cuối những năm 1980 Nó là quá trình khám phá thông tin ân được tìm thấy trong các cơ sở dữ liệu và có thê xem như là một bước trong quá trình khám phá tri thức Khai phá dữ liệu là giai đoạn quan trọng nhất trong tiến trình khai phá tri thức từ cơ sở đữ liệu, các tri

thức này hỗ trợ trong việc ra quyết định trong các lĩnh vực như: khoa học, giáo dục, kinh doanh,

Giao su Tom Mitchell đã đưa ra định nghĩa của Khai phá dữ liệu như sau: “Khai phá đữ liệu là việc sử đụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai” Tiến sĩ Fayyad đã phát biểu: “Khai phá dữ

liệu, thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một qua

trình xuất những thông tin ân, trước đây chưa biết và có khả năng hữu ích, dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở đữ liệu” Hay nói cách khác “Khai phá đữ liệu-Data Mining là tiến trình khám phá tri thức tiềm ấn trong các cơ sở dữ

liệu Cụ thể hơn, đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ân, chưa biết nhưng hữu ích từ cơ sở dữ liệu lớn”

Nói tóm lại, Khai phá dữ liệu là một quá trình học tri thức mới từ những dữ liệu đã thu thập được

Khai phá dữ liệu là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành

các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra

quyết định Khai phá dữ liệu là việc trích rút trị thức một cách tự động và hiệu quả từ một khối đữ liệu rất lớn Tri thức đó thường ở dạng các mẫu tin có tính chất

Trang 27

Đề hình dung vấn để này ta có thể sử dụng một ví dụ đơn giản như sau: Khai phá dữ liệu được ví như tìm một cây kim trong đống cỏ khô Trong ví dụ này, cây

kim là một mảnh nhỏ trị thức hoặc một thông tin có giá trị và đồng có khô là một

kho cơ sở đữ liệu rộng lớn Như vậy, những thông tin có giá trị tiềm ân trong kho cơ

sở dữ liệu sẽ được chiết xuất ra và sử dụng một cách hữu ích nhờ khai phá dữ liệu Chức năng khai phá dữ liệu gồm có gộp nhóm phân loại, dự báo, dự đoán và

phân tích các liên kết Năm 1989 Fayyad, Smyth và Piateslsky-Shapiro đã dùng khái niệm phát hiện trị thức từ cơ so dit ligu (Knowledge Discovery in Database -

KDD) Trong đó khai phá dữ liệu là một giai đoạn rất đặc biệt trong toàn bộ quá trình, nó sử dụng các kỹ thuật để tìm ra các mẫu từ dữ liệu Có thể coi khai phá dữ

liệu là cốt lỗi của quá trình phát hiện tri thức [2]

Quá trình khai phá đữ liệu sẽ tiến hành qua 6 giai đoạn như hình 2.1 Đánh giá luật Khai phá dữ liệu Chuyển đổi dữ liệu Tiền xử lý và chuẩn | bị dữ À_ “Tri thức Trích lọc dữ at M6 hinh Dir \ đã Dữ liệu đã chuyển đổi Ww liệu đích xử lý

Hình 2.1 Quá trình khai phá dữ liệu

Quá trình khai phá dữ liệu bắt đầu của quá trình là kho dữ liệu thô và kết thúc

với tri thức được chiết xuất ra Về lý thuyết thì có lẽ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăn gặp phải rất nhiều vướng mắc như: quản lý các tập dữ

liệu, phải lặp đi lặp lại toàn bộ quá trình,

1 Gom đữ liệu (Gathering): Tập hợp đữ liệu là bước đầu tiên trong quá trình

khai phá dữ liệu Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web

Trang 28

2 Trích loc dit liéu (Selection): Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó, ví dụ chọn tất cả những người có tuổi đời 25-35 và có trình độ đại học

3 Làm sạch, tiền xử lý và chuẩn bị trước đữ liệu (Cleaning, Pre-processing

and Preparation): Giai đoạn thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước rất quan trọng trong quá trình khai phá đữ liệu Một số lỗi thường mắc phải trong khi gom dữ liệu là tính không đủ chặt chữ, logic Vì vậy, đữ liệu thường chứa các giá trị vô nghĩa và không có khả năng kết nối đữ liệu Ví dụ: tuổi = 273 Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu không chặt chữ nói trên Những dữ liệu dạng này được xem như thông tin thừa, không có giá trị Bởi vậy, đây là một quá trình rất quan trọng vì đữ liệu này nếu không được “làm sạch - tiền xử lý — chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiêm trọng

4 Chuyển đổi đữ liệu (Transformation): Tiếp theo là giai đoạn chuyên đổi dữ

liệu, dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó Dữ

liệu đã được chuyển đổi phù hợp với mục đích khai thác

5 Phát hiện và trích mẫu đữ liệu (Pattern Extraction and Discovery): Đây là bước mang tính tư đuy trong khai phá dữ liệu Ở giai đoạn này nhiều thuật toán

khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu Thuật toán thường dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự,

6 Đánh giá kết quả mẫu (Evaluation of Result): Đây là giai đoạn cuối trong

quá trình khai phá dữ liệu Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi

Trang 29

2.1.2 Kiến trúc của một hệ thống khai phá dữ liệu

+ Máy chủ cơ sở dữ liệu hay máy chủ kho dữ liệu (Database or Warehouse server): Máy chủ này có trách nhiệm lấy dữ liệu thích hợp đựa trên những yêu cầu khai phá của người dùng

+ Cơ sở tri thức (Knowledge base): Đây là miền tri thức được dùng để tìm kiếm hay đánh giá độ quan trọng của các hình mẫu kết quả

+ Máy khai phá dữ liệu (Data mining engine): Một hệ thống khai phá dữ liệu

cần có một tập các modun chức năng để thực hiện công việc, chẳng hạn như đặc trưng hóa, kết hợp, phân lớp, phân cụm, phân tích sự tiến hóa,

+ Modun đánh giá mẫu (Pattern evaluation): Bộ phận này tương tác với các modun khai phá đữ liệu để tập trung vào việc đuyệt tìm các mẫu đang được quan tâm Cũng có thể modun đánh giá mẫu được tích hợp vào modun khai phá tùy theo

sự cài đặt của phương pháp khai phá được dùng

+ Giao diện đồ họa cho người dùng (Graphical user interface): Thông qua giao diện này, người đùng tương tác với hệ thống bằng cách đặc tả một yêu cầu khai

phá hay một nhiệm vụ, cung cấp thông tin trợ giúp cho việc tìm kiếm và thực hiện

khai phá thăm đò trên các kết quả khai phá trung gian ‡ t Giao diện đồ họa cho người dùng Ỷ t Danh gia mau

Máy khai phá dữ liệu

Trang 30

2.1.3 Ứng dụng của khai phá dữ liệu

Khai phá dữ liệu được vận dụng trong nhiều lĩnh vực khác nhau nhằm khai

thác nguồn đữ liệu phong phú được lưu trữ trong các hệ thống thông tin Tùy theo

bản chất của từng lĩnh vực, việc vận dụng khai phá dữ liệu có những cách tiếp cận khác nhau

Ngân hàng: Xây dựng mô hình dự báo rủi ro tín đụng Tìm kiếm tri thức, quy luật của thị trường chứng khoán và đầu tư bất động sản

Thương mại điện tử: Tìm hiểu, định hướng thúc đẩy, giao tiếp với khách

hàng Phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thị phù hợp

với nhiều loại khách hàng

Marketing: Phân tích nhu cầu khách hàng dựa trên mẫu dữ liệu mua bán hàng

từ đó xác định chiến lược kinh doanh, quảng cáo, kế hoạch sản xuất,

Khai phá dữ liệu cũng được vận dụng hiệu quả để giải quyết các bài toán phức tạp trong các ngành đòi hỏi kỹ thuật cao, như tìm kiếm mỏ đầu từ ảnh viễn thám, cảnh báo hỏng hóc trong các hệ thống sản xuất, Các kỹ thuật khai phá đữ

liệu đã được áp dụng thành công trong việc dự đoán tải sử dụng điện năng cho các

công ty cung cấp điện, lưu lượng viễn thông cho các công ty điện thoại, mức độ tiêu thụ sản phâm cho các nhà sản xuất, giá trị của sản phẩm trên thị trường cho các công ty tài chính,

Ngoài ra, khai phá dữ liệu còn được áp dụng cho các vấn đề xã hội như phân

tích các kết quả phòng chống và điều trị một số loại bệnh, phân tích tác hại của ma túy, phát hiện tội phạm hay tăng cường an ninh xã hội, Việc vận dụng thành công

đã mang lại những hiệu quả thiết thực cho các hoạt động điễn ra hàng ngày trong đời sống

2.1.4 Một số khó khăn trong khai phá dữ liệu

Trang 31

tera-byte (hang ngan giga-byte) Voi kích thước như thé, thời gian xử lý thường cực kỳ đài Mặc đù kích thước bộ nhớ trong của máy tính đã gia tăng đáng kề trong thời gian gần đây, nhưng việc gia tăng này cũng không thể đáp ứng kịp với việc tăng

kích thước dữ liệu Vì vậy, việc vận dụng các kỹ thuật xác suất, lấy mẫu, đệm, song

song, vào các giải thuật để tạo ra các phiên bản phù hợp với các yêu cầu của khai phá dữ liệu trở nên ngày càng quan trọng

+ Dữ liệu thiếu và nhiễu: Mức độ nhiễu cao trong dữ liệu điều này dẫn đến việc dự đoán thiếu chính xác

+ Van dé “qua phi hop” (Overfitting): Khi thuật toán khai phá tìm kiếm với

các tham số tốt nhất cho một mô hình đặc biệt và một giới hạn của tập dữ liệu Mô

hình đó có thể “quá phù hợp” trên tập đữ liệu đó nhưng lại thi hành không chính xác

trên tập dữ liệu kiểm tra

+ Sự thay đổi của dữ liệu và tri thức: Dữ liệu là không tĩnh, dữ liệu thay đổi

nhanh chóng có thê dẫn đến những tri thức đã khai phá trước đây trở nên không còn phù hợp thậm chí là vô giá trị

+ Đánh giá các mẫu dữ liệu tìm được: Nhiều mẫu phát hiện không thực sự

hữu ích với người sử dụng và thách thức với các hệ khai phá dữ liệu

+ Làm việc với các dữ liệu quan hệ phức tạp: Do các hệ cơ sở dữ liệu quan hệ được sử dụng rộng rãi nên vấn để làm tốt với các hệ cơ sở dữ liệu này là van dé

cần quan tâm đối với các hệ khai phá dữ liệu

+ Khai phá thông tin trong các hệ cơ sở dữ liệu hỗn hợp và hệ thống thơng tin

tồn cầu: Với sự ra đời của mạng máy tính, dữ liệu có thể được thu thập từ nhiều nguồn khác nhau với định dạng khác nhau với số lượng rất lớn Việc phát hiện tri thức từ các dạng dữ liệu hỗn hợp này là một thách thức đối với khai phá dữ liệu

Trang 32

2.2 MOT SO KY THUAT TRONG KHAI PHA DU LIEU

Các kỹ thuật khai phá dữ liệu thường được chia thành 2 nhóm chính:

+ Kỹ thuật khai phá dữ liệu mô tả: Có nhiệm vụ mô tả về các tính chất hoặc

các đặc tính chung của dữ liệu trong cơ sở đữ liệu hiện có Các kỹ thuật này gồm có: Phân cụm (clustering), tóm tắt (summarization), trực quan hóa (visualization),

phân tích sự phát triển và độ lệch (Evolution and deviation analysis), phat hién luat

két hop (association rules),

+ Kỹ thuật khai phá dữ liệu dự đoán: Có nhiệm vụ đưa ra các dự đoán dựa

vào các suy diễn trên dif liệu hiện thời Các kỹ thuật này gồm có: phân lớp (classification), hdi quy (regression),

Tuy nhiên, do khuôn khổ có hạn nên tôi chỉ giới thiệu 2 phương pháp thông

dụng nhất là: Phân lớp dữ liệu và phân cụm dữ liệu 2.2.1 Phân lớp

Phân lớp đữ liệu (classification) là chia các đối tượng dữ liệu thành các lớp

dựa trên các đặc trưng của tập dữ liệu Với một tập các dữ liệu huấn luyện cho trước và sự huấn luyện của con người, các giải thuật phân loại sẽ lọc ra bộ phân loại

(classifier) dùng để phân các đữ liệu mới vào một trong những lớp (còn gọi là loại) đã được xác định trước Phương pháp này rất có ích trong giai đoạn đầu của quá trình nghiên cứu khi ta biết rất ít về đối tượng cần nghiên cứu, nó là tiền đề đề tiến hành các phương pháp phát hiện tri thức Có nhiều phương pháp phân lớp: phân lớp dựa trên cây quyết định, phân lớp Bayesian, Quá trình phân lớp đữ liệu thường gồm hai bước:

+ Bước l: Xây dựng mô hình dựa trên việc phân tích các mẫu đữ liệu có sẵn Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là thuộc

Trang 33

+ Bước 2: Sử dụng mô hình để phân lớp đữ liệu Chúng ta phải tính độ chính

xác của mô hình, nếu độ chính xác là chấp nhận được thì mô hình sẽ được sử dụng

đê đự đoán lớp cho các mẫu dữ liệu khác trong tương lai 2.2.2 Phần cụm

Phân cụm (clustering) là việc nhóm các đối tượng dữ liệu thành các lớp đối tượng có sự tương tự nhau dựa trên các thuộc tính của chúng Mỗi lớp đối tượng được gọi là một cụm (cluster) Một cụm bao gồm các đối tượng mà giữa bản thân chúng có sự ràng buộc lẫn nhau và có sự khác biệt so với các lớp đối tượng khác Phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu đữ liệu huấn luyện

Vì thế, có thể coi phân cụm đữ liệu là một cách học bằng quan sát (learning by observation), trong khi phân lớp dữ liệu là học qua ví du (learning by example) Trong phương pháp này ta không thê biết kết quả các cụm thu được sẽ như thế nào khi bắt đầu quá trình Các cụm có thê tách riêng hay phân cấp hoặc gối lên nhau, có

nghĩa là một mục dữ liệu có thể vừa thuộc cụm này vừa thuộc cụm kia Vì vậy,

thông thường cần có một chuyên gia về lĩnh vực đó dé đánh giá các cụm thu được

Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân loại thị trường, phân loại khách hàng, nhận dạng mẫu, phân loại trang Web, Ngoài ra, phân cụm còn được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác

2.3 LUẬT KÉT HỢP

Từ khi nó được giới thiệu từ năm 1993, bài toán khai thác luật kết hợp nhận

được rất nhiều sự quan tâm của nhiều nhà khoa học Ngày nay việc khai thác các luật như thế vẫn là một trong những phương pháp khai thác mẫu phổ biến nhất trong việc khám phá tri thức và khai phá dữ liệu (KDD: Knowledge Discovery and Data Mining)

Một cách ngắn gọn, một luật kết hợp là một biểu thức có dang: X=> Y, trong

đó X và Y là tập các trường gọi là em Ý nghĩa của các luật kết hợp khá đễ nhận thấy: Cho trước một cơ sở dữ liệu D là tập các giao tác - trong đó mỗi giao tác 7' e

Trang 34

D là tap cac item - khi do Y=> Y dién dat y nghĩa rằng bất cứ khi nào giao tác T có

chứa X thì chắc chắn 7 có chứa Y Độ tin cậy của luật (rule confidence) có thể được hiểu như xác suất điều kiện pd cT /XcT).Y tưởng của việc khai thác các luật

kết hợp có nguồn gốc từ việc phân tích dữ liệu mua hàng của khách và nhận ra rằng “Một khách hàng mua mặt hàng x1 và x2 thì sẽ mua mặt hàng y với xác suất là c%” Ứng dụng trực tiếp của các luật này trong các bài toán kinh doanh cùng với tính dễ hiểu vốn có của chúng - ngay cả đối với những người không phải là chuyên gia khai

thác dữ liệu - làm cho luật kết hợp trở thành một phương pháp khai thác phổ biến

Hơn nữa, luật kết hợp không chỉ bị giới hạn trong phân tích sự phụ thuộc lẫn nhau

trong phạm vi các ứng dụng bán lẻ mà chúng còn được áp dụng thành công trong

rất nhiều bài toán kinh doanh

Việc phát hiện luật kết hợp giữa các mục (item) trên dữ liệu “giỏ” là bài toán rất đặc trưng của khai phá dữ liệu Dữ liệu giỏ là dữ liệu bao gồm các mục được

mua bởi khách hàng với các thông tin như ngày mua hàng, số lượng, giá cả, Luật

kết hợp chỉ ra tập các mục mà thường được mua nhất với cùng các tập mục khác Hiện nay, có nhiều thuật toán dùng cho việc phát hiện luật kết hợp Tuy

nhiên, vấn để nảy sinh là số lần quét (duyệt) cơ sở dữ liệu quá nhiều sẽ ảnh hưởng

rất lớn đến hiệu quả và tính khả thi của thuật toán trên các cơ sở dữ liệu lớn Đối với các cơ sở dữ liệu được lưu trên đĩa, phép duyệt cơ sở dữ liệu sẽ gây ra số lần đọc

đĩa rất lớn Chẳng hạn một cơ sở dữ liệu kích thước 1GB sẽ đòi hỏi khoảng 125.000 lần đọc khối cho mỗi lần duyệt (với kích thước khối là 8KB) Nếu thuật toán có 10

lần duyệt thì sẽ gây ra 1.250.000 lần đọc khối Giả thiết thời gian đọc trung bình là

l2ms một trang, thời gian cần thiết để thực hiện một thao tác I/O này là

1250000*12ms hay sắp sỉ 4 tiếng đồng hồ

2.3.1 Định nghĩa luật kết hợp

Trang 35

Một giao dich (transaction) 7 được định nghĩa như một tập con (subset) của các khoản mục trong 7 (7 <7) Tương tự như khái niệm tập hợp, các giao dịch

không được trùng lặp, nhưng có thê nới rộng tính chất này của tập hợp và trong các thuật toán sau này, người ta đều giả thiết rằng các khoản mục trong một giao dịch và trong tất cả các tập mục (#emsef) khác, có thể coi chúng đã được sắp xếp theo

thứ tự từ điển của các /em

Gọi Ð là cơ sở dữ liệu của n giao dich và mỗi giao dịch được đánh nhãn với

một định đanh duy nhất (Unique Transaction IDentifier-TID) Nói rằng, một giao

dịch 7 e D hỗ trợ (support) cho mot tập X c7 nếu nó chứa tất ca cdc item cha X,

nghia la_Y CT, trong mét sé trường hợp người ta ding ky hiéu T(X) dé chỉ tập các giao dịch hỗ trợ cho X Ki hiéu support(X) (hodc supp(X), sŒX)) là tỷ lệ phần trăm của các giao dịch hỗ trợ X trên tổng các giao dịch trong D, nghĩa là:

|TeD|X cT|

Supp(X) = Dị % (2.1)

Ví dụ về cơ sở dữ liệu (dạng giao dịch) : I= {A, B, C, D, E}, T = £1, 2, 3,

4, 5, 6} Thông tin về các giao dịch cho ở bảng sau:

Trang 36

Ta co:

supp( {A }) = 4/6 (%)= 66.67%; supP((ABDE)) = 3/6 =50%;

supp({ABCDE}) = 1/6 = 16.67%;

Tap phé bién (frequent itemset):

Support téi thiêu minsup €( 0, 1] (Minimum Support) la mot giá trị cho trước bởi người sử dụng Nếu tập mục Ý Œ7 có suppCÄ)G minsup thì ta nói X là một tập phé bién-frequent itemset (hoac large ifemset) Một ƒrequent itemset được sử dụng như một tập đáng quan tâm trong các thuật toán Ngược lại, những tập không phải requenf itemsef là những tập không đáng quan tâm Trong các trình bày sau nay, ta sẽ sử dụng những cụm từ khác như “X có suppor tối thiêu”, hay “X không có support toi thiểu” cũng dé nói lên rằng X thỏa mãn hay không thỏa mãn spporf(X)

Cc minsupp

Ví dụ: Với cơ sở dữ liệu D cho ở bảng 2.1, va gia tri nguéng minsupp = 50% sé liét ké tat ca cac tap phé bién (frequent-itemsef) nhw sau:

Bang 2.2 Cac tập phô biến trong CSDL ở bảng 2.1 với minsup 50% Các tập mục phố biến Độ hỗ trợ (supp) tương ứng B 100% (6/6) E, BE 83% (5/6) A, C, D, AB, AE, BC, BD, ABE 67% (4/6) AD, CE, DE, ABD, ADE, BCE, BDE 50% (3/6)

Một số tinh chất (TC) liên quan đến cdc frequent itemset:

Trang 37

TC2 Néu mét item A khong c6 support téi thiéu trén D nghia là support(A) < minsupp thi một superset B cua A sẽ không phải là một frequent vi support(B) < support(A) < minsup

TC3 Néu item B la frequent trén D, nghia la support(B) > minsup thi moi subset A cua B la frequent trén D vi support(A) > support(B) > minsup

Định nghĩa luật kết hợp:

Một luật kết hợp có dạng R: X —Y, trong đó X, Y la cac itemset, X, YoI va X AY = 6 X được gọi là tiên để và Y được gọi là hệ quả của luật

Luật X —Y tổn tại một độ hỗ trợ support - supp Supp(X =Y) duoc dinh

nghĩa là khả năng mà tập giao dịch hỗ trợ cho các thuộc tính có trong cả X lẫn Y, nghĩa là:

Support(XY) = support(XUY)

Luật X = Y tổn tại một độ tin cay c (confidence - conf) Conf ¢ duoc định

nghĩa là khả năng giao dịch 7 hỗ trợ X thì cũng hỗ trợ Y Nói cách khác c biểu thị số phân trăm giao địch có chứa luôn 44 trong số những giao địch có chứa X

Ta có công thức tính confc nhu sau:

pỮ CTAXCT)_ supp(X (2T) confX = Y) = p(Y cTỊX c7)=

)~sŒ cTi pŒ c7) sup p(X) % (2.2)

Ta noi rang, luat_Y =Y la thoa trén D néu véi mét support téi thiểu minsup và một ngưỡng eoƒfiđence tối thiéu minconf cho trước nào đó mà:

Support(X > Y) = minsup va confidence(X > Y) = minconf

Chú ý rằng, nếu luật X = Y ma thoa trén D thi ca Y va Y déu phai 1a cdc

frequent Itemset trén D va khi xét một luật có thoả hay không, thi ca support va confidence của nó đều phải quan tâm, vì một luật cé thé cé confidence = 100% > minconƒ nhưng có thê là nó không đạt suppor† tôi thiéu minsup

Trang 38

2.3.2 Một số tính chất của luật kết hợp

Trước hết ta phải giả sử rằng với luật X = Y, X có thể là rỗng, còn Y phải luôn khác rỗng và X # Y vì nếu không thì:

support(XUY) _ 1

confidence(X => Y)=

support(X) (2.3)

Ta có các tinh chất sau:

1) Nếu X =Z và Y = Z là thoả trên D, thì không nhất thiết là X cz Y— Z

Trường hợp X 2 Y = Øvà các giao dịch trên 7 hỗ trợ Z nếu và chỉ nếu

chúng hỗ trợ X hoặc hỗ trợ Y Khi đó, support(X UY) =0 va cofidence(X UY) = 0

Tương tự ta cũng có: Nếu Y = Y và X > Z khong thé suy ra YYZ

2) Nếu luật XL# =Z là thoả trên D thì Y—Z và Y=Z có thể không thoả trên

Chẳng hạn, khi Z là có mặt trong một giao dịch chỉ nếu cả X và Y đều có mặt

trong giao dịch đó, nghĩa 1a support(XUY)=support(Z) Néu support cho X và Y lớn hon support(XUY), thi 2 luat trén sé khéng cé confidence yéu cau Tuy nhién, néu XY=YUZ là thoả trên D thì có thể suy ra Y= và X=Z cũng thoả trên D Vi

support(XY) = support(XYZ) và support(XZ) = support(XYZ)

3) Nếu X= Y va Y=9Z la thoa trén D thi khong thé khang dinh ring YZ

cũng giữ được trên D

Gia sử T(X)CT(Y)CT(Z) va confidence(X=>Y) = confidence(Y>Z) = minconf Khi đó ta có confidence(X=Z) = minconf’ < minconf vi minconf <1, nghia la ludt YZ khéng c6 cofidence tôi thiêu

4) Nếu luật 4— (1-44) không có confidence tối thiêu thì cũng không có luật nào trong các luật З (1-B) có confidenee tối thiêu trong dé L-A, B là các ifemsef

Trang 39

That vay, theo tinh chat TC1, vi BCA Nén support(B) > support(A) và theo định nghĩa của confidence, ta có :

support(L) < SUP port(L)

Confidence(B => (L-B))= <

support(B) sup port(A) < min conf (2.4)

Cũng vậy, nếu luật (L-C) =C là thoả trên D, thì các luật (L-K) =K voi KCC

va K#2 ciing thoa trén D

Bài toán khai phá luật kết hop:

Có thể diễn đạt một bài toán khai phá luật kết hợp như sau:

Cho một tập các 7e 1, một cơ sở dữ liệu giao dich D, nguéng support tối

thiéu minsup, nguéng confidence t6i thiéu minconf, tìm tất cả các luật kết hợp X—Y trên D sao cho: swpporf(X>Y)>minsup và confidence(ŒX=>Y) >minconƒ

2.3.3 Phân loại luật kết hợp

Tuy theo ngữ cảnh các thuộc tính dữ liệu cũng như phương pháp trong các thuật toán mà người ta có thê phân bài toán khai phá luật kết hợp ra nhiều nhóm

khác nhau Chẳng hạn, nếu giá trị của các item chỉ là các giá trị theo kiểu boolean

thì người ta gọi là khai phá luật kết hợp boolean (Mining Boolean Association

Rules), còn nếu các thuộc tính có tính đến khoảng giá trị của nó (như thuộc tính

phân loại hay thuộc tính số lượng chẳng hạn) thì người ta gọi nó là khai phá luật kết

hợp định lượng (Mining Quantitative Association Rules) Ta sé xem xét cu thể các nhóm đó

Lĩnh vực khai thác luật kết hợp cho đến nay đã được nghiên cứu và phát triển

theo nhiều hướng khác nhau Có những để xuất nhằm cải tiến tốc độ thuật toán, có

những đề xuất nhằm tìm kiếm luật có ý nghĩa hơn, v.v và có một số hướng chính sau đây

Luật kết hop nhi phan (binary association rule hodc boolean association

rule): là hướng nghiên cứu đầu tiên của luật kết hợp Hầu hết các nghiên cứu ở thời kỳ đầu về luật kết hợp đều liên quan đến luật kết hợp nhị phân Trong dạng luật kết

Trang 40

hợp này, các mục (thuộc tính) chỉ được quan tâm là có hay không xuất hiện trong giao tác của cơ sở đữ liệu chứ không quan tâm về “mức độ” xuất hiện Có nghĩa là

việc gọi 10 cuộc điện thoại và | cuộc được xem là giống nhau Thuật toán tiêu biểu

nhất khai phá đạng luật này là thuật toán Apriori và các biến thể của nó Đây là dạng luật đơn giản và các luật khác cũng có thể chuyển về dạng luật này nhờ một số

phương pháp như rời rạc hoá, mờ hoá, v.v Một ví dụ về dang luật này : “gọi liên

tinh= ‘yes’ AND goi di déng= ‘yes’ goi quéc té= ‘yes’ AND goi dich vu 108 =

‘yes’, voi d6 hỗ trợ 20% và độ tin cậy 80%”

Luật kết hợp có thuộc tính số và thuéc tinh hang muc (quantitative and

categorial association rule):

Các thuộc tính của các cơ sở dữ liệu thực tế có kiểu rất đa đạng (nhị phân - binary, SỐ - quantitative, hang mục - categorial, v.v)

Đề phát hiện luật kết hợp với các thuộc tính này, các nhà nghiên cứu đã đề

xuất một số phương pháp rời rạc hoá nhằm chuyển dạng luật này về dạng nhị phân để có thể áp dụng các thuật toán đã có Một ví dụ về dạng luật này “phương thức gọi = “Tự động' AND giờ gọi? '23:00:39 23:00:59° AND Thời gian đàm thoại? *200 300” gọi liên tỉnh = “có”, với độ hỗ trợ là 23 53% , và độ tin cậy là 809%%”,

Luật kết hợp tiếp cận theo hướng tập thô (mining association rules base on rough set): Tim kiếm luật kết hợp dựa trên lý thuyết tập thô

Luật kết hợp nhiều mức (multi-level association rule):

Với cách tiếp cận theo luật này sẽ tìm kiếm thêm những luật có dạng “mua máy tính PC => mua hệ điều hành AND mua phần mềm tiện ích văn phòng, .” thay vì chỉ những luật quá cụ thể như “mua máy tính IBM PC => mua hệ điều hành Microsoft Windows AND mua phan mém tién ich van phong Microsoft Office, .” Như vậy dạng luật đầu là dạng luật tổng quát hoá của dạng luật sau và tổng quát

theo nhiều mức khác nhau

Ngày đăng: 11/01/2024, 22:49

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN