.2 Trình tự xử lý trong ứng dụng thử nghiệm

Một phần của tài liệu (LUẬN văn THẠC sĩ) áp dụng luật kết hợp trong khai phá dữ liệu cho dữ liệu ngân hàng đầu tư và phát triển việt nam luận văn ths công nghệ thông tin 1 01 10 (Trang 73)

Dưới đây là cấu trúc của file sau khi đã trích chọn các thuộc tính thích hợp từ file dữ liệu liên quan.

TRƢỜNG MÔ TẢ ĐỘ LỚN GHI CHÚ

ACTYPE Kiểu tài khoản 1A Kiểu tài khoản tiền gửi: „S‟ = Tiết kiệm

„D‟ = Tiền gửi thông thường DDCTYP Kiểu tiền tệ 4A „VND‟: Tiền nội tệ

„USD‟: Tiền USD „EUR‟: Tiền EUR

CLASS Lớp khách hàng 1A „A‟: DNNN TRUNG UONG „B‟: DNNN DIA PHUONG „C‟: CTY CO PHAN NHA NUOC „D‟: CTY CO PHAN KHAC „E‟: CTY TNHH TU NHAN „F‟: DOANH NGHIEP TU NHAN „G‟: DN CO VDT NUOC NGOAI „H‟: KINH TE TAP THE „I‟: KINH TE CA THE „L‟: NH NUOC NGOAI TAI VN „M‟: TC T.CHINH O N.NGOAI „N‟: DN LIEN DOANH VOI NN „O‟: THANH PHAN KHAC „Q‟: CTY N.NGOAI TAI VN „R‟: NH CO PHAN VIET NAM „S‟: TC TAI CHINH VIETNAM „W‟: CTY TNHH NHA NUOC DDMONTH Thời điểm khách hàng

gửi tiền (theo tháng)

7,0 1.. 12 DDAMT Số tiền khách hàng gửi 17,2

RATE Lãi suất tính theo năm 11,9

CSDL giao dịch CSDL được làm sạch CSDL mờ Khai phá dữ liệu Các luật kết hợp mờ

Sau khi tham khảo ý kiến của các chuyên gia trong lĩnh vực tài chính ngân hàng và nghiên cứu phân tích kỹ dữ liệu của hệ thống, tôi xin đề xuất phương pháp rời rạc hoá dữ liệu và các hàm thuộc được sử dụng để mờ hoá các thuộc tính:

TRƢỜNG HÀM THUỘC GHI CHÚ ACTYPE + Trường F_1 0 nếu ACTYPE=‟D‟ F= 1 nếu ACTYPE=‟S‟ Tên trường: F_1

Kiểu tài khoản tiền gửi: „S‟ = Tiết kiệm

„D‟ = Tiền gửi thông thường

DDMONTH + Trường F_2 (Quý 1) 1 nếu 1 <=X =< 3 F= 0 ngược lại + Trường F_3 (Quý 2) 1 nếu 4 <=X =< 6 F= 0 ngược lại + Trường F_4 (Quý 3) 1 nếu 7 <=X =< 9 F= 0 ngược lại + Trường F_5 (Quý 4) 1 nếu 10 <=X =< 12 F= 0 ngược lại

Do đặc thù hoạt động kinh doanh thường gằn liền với dữ liệu khoảng thời gian, thông thường là hàng quý nên giá trị DDMONTH ở đây được rời rạc hoá thành 4 thuộc tính là F_2, F_3, F_4, F_5 tương ứng với quý 1, quý 2, quý 3, quý 4 của năm dữ liệu

DDCTYP

+ Trường F_6 (Tiền nội tệ)

1 nếu DDCTYP=‟VND‟ F=

0 ngược lại + Trường F_7 (Tiền USD)

1 nếu DDCTYP=‟USD‟ F=

0 ngược lại + Trường F_8 (Tiền EUR)

1 nếu DDCTYP=‟EUR‟ F=

0 ngược lại

BIDV hiện nay nhận tiền gửi của các cá nhân và tổ chức với 3 loại tiền tệ là VND, USD ,EUR vì vậy thuộc tính này sẽ được rời rạc hoá thành 3 thuộc tính F_6,F_7,F_8 tương ứng.

TRƢỜNG HÀM THUỘC GHI CHÚ

1 nếu CLASS=‟A‟ F=

0 ngược lại

+ Trường F_10 ( Doanh nghiệp nhà nước tại địa phương)

1 nếu CLASS=‟B‟ F=

0 ngược lại

+ Trường F_11 ( Công ty Cổ phần của nhà nước) 1 nếu CLASS=‟C‟ F= 0 ngược lại + Trường F_12 ( Công ty cổ phần khác) 1 nếu CLASS=‟D‟ F= 0 ngược lại

+ Trường F_13 ( Công ty trách nhiệm hữu hạn tư nhân)

1 nếu CLASS=‟E‟ F=

0 ngược lại

+ Trường F_14 (Doanh nghiệp tư nhân) 1 nếu CLASS=‟F‟ F=

0 ngược lại

+ Trường F_15 ( Doanh nghiệp có vốn đầu tư nước ngoài)

1 nếu CLASS=‟G‟ F= 0 ngược lại + Trường F_16( Kinh tế tập thể) 1 nếu CLASS=‟H‟ F= 0 ngược lại + Trường F_17 ( Kinh tế cá thể) 1 nếu CLASS=‟I‟ F= 0 ngược lại 17 thành phần khách nhau, số lượng thành phần cũng không quá nhiều nên ta rời rạc hoá thành 17 thuộc tính khác nhau tương ứng từ F_9 đến F_25

TRƢỜNG HÀM THUỘC GHI CHÚ

+ Trường F_18 ( Ngân hàng nước ngoài tại Việt Nam)

1 nếu CLASS=‟L‟ F=

0 ngược lại

+ Trường F_19( Tổ chức tài chính ở nước ngoài)

1 nếu CLASS=‟M‟ F=

0 ngược lại

+ Trường F_20 ( Doanh nghiệp liên doanh với nước ngoài)

1 nếu CLASS=‟N‟ F= 0 ngược lại + Trường F_21 ( thành phần khác) 1 nếu CLASS=‟O‟ F= 0 ngược lại

+ Trường F_22 ( Công ty nước ngoài tại Việt Nam)

1 nếu CLASS=‟Q‟ F=

0 ngược lại

+ Trường F_23 ( Ngân hàng cổ phần Việt Nam)

1 nếu CLASS=‟R‟ F=

0 ngược lại

+ Trường F_24 ( Tổ chức tài chính Việt Nam)

1 nếu CLASS=‟S‟ F=

0 ngược lại

+ Trường F_25 ( công ty trách nhiệm hữu hạn nhà nước)

1 nếu CLASS=‟W‟ F=

TRƢỜNG HÀM THUỘC GHI CHÚ DDAMT (đơn vị: triệu) + F_26 (KH_THUONG) 1 nếu X < 10 F = (X-10)/(50-10) nếu 10<=X<=50 0 nếu X>50 + F_27 (KH_TIEMNANG) 0 nếu X <40 (X-40)/(60-40) nếu 40<=X<60 F = 1 nếu 60<=X<80 (X-80)/(100-80) nếu 80<=X<=100 0 nếu X>100 + F_28(KH_VIP) 0 nếu X < 90 F = (X-90)/(150-90) nếu 90<=X<150 1 nếu X>=150

Ta rời rạc hoá số liệu tiền gửi thành 3 thuộc tính mờ là KH_THUONG, KH_TIEMNANG, KH_VIP với các hàm thuộc F tương ứng và trường trong cơ sở dữ liệu mờ là F_26,F_27,F_28

+ Dữ liệu giao dịch tiền gửi của BIDV ban đầu được trích chọn từ CSDL:

+ Dữ liệu giao dịch tiền gửi của BIDV sau khi đã được rời rạc và mờ hoá sẽ có dạng như sau:

4.3. Chƣơng trình thử nghiệm

4.3.1 Các giao diện chương trình

+ Giao diện chính của chương trình

Hình 4.5 Màn hình giao diện chính của chƣơng trình

(1)Độ hỗ trợ của tập mục

(2)Menu chính của chương trình (3)Độ tin cậy của luật

(4)Bảng thông tin chi tiết các tập mục thoả mãn

(5)Bảng thông tin chi tiết các tập kết hợp khai phá được (6)Lựa chọn ghi nhật ký kết quả ra tệp tin nhật ký (7)Bảng tổng kết về kết quả khai phá

(8)Thực hiện chương trình (9)Thoát khỏi chương trình

1 3 4 5 9 6 7 8 2

+ Giao diện hiển thị dữ liệu gốc

Hình 4.6 Màn hình giao diện hiển thị dữ liệu gốc

+ Giao diện hiển thị dữ liệu sau khi được rời rạc và mờ hoá:

Hình 4.7 Màn hình giao diện hiển thị dữ liệu sau khi đƣợc rời rạc và mờ hoá

4.3.2 Kết quả thử nghiệm

Dữ liệu thử nghiệm là CSDL chứa thông tin giao dịch tiền gửi trong năm 2005 của BIDV. Thuật toán khai phá luật kết hợp mờ được thử nghiệm và đánh giá theo nhiều tiêu chí khác nhau như thời gian thực hiện, số lượng tập mục phổ biến và số lượng luật tin cậy, ảnh hưởng của các giá trị ngưỡng fminsupp và fminconf, ảnh hưởng của kích thước CSDL,v.v.

+ Thử nghiệm: đo thời gian xử lý khi biến đổi giá trị fminsupp với các thông số khác như kích thước của CSDL được giữ cố định, fminconf. Lúc này ta thấy thời gian tìm kiếm phụ thuộc hoàn toàn vào ngưỡng fminsupp:

Hình 4.8 Sự phụ thuộc của thời gian xử lý vào fminsupp

Giá trị fminsupp(%) 5 10 20 30 40 50 60 70 80 90

Thời gian xử lý (giây) 5.48 4.73 4.58 4.28 3.39 3.33 3.19 3.17 3.02 2.07

Ta nhận thấy khi fminsupp càng bé thì số lượng tập phổ biến tìm được càng lớn. Do đó thời gian thực hiện các hàm join, prune, checking trong thuật toán càng nhiều. Kết quả là thời gian xử lý tăng theo hàm mũ khi giảm dần giá trị ngưỡng độ tin cậy của tập mục fminsupp.

+Thử nghiệm: Đo số lượng tập phổ biến và số lượng luật tin cậy khi biến đổi ngưỡng fminsupp và cố định các thông số khác (kích thước CSDL, fminconf, v.v). Ta nhận thấy số lượng luật tin cậy phụ thuộc hoàn toàn vào sự thay đổi của giá trị ngưỡng fminsupp. Lý do là khi fminsupp giảm số lượng tập mục phổ biến tăng lên, do fminconf cố định nên số lượng luật tin cậy cũng tăng theo và ngược lại. Kết quả này được thể hiện rõ trong đồ thị và bảng dưới đây:

Hình 4.9 Sự phụ thuộc của số lƣợng tập phổ biến và luật tin cậy vào giá trị fminsupp

Giá trị fminsupp 5 10 20 30 40 50 60 70 80 90

Số lƣợng tập phổ biến 34 30 23 15 10 10 10 10 8 4

Số lƣợng luật tin cậy 31 28 22 16 12 12 12 12 5 2

+Thử nghiệm: đo số lượng luật tin cậy khi thay đổi độ tin cậy tối thiểu fminconf của luật trong trường hợp cố định các thông số khác của hệ thống (kích thước CSDL, fminsupp). Ta nhận thấy số lượng luật tin cậy tăng mạnh khi giảm dần fminconf.

Giá trị fminconf(%) 10 20 30 40 50 60 70 80 90

Số lƣợng luật tin cậy 32 32 26 24 22 22 22 22 21

+ Thử nghiệm: thời gian xử lý thay đổi theo kích thước của dữ liệu (số lượng bản ghi giao dịch):

Hình 4. 11 Sự thay đổi kích thƣớc CSDL tác động tới thời gian thực hiện khai phá

Số lƣợng bản ghi 572 1354 4436 6532 11641 15793 9056 56893

Thời gian xử lý (giây) 5 6 9 12 18 20 13 43

+ Thử nghiệm: Số lượng tập phổ biến và luật tin cậy biến đổi theo giá trị ngưỡng gắn với tập mờ ( lưu ý :giá trị tập mờ trong các thử nghiệm ở trên ta chọn là 0.5)

Từ biểu đồ trên ta nhận thấy: số lượng tập phổ biến và số lượng luật kết hợp tin cậy giảm dần khi tăng giá trị ngưỡng gắn với tập mờ. Giá trị ngưỡng do người dùng quyết định, tuỳ theo mục đích khác nhau mà sử dụng giá trị ngưỡng sao cho phù hợp. Chẳng hạn nếu người sử dụng muốn thu được những tập phổ biến và luật hẹp thì phải tăng giá trị ngưỡng.v.v.

KẾT LUẬN

Những vấn đề đã đƣợc giải quyết trong luận văn

Dựa trên những đề xuất đã có trong lĩnh vực nghiên cứu về KPDL, bản luận văn là một sự tổng hợp những nét chính trong trong khai phá dữ liệu nói chung và luật kết hợp nói riêng. Sau đây là những nội dung chính đã được trình bày trong luận văn:

Chương một, luận văn đã trình bày một cách tổng quan về KPDL và phát hiện tri thức(KDD) .Cụ thể là định nghĩa về KPDL và KDD, nhiệm vụ của KPDL là gì, các dạng dữ liệu có thể thực hiện được việc khai phá, rồi tiếp đến là kiến trúc của hệ thống khai phá dữ liệu ra sao, cũng như các hướng tiếp cận trong lĩnh vực này và các ứng dụng thực tiễn của chúng.

Chương hai tập trung đi sâu vào một hướng quan trọng trong KPDL, đó là luật kết hợp. Trong chương này, chúng ta cùng tìm hiểu một số định nghĩa về luật và luật kết hợp, các tính chất và đặc trưng cơ bản của luật kết hợp, những hướng tiếp cận chính đang được sử dụng có thể áp dụng kỹ thuật này. Một trong những yếu tố quan trọng để phát hiện được các tri thức luật kết hợp chính là việc xác định độ hỗ trợ và độ tin cậy của các tập mục sao cho phù hợp, nó đóng vai trò quyết định trong việc có tìm được tri thức hay không.

Với những vấn đề lý thuyết được trình bày ở hai chương đầu, chương ba tập trung trình bày các thuật toán phổ biến thường được áp dụng trong kỹ thuật khai phá dữ liệu bằng luật kết hợp. Chương này đi sâu vào các thuật toán, từ thuật toán đơn giản ban đầu đến các thuật toán cải tiến làm tăng tính hiệu quả của quá trình khai phá. Đây là cơ sở quan trong giúp cho việc cài đặt trên máy tính có thành công hay không.

Dựa trên nội dung của ba chương trước, chương bốn sẽ trình bày một ứng dụng thử nghiệm sử dụng phương pháp khai phá luật kết hợp mờ-với thuật toán Apriori áp dụng trong lĩnh vực ngân hàng, cụ thể là phát hiện các tri thức dưới dạng luật kết hợp dựa trên CSDL giao dịch tiền gửi của BIDV. Bên cạnh đó, chương này cũng đề cập đến các đề xuất để đưa chương trình vào thực tế một cách sao cho có hiệu quả.

Trong quá trình thực hiện luận văn, tôi đã cố gắng tập trung nghiên cứu và tham khảo khá nhiều tài liệu. Tuy nhiên, do thời gian và trình độ có hạn nên không

tránh khỏi những thiếu sót nhất định. Tôi mong muốn nhận được những chỉ bảo của thầy cô giáo và các bạn để tôi có thể hoàn thiện hơn cho hướng nghiên cứu tiếp theo.

Hƣớng nghiên cứu trong tƣơng lai

Khai phá dữ liệu bằng phương pháp luật kết hợp là kỹ thuật được khá nhiều người quan tâm bởi nó được ứng dụng rộng rãi trong nhiều lĩnh vực và chứa đựng nhiều hướng nghiên cứu mở khác nhau. Trong thời gian tôi sẽ mở rộng nghiên cứu của mình sâu hơn ra một số hướng khác nhau như:

- Khai phá luật kết hợp mờ với thuộc tính được đánh trọng số - Khai phá luật kết hợp trừu tượng, đa mức

TÀI LIỆU THAM KHẢO

+ Tài liệu tiếng Việt

[2] Đào Hữu Hồ(2001), Xác suất thống kê, NXB Giáo dục.

[3] Đinh Mạnh Tường(2003), Trí tuệ nhân tạo, NXB Đại học Quốc gia Hà Nội.

[4] Đỗ Trung Tuấn(1999), Hệ chuyên gia, NXB Giáo dục.

[5] Jeffrey D.Ullman(2000), Nguyên lý các hệ Cơ sở dữ liệu và cơ sở trí thức, NXB Thống kê.

[6] Lê Tiến Vương(1996), Nhập môn cơ sở dữ liệu quan hệ, NXB Khoa học kỹ thuật .

[7] Phan Đình Diệu(1999), Lôgic trong các hệ tri thức, NXB Đại học Quốc gia Hà Nội.

[8] Vũ Đức Thi(1997), Cơ sở dữ liệu- Kiến thức và thực hành, NXB Thống kê.

+ Tài liệu tiếng Anh

[9] Alan Rea(1995), Data Mining – An introduction, The Parallel Computer Centre, The Queen‟s University of Belfast.

[10] J.Han and Y.Fu(1999) Discovery of Multiple- Level Association Rules from Large Databases, IEEE Transactions on Knowledge and Data Engineering .

[11] Mayer.D(1983), The theory of Relational Database, Computer Science Press.Inc.

[12] Michael J.Corey and Michael Abbey and Ian Abrasmon and Ben Taub(2000),Oracle Data Warehousing, Oracle Press.

[13]. Tamraparni Dasu and Theodor Johnson. Exploratory Data Mining and Data Clearing. John Wiley & Sons, 2003.

[14]. Daniel T. Larose. An Introduction to Data Mining. John Wiley & Sons, 2005.

[15]. Michael J. A. Berry and Gordon S. Linoff. Data Mining Techniques for Marketing, Sales and Customer Relationship Management. Wiley Publishing, 2004.

[16]. Dorian Pyle. Bussiness Modeling and Data Mining. Morgan Kaufmann Publishers, 2003.

[17]. Mehmed Kantardzic. Data Mining: Concepts, Models, Methods and Algorithms. John Wiley & Sons, 2003

[18]. Namid R. Nemati and Christopher D. Barko. Organizational Data Mining: Leveraging Enterprise for Optimal Performance. Idea Group Publishing, 2004.

[19]. Jiawei Han and Micheline Kamber. Data Mining, Concepts and Techniques. University of Illinois, Morgan Kaufmann Publishers, 2002 [20] http://www.data-mine.com [21] http://www.mines.edu [22] http://www.cit.gu.edu.au [23] http://wwwcn2.vnuit.edu.vn [24] http://www.resource.vnuit.edu.vn [25] http://www.redbooks.ibm.com [26]http://en.wikipedia.org/wiki/Data_mining ...

Một phần của tài liệu (LUẬN văn THẠC sĩ) áp dụng luật kết hợp trong khai phá dữ liệu cho dữ liệu ngân hàng đầu tư và phát triển việt nam luận văn ths công nghệ thông tin 1 01 10 (Trang 73)

Tải bản đầy đủ (PDF)

(88 trang)