Ứng dụng lý thuyết tập thô trong khai phá dữ liệu kinh tế tài chính

90 27 0
Ứng dụng lý thuyết tập thô trong khai phá dữ liệu kinh tế tài chính

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ————————— NGUYỄN VIỆT HÀ ỨNG DỤNG LÝ THUYẾT TẬP THÔ TRONG KHAI PHÁ DỮ LIỆU KINH TẾ – TÀI CHÍNH LUẬN VĂN THẠC SĨ Ngành: Công nghệ thông tin Mã số: 1.01.10 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS Hồ Thuần HÀ NỘI - 2007 MỤC LỤC MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG PHÁT HIỆN TRI THỨC 1.1 Tổng quan khai phá liệu phát tri thức 1.2 Một số khái niệm 15 1.3 Một số vấn đề KDD kinh tế - tài 25 1.4 Tổng kết chương 34 CHƢƠNG PHÁT HIỆN TRI THỨC VÀ ỨNG DỤNG TRONG CÁC BÀI TỐN KINH TẾ - TÀI CHÍNH 35 2.1 Rời rạc hoá liệu số chuyển chuỗi thời gian vào đối tượng tập thô 35 2.2 Lựa chọn thuộc tính phân lớp dựa quan hệ giá trị gần –VCR (valued closeness relation) 43 2.3 Ứng dụng tập thô đánh giá công ty 54 2.4 Đánh giá sách tín dụng ngân hàng 58 2.5 Đánh giá chiến lược thị trường 61 2.6 Nhận xét thảo luận số vấn đề sử dụng lý thuyết tập thô ứng dụng kinh tế - tài 62 2.7 Tổng kết chương 64 CHƢƠNG PHÁT HIỆN TRI THỨC QUA LẬP TRÌNH LOGIC QUY NẠP VÀ ỨNG DỤNG TRONG PHÁT HIỆN CÁC DẦU HIỆU TÀI CHÍNH BẤT THƢỜNG 65 3.1 Giới thiệu 65 3.2 Lập trình logic qui nạp (Inductive logic programming - LLP)[27] 67 3.3 Thuật toán FOIL FOCL [20, 21] 68 3.4 Thuật toán MMDR 73 3.5 Ứng dụng MDDR phát điểm bất thường 77 3.6 Tổng kết chương 84 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 85 TÀI LIỆU THAM KHẢO 87 DANH MỤC CÁC TỪ VIẾT TẮT AVL Attribute- value language CSDL Cơ sở liệu DM Data mining DW Data ware house ILP Inductive locgic Programming KDD Knowledge Discovery in Database RDM Realtional Data Mining DANH MỤC CÁC BẢNG Bảng 2.1 Một ví dụ lựa chọn thuộc tính theo tập thô 49 Bảng 2.2 Trạng thái ban đầu cho việc lựa chọn đặc trưng 50 Bảng 2.3 Lựa chọn thuộc tính từ tập {a,c,d} 50 Bảng 2.4 Các thuộc tính điều kiện 55 Bảng 2.5 Các thuộc tính định 56 Bảng 2.6 Các tỷ số sử dụng phân tích sách tín dụng 60 Bảng 3.1 So sánh phương pháp dựa AVL ILP logic cấp 66 Bảng 3.2 bảng kết đánh giá dự báo tập luật tìm 83 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Dữ liệu thông tin, tri thức Hình 1.2 Quá trình phát tri thức CSDL Hình 1.3 Ví dụ phân lớp 12 Hình 1.4 Ví dụ đường hồi qui tuyến tính 13 Hình 1.5 Ví dụ phân cụm 13 Hình 2.1 Mơ tả phân hoạch thuộc tính giá trị thực 35 Hình 2.2 Mơ tả hình học phương pháp dựa 2 40 Hình 2.3 Các số phù hợp không phù hợp cho đối tượng x luật r tương ứng với thuộc tính a1 54 Hình 2.4 Thủ tục dự báo kinh tế - tài sử dụng tập thơ 63 Hình 3.1 Sơ đồ thuật tốn MMDR 75 Hình 3.2 Kết dự báo luật tìm 84 MỞ ĐẦU Trong năm gần đây, có nhiều cơng cụ hỗ trợ đắc lực cho việc thu thập, lưu trữ, khai thác liệu, song với bùng nổ thông tin thu thập vượt khả người để nắm bắt khai thác cách hiệu quả, nhiều trường hợp định đưa không dựa vào thông tin liệu thu thập chủ yếu dựa vào nhận thức, suy đoán người định Bên cạnh khiếm khuyết cơng cụ hỗ trợ đem lại cho người dùng tình trạng tri thức lấy từ lượng liệu lớn lại thiếu thơng tin Từ phát sinh u cầu tự nhiên tìm kiếm kỹ thuật có đặc tính thơng minh khả tự động để hỗ trợ người chắt lọc thông tin hữu ích khối liệu lớn Xuất phát từ thực tiễn đó, lý thuyết tập thơ khởi xướng từ thập niên tám mươi kỷ trước, song ngày ứng dụng cách rộng rãi việc phát tri thức, phân tích định, quy luận quy nạp nhận dạng mẫu Nó dường đặc biệt quan trọng cho hệ thống trợ giúp định khai phá liệu Thực tế cách tiếp cận cho việc phân tích liệu Từ vấn đề đó, nội dung đề tài tập trung vào vấn đề lý thuyết tập thô ứng dụng tốn kinh tế, sở liệu thị trường, việc tìm kiếm yếu tố bất thường lĩnh vực tài ngân hàng Mục tiêu nhiệm vụ phạm vi nghiên cứu Nắm vững sở lý thuyết, khái niệm bản, khái quát phương pháp ứng dụng lý thuyết tập thô khai phá liệu; nghiên cứu mơ hình tập thơ tốn kinh tế: phương pháp, mơ hình phân tích lượng liệu lớn sở lý thuyết tập thơ, với ví dụ điển hình ứng dụng lý thuyết tập thô để giải vấn để hỗ trợ định lĩnh vực: đánh giá cơng ty, sách tài ngân hàng, chiến lược thị trường Tìm hiểu ứng dụng mơ hình tập thô nghiên cứu thị trường qua sở liệu, khám phá yếu tố, điểm bất thường lĩnh vực tài sử dụng lập trình suy luận quy nạp Bố cục luận văn - Chương 1: Trình bày tổng quan khai phá liệu phát tri thức, giới thiệu khái niệm, nhiệm vụ khai phá liệu phát tri thức Trình bày chi tiết lý thuyết tập thơ bao gồm: hệ thống thông tin, quan hệ không phân biệt được, xấp xỉ tập, rút gọn lõi tập thuộc tính, hàm thành viên thơ, độ xác chất lượng xấp xỉ Giới thiệu số vấn đề khai phá liệu - phát tri thức lĩnh vực kinh tế tài - Chương : Trình bày ứng dụng cách tiếp cận tập thơ dự báo kinh tế - tài chính, bao gồm: lựa chọn rời rạc hoá thuộc tính giá trị dạng số, hệ thống thơng tin biểu thị thời gian, chuyển đổi chuỗi thời gian vào đối tượng tập thô, chuỗi dẫn xuất, lựa chọn thuộc tính để qui nạp luật định dựa tập thơ, q trình phân lớp đối tượng theo luật định dựa quan hệ giá trị gần – VCR, giới thiệu ứng dụng tốn kinh tế: đánh giá cơng ty, đánh giá sách tín dụng chiến lược thị trường - Chương : Tập trung tìm hiểu phương pháp khai phá liệu quan hệ dựa lập trình logic qui nạp (ILP) Giới thiệu mơ hình khai phá liệu quan hệ, luật logic cấp 1, thuật toán khai phá liệu quan hệ FOIL, FOCL, thuật toán MMDR để khám phá yếu tố bất thường lĩnh vực kinh tế Chƣơng TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG PHÁT HIỆN TRI THỨC 1.1 Tổng quan khai phá liệu phát tri thức 1.1.1 Những tiến cơng nghệ CSDL [2] Nhu cầu tích luỹ xử lý liệu nảy sinh công việc, hoạt động người, vấn đề từ kỹ thuật, kinh tế xã hội đến hoạt động quản lý Thập niên 1960 gắn liền với sản phẩm hệ quản trị tệp, xuất nhớ ngoài, nhớ lý tưởng [2] Giữa năm 60, hệ đầu hệ quản trị sở liệu đánh dấu việc phân rõ, mô tả liệu chương trình ứng dụng ngơn ngữ truy nhập bên trong, lệnh hỏi phi thủ tục, người ta truy nhập liệu, tìm đến ghi thay phải theo cấu trúc lưu trữ vật lý liệu (Hệ QTCSDL mạng) Thập niên 1970, mơ hình liệu quan hệ, cài đặt hệ quản trị CSDL quan hệ Mơ hình quan hệ giúp đơn giản hoá việc truy nhập liệu người sử dụng bên Thập niên 1980, xuất hệ QTCSDL quan hệ, mơ hình liệu nâng cao (quan hệ mở rộng, hướng đối tượng, suy diễn, v.v.) hệ quản trị CSDL hướng ứng dụng (không gian, khoa học, cộng nghệ, vv ) Từ thập niên 1990 - năm 2000: khai phá liệu (data mining) kho liệu (data warehouse), sở liệu đa phương tiện, sở liệu web 1.1.2 Dữ liệu, Thông tin Tri thức [14 ]  Dữ liệu (data): Chúng ta thường thu thập nhìn thấy hàng ngày, ví dụ: chuỗi bit, số, kí tự, biểu tượng, hay đối tượng,  Thông tin (Information): Là “dữ liệu” loại bỏ phần dư thừa, không cần thiết Thông tin mô tả đặc trưng, thuộc tính “dữ liệu” với chi phí nhỏ  Tri thức (Knowledge) : o Là tích hợp “thông tin” bao gồm quan hệ, đàn kiểm nghiệm, khám phá, hiểu biết, o Nói cách khác tri thức xem liệu mức cao của q trình trừu tượng hóa khái qt hoá 1.1.3 Khai phá liệu phát tri thức Nếu cho điện tử sóng diện từ chất cơng nghệ điện tử truyền thống liệu, thơng tin tri thức dang tiêu điểm lĩnh vực nghiên cứu ứng dụng phát tri thức (Knowledge Discovery) khai phá liệu (Data Mining) [3] Phát tri sở liệu thức (Knowledge discovery in Database - KDD) tiến trình nhận diện dạng/các mơ hình hiểu được, có giá trị, lạ, nhiều tiềm hữu ích Khai phá liệu (Data mining) bước tiến trình phát tri thức, bao gồm số thuật toán khai phá liệu cụ thể theo vài giới hạn tính tốn chấp nhận được, nhằm tìm dạng, mơ hình liệu [14, 20, 311] Nói cách khác, mục tiêu phát tri thức khai phá liệu tìm dạng mơ hình quan tâm chứa đựng sở liệu mà che dấu tập lớn liệu Khai phá liệu khái niệm đời vào năm cuối thập kỷ 80 Nó bao hàm loạt kỹ thuật nhằm phát thơng tin có giá trị tiềm ẩn tập liệu lớn (các kho liệu) Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu hình có tính quy (regularities) tập liệu Thuật ngữ khai phá liệu (data mining) ám việc tìm kiếm tập hợp nhỏ có giá trị từ số lượng lớn liệu thô Có nhiều thuật ngữ dùng có nghĩa tương tự với từ data mining knowledge mming (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/pattern analysis (Phân tích liệu/mẫu), data archaeology (khảo cồ liệu), data dredging (nạo vét liệu) Hiện nay, thuật ngữ khai phá liệu (data mining) dùng quen thuộc người ta thường đồng với thuật ngữ Knowledge Discovery in Databases (KDD) Còn nhà thống kê xem khai phá liệu qui trình phân tích thiết kế để thăm dị lượng cực lớn liệu nhằm phát mẫu thích hợp và/hoặc mối quan hệ mang tính hệ thống biến sau hợp thức hố kết tìm cách áp dụng mẫu phát cho tập liệu Qui trình bao gồm ba giai đoạn bản: thăm dò, xây dựng mơ hình định nghĩa mẫu, hợp thức/kiểm chứng [3] 75 Tầm quan trọng MMDR luật cấp xác suất vấn đề độ đo cho phương pháp quan hệ số, có nghĩa cách thức để chuyển từ độ đo thực vào mô tả logic cấp Đây nhiệm vụ không tầm thường [Krantz et al, 97 , 989, 990] Ví dụ, cách để mô tả độ đo nhiệt độ dạng logic cấp mà không chất thuộc tính (nhiệt độ trường hợp này) khơng đưa vào thuộc tính thường khơng cần thiết Chẳng hạn số độ C (Celsius) độ F (Fahrenheit) qui ước tuỳ ý, trái lại với thang độ K (Kelvin) nhiệt dộ thấp MMDR sử dụng tiến trình phát sinh lựa chọn giả thuyết/1uật dựa lý thuyết độ đo mô tả sở [Krantz, Luce, Suppes and Tversky, 1971, 1989, 1990] MMDR mô tả mẫu logic cấp gắn khả luật cách tạo nên mẫu Như kỹ thuật dựa luật logic, kỹ thuật cho phép người ta có luật dự báo mà người dễ hiểu có khả diễn giải ngơn ngữ tài Một chuyên gia đánh giá đắn dự báo luật dự báo MMDR Lựa chọn/phát sinh luật logic với biến x, y, ,z IF A(x,y, ,z) THEN B(x,y, ,z) Học luật logic liệu huấn luyện sử dụng xác suất suy luận có điều kiện P(B(x,y, ,z)/A(x,y, ,z)) Kiểm tra lựa chọn luật logic (nguyên lý Occam, kiểm định Fisher) Tạo khoảng ngưỡng dự báo sử dụng luật IF A(x,y, ,z) THEN B (x,y, ,z) Hình 3.1 Sơ đồ thuật tốn MMDR 76 3.4.2 Luật xác suất logic "Law-like" Một luật IF -THEN C : A & &Ak => A0 Phần If A1& &Ak chứa phát biểu logic đúng/sai A1, ,Ak, phần Then chứa phát biểu logic đơn A0 Những luật phát sinh cách cắt bỏ phần If, ví dụ : A1&A2 => A0, A1&A2 &A3 => A0 vân vân Một luật mạnh mặt logic so với luật để xây dựng luật Như vậy, luật C luật phân lớp đắn tập hợp mẫu luật ưu tiên hơn, : Luật khái quát hơn, đơn giản hơn, dễ dàng kiểm tra (dễ bác bỏ hơn) tập lớn mẫu có khả chứng minh (phần If luật hạn chế hơn) Với luật C, xác suất điều kiện định nghĩa : Prob(c) : Prob(A0/A1& &Ak) Tương tự, xác suất điều kiện Prob((A0/Ai& &Aih) định nghĩa cho luật Ci dạng Ai1 & &Aih => A0 với {Ail .Aih}  {A1 Ak} Xác suất điều kiện Prob(C) sử dụng để ước lượng khả dự dự báo để dự đoán A0 Một Luật "law-like" tất luật có xác suất điều kiện nhỏ luật đó, ý nghĩa thống kê thiết lập Mỗi luật Ci khái quát hoá C, có nghĩa khả Ci cho tập thể lớn 77 3.5 Ứng dụng MMDR việc phát điểm bất thƣờng thị trƣờng chứng khoán 3.5.1 Các biến Sử dụng hai biến thời gian TR - tập huấn luyện, CT- tập kiểm soát/kiểm tra để huấn luyện đánh giá giải thuật dự báo Ở TR={a1, a2 atr} liệu 10 năm từ 1985-1994 ( tr=2528 ngày) CT = {a1, a2 act} liệu hai năm 1995, 1996 ( ct=506 ngày) Sử dụng khoảng thời gian ngày đơn vị dự báo chính: at= (a1t,a2t,a3t,a4t,a5t) Ở ajt hiểu ngày thứ j ngày đối tượng at Biến Weekday(at) có giá trị 1,2,3,4,5: tương đương với ngày tuần, ví dụ: Weekday(at)=1 nghĩa ngày thứ hai, Weekday(at)=1 nghĩa ngày thứ sáu Một số biến sinh từ SP500C ( Standard and Poor 500 close): - Sai phân quan hệ (relative differences): ●ij(at) = SP500C(ajt)SP500C(ait))/SP500C(ait), i

Ngày đăng: 16/03/2021, 12:37

Mục lục

  • MỤC LỤC

  • DANH MỤC CÁC TỪ VIẾT TẮT

  • DANH MỤC CÁC BẢNG

  • DANH MỤC CÁC HÌNH VẼ

  • MỞ ĐẦU

  • 1.1. Tổng quan về khai phá dữ liệu và phát hiện tri thức

  • 1.1.1 Những tiến bộ trong công nghệ CSDL [2]

  • 1.1.2. Dữ liệu, Thông tin và Tri thức [14 ]

  • 1.1.3. Khai phá dữ liệu và phát hiện tri thức

  • 1.1.4. Các bước của quá trình khai phá dữ liệu

  • 1.1.5. Nhiệm vụ chính của khai phá dữ liệu [14, 31]

  • 1.2. Một số khái niệm cơ bản

  • 1.2.1. Hệ thống thống tin [18]

  • 1.2.2. Quan hệ không phân biệt được.

  • 1.2.3. Xấp xỉ tập

  • 1.2. 4. Rút gọn và lõi [6, 1 8]

  • 1.2.5. Hàm thành viên thô (Rough Membership) .

  • 1.2.6. Sự phụ thuộc của các thuộc tính (Dependency of attributes)

  • 1.2.7. Luật quyết định (decision rules) [5, 131]

  • 1.2. 8. KDD và lý thuyết quyết tập thô [l22]

Tài liệu cùng người dùng

Tài liệu liên quan