1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Phát hiện quan hệ nhân quả trong bộ dữ liệu chuỗi thời gian sự kiện

73 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát hiện quan hệ nhân quả trong bộ dữ liệu chuỗi thời gian sự kiện
Tác giả Đào Thị Thu Nga, Nguyễn Khánh Toàn
Người hướng dẫn TS. Mai Tiến Dũng, TS. Hồ Thị Thảo Nguyên
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Khoa học Máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 73
Dung lượng 29,2 MB

Nội dung

TOM TAT KHOA LUAN Trong khoá luận tốt nghiệp của chúng tôi dưới đây , chúng tôi tìm hiểu về bài toán " Tìm mối quan hệ nhân quả giữa các chuỗi thời gian sự kiện".. Sau khoá luận tốt nghi

Trang 1

ĐẠI HỌC QUÓC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

ĐÀO THỊ THU NGA NGUYÊN KHÁNH TOÀN

KHÓA LUẬN TÓT NGHIỆP

PHÁT HIỆN QUAN HỆ NHÂN QUÁ TRONG BỘ DỮ

LIEU CHUOI THỜI GIAN SỰ KIEN

CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH

TP HO CHÍ MINH, 2021

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC MAY TINH

ĐÀO THI THU NGA NGUYEN KHANH TOAN

KHOA LUAN TOT NGHIEP PHAT HIEN QUAN HE NHAN QUA TRONG BO DU LIEU

CHUOI THỜI GIAN SU KIỆN

INFERRING CAUSALITY RELATIONSHIP IN TIME SERIES EVENT

CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH

GIẢNG VIÊN HƯỚNG DAN

TS MAI TIỀN DŨNG

TS HÒ THỊ THẢO NGUYÊN

TP HO CHÍ MINH, 2021

Trang 3

DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số T8ầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

¬ ceeeeeeeeeeeeeeeeeeeaes — Chủ tịch.

2 .— Thư ký.

3 Ủy viên.

4 .— Ủy viên.

Trang 4

LOI CAM ON

Trước tiên, chúng em xin chân thành cảm ơn thay Mai Tiến Dũng và cô Hồ Thị

Thảo Nguyên tuy tình hình dịch bệnh phức tạp nhưng thay và cô đã tận tình

giúp đỡ hướng dẫn và định hướng chúng em để có thể hoàn thành khóa luận

tốt nhất Đặc biệt rằng tụi em cảm ơn cô Nguyên vì tuy có khoảng cách vẻ địa lý

và thời gian nhưng cô van sắp xép thời gian của mình để giúp đỡ và hướng dẫn

chúng em nhiều nhất có thể Sau cùng, chúng em xin gửi lời cảm ơn các bạn sinh

viên tại lớp KHTN2018 trường Đại học Công nghệ thông tin đã nhiệt tình hỗ trợ

chúng em về cả kiến thức và cùng nhau thực hành trong quá trình làm khóa luận.

Chúng em xin chân thành cảm ơn.

Trang 5

Muc luc

[TÓM TAT KHOA LUẬN xiii

TONG QUAN 1

1.1 Giới thiệu đề tai] ee ee 1

Cee eee eee 2

SO re 3

[L3 Tổng quan tiếp cận bài toán| 4

[I4 THÁCH THÚC ,MỤC TIÊU VÀ PHẠM VI| 5

141 TháchdTúc| 4à / 5

Nội dung 2: Tìm hiểu và đánh giá các phương pháp liên quan| 7

1.6 Cấu trúc Khóa luận tốt nghiệp| - 7

2 Trình bày cơ sở lý thuyết các thuật toán mối quan hệ nhân quả và một

so kỹ thuật liên quan 8

Bi Cøsờw tuyết vềsuy lận nhân guẢ 8

2.1.1 Cosdly thuyết xác suất

2.1.2 Dinh nghĩa về suy luận nhân quả| 9

Granger causality[6] | Se 9 Gia thuyét của D.Bhattacharjya| 3] ¬

E2 Yếu tố điều kiện cần và đủ trong suy luận nhân quả| 11

|

Trang 6

môi quan hệ nhân quả và và va

[2.3.1 Tổng quan vẻ dữ liệu chuỗi thời gian|

quả cho dư liệu thời gian|

.1 Các phương pháp tính toán Cost-Effect Association Score (CEAs)|

Thực nghiệm trên bộ dữ liệu Metro Interstate Traffic Volume

3 Áp dụng các phương pháp tính toán cho bài toán tìm mối quan hệ nhân

14 14

|Hit@K cho các score NST, CIRp, CIRc trên bộ du liệu Metro

Interstate Traffic Volume dataset}

: Xử lý đữ liệu)

Phan cụm cho các cột dữ liệu|

Phuong pháp thực nghiệm|

Trang 7

Traffic Volume Dataset và Beijing Multi-Site Air-Quality DataSet] 42

Kết quả thực nghiệm trên tập dữ liệu Beijing Multi-Site

Trang 8

Danh sach hinh ve

1.1 Hình ảnh minh hoa vẻ bài toán| - 3

1.2 Hình ảnh minh hoạ tổng quan về bài toán 5 2.1 Biểu đồ minh hoa cho bộ dữ liệu thời gian đa biến | 13

{3.1 Optimal Parent Set Search| 23

3.2 Thuật toán Forward backward Search| 25

[41 Biểu đồ biểu diễn dữ liệu Weather-description| 30

.2_ Biểu dé biểu diễn dữ dữ liệu Clouds-alll 31

3 Bộ dữ liệu Air-Ouality[j9]] 37

Trang 9

Danh sách bảng

3.1 Ví dụ về thời gian bao gom các su kiện xảy ra 14

¬ 16 3.3_ viduWindow =3] ẶQ Q Q Q eee 16

4.2 Bảng uớc lượng tác động các sự kiện thời tiết lên lưu lượng giao

my 28 33

4.3 Kết quả đánh giá vớik=5| So 35

4.5 Kết quả đánh giá vớik=15| - 354.6 Kết quả đánh giávớik=20| 36

4.7 Bảng phân cụm sự tác động của các sự kiện lên PM25 40 4.8 Bang phân cụm sự tác động của các sự kiện lên 10 40

4.9 Phân cụm nhiệt độ điểm sương trong tập dữ liệu Air Quality| 41

4.10 Phân cụm lượng mưa trong tập du liệu Air Quality) 41 4.11 Phân cụm nhiệt độ trong tập dtr liệu Air Quality

4.12 Phân cụm tốc độ gió trong tập dữ liệu Air Quality

4.13 Kết quả thực nghiệm bộ dữ liệu Beijing Multi-Site Air-Quality DataSet

với Score CIRp - W7ndot0nS1ze = l[ ẶẶẶ 42

4.14 Kết quả thực nghiệm bộ dit liệu Beijing Multi-Site Air-Quality DataSet

4.15 Kết quả thực nghiệm bộ dit liệu Beijing Multi-Site Air-Quality DataSet

với Score CIRp - WindownSize = 5) -.000005 43

4.16 Kết quả thực nghiệm bộ dit liệu Beijing Multi-Site Air-Quality DataSet

với Score CIRp - WindownSize= 10) 00 44

4.17 Ket quả thực nghiệm bộ dữ liệu Beijing Multi-Site Air-Quality DataSet

Trang 10

với Score CIRc - WindownSize = 3) 2.0.00 ee ee 45

4.19 Kết quả thực nghiệm bộ dit liệu Beijing Multi-Site Air-Quality DataSet

voi Score CIRc - WindownSize=5| 2.00-000% 45

4.20 Kết qua thực nghiệm bộ dữ liệu Beijing Multi-Site Air-Quality DataSet

với Score CIRc - WindownSize = 10| 46

4.21 Kết quả thực nghiệm bộ dit liệu Beijing Multi-Site Air-Quality DataSet

với Score NSTe - Windot0nS1ze = lÌ 46

4.22 Kết quả thực nghiệm bộ dit liệu Beijing Multi-Site Air-Quality DataSet

với Score NSTe - WindownSize = 3Ì 47

4.23 Kết quả thực nghiệm bộ dit liệu Beijing Multi-Site Air-Quality DataSet

với Score NSTe - WindotunS1ze =53] 47

4.24 Kết quả thực nghiệm bộ dữ liệu Beijing Multi-Site Air-Quality DataSet

với Score NSTe - WindotunS1ze = 5| 48

4.25 Kết quả thực nghiệm với Score NSTe bộ dữ liệu Metro Interstate Traffic

—NẺV_ R 484.26 Kết quả thực nghiệm với Score NSTe bộ dữ liệu Metro Interstate Traffic

Trang 11

4.34 Kết quả thực nghiệm với Score CI Rc bộ dữ liệu Metro InterstateTraffic

Volume Dataset WindotunSize=3Ì 53

4.35 Kết quả thực nghiệm với Score CIRc bộ dir liệu Metro InterstateTraffic

Volume Dataset W/ndou1ñSize=53|} 53

Trang 12

Danh muc tir viét tat

CEAs Cost- Effect Association score NSTe score The- Necessity Trade-off score

CIR score The- Conditional Intensity Ratio score

Trang 13

TOM TAT KHOA LUAN

Trong khoá luận tốt nghiệp của chúng tôi dưới đây , chúng tôi tìm hiểu về bài toán " Tìm mối quan hệ nhân quả giữa các chuỗi thời gian sự kiện" Với việc tìm hiểu tiềm năng sự phát triển của bài toán về các lĩnh vực trí tuệ nhân tạo , sinh thái sống , Chting tôi sự dụng và phân tích thêm các công cụ hiện có để nhằm đánh giá các mối quan hệ nhân quả Trong khoá luận của chúng tôi , xoay quanh việc sử dụng các khái niệm về lí thuyết xác suất thống kê , xử lý dữ liệu , tìm hiểu một số cách tiếp cận về các điểm hiện có sau đó đọc tìm hiểu các bài báo của chuyên gia để đưa ra bộ ground truth phù hợp với bộ dữ liệu hiện có nhằm có kết quả đánh giá chính xác nhất.

Bài toán chúng tôi tìm hiểu có ý tưởng vẻ việc các sự kiện sẽ có mối quan hệ nhân - quả với nhau Được minh hoạ bằng với việc xét trời mưa nếu trước có sự xuất hiện của mây đen sẽ làm cho xác xuất xuất hiện mưa sẽ cao hơn Từ đó , bài toán của chúng tôi sẽ góp phần cải thiện được các bài toán hiện có như dự báo nhằm giúp phan cải thiện cuộc sóng Ví du với bài toán liên quan đến chủ dé giao thông, với việc hôm nay là ngày lễ thì xác suất xảy ra tắc đường là rất lớn Chính

vì vậy , bài toán của chúng tôi sẽ đưa ra sự kiện ngày lễ xảy ra có khả năng cao

sẽ làm cho việc tắc đường xảy ra Chúng tôi nhằm mục tìm hiểu , phân tích xác định xem một số sự kiện có trong tập hợp sự kiện của một loại nhất định, có thể

ít hay nhiều có quan hệ nhân quả với một số sự kiện khác dựa trên các sự kiện phù thuộc nhau vào thời gian hay không.

Chúng tôi thử nghiệm trên hai tập dữ liệu khác nhau đã được thực hiện Thử

nghiệm đầu tiên chúng tôi sử dụng tập dữ liệu thực tế từ New York bao gồm lưu

lượng giao thông là hiệu ứng và các hiện tượng thời tiết khác nhau là nguyên

nhân, trong đó mục tiêu là đánh giá các sự kiện khí tượng khác nhau ảnh hưởng

đến cường độ giao thông hay không Các cặp nhân quả này sẽ được đánh giá dựa trên bộ ground truth có cơ sở, trong trường hợp này là ý kiến của chuyên gia về các sự kiện nói trên như là về snow , haze có ảnh hưởng đến bao nhiêu phan tram

tới traffic.

Trong thử nghiệm thứ hai là một tập dữ liệu có trụ sở tại Trung Quốc đã được sử dụng Bộ dữ liệu này bao gồm các hiện tượng thời tiết khác nhau như trời mưa

Trang 14

„ nhiệt độ là nguyên nhân và nồng độ của các hat PM10, PM2.5 trong không khí

là hiệu ứng Thí nghiệm này nhằm tìm ra các cặp nhân quả giữa các sự kiện khí tượng và ô nhiễm không khí và xây dựng bộ ground truth từ ý kiến của chuyên gia từ đó đánh giá từng cặp trên có mối quan hệ nhân qủa hay không Hai thí nghiệm này đều được đánh giá, minh họa và được sử dụng làm cơ sở cho cuộc thảo luận và kết luận.

Sau khoá luận tốt nghiệp này , chúng tôi đã tìm hiểu được một số phương pháp

thực hiện và đánh giá các cặp mối quan hệ nhân quả trong bộ dự liệu phụ thuộc

thời gian Với tiềm năng của bài toán nêu trên, đây sẽ là bước đệm của chúng tôi

để phát triển và tìm hiểu nhiều hơn trong lĩnh vực này.

Trang 15

Chương 1

TỔNG QUAN

Trong chương này chúng tôi giới thiệu tổng quan về bài toán "Phát hiện mối quan

hệ nhân quả trong bộ dữ liệu chuỗi thời gian sự kiện" Đồng thời chúng tôi cũng trình bày về mục tiêu, phương pháp thực hiện và những đóng góp của chúng tôi

trong khóa luận này.

1.1 Giới thiệu dé tài

Với sự phát triển của số hoá đi kèm với nhu cầu về lưu trữ và khai thác phân tích dtr liệu ngày một cao Điều đó đã thúc đẩy cho việc sử dụng phân tích dữ liệu vào các bài toán thực tế nhằm mục đích giúp con người phát triển và cải thiện

cuộc sống đặc biệt là trong các lĩnh vực vẻ y tế, giao thông , chứng khoán,

Tìm mối quan hệ nhân quả từ dữ liệu chuỗi thời gian đã được nghiên cứu chuyên sâu qua rất nhiều năm trên nhiều lĩnh vực thực tế Kết quả của mối quan hệ nhân

quả phù hợp với các lĩnh đang phát triển như trí tuệ nhân tạo và sinh thái học[7].

Trong khóa luận tốt nghiệp này, chúng tôi xây dựng lại bài toán tìm mối quan

hệ nhân quả với dữ liệu chuỗi thời gian trên 2 tập dữ liệu Beijing Multi-Site

Air-Quality Dataset dataset[14] và Metro Interstate Traffic Volume đatasetf8].

Trong đó tập dữ liệu Metro Interstate Traffic Volume dataset là dữ liệu đời thực đến từ New York bao gồm lưu lượng giao thông là hệ quả và các hiện tượng thời tiết khác nhau là nguyên nhân Mục tiêu là đánh giá các sự kiện khí tượng, thời tiết khác nhau nhưng có ảnh hưởng đến cường độ giao thông Các cặp nhân quả

này sẽ được đánh giá dựa trên một bộ sự thật cơ bản được tham khảo từ các

nguồn tài liệu có liên quan để xác định được mối liên hệ cơ bản của các sự kiện.

Trang 16

Chương 1 TONG QUAN 2

Bộ thứ hai Beijing Multi-Site Air-Quality Dataset một tập dữ liệu ở Trung

Quốc Tập dữ liệu này bao gồm các sự kiện thời tiết khác nhau như mưa , nắng , gió , 1 sự kiện nguyên nhân va nồng độ của các hat PM10, P2.5 trong không khí

là sự kiện hệ quả Thử nghiệm này nhằm để tìm ra sự ảnh hưởng của các yếu tố thời tiết tới chất lượng không khí Từ đó đánh giá từng cặp này dựa trên tài liệu

về ảnh hưởng của các yếu tố thời tiết lên lưu lượng giao thông, từ đó xây dựng

bộ Ground truth cho bộ dataset Beijing Multi-Site Air-Quality Dataset (14).

Từ hai bộ dữ liệu trên chúng tôi tìm hiểu tổng quan các phương pháp , các điểm tính CEAs và thuật toán đánh giá khi áp dụng vào trong bài toán.

1.2 Giới thiệu bài toán

Thời đại hiện nay đang có một nền công nghệ càng ngày phát triển với bộ dữ liệu

chuỗi thời gian đồi dào về các hệ thống mà con người có thể đo lường được như

hiện tượng thời tiết, tình trạng xe cộ, chứng khoán, Bộ dữ liệu sẽ chứa đựng các

sự kiện có liên quan với nhau

Tại hội nghị các tác giả của bài báo "Cause-Effect Association between Event Pairs

in Event Datasets" [3] đã đề xuất các giải pháp bao gồm hệ số tính toán va phương

pháp đo lường độ chính xác về các cặp sự kiện có quan hệ nhân quả Sau khi được công bồ bài toán đã được mở rộng ra rat nhiều tài liệu khác Chính vì lợi ích

và thành tựu của nhóm nghiên cứu đã mang lại được những kết quả và là tiên đề cho nhiều bài toán đằng sau.

Bài toán của chúng tôi sẽ biểu diễn mối quan hệ giữa các sự kiện bằng mô hình

đồ thị Từ đó, phát hiện mối quan hệ nhân quả giữa trên các sự kiện trong tập dữ

liệu chuỗi thời gian sự kiện Trong đó :

© Đầu vào:

o Tập hợp các dữ liệu ghi nhận được các sự kiện có chứa các thuộc tính theo

một lĩnh vực nhất định theo thời gian.

o Các sự kiện cần xác định mối quan hệ nhân quả.

© Dau ra:

o Các cặp sự kiện có mối quan hệ nhân quả.

Trang 17

Chương 1 TONG QUAN 3

Ví dụ :

© Đối với chủ đề về giao thông , bộ dữ liệu của chúng ta cần chứa các sự kiện

phụ thuộc thời gian và có chứa thuộc tính tương đương như là ngày lễ , thời

tiết, tai nạn , Day là các sự kiện có khả năng ảnh hưởng đến giao thông.

HINH 1.1: Hình ảnh minh hoạ về bài toán.

Vi dụ về bài toán

Chúng ta xét 3 sự kiện: pin yếu, máy tính tắt, trình phát video không hoạt động.

Sự kiện “pin yếu” là nguyên nhân của “máy tính tất” và “trình phát video không

hoạt động”.

Sự kiện “máy tính tắt” và “trình phát video không hoạt động” có mối tương quan

với nhau nhưng không có quan hệ nhân quả bởi vì việc một trong 2 sự kiện này xảy ra hoàn toàn không ảnh hưởng tới sự kiện kia.

Trang 18

Chương 1 TONG QUAN 4

Runs out of battery

1.3 Tổng quan tiếp cận bài toán

Bài toán được tiếp cận dựa trên các lý thuyết về xác suất thống kê Dé có thể xử lý

bài toán, dữ liệu phải có giá trị rời rạc, tuy nhiên dữ liệu gốc là các biến có miền

giá trị liên tục Giải pháp chúng tôi đưa ra là xử lý miễn giá trị rời rạc sang liên

tục bằng phương pháp chia cụm.

Để tìm ra các cặp sự kiện có quan hệ nhân quả, chúng tôi sử dụng các độ đo để

xem xét mức độ nhân quả của các cặp sự kiện, các cặp sự kiện có điểm càng cao

thì khả năng cặp sự kiện đó có quan hệ nhân quả càng lớn (Tương tự bài toán

truy vấn)

Để đánh giá kết quả chúng tôi xây dựng bộ Ground truth (dựa trên các tài liệu,

nghiên cứu mức độ ảnh hưởng của các sự kiện) Chúng tôi sử dụng độ đo Hits@K

để đánh giá kết quả dựa trên bộ Ground Truth

Dưới đây là sơ đồ minh hoạ tổng quan về bài toán của chúng tôi.

Trang 19

Chương 1 TONG QUAN 5

HÌNH 1.2: Hình ảnh minh hoa tổng quan vẻ bài toán.

1.4 THÁCH THUC, MỤC TIÊU VÀ PHAM VI

1.41 Thách thức

Trong quá trình thực hiện khoá luận và chúng tôi gặp phải những thách thức chính sau:

- Tập dữ liệu chuỗi thời gian để phục vụ cho bài toán còn hạn chế Việc tự tạo bộ

đữ liệu rất khó khăn Vậy nên chúng tôi chọn 2 bộ dữ liệu là Beijing Multi-Site Air-Quality Dataset và Metro Interstate Traffic Volume Dataset để áp dụng vào khoá luận tốt nghiệp này.

- Việc áp dụng bài toán quan hệ nhân quả vào thực tế là vô cùng khó khăn vì việc đánh giá cần có bộ ground truth chính xác và lý thuyết về mối quan hệ nhân quả chưa được rộng rãi trong nước và ít nguồn tham khảo công khai.

1.42 Mục tiêu

Chúng tôi có dé ra 3 mục tiêu cho khóa luận :

¢ Tim được 2 bộ dữ liệu phù hợp để tiến hành thực nghiệm bài toán.

Trang 20

Chương 1 TONG QUAN 6

¢ Triển khai thực hiện va tìm hiểu bài toán với các độ đo có sẵn Trong đó có

độ đo CIRy sẽ cần hiện thực lại bài toán xây dựng đồ thị cho các sự kiện,

từ đó tìm tập hợp các sự kiện là nút cha của sự kiện cần xét.

¢ Xây dung được các mối quan hệ nhân quả va từ đó hỗ trợ kết quả cho các bài toán dự báo.

1.43 Pham vi

Trong phạm vi khóa luận tốt nghiệp , tương ứng với mục tiêu , chúng tôi tap trung giải quyết các nội dung sau :

* Tìm hiểu về khái niệm mối quan hệ nhân quả , cách xây dựng định nghĩa

và score đánh giá hiện có.

® Xây dựng được các mối quan hệ nhân quả từ bộ dit liệu Từ đó so sánh và

đánh giá mức độ cải thiện so với bài toán dự báo.

1.5 Đóng gop của khoá luận

Một số đóng góp của khóa luận:

*_ Tìm hiểu các thuật toán và kỹ thuật liên quan tới tìm mối quan hệ nhân quả.

¢ Thực nghiệm lại bài toán tim quan hệ nhân quả giữa các sự kiện

s Xây dựng bộ ground truth ( cách sử dung ground truth sao cho phù hợp

với bộ dữ liệu).

© Thực thi và đánh giá so sánh giữa các độ đo hiện tại để giải quyết bài toán mối quan hệ nhân quả.

1.5.1 Nội dung thực hiện

Nội dung 1: Tìm hiểu phương pháp xây dựng mô hình đồ thị thể hiện mối liên

quan giữa các sự kiện.

¢ Tìm hiểu phương pháp xây dựng mô hình đồ thi thể hiện quan hệ giữa các

sự kiện.

Trang 21

Chương 1 TONG QUAN 7

¢ Từ mô hình đồ thị, tìm các sự kiện là nút cha trong dé thị cho một sự kiện

dé áp dung tính toán cho score CIRM

¢ Thực nghiệm trên bộ dữ liệu thực tế và đánh giá, so sánh kết quả.

Nội dung 2: Tìm hiểu và đánh giá các phương pháp liên quan

» Biểu diễn mối quan hệ giữa các sự kiện bằng mô hình đồ thị.

¢ Tim hiểu, phân tích các phương pháp đánh giá mối quan hệ nhân quả giữa

hai sự kiện.

¢ Đánh giá và lựa chọn phương pháp phù hợp với năng lực và khả năng tính toán.

1.6 Cấu trúc Khóa luận tốt nghiệp

Khoá luận có cấu trúc như sau:

Chương 1 : Giới thiệu tổng quan vẻ đề tài.

Chương 2: Trình bày cơ sở lý thuyết các thuật toán mối quan hệ nhân quả và một

số kỹ thuật liên quan.

Chương 3: Áp dụng các phương pháp tính toán cho bài toán tìm mối quan hệ

nhân quả trong dw liệu thời gian

Chương 4: Trình bày kết quả thực nghiệm và phân tích các phương pháp đã thực hiện.

Chương 6: Trình bày kết luận và các hướng phát triển trong tương lai.

Trang 22

Chương 2

Trình bày cơ sở lý thuyết các thuật

toán mối quan hệ nhân quả và một số

ky thuật liên quan

Trong chương này, chúng tôi trình bày một số kiến thức nền tảng liên quan đến

bài toán "Phát hiện quan hệ nhân quả trong bộ dữ liệu chuỗi thời gian sự kiện"

với các định nghĩa về suy luận nhân quả, kiến thức toán học.

2.1 Cơ sở lý thuyết về suy luận nhân qua

Để tìm hiểu rõ về bài toán suy luận nhân quả , chúng ta sẽ đi tìm hiểu một số

định nghĩa cơ bản xung quanh suy luận nhân quả.

2.1.1 Cơ sở lý thuyết xác suất

¢ Việc tìm ra mối quan hệ nhân quả can liên quan nhiều đến lý thuyết xác

suất Lý thuyết xác suất là lĩnh vực toán học xác định các hàm xác suất được

sử dụng Ký hiệu P(x) là xác suất của x Được xác định bằng số lần xuất

hiện của X trên tập dữ liệu chia cho kích thước dữ liệu.

P(x) =)

® Xác suất có điều kiện là xác xuất của su kiénx chứa điều kiện y so trên toàn

bộ tập dữ liệu Được ký hiệu P(x|y) được gọi là xác suất có điều kiện của+.

Trang 23

Chương 2 Trình bày cơ sở lý thuyết các thuật toán méi quan hệ nhân quả và

một số kỹ thuật liên quan

P(x

© Trong xác suất có điều kiện có giới thiêu các khái niệm về sự độc lập và phụ

thuộc Chúng được định nghĩa với (x,y) được gọi là một cặp biến cố trong

đó x[]T va xy là biến cố độc lập và phụ thuộc như sau :

- Nếu việc xảy ra hay không xảy ra của biến cố này không làm thay đổi xác

suất xảy ra của biến cô kia và ngược lại Biéu diễn qua công thức xác suất :

P(X|Y) = P(X) và P(Y/X) = P(Y)

2.1.2 Định nghĩa về suy luận nhân quả

Trong những năm vừa qua đã xuất hiện rất nhiều định nghĩa về suy luận nhân

quả với dữ liệu chuỗi thời gian của các nhà phân tích dit liệu và kinh tế học

Với mỗi suy luận nhân quả có thể có những ý nghĩa khác nhau tùy thuộc vào các

lĩnh vực khác nhau Vì vậy có tồn tại sự thiếu đồng nhất về cách xác định mốiquan hệ nhân quả.

Sau đây , chúng tôi xin giới thiệu một số định nghĩa khái quát được sử dụngthường xuyên về suy luận nhân quả

Granger causality[6]

e Đây là khái niệm sớm nhất về suy luận nhân quả đối với dir liệu chuỗi thời

gian của Granger [6]

s Ở đây , quan hệ nhân quả đối với chuỗi thời gian được dựa trên việc đối

chiếu khả năng dự đoán một sự kiện ngẫu nhiên X bằng cách sử dụng tất

cả các thông tin của không gian mẫu U so sánh với việc dự đoán 1 sự kiện

ngẫu nhiên X bằng cách sử dụng tat cả các thông tin của không gian mẫu Ungoại trừ một số quả trình ngẫu nhiên Y Nếu việc loại bỏ Y làm giảm khả

năng liên quan đến X , thì Y chứa một số thông tin liên quan tới X Do đó,

chúng ta gọi Y là nguyên nhân gây ra X.

Trong kết luận của Granger|6] đã đưa ra hai tiêu dé sau đây :

Trang 24

Chương 2 Trình bày cơ sở lý thuyết các thuật toán méi quan hệ nhân quả và

một số kỹ thuật liên quan

e Tiên dé 1 : Qua khứ có thể ảnh hưởng đến tương lai nhưng tương lai không

thể ảnh hưởng đến quá khứió|,.

e Tiên đề 2 : Trong trường hợp Y là nguyên nhân gây ra X, Y có thể mang

những đặc điểm tinh chất đặc trưng của X[6].

Dựa vào các tiêu dé trên nhân quả Granger được suy luận theo cách sau:

¢ Với A là một tập rỗng ngẫu nhiên , ¢ là khoảng thời gian, y(t) là sự kiện y

tại thời điểm ¢ và x(t + 1) là sự kiện x tại thời điểm t + 1 Hay được hiểu là

xuất hiện trước x Ngoài ra , chúng ta có w chứa tat cả các thông tin của

lĩnh vực đang xét tới hay còn gọi là không gian mẫu w Trong đó, w(t) là

không gian mẫu tại thời điểm t.

© Với và z đều xuất hiện trước x Chúng ta thấy được rằng y là nguyên nhân

gây ra x nêu với không gian mẫu chứa tat cả thông tin là y Uz loại bỏ sự

kiện y làm cho xác suất có điều kiện của về phải giảm so với về trái Mặt

khác, khi tổn tại thì xác suất có điều kiện sẽ tăng lên Vì vậy, sự kiện cóthể chứa các yếu tố gây ra sự kiện x Hay còn gọi y là nguyên nhân gây ra x

Giả thuyết của D.Bhattacharjya[3]

Giả thuyết đưa ra được 2 định nghĩa để giải quyết tìm mối quan hệ nhân quả như

sau:

Họ: P(x | y,z) = P(x | z) Hy: P(x | y,z) > P(x | z)

* HO được định nghĩa là không ảnh hưởng đến x Hay là y khong phải là

nguyên nhân gây ra x Vì việc loại bỏ ra khỏi không gian mẫu không có

xác suất bằng với việc không loại bỏ y ra khỏi không gian mẫu

Trang 25

Chương 2 Trình bày cơ sở lý thuyết các thuật toán méi quan hệ nhân quả và

một số kỹ thuật liên quan

s H1 được định nghĩa là y là nguyên nhân gây ra x Vì việc loại bỏ y ra khỏi

không gian mẫu làm giảm khả năng xuất hiện của +

Đây là các giả thuyết về suy luận nhân quả của các chuyên gia Nhưng trong thực

tế chúng ta cần phải xem xét nhiều sự kiện tổn tại trong không gian mẫu để cóthể kết luận chính xác là 1/có phải là nguyên nhân gây ra x hay không Vì vậy dé

án khóa luận tốt nghiệp của chúng tôi sẽ tìm hiểu cách xác định các cặp có mốiquan hệ nhân quả trong chuỗi dữ liệu thời gian dựa trên đánh giá của các điểm

CAEs.

2.2 Yêu tô điều kiện can và đủ trong suy luận nhân

quả

Điều kiện cần và điều kiện đủ là các trường hợp riêng biệt của quan hệ nhân quả

Chúng ta gọi y va x là các sự kiện gắn liền với việc y là nguyên nhân gây ra x.Đây được gọi là điều kiện đủ khi tat cả các yếu tố gây ra x đều là y Điều kiện cần

là khi y là một trong những các yếu tố gây ra x

Những tiêu dé trên được định nghĩa bởi lau et.al [10].

se Điều kiện cần : Nguyên nhân y phải có mặt trước hệ qua x[10].

* Điều kiện đủ : Nguyên nhân y là tất cả các yêu tố cần thiết để xuất hiện hệ

quả x(10]

Suy về định nghĩa xác suất Nếu xác suất P(y,z|x) lớn hơn P(z|x) đây biểuthị sự cần thiết của y là nguyên nhân để gây ra kết quả x Mặt khác , mức độ đủmạnh của nguyên nhân gây ra kết quả x dựa trên sự xuất hiện của y trước khi

gây tác động ra x Ví dụ , việc gây ra tắc đường không chỉ mình yếu tố giờ caođiểm làm tắc đường , nên chúng ta không thể gọi giờ cao điểm là điều kiện đủlàm tắc đường Mà được gọi là điều kiện cần làm tắc đường

Trang 26

Chương 2 Trình bày cơ sở lý thuyết các thuật toán méi quan hệ nhân quả và

một số kỹ thuật liên quan

2.3 Tổng quan ve dữ liệu và một số phương pháp hiện

có liên quan tới mỗi quan hệ nhân quả

2.3.1 Tổng quan về dir liệu chuỗi thời gian

- Khiá cạnh thời gian trong mối quan nhân quả là vô cùng quan trọng Vì sự xuấthiện trước và sau ảnh hưởng tới việc sự kiện nào gây ra sự kiện nào Vì thế khía

cạnh thời gian giúp bài toán tăng độ tin cậy hơn.

- Hiện nay, chúng ta có rất nhiều bộ dữ liệu sử dụng khía cạnh thời gian Mộttrong só đó là thời gian đơn biến và đa biến

© Đối với dữ liệu thời gian đơn biến là tập dữ liệu chỉ có một biến phụ thuộc

vào một khoản thời gian giúp cho việc du đoán mối quan hệ nhân qua chỉcần dựa vào những lần xuất hiện và tác động của sự kiện trong quá khứ

© Đối với dữ liệu thời gian đa biến là tập dữ liệu có nhiều biến phụ thuộc vào

một khoảng thời gian Vậy nên việc dự đoán mối quan hệ nhân quả khôngchỉ phụ thuộc vào các giá trị trong quả khứ của nó mà còn phụ thuộc vàocác biến khác trong khoảng thời gian đó

Trang 27

Chương 2 Trình bày cơ sở lý thuyết các thuật toán mối quan hệ nhân quả và 13một sô kỹ thuật liên quan

HÌNH 2.1: Biểu dé minh hoa cho bộ dữ liệu thời gian đa biến

Trang 28

Chương 3

Ap dụng các phương pháp tính toán

cho bài toán tim môi quan hệ nhân

quả cho dư liệu thời gian

Chương này chúng tôi sẽ trình bày về những điểm để giúp chúng tôi đánh giá cácmối suy luận nhân quả và các kiến thức liên quan đến bài toán Để giúp hiểu rõhơn về bài toán chúng tôi đưa ra một ví dụ về thời gian bao gồm các sự kiện xảy

ra như bảng[3.1|sau :

Time |0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 #18

Label| xX y ZY x ÿ Z Z X ÿ ÿ Z ÿ ZY X xX Z Z7

BẢNG 3.1: ví dụ về thời gian bao gồm các sự kiện xảy ra

3.1 Các phương pháp tính toán Cost-Effect Association

Score (CEAs)

Ở đây, CEAs là những điểm số dùng để đánh giá các cặp quan hệ nhân quả Tồn

tại rất nhiều CEAs Các score được giới thiệu sau đây sẽ đóng vai trò tiên quyết

trong bài toán "Tìm mối quan hệ suy luận nhân của trong chuỗi dữ liệu thời gian"

của chúng tôi.

Trang 29

Chương 3 Áp dụng các phương pháp tính toán cho bài toán tìm mối quan hệ 15

nhân quả cho du liệu thời gian

3.1.1 Windowns

Chúng ta có giả thuyết rằng, suy luận nhân quả chỉ xảy ra trong một khoảng thời

gian có giới hạn của một sự kiện Từ đó, chúng ta hình thành được một khác niệm

về cửa số là khoảng thời gian được chia nhỏ trong bộ dữ liệu thời gian Trong mộtkhoảng thời gian cố định là w, một sự kiện xảy ra, chúng ta có thể tính được mức

độ đầy đủ và cần thiết như saul3] :

py p(x)

w _ P“(w->)

Theo Bhattacharjya1 et al.B| để có thể tính toán các giá trị P(x|w) va P(y|x)

trong bộ dữ liệu chuỗi thời gian có thể có nhiều lần xuất hiện so le của sự kiện 1/

và sự kiện x trong T Và sự kết hợp với giả định sự ảnh hưởng của suy luận nhân

quả chỉ xảy ra trong một khoảng thời gian giới han là w Nên chúng ta được hai

biểu thức trên Đây là hai biểu thức về mức độ cần thiết và đầy đủ như đã được

đề cập ở phần 2.2 Chúng ta có có những lí giải sau:

° P(x) và P(y) là biểu thị xác suất của sự kiện x và sự kiện y trong toàn bộ

thời gian T.

Trang 30

Chương 3 Áp dụng các phương pháp tính toán cho bài toán tìm mối quan hệ 16

nhân quả cho du liệu thời gian

© p’(y ©— x) là xác suất quan sát được của nguyên nhân nằm trong cửa số

w mà trước kết qua x Ví dụ, theo bảng [3.2] với w = 3 chúng ta có các cặp

phù hợp với biểu thức trên bao gồm:

Thời gian | Sự kiện trong w = 3 | Sự kiện hệ qua đang xét

1-3 yzy x

5-7 VZZ x 12-14 yzy x 13-15 ZYX x

BANG 3.2: Với w = 3, Bảng 1

Ta thu được các kết qua sau:

* Chúng ta có P“( — x) là xác suất quan sát số lần kết quả x xuất hiện mà

nguyên nhân y xuất hiện một hoặc nhiều lần cùng trong khoảng thời gian

w phía trước Với w = 3, chúng ta có tính toán như sau:

Thời gian | Sự kiện trong w = 3 | Sự kiện hệ quả đang xét

2-4 Zyx x

13-15 Zyx x 14-16 yxx x

BANG 3.3: Với w = 3, Bảng 1

Ta thu được các kết quả sau:

Trang 31

Chương 3 Áp dụng các phương pháp tính toán cho bài toán tìm mối quan hệ 17

nhân quả cho du liệu thời gian

3.1.2 Các điểm đánh giá cặp sự kiện

Việc đánh giá các cặp sự kiện sẽ được thực hiện theo phương pháp thử nghiệm

với 2 bộ dữ liệu và 4 CEAs khác nhau.

Trong đó chúng tôi sẽ tính toán thực nghiệm trên một ví dụ sự kiện theo thời gian

bang 1 để dé theo đõi cách tính toán của các điểm

Ở đây Luo et al[11] yêu cầu thêm hai tham số bổ sung ,bao gồm alpha và A là

tham số đánh giá điều kiện cần và điều kiện đủ trong đó A thuộc khoảng [0,1]

Ta có điểm NSTe như sau:

° p’(y — x) là xác suất quan sát số lần kết qua x xuất hiện mà nguyên nhân

y xuất hiện một hoặc nhiều lần trong gian w phía trước đó

© P(x) là xác suất số lần x xuất hiện trong thời gian T

© P(y) là xác suất số lần y xuất hiện trong thời gian T

¢ A là tham số cho trước được truyền vào

¢ ø là tham số cho trước được truyền vào

Theo chúng ta biết , score càng cao thì mức độ tin cậy vào kết quả của mối

quan hệ nhân quả đưa ra càng cao Điểm NSTe dựa vào 2 yếu tố alpha và lamda,

chúng ta có :

Trang 32

Chương 3 Áp dụng các phương pháp tính toán cho bài toán tìm mối quan hệ 18

nhân quả cho du liệu thời gian

© Đối với giá trị của A:

Giá trị A cao hơn sẽ cho thấy mức độ đầy đủ có giá trị cao hơn, giá trị thấp

sẽ cân nhắc mức độ cần thiết

Ta thấy giá P(y|x) là xác suất thể hiện mức độ cần thiết Nên khi P(y|x) cao

cho thấy rằng mức độ cần thiết là cao

Với P(x|y) là xác suất thể hiện mức độ day đủ Nên khi P(x|y) cao thì mức

độ day đủ sẽ cao

© Đối với giá tria:

Nếu alpha mang giá trị cao sẽ lam tăng điểm , vì giá trị a cao sẽ làm giảmmẫu số và do đó tăng điểm của xác suất

NSTe được biểu diễn đơn giản và dé hiểu tuy nhiên nó có nhiều bat lợi như việcchỉ có thể hoạt động trong một khoảng thời gian hữu hạn và các vấn đề xuất hiện

các sự kiện không thường xuyên.

Chúng ta đi tới ví dụ ở bảng 1 Cho các giá trị a = 0.66 là giá trị mang lại kết quả

cao nhất trong Wettler et al.(13] Gia tri A = 0.5theo Luo et al.(11] Dua vao bang

1, chúng ta có kết quả tính như sau :

CIR (The conditional intensity ratio score) được dé xuất bởi Bhattacharjya1 et

al [3] CIR giải quyết được một số hạn chế của NSTe được nêu trên Những van

dé này được giải quyết bằng cách cho phép giải pháp được dé xuất hoạt độngtrên một khoảng thời gian liên tục và đạt được bằng cách không cần đưa ra giả

Trang 33

Chương 3 Áp dụng các phương pháp tính toán cho bài toán tìm mối quan hệ 19

nhân quả cho du liệu thời gian

định dựa trên lịch sử của sự kiện Điều này được định nghĩa bằng công thức như

¢ N(x) là số lần x xuất hiện trong khoảng thời gian T

¢ D(y) được định nghĩa là khoảng thời gian mà có số lần xuất hiện, hay còn

được gọi là tổng các cửa số có kích thước là w có sự xuất hiện ít nhất một sự

kiện ở trong đó được biểu diễn bởi công thức sau:

¢ I(t) là hàm số trả về hai giá trị là 0 hoặc 1 cho biết có xảy ra trong cửa sổ w

trước thời gian hay không Tích phân trên cho kết quả là giá trị số cửa sổ

có kích thước w , chứa ít nhất 1 ytrén dòng thời gian T

¢ N là tổng số sự kiện có trong tập dữ liệu

Với những biểu thức được nêu trên, chúng ta kết hợp để tính toán với bảng 1 như

Trang 34

Chương 3 Áp dụng các phương pháp tính toán cho bài toán tìm mối quan hệ 20

nhân quả cho du liệu thời gian

Đây là 2 thành phan quan trọng để tinh các giá trị của CIR score

Dựa vào những kiến thức trên, tác giả đề xuất hai score CIR như sau:

Ww

CIRg(w,x) = xử

x 1U

CIRc(y,x) = xự

w

xly

Trong do:

© Tử số A” | được gọi là cường độ có điều kiện của y tác động lên x

® Ax gọi là cường độ của sự kiện x.

® A, gọi là cường độ của sự kiện y.

Với hai score trên mang ý nghĩa là mối quan hệ nhân quả sẽ dựa vào độ lớnnhỏ của lamda hay còn gọi là cường độ có điều kiện

Chúng ta sẽ xem xét giá trị thay đổi của lamda có phải do sự ảnh hưởng khi có

xuất hiện yếu tổ y hay không Trong hai score trên ta có lý giải sau:

* C trong CIR, là phần bổ sung của phan cơ sở B trong CIRụ Chúng đưa ra

được kết luận rằng score CIR cho biết :

- Các yếu tố chỉ độc lập khi biểu thức : CIR), = 1

- Các yếu tố sẽ phụ thuộc khi CIR; # 1

Theo bài báo , Ta chứng minh được vì:

¢ Nếu P(x|y,z) = P(x|z) dẫn đến A® | y = Ax Thì chúng ta thu được kết qua

Trang 35

Chương 3 Áp dụng các phương pháp tính toán cho bài toán tìm mối quan đệ

nhân quả cho du liệu thời gian

© Nếu P(x|w,z) # P(x|z) dẫn đến A® | y # Ay Thì chúng ta thu được kết quả

A1%

xly

la # 1 Theo định nghĩa về các yếu tố phụ thuộc đã được nêu ở phan 2

x

thì với CIRg/C(y,x) # 1 cho được kết quả các yêu tố phụ thuộc lẫn nhau

Với ví dụ ở bảng 1, chúng ta tính được giá trị hai score CIR ở trên theo kết quả

Ngoài CIR», CIR, va NST, được nhắc ở trên đều là phương pháp tính điểm đánh

giá giữa hai sự kiện Tác giả dé xuất phương pháp tính thứ 3 là CIR„ với giả thiết

sử dụng sự kiện thứ ba là z

Điều này cho ra vì thực tế cho ta thấy rằng với một kết quả x khó có thể chỉ phụthuộc vào một nguyên nhân Ví dụ , với kết quả là tắc xe thì không phải mình

nguyên nhân là giờ cao điểm mà bên cạnh đó còn có thể có các nguyên nhân khác

như ngày lễ, thời tiết , sự cố giao thông „

Vì vậy ý tưởng của score CIRm là đối với một cặp sự kiện (x,y) thì kết quả x sẽ

không chỉ có một nguyên nhân là y mà còn có một tập hợp các nguyên nhân Z

khác Dẫn đến xác xuất của P(x|) < P(x|yuZ) trong đó Z là một tập hợp có thé

là nguyên nhân gây ra x Hay là tỉ lệ x phụ thuộc vào việc liệu y hợp tập hợp Z có

xảy ra trong cửa sổ w trước đó hay không.

Ta có công thức tính CIRm được tác giả sửa đổi như sau :

Trang 36

Chương 3 Áp dụng các phương pháp tính toán cho bài toán tìm mối quan hệ 22

nhân quả cho du liệu thời gian

Theo như bài báo Bhattacharjya et al [2], phương pháp xác định tap U được định

nghĩa như sau:

® Sơbộ:

- Bộ dữ liệu sự kiện được định nghĩa D = (Ï;, tin, với f; là thời điểm sự

kiện thứ ¡ xuất hiện và L;là tên của sự kiện

- Là Log likelihood maximizing window từ tập cha Z của nút X.

e Thuật toán tim tập U.

Để tìm tập U, tác giả bài báo đã đưa ra 2 giải thuật:

- Giải thuật 1: Tìm tập hợp các sự kiện có thé nằm trong tập U và bộ

window size thích hợp.

- Giải thuật 2: Ap dung các thông số vừa tìm được vào bài toán Forward

Backward search.

Ngày đăng: 23/10/2024, 10:17

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN