TOM TAT KHOA LUAN Trong khoá luận tốt nghiệp của chúng tôi dưới đây , chúng tôi tìm hiểu về bài toán " Tìm mối quan hệ nhân quả giữa các chuỗi thời gian sự kiện".. Sau khoá luận tốt nghi
Trang 1ĐẠI HỌC QUÓC GIA TP HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
ĐÀO THỊ THU NGA NGUYÊN KHÁNH TOÀN
KHÓA LUẬN TÓT NGHIỆP
PHÁT HIỆN QUAN HỆ NHÂN QUÁ TRONG BỘ DỮ
LIEU CHUOI THỜI GIAN SỰ KIEN
CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH
TP HO CHÍ MINH, 2021
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC MAY TINH
ĐÀO THI THU NGA NGUYEN KHANH TOAN
KHOA LUAN TOT NGHIEP PHAT HIEN QUAN HE NHAN QUA TRONG BO DU LIEU
CHUOI THỜI GIAN SU KIỆN
INFERRING CAUSALITY RELATIONSHIP IN TIME SERIES EVENT
CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH
GIẢNG VIÊN HƯỚNG DAN
TS MAI TIỀN DŨNG
TS HÒ THỊ THẢO NGUYÊN
TP HO CHÍ MINH, 2021
Trang 3DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số T8ầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
¬ ceeeeeeeeeeeeeeeeeeeaes — Chủ tịch.
2 .— Thư ký.
3 Ủy viên.
4 .— Ủy viên.
Trang 4LOI CAM ON
Trước tiên, chúng em xin chân thành cảm ơn thay Mai Tiến Dũng và cô Hồ Thị
Thảo Nguyên tuy tình hình dịch bệnh phức tạp nhưng thay và cô đã tận tình
giúp đỡ hướng dẫn và định hướng chúng em để có thể hoàn thành khóa luận
tốt nhất Đặc biệt rằng tụi em cảm ơn cô Nguyên vì tuy có khoảng cách vẻ địa lý
và thời gian nhưng cô van sắp xép thời gian của mình để giúp đỡ và hướng dẫn
chúng em nhiều nhất có thể Sau cùng, chúng em xin gửi lời cảm ơn các bạn sinh
viên tại lớp KHTN2018 trường Đại học Công nghệ thông tin đã nhiệt tình hỗ trợ
chúng em về cả kiến thức và cùng nhau thực hành trong quá trình làm khóa luận.
Chúng em xin chân thành cảm ơn.
Trang 5Muc luc
[TÓM TAT KHOA LUẬN xiii
TONG QUAN 1
1.1 Giới thiệu đề tai] ee ee 1
Cee eee eee 2
SO re 3
[L3 Tổng quan tiếp cận bài toán| 4
[I4 THÁCH THÚC ,MỤC TIÊU VÀ PHẠM VI| 5
141 TháchdTúc| 4à / 5
Nội dung 2: Tìm hiểu và đánh giá các phương pháp liên quan| 7
1.6 Cấu trúc Khóa luận tốt nghiệp| - 7
2 Trình bày cơ sở lý thuyết các thuật toán mối quan hệ nhân quả và một
so kỹ thuật liên quan 8
Bi Cøsờw tuyết vềsuy lận nhân guẢ 8
2.1.1 Cosdly thuyết xác suất
2.1.2 Dinh nghĩa về suy luận nhân quả| 9
Granger causality[6] | Se 9 Gia thuyét của D.Bhattacharjya| 3] ¬
E2 Yếu tố điều kiện cần và đủ trong suy luận nhân quả| 11
|
Trang 6môi quan hệ nhân quả và và va
[2.3.1 Tổng quan vẻ dữ liệu chuỗi thời gian|
quả cho dư liệu thời gian|
.1 Các phương pháp tính toán Cost-Effect Association Score (CEAs)|
Thực nghiệm trên bộ dữ liệu Metro Interstate Traffic Volume
3 Áp dụng các phương pháp tính toán cho bài toán tìm mối quan hệ nhân
14 14
|Hit@K cho các score NST, CIRp, CIRc trên bộ du liệu Metro
Interstate Traffic Volume dataset}
: Xử lý đữ liệu)
Phan cụm cho các cột dữ liệu|
Phuong pháp thực nghiệm|
Trang 7Traffic Volume Dataset và Beijing Multi-Site Air-Quality DataSet] 42
Kết quả thực nghiệm trên tập dữ liệu Beijing Multi-Site
Trang 8Danh sach hinh ve
1.1 Hình ảnh minh hoa vẻ bài toán| - 3
1.2 Hình ảnh minh hoạ tổng quan về bài toán 5 2.1 Biểu đồ minh hoa cho bộ dữ liệu thời gian đa biến | 13
{3.1 Optimal Parent Set Search| 23
3.2 Thuật toán Forward backward Search| 25
[41 Biểu đồ biểu diễn dữ liệu Weather-description| 30
.2_ Biểu dé biểu diễn dữ dữ liệu Clouds-alll 31
3 Bộ dữ liệu Air-Ouality[j9]] 37
Trang 9Danh sách bảng
3.1 Ví dụ về thời gian bao gom các su kiện xảy ra 14
¬ 16 3.3_ viduWindow =3] ẶQ Q Q Q eee 16
4.2 Bảng uớc lượng tác động các sự kiện thời tiết lên lưu lượng giao
my 28 33
4.3 Kết quả đánh giá vớik=5| So 35
4.5 Kết quả đánh giá vớik=15| - 354.6 Kết quả đánh giávớik=20| 36
4.7 Bảng phân cụm sự tác động của các sự kiện lên PM25 40 4.8 Bang phân cụm sự tác động của các sự kiện lên 10 40
4.9 Phân cụm nhiệt độ điểm sương trong tập dữ liệu Air Quality| 41
4.10 Phân cụm lượng mưa trong tập du liệu Air Quality) 41 4.11 Phân cụm nhiệt độ trong tập dtr liệu Air Quality
4.12 Phân cụm tốc độ gió trong tập dữ liệu Air Quality
4.13 Kết quả thực nghiệm bộ dữ liệu Beijing Multi-Site Air-Quality DataSet
với Score CIRp - W7ndot0nS1ze = l[ ẶẶẶ 42
4.14 Kết quả thực nghiệm bộ dit liệu Beijing Multi-Site Air-Quality DataSet
4.15 Kết quả thực nghiệm bộ dit liệu Beijing Multi-Site Air-Quality DataSet
với Score CIRp - WindownSize = 5) -.000005 43
4.16 Kết quả thực nghiệm bộ dit liệu Beijing Multi-Site Air-Quality DataSet
với Score CIRp - WindownSize= 10) 00 44
4.17 Ket quả thực nghiệm bộ dữ liệu Beijing Multi-Site Air-Quality DataSet
Trang 10với Score CIRc - WindownSize = 3) 2.0.00 ee ee 45
4.19 Kết quả thực nghiệm bộ dit liệu Beijing Multi-Site Air-Quality DataSet
voi Score CIRc - WindownSize=5| 2.00-000% 45
4.20 Kết qua thực nghiệm bộ dữ liệu Beijing Multi-Site Air-Quality DataSet
với Score CIRc - WindownSize = 10| 46
4.21 Kết quả thực nghiệm bộ dit liệu Beijing Multi-Site Air-Quality DataSet
với Score NSTe - Windot0nS1ze = lÌ 46
4.22 Kết quả thực nghiệm bộ dit liệu Beijing Multi-Site Air-Quality DataSet
với Score NSTe - WindownSize = 3Ì 47
4.23 Kết quả thực nghiệm bộ dit liệu Beijing Multi-Site Air-Quality DataSet
với Score NSTe - WindotunS1ze =53] 47
4.24 Kết quả thực nghiệm bộ dữ liệu Beijing Multi-Site Air-Quality DataSet
với Score NSTe - WindotunS1ze = 5| 48
4.25 Kết quả thực nghiệm với Score NSTe bộ dữ liệu Metro Interstate Traffic
—NẺV_ R 484.26 Kết quả thực nghiệm với Score NSTe bộ dữ liệu Metro Interstate Traffic
Trang 114.34 Kết quả thực nghiệm với Score CI Rc bộ dữ liệu Metro InterstateTraffic
Volume Dataset WindotunSize=3Ì 53
4.35 Kết quả thực nghiệm với Score CIRc bộ dir liệu Metro InterstateTraffic
Volume Dataset W/ndou1ñSize=53|} 53
Trang 12Danh muc tir viét tat
CEAs Cost- Effect Association score NSTe score The- Necessity Trade-off score
CIR score The- Conditional Intensity Ratio score
Trang 13TOM TAT KHOA LUAN
Trong khoá luận tốt nghiệp của chúng tôi dưới đây , chúng tôi tìm hiểu về bài toán " Tìm mối quan hệ nhân quả giữa các chuỗi thời gian sự kiện" Với việc tìm hiểu tiềm năng sự phát triển của bài toán về các lĩnh vực trí tuệ nhân tạo , sinh thái sống , Chting tôi sự dụng và phân tích thêm các công cụ hiện có để nhằm đánh giá các mối quan hệ nhân quả Trong khoá luận của chúng tôi , xoay quanh việc sử dụng các khái niệm về lí thuyết xác suất thống kê , xử lý dữ liệu , tìm hiểu một số cách tiếp cận về các điểm hiện có sau đó đọc tìm hiểu các bài báo của chuyên gia để đưa ra bộ ground truth phù hợp với bộ dữ liệu hiện có nhằm có kết quả đánh giá chính xác nhất.
Bài toán chúng tôi tìm hiểu có ý tưởng vẻ việc các sự kiện sẽ có mối quan hệ nhân - quả với nhau Được minh hoạ bằng với việc xét trời mưa nếu trước có sự xuất hiện của mây đen sẽ làm cho xác xuất xuất hiện mưa sẽ cao hơn Từ đó , bài toán của chúng tôi sẽ góp phần cải thiện được các bài toán hiện có như dự báo nhằm giúp phan cải thiện cuộc sóng Ví du với bài toán liên quan đến chủ dé giao thông, với việc hôm nay là ngày lễ thì xác suất xảy ra tắc đường là rất lớn Chính
vì vậy , bài toán của chúng tôi sẽ đưa ra sự kiện ngày lễ xảy ra có khả năng cao
sẽ làm cho việc tắc đường xảy ra Chúng tôi nhằm mục tìm hiểu , phân tích xác định xem một số sự kiện có trong tập hợp sự kiện của một loại nhất định, có thể
ít hay nhiều có quan hệ nhân quả với một số sự kiện khác dựa trên các sự kiện phù thuộc nhau vào thời gian hay không.
Chúng tôi thử nghiệm trên hai tập dữ liệu khác nhau đã được thực hiện Thử
nghiệm đầu tiên chúng tôi sử dụng tập dữ liệu thực tế từ New York bao gồm lưu
lượng giao thông là hiệu ứng và các hiện tượng thời tiết khác nhau là nguyên
nhân, trong đó mục tiêu là đánh giá các sự kiện khí tượng khác nhau ảnh hưởng
đến cường độ giao thông hay không Các cặp nhân quả này sẽ được đánh giá dựa trên bộ ground truth có cơ sở, trong trường hợp này là ý kiến của chuyên gia về các sự kiện nói trên như là về snow , haze có ảnh hưởng đến bao nhiêu phan tram
tới traffic.
Trong thử nghiệm thứ hai là một tập dữ liệu có trụ sở tại Trung Quốc đã được sử dụng Bộ dữ liệu này bao gồm các hiện tượng thời tiết khác nhau như trời mưa
Trang 14„ nhiệt độ là nguyên nhân và nồng độ của các hat PM10, PM2.5 trong không khí
là hiệu ứng Thí nghiệm này nhằm tìm ra các cặp nhân quả giữa các sự kiện khí tượng và ô nhiễm không khí và xây dựng bộ ground truth từ ý kiến của chuyên gia từ đó đánh giá từng cặp trên có mối quan hệ nhân qủa hay không Hai thí nghiệm này đều được đánh giá, minh họa và được sử dụng làm cơ sở cho cuộc thảo luận và kết luận.
Sau khoá luận tốt nghiệp này , chúng tôi đã tìm hiểu được một số phương pháp
thực hiện và đánh giá các cặp mối quan hệ nhân quả trong bộ dự liệu phụ thuộc
thời gian Với tiềm năng của bài toán nêu trên, đây sẽ là bước đệm của chúng tôi
để phát triển và tìm hiểu nhiều hơn trong lĩnh vực này.
Trang 15Chương 1
TỔNG QUAN
Trong chương này chúng tôi giới thiệu tổng quan về bài toán "Phát hiện mối quan
hệ nhân quả trong bộ dữ liệu chuỗi thời gian sự kiện" Đồng thời chúng tôi cũng trình bày về mục tiêu, phương pháp thực hiện và những đóng góp của chúng tôi
trong khóa luận này.
1.1 Giới thiệu dé tài
Với sự phát triển của số hoá đi kèm với nhu cầu về lưu trữ và khai thác phân tích dtr liệu ngày một cao Điều đó đã thúc đẩy cho việc sử dụng phân tích dữ liệu vào các bài toán thực tế nhằm mục đích giúp con người phát triển và cải thiện
cuộc sống đặc biệt là trong các lĩnh vực vẻ y tế, giao thông , chứng khoán,
Tìm mối quan hệ nhân quả từ dữ liệu chuỗi thời gian đã được nghiên cứu chuyên sâu qua rất nhiều năm trên nhiều lĩnh vực thực tế Kết quả của mối quan hệ nhân
quả phù hợp với các lĩnh đang phát triển như trí tuệ nhân tạo và sinh thái học[7].
Trong khóa luận tốt nghiệp này, chúng tôi xây dựng lại bài toán tìm mối quan
hệ nhân quả với dữ liệu chuỗi thời gian trên 2 tập dữ liệu Beijing Multi-Site
Air-Quality Dataset dataset[14] và Metro Interstate Traffic Volume đatasetf8].
Trong đó tập dữ liệu Metro Interstate Traffic Volume dataset là dữ liệu đời thực đến từ New York bao gồm lưu lượng giao thông là hệ quả và các hiện tượng thời tiết khác nhau là nguyên nhân Mục tiêu là đánh giá các sự kiện khí tượng, thời tiết khác nhau nhưng có ảnh hưởng đến cường độ giao thông Các cặp nhân quả
này sẽ được đánh giá dựa trên một bộ sự thật cơ bản được tham khảo từ các
nguồn tài liệu có liên quan để xác định được mối liên hệ cơ bản của các sự kiện.
Trang 16Chương 1 TONG QUAN 2
Bộ thứ hai Beijing Multi-Site Air-Quality Dataset một tập dữ liệu ở Trung
Quốc Tập dữ liệu này bao gồm các sự kiện thời tiết khác nhau như mưa , nắng , gió , 1 sự kiện nguyên nhân va nồng độ của các hat PM10, P2.5 trong không khí
là sự kiện hệ quả Thử nghiệm này nhằm để tìm ra sự ảnh hưởng của các yếu tố thời tiết tới chất lượng không khí Từ đó đánh giá từng cặp này dựa trên tài liệu
về ảnh hưởng của các yếu tố thời tiết lên lưu lượng giao thông, từ đó xây dựng
bộ Ground truth cho bộ dataset Beijing Multi-Site Air-Quality Dataset (14).
Từ hai bộ dữ liệu trên chúng tôi tìm hiểu tổng quan các phương pháp , các điểm tính CEAs và thuật toán đánh giá khi áp dụng vào trong bài toán.
1.2 Giới thiệu bài toán
Thời đại hiện nay đang có một nền công nghệ càng ngày phát triển với bộ dữ liệu
chuỗi thời gian đồi dào về các hệ thống mà con người có thể đo lường được như
hiện tượng thời tiết, tình trạng xe cộ, chứng khoán, Bộ dữ liệu sẽ chứa đựng các
sự kiện có liên quan với nhau
Tại hội nghị các tác giả của bài báo "Cause-Effect Association between Event Pairs
in Event Datasets" [3] đã đề xuất các giải pháp bao gồm hệ số tính toán va phương
pháp đo lường độ chính xác về các cặp sự kiện có quan hệ nhân quả Sau khi được công bồ bài toán đã được mở rộng ra rat nhiều tài liệu khác Chính vì lợi ích
và thành tựu của nhóm nghiên cứu đã mang lại được những kết quả và là tiên đề cho nhiều bài toán đằng sau.
Bài toán của chúng tôi sẽ biểu diễn mối quan hệ giữa các sự kiện bằng mô hình
đồ thị Từ đó, phát hiện mối quan hệ nhân quả giữa trên các sự kiện trong tập dữ
liệu chuỗi thời gian sự kiện Trong đó :
© Đầu vào:
o Tập hợp các dữ liệu ghi nhận được các sự kiện có chứa các thuộc tính theo
một lĩnh vực nhất định theo thời gian.
o Các sự kiện cần xác định mối quan hệ nhân quả.
© Dau ra:
o Các cặp sự kiện có mối quan hệ nhân quả.
Trang 17Chương 1 TONG QUAN 3
Ví dụ :
© Đối với chủ đề về giao thông , bộ dữ liệu của chúng ta cần chứa các sự kiện
phụ thuộc thời gian và có chứa thuộc tính tương đương như là ngày lễ , thời
tiết, tai nạn , Day là các sự kiện có khả năng ảnh hưởng đến giao thông.
HINH 1.1: Hình ảnh minh hoạ về bài toán.
Vi dụ về bài toán
Chúng ta xét 3 sự kiện: pin yếu, máy tính tắt, trình phát video không hoạt động.
Sự kiện “pin yếu” là nguyên nhân của “máy tính tất” và “trình phát video không
hoạt động”.
Sự kiện “máy tính tắt” và “trình phát video không hoạt động” có mối tương quan
với nhau nhưng không có quan hệ nhân quả bởi vì việc một trong 2 sự kiện này xảy ra hoàn toàn không ảnh hưởng tới sự kiện kia.
Trang 18Chương 1 TONG QUAN 4
Runs out of battery
1.3 Tổng quan tiếp cận bài toán
Bài toán được tiếp cận dựa trên các lý thuyết về xác suất thống kê Dé có thể xử lý
bài toán, dữ liệu phải có giá trị rời rạc, tuy nhiên dữ liệu gốc là các biến có miền
giá trị liên tục Giải pháp chúng tôi đưa ra là xử lý miễn giá trị rời rạc sang liên
tục bằng phương pháp chia cụm.
Để tìm ra các cặp sự kiện có quan hệ nhân quả, chúng tôi sử dụng các độ đo để
xem xét mức độ nhân quả của các cặp sự kiện, các cặp sự kiện có điểm càng cao
thì khả năng cặp sự kiện đó có quan hệ nhân quả càng lớn (Tương tự bài toán
truy vấn)
Để đánh giá kết quả chúng tôi xây dựng bộ Ground truth (dựa trên các tài liệu,
nghiên cứu mức độ ảnh hưởng của các sự kiện) Chúng tôi sử dụng độ đo Hits@K
để đánh giá kết quả dựa trên bộ Ground Truth
Dưới đây là sơ đồ minh hoạ tổng quan về bài toán của chúng tôi.
Trang 19Chương 1 TONG QUAN 5
HÌNH 1.2: Hình ảnh minh hoa tổng quan vẻ bài toán.
1.4 THÁCH THUC, MỤC TIÊU VÀ PHAM VI
1.41 Thách thức
Trong quá trình thực hiện khoá luận và chúng tôi gặp phải những thách thức chính sau:
- Tập dữ liệu chuỗi thời gian để phục vụ cho bài toán còn hạn chế Việc tự tạo bộ
đữ liệu rất khó khăn Vậy nên chúng tôi chọn 2 bộ dữ liệu là Beijing Multi-Site Air-Quality Dataset và Metro Interstate Traffic Volume Dataset để áp dụng vào khoá luận tốt nghiệp này.
- Việc áp dụng bài toán quan hệ nhân quả vào thực tế là vô cùng khó khăn vì việc đánh giá cần có bộ ground truth chính xác và lý thuyết về mối quan hệ nhân quả chưa được rộng rãi trong nước và ít nguồn tham khảo công khai.
1.42 Mục tiêu
Chúng tôi có dé ra 3 mục tiêu cho khóa luận :
¢ Tim được 2 bộ dữ liệu phù hợp để tiến hành thực nghiệm bài toán.
Trang 20Chương 1 TONG QUAN 6
¢ Triển khai thực hiện va tìm hiểu bài toán với các độ đo có sẵn Trong đó có
độ đo CIRy sẽ cần hiện thực lại bài toán xây dựng đồ thị cho các sự kiện,
từ đó tìm tập hợp các sự kiện là nút cha của sự kiện cần xét.
¢ Xây dung được các mối quan hệ nhân quả va từ đó hỗ trợ kết quả cho các bài toán dự báo.
1.43 Pham vi
Trong phạm vi khóa luận tốt nghiệp , tương ứng với mục tiêu , chúng tôi tap trung giải quyết các nội dung sau :
* Tìm hiểu về khái niệm mối quan hệ nhân quả , cách xây dựng định nghĩa
và score đánh giá hiện có.
® Xây dựng được các mối quan hệ nhân quả từ bộ dit liệu Từ đó so sánh và
đánh giá mức độ cải thiện so với bài toán dự báo.
1.5 Đóng gop của khoá luận
Một số đóng góp của khóa luận:
*_ Tìm hiểu các thuật toán và kỹ thuật liên quan tới tìm mối quan hệ nhân quả.
¢ Thực nghiệm lại bài toán tim quan hệ nhân quả giữa các sự kiện
s Xây dựng bộ ground truth ( cách sử dung ground truth sao cho phù hợp
với bộ dữ liệu).
© Thực thi và đánh giá so sánh giữa các độ đo hiện tại để giải quyết bài toán mối quan hệ nhân quả.
1.5.1 Nội dung thực hiện
Nội dung 1: Tìm hiểu phương pháp xây dựng mô hình đồ thị thể hiện mối liên
quan giữa các sự kiện.
¢ Tìm hiểu phương pháp xây dựng mô hình đồ thi thể hiện quan hệ giữa các
sự kiện.
Trang 21Chương 1 TONG QUAN 7
¢ Từ mô hình đồ thị, tìm các sự kiện là nút cha trong dé thị cho một sự kiện
dé áp dung tính toán cho score CIRM
¢ Thực nghiệm trên bộ dữ liệu thực tế và đánh giá, so sánh kết quả.
Nội dung 2: Tìm hiểu và đánh giá các phương pháp liên quan
» Biểu diễn mối quan hệ giữa các sự kiện bằng mô hình đồ thị.
¢ Tim hiểu, phân tích các phương pháp đánh giá mối quan hệ nhân quả giữa
hai sự kiện.
¢ Đánh giá và lựa chọn phương pháp phù hợp với năng lực và khả năng tính toán.
1.6 Cấu trúc Khóa luận tốt nghiệp
Khoá luận có cấu trúc như sau:
Chương 1 : Giới thiệu tổng quan vẻ đề tài.
Chương 2: Trình bày cơ sở lý thuyết các thuật toán mối quan hệ nhân quả và một
số kỹ thuật liên quan.
Chương 3: Áp dụng các phương pháp tính toán cho bài toán tìm mối quan hệ
nhân quả trong dw liệu thời gian
Chương 4: Trình bày kết quả thực nghiệm và phân tích các phương pháp đã thực hiện.
Chương 6: Trình bày kết luận và các hướng phát triển trong tương lai.
Trang 22Chương 2
Trình bày cơ sở lý thuyết các thuật
toán mối quan hệ nhân quả và một số
ky thuật liên quan
Trong chương này, chúng tôi trình bày một số kiến thức nền tảng liên quan đến
bài toán "Phát hiện quan hệ nhân quả trong bộ dữ liệu chuỗi thời gian sự kiện"
với các định nghĩa về suy luận nhân quả, kiến thức toán học.
2.1 Cơ sở lý thuyết về suy luận nhân qua
Để tìm hiểu rõ về bài toán suy luận nhân quả , chúng ta sẽ đi tìm hiểu một số
định nghĩa cơ bản xung quanh suy luận nhân quả.
2.1.1 Cơ sở lý thuyết xác suất
¢ Việc tìm ra mối quan hệ nhân quả can liên quan nhiều đến lý thuyết xác
suất Lý thuyết xác suất là lĩnh vực toán học xác định các hàm xác suất được
sử dụng Ký hiệu P(x) là xác suất của x Được xác định bằng số lần xuất
hiện của X trên tập dữ liệu chia cho kích thước dữ liệu.
P(x) =)
® Xác suất có điều kiện là xác xuất của su kiénx chứa điều kiện y so trên toàn
bộ tập dữ liệu Được ký hiệu P(x|y) được gọi là xác suất có điều kiện của+.
Trang 23Chương 2 Trình bày cơ sở lý thuyết các thuật toán méi quan hệ nhân quả và
một số kỹ thuật liên quan
P(x
© Trong xác suất có điều kiện có giới thiêu các khái niệm về sự độc lập và phụ
thuộc Chúng được định nghĩa với (x,y) được gọi là một cặp biến cố trong
đó x[]T va xy là biến cố độc lập và phụ thuộc như sau :
- Nếu việc xảy ra hay không xảy ra của biến cố này không làm thay đổi xác
suất xảy ra của biến cô kia và ngược lại Biéu diễn qua công thức xác suất :
P(X|Y) = P(X) và P(Y/X) = P(Y)
2.1.2 Định nghĩa về suy luận nhân quả
Trong những năm vừa qua đã xuất hiện rất nhiều định nghĩa về suy luận nhân
quả với dữ liệu chuỗi thời gian của các nhà phân tích dit liệu và kinh tế học
Với mỗi suy luận nhân quả có thể có những ý nghĩa khác nhau tùy thuộc vào các
lĩnh vực khác nhau Vì vậy có tồn tại sự thiếu đồng nhất về cách xác định mốiquan hệ nhân quả.
Sau đây , chúng tôi xin giới thiệu một số định nghĩa khái quát được sử dụngthường xuyên về suy luận nhân quả
Granger causality[6]
e Đây là khái niệm sớm nhất về suy luận nhân quả đối với dir liệu chuỗi thời
gian của Granger [6]
s Ở đây , quan hệ nhân quả đối với chuỗi thời gian được dựa trên việc đối
chiếu khả năng dự đoán một sự kiện ngẫu nhiên X bằng cách sử dụng tất
cả các thông tin của không gian mẫu U so sánh với việc dự đoán 1 sự kiện
ngẫu nhiên X bằng cách sử dụng tat cả các thông tin của không gian mẫu Ungoại trừ một số quả trình ngẫu nhiên Y Nếu việc loại bỏ Y làm giảm khả
năng liên quan đến X , thì Y chứa một số thông tin liên quan tới X Do đó,
chúng ta gọi Y là nguyên nhân gây ra X.
Trong kết luận của Granger|6] đã đưa ra hai tiêu dé sau đây :
Trang 24Chương 2 Trình bày cơ sở lý thuyết các thuật toán méi quan hệ nhân quả và
một số kỹ thuật liên quan
e Tiên dé 1 : Qua khứ có thể ảnh hưởng đến tương lai nhưng tương lai không
thể ảnh hưởng đến quá khứió|,.
e Tiên đề 2 : Trong trường hợp Y là nguyên nhân gây ra X, Y có thể mang
những đặc điểm tinh chất đặc trưng của X[6].
Dựa vào các tiêu dé trên nhân quả Granger được suy luận theo cách sau:
¢ Với A là một tập rỗng ngẫu nhiên , ¢ là khoảng thời gian, y(t) là sự kiện y
tại thời điểm ¢ và x(t + 1) là sự kiện x tại thời điểm t + 1 Hay được hiểu là
xuất hiện trước x Ngoài ra , chúng ta có w chứa tat cả các thông tin của
lĩnh vực đang xét tới hay còn gọi là không gian mẫu w Trong đó, w(t) là
không gian mẫu tại thời điểm t.
© Với và z đều xuất hiện trước x Chúng ta thấy được rằng y là nguyên nhân
gây ra x nêu với không gian mẫu chứa tat cả thông tin là y Uz loại bỏ sự
kiện y làm cho xác suất có điều kiện của về phải giảm so với về trái Mặt
khác, khi tổn tại thì xác suất có điều kiện sẽ tăng lên Vì vậy, sự kiện cóthể chứa các yếu tố gây ra sự kiện x Hay còn gọi y là nguyên nhân gây ra x
Giả thuyết của D.Bhattacharjya[3]
Giả thuyết đưa ra được 2 định nghĩa để giải quyết tìm mối quan hệ nhân quả như
sau:
Họ: P(x | y,z) = P(x | z) Hy: P(x | y,z) > P(x | z)
* HO được định nghĩa là không ảnh hưởng đến x Hay là y khong phải là
nguyên nhân gây ra x Vì việc loại bỏ ra khỏi không gian mẫu không có
xác suất bằng với việc không loại bỏ y ra khỏi không gian mẫu
Trang 25Chương 2 Trình bày cơ sở lý thuyết các thuật toán méi quan hệ nhân quả và
một số kỹ thuật liên quan
s H1 được định nghĩa là y là nguyên nhân gây ra x Vì việc loại bỏ y ra khỏi
không gian mẫu làm giảm khả năng xuất hiện của +
Đây là các giả thuyết về suy luận nhân quả của các chuyên gia Nhưng trong thực
tế chúng ta cần phải xem xét nhiều sự kiện tổn tại trong không gian mẫu để cóthể kết luận chính xác là 1/có phải là nguyên nhân gây ra x hay không Vì vậy dé
án khóa luận tốt nghiệp của chúng tôi sẽ tìm hiểu cách xác định các cặp có mốiquan hệ nhân quả trong chuỗi dữ liệu thời gian dựa trên đánh giá của các điểm
CAEs.
2.2 Yêu tô điều kiện can và đủ trong suy luận nhân
quả
Điều kiện cần và điều kiện đủ là các trường hợp riêng biệt của quan hệ nhân quả
Chúng ta gọi y va x là các sự kiện gắn liền với việc y là nguyên nhân gây ra x.Đây được gọi là điều kiện đủ khi tat cả các yếu tố gây ra x đều là y Điều kiện cần
là khi y là một trong những các yếu tố gây ra x
Những tiêu dé trên được định nghĩa bởi lau et.al [10].
se Điều kiện cần : Nguyên nhân y phải có mặt trước hệ qua x[10].
* Điều kiện đủ : Nguyên nhân y là tất cả các yêu tố cần thiết để xuất hiện hệ
quả x(10]
Suy về định nghĩa xác suất Nếu xác suất P(y,z|x) lớn hơn P(z|x) đây biểuthị sự cần thiết của y là nguyên nhân để gây ra kết quả x Mặt khác , mức độ đủmạnh của nguyên nhân gây ra kết quả x dựa trên sự xuất hiện của y trước khi
gây tác động ra x Ví dụ , việc gây ra tắc đường không chỉ mình yếu tố giờ caođiểm làm tắc đường , nên chúng ta không thể gọi giờ cao điểm là điều kiện đủlàm tắc đường Mà được gọi là điều kiện cần làm tắc đường
Trang 26Chương 2 Trình bày cơ sở lý thuyết các thuật toán méi quan hệ nhân quả và
một số kỹ thuật liên quan
2.3 Tổng quan ve dữ liệu và một số phương pháp hiện
có liên quan tới mỗi quan hệ nhân quả
2.3.1 Tổng quan về dir liệu chuỗi thời gian
- Khiá cạnh thời gian trong mối quan nhân quả là vô cùng quan trọng Vì sự xuấthiện trước và sau ảnh hưởng tới việc sự kiện nào gây ra sự kiện nào Vì thế khía
cạnh thời gian giúp bài toán tăng độ tin cậy hơn.
- Hiện nay, chúng ta có rất nhiều bộ dữ liệu sử dụng khía cạnh thời gian Mộttrong só đó là thời gian đơn biến và đa biến
© Đối với dữ liệu thời gian đơn biến là tập dữ liệu chỉ có một biến phụ thuộc
vào một khoản thời gian giúp cho việc du đoán mối quan hệ nhân qua chỉcần dựa vào những lần xuất hiện và tác động của sự kiện trong quá khứ
© Đối với dữ liệu thời gian đa biến là tập dữ liệu có nhiều biến phụ thuộc vào
một khoảng thời gian Vậy nên việc dự đoán mối quan hệ nhân quả khôngchỉ phụ thuộc vào các giá trị trong quả khứ của nó mà còn phụ thuộc vàocác biến khác trong khoảng thời gian đó
Trang 27Chương 2 Trình bày cơ sở lý thuyết các thuật toán mối quan hệ nhân quả và 13một sô kỹ thuật liên quan
HÌNH 2.1: Biểu dé minh hoa cho bộ dữ liệu thời gian đa biến
Trang 28Chương 3
Ap dụng các phương pháp tính toán
cho bài toán tim môi quan hệ nhân
quả cho dư liệu thời gian
Chương này chúng tôi sẽ trình bày về những điểm để giúp chúng tôi đánh giá cácmối suy luận nhân quả và các kiến thức liên quan đến bài toán Để giúp hiểu rõhơn về bài toán chúng tôi đưa ra một ví dụ về thời gian bao gồm các sự kiện xảy
ra như bảng[3.1|sau :
Time |0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 #18
Label| xX y ZY x ÿ Z Z X ÿ ÿ Z ÿ ZY X xX Z Z7
BẢNG 3.1: ví dụ về thời gian bao gồm các sự kiện xảy ra
3.1 Các phương pháp tính toán Cost-Effect Association
Score (CEAs)
Ở đây, CEAs là những điểm số dùng để đánh giá các cặp quan hệ nhân quả Tồn
tại rất nhiều CEAs Các score được giới thiệu sau đây sẽ đóng vai trò tiên quyết
trong bài toán "Tìm mối quan hệ suy luận nhân của trong chuỗi dữ liệu thời gian"
của chúng tôi.
Trang 29Chương 3 Áp dụng các phương pháp tính toán cho bài toán tìm mối quan hệ 15
nhân quả cho du liệu thời gian
3.1.1 Windowns
Chúng ta có giả thuyết rằng, suy luận nhân quả chỉ xảy ra trong một khoảng thời
gian có giới hạn của một sự kiện Từ đó, chúng ta hình thành được một khác niệm
về cửa số là khoảng thời gian được chia nhỏ trong bộ dữ liệu thời gian Trong mộtkhoảng thời gian cố định là w, một sự kiện xảy ra, chúng ta có thể tính được mức
độ đầy đủ và cần thiết như saul3] :
py p(x)
w _ P“(w->)
Theo Bhattacharjya1 et al.B| để có thể tính toán các giá trị P(x|w) va P(y|x)
trong bộ dữ liệu chuỗi thời gian có thể có nhiều lần xuất hiện so le của sự kiện 1/
và sự kiện x trong T Và sự kết hợp với giả định sự ảnh hưởng của suy luận nhân
quả chỉ xảy ra trong một khoảng thời gian giới han là w Nên chúng ta được hai
biểu thức trên Đây là hai biểu thức về mức độ cần thiết và đầy đủ như đã được
đề cập ở phần 2.2 Chúng ta có có những lí giải sau:
° P(x) và P(y) là biểu thị xác suất của sự kiện x và sự kiện y trong toàn bộ
thời gian T.
Trang 30Chương 3 Áp dụng các phương pháp tính toán cho bài toán tìm mối quan hệ 16
nhân quả cho du liệu thời gian
© p’(y ©— x) là xác suất quan sát được của nguyên nhân nằm trong cửa số
w mà trước kết qua x Ví dụ, theo bảng [3.2] với w = 3 chúng ta có các cặp
phù hợp với biểu thức trên bao gồm:
Thời gian | Sự kiện trong w = 3 | Sự kiện hệ qua đang xét
1-3 yzy x
5-7 VZZ x 12-14 yzy x 13-15 ZYX x
BANG 3.2: Với w = 3, Bảng 1
Ta thu được các kết qua sau:
* Chúng ta có P“( — x) là xác suất quan sát số lần kết quả x xuất hiện mà
nguyên nhân y xuất hiện một hoặc nhiều lần cùng trong khoảng thời gian
w phía trước Với w = 3, chúng ta có tính toán như sau:
Thời gian | Sự kiện trong w = 3 | Sự kiện hệ quả đang xét
2-4 Zyx x
13-15 Zyx x 14-16 yxx x
BANG 3.3: Với w = 3, Bảng 1
Ta thu được các kết quả sau:
Trang 31Chương 3 Áp dụng các phương pháp tính toán cho bài toán tìm mối quan hệ 17
nhân quả cho du liệu thời gian
3.1.2 Các điểm đánh giá cặp sự kiện
Việc đánh giá các cặp sự kiện sẽ được thực hiện theo phương pháp thử nghiệm
với 2 bộ dữ liệu và 4 CEAs khác nhau.
Trong đó chúng tôi sẽ tính toán thực nghiệm trên một ví dụ sự kiện theo thời gian
bang 1 để dé theo đõi cách tính toán của các điểm
Ở đây Luo et al[11] yêu cầu thêm hai tham số bổ sung ,bao gồm alpha và A là
tham số đánh giá điều kiện cần và điều kiện đủ trong đó A thuộc khoảng [0,1]
Ta có điểm NSTe như sau:
° p’(y — x) là xác suất quan sát số lần kết qua x xuất hiện mà nguyên nhân
y xuất hiện một hoặc nhiều lần trong gian w phía trước đó
© P(x) là xác suất số lần x xuất hiện trong thời gian T
© P(y) là xác suất số lần y xuất hiện trong thời gian T
¢ A là tham số cho trước được truyền vào
¢ ø là tham số cho trước được truyền vào
Theo chúng ta biết , score càng cao thì mức độ tin cậy vào kết quả của mối
quan hệ nhân quả đưa ra càng cao Điểm NSTe dựa vào 2 yếu tố alpha và lamda,
chúng ta có :
Trang 32Chương 3 Áp dụng các phương pháp tính toán cho bài toán tìm mối quan hệ 18
nhân quả cho du liệu thời gian
© Đối với giá trị của A:
Giá trị A cao hơn sẽ cho thấy mức độ đầy đủ có giá trị cao hơn, giá trị thấp
sẽ cân nhắc mức độ cần thiết
Ta thấy giá P(y|x) là xác suất thể hiện mức độ cần thiết Nên khi P(y|x) cao
cho thấy rằng mức độ cần thiết là cao
Với P(x|y) là xác suất thể hiện mức độ day đủ Nên khi P(x|y) cao thì mức
độ day đủ sẽ cao
© Đối với giá tria:
Nếu alpha mang giá trị cao sẽ lam tăng điểm , vì giá trị a cao sẽ làm giảmmẫu số và do đó tăng điểm của xác suất
NSTe được biểu diễn đơn giản và dé hiểu tuy nhiên nó có nhiều bat lợi như việcchỉ có thể hoạt động trong một khoảng thời gian hữu hạn và các vấn đề xuất hiện
các sự kiện không thường xuyên.
Chúng ta đi tới ví dụ ở bảng 1 Cho các giá trị a = 0.66 là giá trị mang lại kết quả
cao nhất trong Wettler et al.(13] Gia tri A = 0.5theo Luo et al.(11] Dua vao bang
1, chúng ta có kết quả tính như sau :
CIR (The conditional intensity ratio score) được dé xuất bởi Bhattacharjya1 et
al [3] CIR giải quyết được một số hạn chế của NSTe được nêu trên Những van
dé này được giải quyết bằng cách cho phép giải pháp được dé xuất hoạt độngtrên một khoảng thời gian liên tục và đạt được bằng cách không cần đưa ra giả
Trang 33Chương 3 Áp dụng các phương pháp tính toán cho bài toán tìm mối quan hệ 19
nhân quả cho du liệu thời gian
định dựa trên lịch sử của sự kiện Điều này được định nghĩa bằng công thức như
¢ N(x) là số lần x xuất hiện trong khoảng thời gian T
¢ D(y) được định nghĩa là khoảng thời gian mà có số lần xuất hiện, hay còn
được gọi là tổng các cửa số có kích thước là w có sự xuất hiện ít nhất một sự
kiện ở trong đó được biểu diễn bởi công thức sau:
¢ I(t) là hàm số trả về hai giá trị là 0 hoặc 1 cho biết có xảy ra trong cửa sổ w
trước thời gian hay không Tích phân trên cho kết quả là giá trị số cửa sổ
có kích thước w , chứa ít nhất 1 ytrén dòng thời gian T
¢ N là tổng số sự kiện có trong tập dữ liệu
Với những biểu thức được nêu trên, chúng ta kết hợp để tính toán với bảng 1 như
Trang 34Chương 3 Áp dụng các phương pháp tính toán cho bài toán tìm mối quan hệ 20
nhân quả cho du liệu thời gian
Đây là 2 thành phan quan trọng để tinh các giá trị của CIR score
Dựa vào những kiến thức trên, tác giả đề xuất hai score CIR như sau:
Ww
CIRg(w,x) = xử
x 1U
CIRc(y,x) = xự
w
xly
Trong do:
© Tử số A” | được gọi là cường độ có điều kiện của y tác động lên x
® Ax gọi là cường độ của sự kiện x.
® A, gọi là cường độ của sự kiện y.
Với hai score trên mang ý nghĩa là mối quan hệ nhân quả sẽ dựa vào độ lớnnhỏ của lamda hay còn gọi là cường độ có điều kiện
Chúng ta sẽ xem xét giá trị thay đổi của lamda có phải do sự ảnh hưởng khi có
xuất hiện yếu tổ y hay không Trong hai score trên ta có lý giải sau:
* C trong CIR, là phần bổ sung của phan cơ sở B trong CIRụ Chúng đưa ra
được kết luận rằng score CIR cho biết :
- Các yếu tố chỉ độc lập khi biểu thức : CIR), = 1
- Các yếu tố sẽ phụ thuộc khi CIR; # 1
Theo bài báo , Ta chứng minh được vì:
¢ Nếu P(x|y,z) = P(x|z) dẫn đến A® | y = Ax Thì chúng ta thu được kết qua
Trang 35Chương 3 Áp dụng các phương pháp tính toán cho bài toán tìm mối quan đệ
nhân quả cho du liệu thời gian
© Nếu P(x|w,z) # P(x|z) dẫn đến A® | y # Ay Thì chúng ta thu được kết quả
A1%
xly
la # 1 Theo định nghĩa về các yếu tố phụ thuộc đã được nêu ở phan 2
x
thì với CIRg/C(y,x) # 1 cho được kết quả các yêu tố phụ thuộc lẫn nhau
Với ví dụ ở bảng 1, chúng ta tính được giá trị hai score CIR ở trên theo kết quả
Ngoài CIR», CIR, va NST, được nhắc ở trên đều là phương pháp tính điểm đánh
giá giữa hai sự kiện Tác giả dé xuất phương pháp tính thứ 3 là CIR„ với giả thiết
sử dụng sự kiện thứ ba là z
Điều này cho ra vì thực tế cho ta thấy rằng với một kết quả x khó có thể chỉ phụthuộc vào một nguyên nhân Ví dụ , với kết quả là tắc xe thì không phải mình
nguyên nhân là giờ cao điểm mà bên cạnh đó còn có thể có các nguyên nhân khác
như ngày lễ, thời tiết , sự cố giao thông „
Vì vậy ý tưởng của score CIRm là đối với một cặp sự kiện (x,y) thì kết quả x sẽ
không chỉ có một nguyên nhân là y mà còn có một tập hợp các nguyên nhân Z
khác Dẫn đến xác xuất của P(x|) < P(x|yuZ) trong đó Z là một tập hợp có thé
là nguyên nhân gây ra x Hay là tỉ lệ x phụ thuộc vào việc liệu y hợp tập hợp Z có
xảy ra trong cửa sổ w trước đó hay không.
Ta có công thức tính CIRm được tác giả sửa đổi như sau :
Trang 36Chương 3 Áp dụng các phương pháp tính toán cho bài toán tìm mối quan hệ 22
nhân quả cho du liệu thời gian
Theo như bài báo Bhattacharjya et al [2], phương pháp xác định tap U được định
nghĩa như sau:
® Sơbộ:
- Bộ dữ liệu sự kiện được định nghĩa D = (Ï;, tin, với f; là thời điểm sự
kiện thứ ¡ xuất hiện và L;là tên của sự kiện
- Là Log likelihood maximizing window từ tập cha Z của nút X.
e Thuật toán tim tập U.
Để tìm tập U, tác giả bài báo đã đưa ra 2 giải thuật:
- Giải thuật 1: Tìm tập hợp các sự kiện có thé nằm trong tập U và bộ
window size thích hợp.
- Giải thuật 2: Ap dung các thông số vừa tìm được vào bài toán Forward
Backward search.