1. Trang chủ
  2. » Công Nghệ Thông Tin

Cách tiếp cận kỹ thuật kết hợp luật không gian và thời gian ứng dụng cho bài toán dự báo trên bộ dữ liệu lớn

7 3 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Bài viết Cách tiếp cận kỹ thuật kết hợp luật không gian và thời gian ứng dụng cho bài toán dự báo trên bộ dữ liệu lớn trình bày hướng tiếp cận cho việc giải quyết vấn đề hiệu năng cho việc khai phá bộ dữ liệu có đặc tính không gian – thời gian, qua đó tìm ra những quy luật kết hợp phổ biến sinh ra từ bộ dữ liệu.

Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 CÁCH TIẾP CẬN KỸ THUẬT KẾT HỢP LUẬT KHÔNG GIAN VÀ THỜI GIAN ỨNG DỤNG CHO BÀI TOÁN DỰ BÁO TRÊN BỘ DỮ LIỆU LỚN Nguyễn Văn Thiện1, Phạm Văn Hải2* 1-2 Viện Công nghệ thông tin & Truyền thông, Trường Đại học Bách khoa Hà Nội, thienkstn93@gmail.com, haipv@soict.hust.edu.vn 2* Coresponding Author: haipv@soict.hust.edu.vn TÓM TẮT - Bài báo trình bày hướng tiếp cận cho việc giải vấn đề hiệu cho việc khai phá liệu có đặc tính khơng gian – thời gian, qua tìm quy luật kết hợp phổ biến sinh từ liệu Trong kỹ thuật sinh luật truyền thống dựa liệu, khai phá liệu từ giao dịch thực độc lập Khi sử dụng thuật tốn khai phá thơng thường Apriori hay Extend-Apriori chi phí tính tốn tập phần tử phổ biến, việc sinh tập ứng viên, chi phí thời gian thực lớn quét sở liệu nhiều lần Bên cạnh đó, việc sinh luật khơng gian – thời gian phải dựa phụ thuộc lẫn giao dịch, nhằm thể mức độ liên quan phần tử khoảng khơng – thời gian Chúng tơi sử dụng cửa sổ trượt giúp chuyển giao dịch độc lập vào giao dịch gọi liên giao dịch Sau tiến hành áp dụng kỹ thuật khai phá mà đề xuất cho việc khai phá Nhằm thể kết thực nghiệm thuật tốn đề xuất chúng tơi chạy liệu lớn thời tiết, loại liệu mang tính chất khơng gian thời gian, từ liệu chúng tơi tìm cách hiệu quy luật phổ biến ứng dụng cho lĩnh vực dự báo thời tiết biến đổi khí hậu, giảm đáng kể chi phí thời so sánh với thuật tốn Apriori Từ khóa - Liên giao dịch, phần tử, tập phổ biến, tập phổ biến tối đa I GIỚI THIỆU Trong việc tìm kiếm luật kết hợp cho liệu mang tính chất khơng gian thời gian, nghĩa ngồi trường đặc tính đặc trưng cho loại liệu, chúng cịn gắn chặt với thuộc tính kèm theo chúng thu thập đâu Vì với ghi liệu độc lập thu thập, chúng cần có chế tạo phụ thuộc lẫn nhau, điều khác so với loại liệu khác Năm 2003, Tung cộng ông [3] đưa kỹ thuật nhằm tạo phụ thuộc nhờ sử dụng cửa sổ trượt kích thước w, ghi nằm phạm vi cửa sổ trượt nhóm lại thành ghi mới, điều chúng tơi trình bày cụ thể phần II viết Việc sinh luật kết hợp, bên cạnh thuật toán khai luật kết hợp cổ điển thuật toán Apriori [1] , thực dựa nguyên tắc tập hợp có k phần tử phổ biến tất tập phổ biến Thuật tốn dựa việc sinh tất tập phổ biến có phần tử, với k > 2, thực phép nối tập phổ biến có (k-1) phần tử ứng viên, kiểm tra tập ứng viên dừng lại khơng có sinh ứng viên Nhược điểm thuật toán tốn chi phí cho việc sinh tập ứng viên lớn Thuật toán EApriori (Extended Apriori) EH-Apriori (Extended Hash Apriori) nhóm tác giả Lu et al [2], nghiên cứu mở rộng thuật toán Apriori cho khai phá liên giao dịch, EH-Apriori sử dụng hàm băm làm giảm số lượng ứng viên chứa phần tử Những hướng tiếp cận khác thay việc sinh kiểm tra tập ứng viên, nhiều thuật tốn khác lại dựa việc khơng sinh ứng viên nhằm làm giảm thời gian kiểm tra chúng FITI (First Intra Then Inter) nhóm tác giả Tung et al [3] Đầu tiên xác định tất tập phần tử phổ biến giao dịch cổ điển, sử dụng chúng để xác định tất tập phần tử phổ biến liên giao dịch Thuật tốn ITP-Miner (Inter-Transaction Patterns Miner) nhóm tác giả Lee Wang (xem [4]) thực việc quét liệu lần đánh giá có thời gian giảm đáng kể so với Apriori hay EHApriori Yo-Ping Huang, Li-Jen Kao, Frode-Eika Sandnes [5-6] đề xuất thuật toán Reduced Prefix-Projected Itemsets (RPPI) lần quét loại bỏ phần tử không phổ biến khỏi sở liệu Trong báo này, đề xuất kĩ thuật dựa ý tưởng khơng sinh tập ứng viên để tìm tập phổ biến Tại nút sử dụng cấu trúc đầu đuôi tập để lưu phần tử phổ biến, phần đầu nút lưu trữ phần tử kiểm tra mà phổ biến Khi thu tập phần tử phổ biến tối đa từ tập lưu phần tử phổ biến nút gốc Để giảm chi phí qt sở liệu, chúng tơi đề xuất phương pháp sử dụng cửa sổ trượt chiều thuộc tính dựa trục thời gian để chuyển giao dịch khoảng thuộc tính riêng rẽ vào giao dịch gọi liên giao dịch nhờ phần tử lưu trữ tập giao dịch mà chứa việc tạo nút yêu cầu quét sở liệu phần tử nên việc quét nhanh nhiều so với thực quét toàn giao dịch Phần I báo đưa vấn đề hướng tiếp cận cách giải đề xuất, sở chúng tơi đưa hướng tiếp cận cho toán Phần II đưa số khái niệm, định nghĩa sử dụng để mơ hình tốn Phần III trình bày thuật toán đề xuất, cách tạo cấu trúc phần tử thuật tốn khai phá để tìm tập phần tử phổ biến Trong phần IV, đưa số kết thực nghiệm số liệu lớn Trong phần kết luận đưa cách đánh giá kết quả, thảo luận kết nghiên cứu đề xuất hướng phát triển giải thuật CÁCH TIẾP CẬN KỸ THUẬT KẾT HỢP LUẬT KHÔNG GIAN VÀ THỜI GIAN ỨNG DỤNG CHO BÀI TOÁN DỰ BÁO … 55 II LIÊN GIAO DỊCH Trong thuật toán sinh luật cổ điển, chủ yếu thực giao dịch độc lập [1] Trong liệu thời tiết, đặc tính như, liệu nhiệt độ, độ ẩm, áp suất… thu thập vị trí địa lý vào thời điểm x Từ xem xét hai ví dụ hai luật thu sau: Ví dụ 1: Nếu A mưa, A gió thổi từ hướng Đơng Ví dụ 2: Nếu A mưa to, 1h tới B có mưa vừa Qua hai luật khai phá theo thuật toán cổ điển với “intra-transaction” luật thu khơng mang ý nghĩa Vì cần tạo phụ thuộc “intra-transaction” với thành liên giao dịch (inter-transaction) Trong phần II này, chúng tơi trình bày kỹ thuật mà Tung et al 2003 đề xuất [3] Định nghĩa 1: Cho I = {a1 , a2 , , ak } tập phần tử D thuộc tính thời gian, đánh nhãn từ 0, 1,…n T tập giao dịch sở liệu Để đặc trưng cho mức độ phụ thuộc giao dịch dùng khái niệm cửa sổ trượt Định nghĩa Một cửa sổ trượt W kích thước w đặt tập giao dịch nhằm chuyển đổi w giao dịch liên tiếp thành giao dịch (w gọi maxspan) W[0], W[1], ,W[w] Định nghĩa Tập phần tử mở rộng: I ' = {a1 ( ) , , a1 ( w − 1) , a2 ( ) , , a2 ( w − 1) , , ak ( ) , , ak ( w − 1)} Trong đó: ak ( j ) phần tử ak thuộc khoảng W[j] { } Định nghĩa Liên giao dịch: M = (t ) ∈ W [t ]; ≤ i ≤ k ; ≤ t ≤ w − Định nghĩa Một luật kết hợp liên giao dịch có dạng X ⇒ Y đó: X ⊆ I ', Y ⊆ I ' ∃ai ( ) ∈ X , ≤ i ≤ k ∃ai ( j ) ∈ Y , ≤ i ≤ k , j ≠ X ∩ Y = ∅ Định nghĩa Cho Txy liên giao dịch mà chứa X ∪ Y (X, Y hai tập phần tử mở rộng) Tx tập liên giao dịch chứa X S số lượng liên giao dịch sở liệu Khi độ hỗ trợ (support) độ tin cậy (confidence) luật kết hợp liên giao dịch là: support = Txy S confidence = Txy Tx Định nghĩa Cho ( k ) a j (l ) hai item mở rộng Nếu i = j, k = l ( k ) = a j (l ) Nếu (i = j, k < l ) (i < j ) ( k ) < a j (l ) Một đặc tính quan mà sử dụng thuật toán là: Đặc tính 1: Cho W cửa sổ trượt với w khoảng Nếu 1-itemset {a x ( )} khơng phải phổ biến 1-itemset {a x (1)}, {a x ( )}, , {a x ( w )} tập phổ biến Chứng minh: Khi trượt cửa sổ dọc theo giao dịch sở liệu, ax ( ) xuất W[0] trượt, nhiên ax (t ) xuất W[t] mà thơi Do đó: ( ) ( ) support {a x (t )} ≤ support {ax ( )} 56 Nguyễn Văn Thiện, Phạm Văn Hải ( ) Mặt khác, {a x ( )} khơng phải tập phổ biến support {a x ( )} ≤ min_ sup , từ ( ) ( ) support {a x (t )} ≤ support {a x ( )} ≤ min_ sup từ suy điều phải chứng minh III THUẬT TOÁN KHAI PHÁ ĐỀ XUẤT Với thuật tốn Apriori, chi phí sinh kiểm tra tập ứng viên lớn ảnh hưởng đến tốc độ tính tốn Vì để tránh điều đó, chúng tơi tiếp cận toán theo hướng tiếp cận tập cha phổ biến tất tập phải tập phổ biến Hướng giải tìm kiếm tất tập phổ biến tối đa cho mục tiêu tìm kiếm Sau đó, sử dụng lưu trữ sở liệu dạng lưu trữ Tid ghi cho phần tử Bắt đầu với phần tử ak (i ) , lưu trữ tập số giao dịch chứa nó, giao dịch T(X) chứa ak (i ) lại tìm kiếm phần tử ak ( j ) mà trở thành phổ biến Chiến lược dị bước mở rộng khơng sinh tập ứng viên Apriori Đặc biệt việc kiểm tra thực kích thước sở liệu nhỏ nhiều so với toàn liệu Từ tiết kiệm chi phí Để thực hóa ý tưởng, chúng tơi xây dựng cấu trúc mà gọi phần tử Mỗi node có dạng X Y Trong X (head) tập phần tử phổ biến mà kiểm tra phổ biến, Y (tail) tập phần tử lại chưa xét T(X) tập tất giao dịch chứa X (Khi X = ∅ T(X) tồn giao dịch sở liệu) Bên cạnh nút sử dụng danh sách maximal_element lưu trữ phần tử nằm tập maximal mà dựa vào để định việc có phải tạo nút hay khơng Thuật tốn Input: Tập phần tử I ' = {a1 ( ) , , a1 ( w − 1) , a2 ( ) , , a2 ( w − 1) , , ak ( ) , , ak ( w − 1)} , tập giao dịch T Output: Tập phần tử phổ biến lớn List findMaximal(Node node){ //Từ tập giao dịch T(X) chứa X: Loại bỏ phần tử Y không thỏa mãn ngưỡng for(item i: Y){ for(Transaction t: T(X)){ if(t.contain(i) count_the_support(i)++; } if(count_the_support(i) < support) Y.remove(i); } while (Y phần tử){ 10 //Nếu Y nằm maximal_element khơng cần tạo nút 11 if(maximal_element.contain(Y)) 12 break; 13 //chọn phần tử a[i] đầu tử Y 14 //Tạo nút 15 Node next_node(X = a[i], Y = Y \ a[i]); 16 //Đệ quy tạo nút 17 findMaximal(next_node); 18 //Cập nhật số phần tử Y 19 Y node = Y (next_node); 20 } 21 return node.maximal_element = node.maximal_element.add(X); Ở thuật toán trên, phần tử Y xếp theo định nghĩa 7, nghĩa có dạng: I ' = {a1 ( ) , a2 ( ) , , ak ( ) , a1 (1) , a2 (1) , , a1 ( m ) , , ak ( m )} Việc xếp có ý nghĩa lớn từ định nghĩa 5.2, tập phổ biến phải chứa phần tử ak ( ) , nên bắt đầu việc mở rộng từ phần tử có dạng ak ( 0) , mở rộng liên tục với phần tử lại I’ Nếu xếp phần tử ak (i ) ∈ I ' theo định nghĩa kết thúc duyệt phần tử dạng ak ( ) , kết thúc việc tạo cây, mà không cần quan tâm đến phần tử lại Tại nút gốc: X = null, Y = I ' = {a1 ( ) , a2 ( ) , , ak ( ) , a1 (1) , a2 (1) , , a1 ( m ) , , ak ( m )} Dòng 2, 3, thực việc tính tốn support phần tử Tuy nhiên, nhờ đặc tính mà đề cập trên, ak ( 0) không phổ biến ta loại bỏ tồn phần tử dạng ak (i ) khỏi sở liệu, giúp làm giảm kích thước liệu CÁCH C TIẾP CẬN N KỸ THUẬT KẾ ẾT HỢP LUẬT K KHÔNG GIAN VÀ V THỜI GIAN ỨNG Ứ DỤNG CH HO BÀI TOÁN D DỰ BÁO … 57 Việc tạoo nút (dòng 144) từ nút cha, ttheo chế, phần p tử Y củaa nút cha X nút n, phần lạại Y nút cha c Y củaa nút Tuyy nhiên việc có cần tạo nút haay khơng dựa vào điều kiệnn dịng 11, nghĩa Y c nút tạo tậập tậpp maximal_element nút cha c khơơng cần tạo, vvì hiển nhiên m tập c tập phổ biếến phổ bbiến Nếu nút tạo, s tự cập nhật lại Y mìnnh (dịng 6,7) ccó nghĩa loạ ại bỏ phần p tử có độ support s ttập giao dịch T T(X) nhỏ ngưỡng Thuậật tốn dừng lạại khơng cóó nút c tạo Để cụ thể t hóa thuật ttốn, chúng tơơi lấy minh h họa đơn giản n cho thuật toốn sau: Giả sử ta có sở giao dịchh với phần tử: t a, b, c, d Cho C ngưỡng ssupport = 40% % (supp = 2), kích thước cửa c sổ trượt bằằng 2, ssố phần tử tănng từ lên (Hình 1) Hình Chuyển C đổi giao o dịch Tập cácc phần tử mở rrộng I’ = {a[00], b[0], c[0], d[0], d a[1], b[1]], c[1], d[1]} Việc sinnh nút gốc bắtt đầu với X = null, Y = I’, T(null) T = {0,1,,2,3,4,5} Khi mỗỗi nút sinnh ra, chúng ttự động cập nhật để loại bỏ ỏ phần tử khơnng phải phổổ biến, hìình Trên tập giao dịịch T(null): suupp(a[0]) = 3, supp(b[0]) = 2, supp(c[0]) = 3, supp(d[00]) = 1, supp(aa[1]) = 2, supp p(b[1]) = 1, supp(c[1]) s = 2, supp(d[1]) = Với minn supp = 2, thhì nút gốc tự độộng cập nhật: X = null, Y = { a[0], b[0], cc[0], a[1], c[1 ]} (Hình 2) Hình 2 Cập nhật lại nút n Với mỗỗi {a x (i )} ∈ Y tạo nút ((dòng 11) thể hình 3: Hình h Tạo nút mớ ới Hình Điều Đ kiện tạo nú út 58 Nguyễễn Văn Thiện, Phạm Văn Hải Kết thúúc việc tạo câyy Y tấất nút đãã tạo giống nh hư hình Hình Cây tạo xo ong Khi câyy hoàn thhành maxim mal_element c nút gốc sẽẽ tập phần tửử phổ biến lớnn IV KẾT QUẢ Q THỬ NG GHIỆM Chúng tiến hành thu thập ddữ liệu thờii tiết Hà Nội theo ggiờ vòngg năm (2008-2010) heo ngàyy 15 năm m (2000 - 2014) websitte: http://www w.wundergroun und.com Bộ ddữ liệu gồm thuộc tính: th Temp, T Humidiity, Pressure, Visibility, Wind Direct, Wind W Speed, Ev vents, Conditiions Để xử lýý tiền liệu, th hực làm đầy dựa trênn giá trị cáác giá trị lân cận thuộ ộc tính mà thheo thời gian Bằng cách nà ày, liệu đ đưa vào khai phá kkhơng có ghi bị th hiếu kh hông gian khaai phá khônng chứa lỗ hổ liệu n Ở đây, chhúng lựa chhọn khai phá ddọc theo trục thời t gian tức l ghii phụ thuộc vào theo biến thời gian g Sau chúng c tơi tiến hành tiền xử lý liệu u, rời rạc hóa liệu looại định lượngg như: Temp, Humidity, Pressure, P Visibbility, Wind S Speed cônng cụ Weka 3.6.9 Chương trình thực nghhiệm mơ tả nhhư hình H Hình Chươngg trình thực ngh hiệm so sánh thu uật tốn đề xuất ất với Aprori Trong thí t nghiệm thứ ứ chạy giải thuật với mộ ột sổ trượtt kích thước bbằng 3, cho ngưỡng support s khác n ddữ liệu thời tiếết thu thập theeo so sánh s thời giann chạy với thuuật toán Apriori Kết chạy c thực nghiiệm thể hìnhh CÁCH C TIẾP CẬN N KỸ THUẬT KẾ ẾT HỢP LUẬT K KHÔNG GIAN VÀ V THỜI GIAN ỨNG Ứ DỤNG CH HO BÀI TOÁN D DỰ BÁO … 59 H Hình Kết quảả theo MinSupp p - TimeRun Kết quảả thực nghiệm m cho thấy vớii liệu l ngưỡng n suppoort đủ nhỏ tthời gian chạy y thuật tốn cải tiến vư ượt trội soo với thuật toáán Apriori Trong thí t nghiệm thứ ứ hai chúng tơơi chạy liệu thờii tiết mà đượcc thu thập theoo ngày, bên cạ ạnh xác định đ ngưỡ ỡng support duuy 10 thay đổ ổi kích thước cửa c sổ trượt từừ đến Thuuật toán cải tiế ến so sánh s với thuật toán Apriori, kết thực nnghiệm cho th hấy sau: Với V kích thướcc cửa sổ nhỏ ((1 - 4) khác k biệt khơng k đáng kểể, khác biệtt rõ ràng tăăng maxspan từ t – 7, kết q mô tả hình 8a; Với kết thực nghiệm n cho c giảm maxsspan thời ggian Aprioori hiệu u nhiều n so với tthuật tốn đề xxuất, mơ tả nh hư hình 8b Hình 8a Hình 8b Troong trình tthực nghiệm trrên liệu u lớn thời tiết ước tính vài cchục nghìn đếnn vài tỷ ghi, g kết th hực nghiệm chho thấy thuật toán đề xuất tthực tốt chi c phí thời giaan so sánhh với thuật toáán Apriori Đặc biệt, thời gian g giảm đángg kể thhuật toán đề xxuất với Aprio ori th hực bbộ liệu lớnn Như vậy, thu uật toán đề xuất x sử dụng hiệu h trongg khai phá lliệu dựa vào c luật đối vớ ới liệu lớớn V KẾT LUẬN Trong b báo chúngg đề xuấất cách tiếếp cận nh hằm giải quyếtt vấn đề tìm kkiếm tập phần tử phổ biến b mà dựa trrên việc mở rộộng tìm kiếm tập phần tử ph hổ biến lớn nh hất Điều khắc phục đư ược nhược điểm lớn c thuuật toán sinh kiểm tra tậpp ứng viên Apriori, giúp p cải thiện hiệệu cắtt giảm chi phí quét sở d liệu Thuậtt tốn đề xuất khơng chhỉ giải cho ữ liệu không ggian thời ggian mà ể mở rộng r áp dụnng cho nhiều bbộ liệu kháác nhau, đặc biệt b áp dụng th huật toán đề xuuất hiệu qquả cho th hực nghiệm khai k phá liệệu lớn 60 Nguyễn Văn Thiện, Phạm Văn Hải Hướng nghiên cứu nhóm dự kiến tiến hành thử nghiệm cửa sổ trượt hai chiều xa đa chiều (dữ liệu gắn kèm theo đa thuộc tính), xây dựng mơ đun tiền xử lý liệu đầu vào cho liệu thưa, liệu có tính liên tục thời gian Để thực việc này, cần thực mô đun sử dụng hàm lượng hóa tham số đếm tham số khơng đếm liệu lớn VI TÀI LIỆU THAM KHẢO [1] R Agrawal and R Srikant Fast algorithms for mining association rules In Proceedings of the 20th VLDB Conference, Santiago, Chile, 1994 [2] Hongjun, Ling Feng, Jiawei Han, Beyond Intra-Transaction Association Analysis:Mining Multi-Dimensional InterTransaction Association Rules, [3] Anthony K H Tung, Hongjun Lu, Jiawei Han, Ling Feng, Efficient Mining of Inter-transaction Association Rules, IEEE Transactions On Knowledge And Data Engineering, Vol 15, No 1; January/February 2003, pp 43-56 [4] Anthony J.T Lee *, Chun-Sheng Wang, An efficient algorithm for mining frequent inter-transaction patterns , 2007 [5] Yo-Ping Huang, Li-Jen Kao, Frode-Eika Sandnes, Efficient mining of salinity and temperature association rules from ARGO data [6] Yo-Ping Huang and Jung-Shian Jau, Frode Eika Sandnes, Temporal-Spatial Association Analysis of Ocean Salinity and Temperature Variations ...CÁCH TIẾP CẬN KỸ THUẬT KẾT HỢP LUẬT KHÔNG GIAN VÀ THỜI GIAN ỨNG DỤNG CHO BÀI TOÁN DỰ BÁO … 55 II LIÊN GIAO DỊCH Trong thuật toán sinh luật cổ điển, chủ yếu thực giao dịch độc lập [1] Trong liệu. .. chạy với thuuật toán Apriori Kết chạy c thực nghiiệm thể hìnhh CÁCH C TIẾP CẬN N KỸ THUẬT KẾ ẾT HỢP LUẬT K KHÔNG GIAN VÀ V THỜI GIAN ỨNG Ứ DỤNG CH HO BÀI TỐN D DỰ BÁO … 59 H Hình Kết quảả theo... cập trên, ak ( 0) khơng phổ biến ta loại bỏ tồn phần tử dạng ak (i ) khỏi sở liệu, giúp làm giảm kích thước liệu CÁCH C TIẾP CẬN N KỸ THUẬT KẾ ẾT HỢP LUẬT K KHÔNG GIAN VÀ V THỜI GIAN ỨNG Ứ DỤNG

Ngày đăng: 08/05/2021, 17:21

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w