Ứng dụng phân tích mẫu chuỗi tuần tự vào việc phát hiện thói quen sử dụng các ứng dụng trên thiết bị di động

73 21 0
Ứng dụng phân tích mẫu chuỗi tuần tự vào việc phát hiện thói quen sử dụng các ứng dụng trên thiết bị di động

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NHỆ ĐÀO THẾ MẪN ỨNG DỤNG PHÂN TÍCH MẪU CHUỖI TUẦN TỰ VÀO VIỆC PHÁT HIỆN THÓI QUEN SỬ DỤNG CÁC ỨNG DỤNG TRÊN THIẾT BỊ DI ĐỘNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS NGUYỄN HÀ NAM HÀ NỘI - 2013 MỤC LỤC LỜI CAM ĐOAN Error! Bookmark not defined LỜI CẢM ƠN Error! Bookmark not defined MỤC LỤC DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG Chương - GIỚI THIỆU Chương - TỔNG QUAN KHAI PHÁ MẪU CHUỖI TUẦN TỰ 11 2.1 Đặc điểm liệu 11 2.2 Khai phá liệu mẫu chuỗi 13 2.2.1 Giới thiệu chung 13 2.2.2 Bài toán Khai phá mẫu chuỗi 15 2.2.3 Một số thuật toán khai phá mẫu 18 Chương - MƠ HÌNH ĐỀ XUẤT 20 3.1 Mô hình đề xuất tổng thể 20 3.2 Các phương án tách chuỗi 22 3.3 Tách Itemset chuỗi 23 3.4 Tính thời gian cho phương án tách chuỗi 25 Chương - THỰC NGHIỆM 30 4.1 Bộ liệu thứ 31 4.2 Bộ liệu thứ 35 KẾT LUẬN 39 Phụ lục A – TÍNH KHOẢNG THỜI GIAN PHÂN TÁCH 40 Phụ lục B – MỘT SỐ KẾT QUẢ THỰC NGHIỆM CỤ THỂ 54 B1 Kết thực nghiệm liệu thứ 54 B2 Kết thực nghiệm Bộ liệu thứ 61 TÀI LIỆU THAM KHẢO 71 DANH MỤC CÁC HÌNH VẼ Hình 2.1 Dữ liệu thu từ TBDĐ sử dụng Hệ điều hành Android 12 Hình 2.2 Dữ liệu ứng dụng gốc lấy từ Hình 2.1 13 Hình 2.3 Giải thuật DFS với Kỹ thuật cắt tỉa 19 Hình 3.1 Mơ hình tổng qt khai phá liệu 20 Hình 3.2 Mơ hình đề xuất tổng thể khai phá thói quen sử dụng phần mềm TBDĐ 20 Hình 3.3 Phân tách liệu theo buổi ngày 22 Hình 3.4 Phân tách liệu theo n ngày 22 Hình 3.5 Phân tách liệu theo khoảng thời gian sử dụng 23 Hình 3.6 Phân tách liệu theo thời gian Itemset 24 Hình 3.7 Trường hợp 1, ứng dụng Itemset 24 Hình 3.8 Trường hợp 2, ứng dụng Itemset 25 Hình 4.1 Giao diện chương trình 30 Hình 4.2 Đồ thị so sánh giải pháp phân tách liệu với minSup ={45% - 65%} 33 Hình 4.3 Đồ thị so sánh giải pháp phân tách liệu với minSup ={35% - 65%} 34 Hình 4.4 Đồ thị so sánh giải pháp phân tách liệu 37 Hình 4.5 Đồ thị so sánh giải pháp phân tách liệu 38 DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu Diễn giải CSDL Cơ sở liệu TBDĐ Thiết bị di động ID Định danh thiết bị di động sử dụng nhà cung cấp mạng viễn thông DANH MỤC CÁC BẢNG Bảng 2.1 Danh sách khách mua hàng 16 Bảng 2.2 Biểu diễn liệu dạng chuỗi 16 Bảng 2.3 Danh mục thỏa mãn điều kiện minsup = 40% 17 Bảng 3.1 Khoảng cách thời gian kiện 26 Bảng 3.2 chuỗi chứa khoảng thời gian phân tách 27 Bảng 3.3 chuỗi chứa khoảng thời gian phân tách 28 Bảng 4.1 Một số mẫu Hình B.1 ý nghĩa phân tách 32 Bảng 4.2 Kết thử nghiệm liệu phân tách theo hành vi 32 Bảng 4.3 Kết thử nghiệm liệu phân tách theo ngày 32 Bảng 4.3 Kết thử nghiệm liệu phân tách theo hành vi 36 Bảng 4.4 Kết thử nghiệm liệu phân tách theo ngày 36 MỞ ĐẦU Hiện nay, xu hướng công nghệ phục vụ người tiêu dùng giới chuyển sang công nghệ di động thể qua việc nhiều hãng tên tuổi giới chuyển sang nghiên cứu, sản xuất đưa thị thiết bị di động (TBDĐ) thông minh Sony, Philips, Panasonic, HP, Microsoft, Lenovo, LG,… Mỗi TBDĐ tích hợp nhiều tính như: điện thoại, máy ảnh, máy quay phim, thiết bị multi media, máy tính, điều khiển từ xa, để phục vụ ngày nhiều nhu cầu người dùng liên lạc, giải trí, khai thác thơng tin, xử lý công việc, kinh doanh trực tuyến, điều khiển thiết bị từ xa,… khách hàng Nhu cầu sử dụng TBDĐ thông minh xu hướng không biên giới quốc gia, tầng lớp dân chúng Chính vậy, hãng sản xuất liên tục tung dòng sản phẩm nhằm chiếm lĩnh thị trường cạnh tranh với đối thủ Từ đó, nhu cầu nghiên cứu hành vi, thói quen, xu hướng sử dụng người dùng TBDĐ đặt cách cấp thiết cho tất hãng sản xuất Nghiên cứu hành vi, thói quen, mạng xã hội người dùng TBDĐ đề tài nóng bỏng giới nay, phục vụ cho nhiều ngành khác tâm lý, xã hội, chiến lược kinh doanh hãng sản xuất,… Do đó, chúng tơi lựa chọn đề tài nghiên cứu thói quen sử dụng phần mềm TBDĐ để làm đề tài khóa luận tốt nghiệp Nghiên cứu hành vi, thói quen sử dụng phần mềm TBDĐ bước cho việc nghiên cứu ngành khác TBDĐ tâm lý, mạng xã hội, phần mềm thuộc vào lớp ứng dụng thiết bị (như lớp nhạc, lớp phim, lớp game, lớp tài chính, lớp liên lạc, …) Nghiên cứu thói quen người sử dụng, thông thường việc nghiên cứu để đưa hành vi mang tính phổ biến, hành vi mang tính quy luật, hành vi mang tính phổ biến tuần tự, … khoảng thời gian không gian định Ứng với đề tài này, việc nghiên cứu để đưa hành vi mang tính phổ biến khoảng thời gian định khơng gian TBDĐ Tuy nhiên, để giới hạn khoảng thời gian để đưa hành vi mang tính phổ biến đối theo trình tự với tập liệu dạng chuỗi dài vấn đề cần quan tâm giải trước đưa giải thuật vào áp dụng Đó mục tiêu nghiên cứu Luận văn Phạm vi nghiên cứu: Nghiên cứu tập liệu ứng dụng kích hoạt TBDĐ sử dụng hệ điều hành Android chuẩn hóa, tức tên ứng dụng quy tên ứng dụng gốc ban đầu (nếu tên ứng dụng người dùng thay đổi), thời gian bắt đầu chạy ứng dụng, thời gian kết thúc thực thi ứng dụng quy chuẩn định dạng giống nhau,… để đưa hành vi mang tính phổ biến có trình tự theo thời gian Chương - GIỚI THIỆU Ngày nay, điện thoại di động thiết bị phổ biến gần phương tiện thiếu người Điện thoại giá thành rẻ, đa dạng lại tích hợp nhiều thiết bị quay phim, chụp ảnh, nghe nhạc, Bluetooth, thiết bị định vị, trình chiếu, máy tính, … phục vụ nhiều nhu cầu người dùng liên lạc, giải trí, kinh doanh (chứng khốn, vàng, kim loại quý khác, dầu mỏ, …), điều khiển từ xa,… Thời gian gần đây, hãng liên tục nghiên cứu, tung thị trường nhiều TBDĐ với mục tiêu chiếm lĩnh thị trường nhiều tốt Bên cạnh đó, có cơng ty phần mềm chuyển hướng sang nghiên cứu phát triển ứng dụng TBDĐ Việc nắm bắt thói quen, hành vi người dùng vấn đề cấp thiết đặt cho doanh nghiệp sản xuất kinh doanh phần mềm TBDĐ Nếu kết nghiên cứu mang tính khả quan từ người ta đưa chiến lược kinh doanh chiến lược phát triển phần mềm tiềm phần mềm tích hợp, phần mềm cần nâng cấp, cải tiến, … Dữ liệu log file TBDĐ lưu trữ hoạt động mà người dùng sử dụng TBDĐ liệu gọi, liệu tin nhắn, liệu ứng dụng, liệu vị trí, liệu thiết bị, mail, game, kinh doanh, liệu Bluetooth,… Từ liệu trên, có số xu hướng nghiên cứu sau: Một số nghiên cứu tìm hành vi, thói quen dựa liệu vị trí liệu Bluetooth Trong [1-4], tác giả dựa vào thơng tin vị trí TBDĐ cung cấp nhà mạng để nghiên cứu, phân loại hành vi, thói quen Nhóm tác giả phân tích, xây dựng mơ hình mối quan hệ xã hội thói quen hàng ngày cá nhân cách sử dụng liệu điện di động cá nhân dựa việc phân loại liệu ID điện thoại di động vào địa điểm khác từ phân tích thói quen hành vi người sử dụng Các nghiên cứu sử dụng liệu thu thông qua Bluetooth để phân biệt ngày tuần cuối tuần Hạn chế nghiên cứu thông tin ID di động cung cấp thơng tin vị trí Nó khơng thể biết hoạt động mức thấp.Ví dụ, liệu ID di động cho biết người sử dụng nhà văn phịng / trường, cho biết hoạt động bên tham dự giảng ngồi quán ăn tự phục vụ mà người dùng tham gia Khắc phục điểm có loạt báo nghiên cứu hành vi cá nhân thông quan kết hợp hai loại liệu liệu từ nhà cung cấp dịch vụ TBDĐ liệu thu từ thiết bị Bluetooth gắn TBDĐ Đặc điểm liệu thu từ thiết bị Bluetooth cho phép lưu lại thông tin kết nối phạm vi nhỏ định danh cá nhân, thiết bị cảm biến Việc áp dụng loại liệu dùng để nghiên cứu để tìm hành vi bất thường cá nhân nhằm phục vụ việc theo dõi người già người có dấu hiệu bệnh trí nhớ báo [6, 7] Trong [6], tác giả trình bày quy trình cho việc phát hành vi khác thường người bên nhà thông minh Tác giả sử dụng cảm biến chuyển động để phát hoạt động mẫu hành vi bất thường người dựa chuỗi Markov Giới hạn công việc họ xem xét hoạt động xảy bên nhà Để phân tích hành vi hoạt động người, số nhà nghiên cứu sử dụng thiết bị khác như, gia tốc, máy ảnh kỹ thuật số micro Một số kỹ thuật trình bày cho phân tích hành vi nhiều cá nhân thay cá nhân đơn lẻ Ví dụ, [8] tác giả đề xuất quy trình xác định hành vi không gian hạn chế Công việc tập trung vào chuyển động bên tòa nhà Tương tự phát hành vi nhiều cá nhân gom nhóm hành động họp trình bày [9] Tuy nhiên, đa số nghiên cứu tập trung vào môi trường nhà, dựa thiết bị cảm biến Do vậy, có vài hạn chế phạm vi ngắn thiết bị phát sóng, pin nguồn kém, khả lưu trữ khơng nhiều, khơng khả thi mơi trường ngồi trời Mạng Nơ ron [10, 11] sử dụng để phát dự đoán chuyển động người dùng dựa ID điện thoại di động xác suất người sử dụng địa điểm khác Trong [5] việc sử dụng xác suất người dùng khác địa điểm khác nhau, họ sử dụng liệu theo thời gian thực ID di động liệu Bluetooth Các tác giả xây dựng lên quy trình để phân tích liệu cho việc xác định hành vi Để đạt mục tiêu đó, nhóm tác giả xây dựng quy trình để thực công đoạn sau: Phân lớp liệu theo vị trí để xác định di chuyển người dùng, xây dựng ma trận xác suất liệu di chuyển dùng để huẩn luyện, sử dụng mạng Nơ ron định (DT) để xác định hành vi bất thường người già người giai đoạn đầu bệnh trí nhớ Một cách tiếp cận khác, nhà nghiên cứu [7] phát kiện bất thường sống người già cô đơn cách khai thác liệu liên quan thu thiết bị cảm biến Họ sử dụng thuật tốn tìm luật kết hợp với cụm thời gian để phân tích hoạt động người cao tuổi Đầu tiên, họ gom cụm hoạt động người cao tuổi với thời gian sau đó, dựa vào kỹ thuật luật kết hợp để tìm tất tập hành động thường xuyên Cao cộng [23] đề xuất cách tiếp cận hiệu cho khai thác thói quen điện thoại di động Họ khai thác mối liên hệ tương tác người dùng với bối cảnh sử dụng, liệu từ file log điện thoại di động sử dụng để khám phá thói quen người dùng Các tác giả đưa thuật toán hiệu để giải toán Các tác giả sử dụng độ hỗ trợ khác nhau, độ tin cậy khác để giải thành cơng tốn khơng cân liệu liệu ngữ cảnh liệu tương tác người dùng với TBDĐ mà phương pháp tiếp cận truyền thống tìm luật kết hợp khơng giải Chúng tơi chọn đề tài tìm hiểu thói quen nhiều người dùng sử dụng phần mềm điện thoại di động hệ điều hành Android Trong đề tài này, tập trung tìm hiểu phân tích thơng tin phần mềm sử dụng TBDĐ Qua việc tìm hiểu liệu này, chúng tơi mong muốn phát thói quen sử dụng phần mềm, loại phần mềm hệ điều hành Android Từ ta xây dựng chiến lược để phát triển phần mềm tiền năng, chiến lược khác kinh tế quảng cáo, tiếp thị,… Cấu trúc luận văn gồm: Chương Cung cấp thơng tin tốn phân tích hành vi người sử dụng TBDĐ Trong chương này, trình bày hướng nghiên cứu hành vi người dùng khác từ liệu thu liên quan TBDĐ Đồng thời, …… pattern 86 iBasket : 619 pattern 87 Zoo Story : 614 Finished mining, total time = 72 ============================== Hình B.10 Kết khai phá với N = 10 ngày minSup = 30%  N = 25 Days ============================== starting mining miniSupport = 65.0 Mining short sequences by cutting off 25 Day(s) pattern Bejeweled : 548 pattern Dice With Buddies : 544 pattern Stick Stunt Biker : 542 pattern Spongebob Marbles : 541 pattern Guitar Rock Tour : 541 pattern Ragdoll Blaster Lite : 540 pattern Crush the Castle : 537 pattern Big Win Soccer : 536 pattern Hit Tennis : 534 pattern Zombie Highway : 530 pattern 10 Pocket Potions : 530 pattern 11 Zombie Life : 529 pattern 12 Microsoft Powerpoint : 522 pattern 13 Doodle Sprint! : 521 pattern 14 Chrome : 520 Finished mining, total time = 145 ============================== Hình B.11 Kết khai phá với N = 25 ngày minSup = 65% ============================== starting mining miniSupport = 60.0 Mining short sequences by cutting off 25 Day(s) pattern Bejeweled : 548 pattern Dice With Buddies : 544 pattern Stick Stunt Biker : 542 pattern Spongebob Marbles : 541 …… pattern 74 Funambol : 483 pattern 75 Angry Birds Seasons HD : 480 Finished mining, total time = 158 ============================== Hình B.12 Kết khai phá với N = 25 ngày minSup = 60% ============================== starting mining miniSupport = 55.0 Mining short sequences by cutting off 25 Day(s) 58 pattern Bejeweled : 548 pattern Dice With Buddies : 544 ……… ……… pattern 95 Zoo Story : 473 pattern 96 Paper Toss 2.0 : 463 Finished mining, total time = 161 ============================== Hình B.13 Kết khai phá với N = 25 ngày minSup = 55% ============================== starting mining miniSupport = 50.0 Mining short sequences by cutting off 25 Day(s) pattern Bejeweled : 548 pattern Dice With Buddies : 544 …… …… pattern 96 Zoo Story : 473 pattern 97 Paper Toss 2.0 : 463 Finished mining, total time = 136 ============================== Hình B.14 Kết khai phá với N = 25 ngày minSup = 50% ============================== starting mining miniSupport = 45.0 Mining short sequences by cutting off 25 Day(s) pattern Bejeweled : 548 ……… ……… pattern Dice With Buddies : 544 pattern 97 Paper Toss 2.0 : 463 Finished mining, total time = 138 ============================== Hình B.15 Kết khai phá với N = 25 ngày minSup = 45% ============================== starting mining miniSupport = 40.0 Mining short sequences by cutting off 25 Day(s) pattern Bejeweled : 548 pattern Dice With Buddies : 544 ……… ……… pattern 96 Zoo Story : 473 pattern 97 Paper Toss 2.0 : 463 Finished mining, total time = 135 ============================== Hình B.16 Kết khai phá với N = 25 ngày minSup = 40% 59 ============================== starting mining miniSupport = 35.0 Mining short sequences by cutting off 25 Day(s) pattern Bejeweled : 548 pattern Dice With Buddies : 544 pattern 96 Zoo Story : 473 pattern 97 Paper Toss 2.0 : 463 Finished mining, total time = 149 ============================== Hình B.17 Kết khai phá với N = 25 ngày minSup = 35% ============================== starting mining miniSupport = 30.0 Mining short sequences by cutting off 25 Day(s) pattern Bejeweled : 548 pattern Dice With Buddies : 544 ……… ……… pattern 362 Glow Puzzle,Zombie Highway : 239 pattern 363 Pocket Potions,Sunday Lawn : 239 pattern 364 Ragdoll Blaster Lite,Firefox for Mobile : 239 Finished mining, total time = 255 ============================== Hình B.18 Kết khai phá với N = 25 ngày minSup = 30% ============================== starting mining miniSupport = 25.0 Mining short sequences by cutting off 25 Day(s) pattern Bejeweled : 548 pattern Dice With Buddies : 544 pattern Stick Stunt Biker : 542 ……… pattern 5487 iMob 2,Microsoft Powerpoint : 199 pattern 5488 Assassins Creed Altaïrs,iMobsters : 199 pattern 5489 Toy Story 3,Hangman : 199 Finished mining, total time = 422 ============================== Hình B.19 Kết khai phá với N = 25 ngày minSup = 25% Một số kết khai phá thói quen phân tách giá trị slotTime nhỏ N (số ngày) nhỏ từ 1- ngày hình Hình B.20, B.21, B.22, B.23 ============================== starting mining miniSupport = 15.0 Mining short sequences by cutting off Day(s) Finished mining, total time = 19 ============================== 60 Hình B.20 Kết khai phá với N = ngày với minSup = 15% ============================== starting mining miniSupport = 15.0 Mining short sequences by cutting off Day(s) Finished mining, total time = 20 ============================== Hình B.21 Kết khai phá với N = ngày với minSup = 15% ============================== starting mining miniSupport = 15.0 miningAllShortSQ Finished mining, total time = 15 ============================== Hình B.22 Kết khai phá với sloTime =36001s với minSup = 15% B2 Kết thực nghiệm Bộ liệu thứ Bộ liệu thứ gồm: 30381 hàng CSDL 200 thiết bị, thiết bị chạy từ đến 10 ứng dụng ngày, tập ứng dụng có 49 ứng dụng cho tất thiết bị, thời gian sử dụng cho thiết bị 30 ngày ============================== starting mining miniSupport = 90.0 miningPSMinmaxTime Hungry Shark,Paper Toss 2.0 count = 190 | time: 137180 138454 seconds Stupid Zombies,Paper Toss 2.0 count = 194 | time: 141966 142258 seconds Zombies,Paper Toss 2.0 count = 186 | time: 158786 160073 seconds Hungry Shark,Zombie Life count = 184 | time: 161648 162065 seconds Hungry Shark,Fruit Ninja: Puss in Boots Lite count = 182 | time: 150370 150628 seconds Microsoft Excel,Hungry Shark count = 180 | time: 253327 257443 seconds …………… …………… Hungry Shark,Sunday Lawn count = 176 | time: 153596 153922 seconds Hungry Shark,Crush the Castle count = 174 | time: 172299 210024 seconds Hungry Shark,Spider Solitaire count = 175 | time: 167491 167674 seconds Real Racing GTI,StickWars Lite count = 173 | time: 167112 167190 seconds 61 ============================== Hình B.23 Kết mining tìm pattern khoảng thời gian tương ứng để phân tách Trước hết, khai phá tập liệu chuỗi với khoảng thời gian phân tách slotTimex = 86001s Khoảng thời gian phân tách phần từ Itemset 60s Ứng với độ hỗ trợ tối thiểu chúng tơi có kết sau: - minSup = 50% ============================== starting mining miniSupport = 50.0 miningAllShortSQ pattern Hungry Shark : 379 pattern Paper Toss 2.0 : 376 pattern StickWars Lite : 364 Finished mining, total time = 10 ============================== Hình B.24 Kết mining theo slotTime phân tách = 86001s, minSup =50% - minSup = 45% ============================== starting mining miniSupport = 45.0 miningAllShortSQ miningAllShortSQ pattern Hungry Shark : 379 pattern Paper Toss 2.0 : 376 pattern StickWars Lite : 364 pattern Extreme Road Trip : 362 pattern Yahoo messenger : 361 ………… ………… pattern 37 NBA JAM by EA SPORTS LITE : 331 pattern 38 Finger Slayer : 331 pattern 39 Mouse Maze Game : 330 Finished mining, total time = 11 ============================== Hình B.25 Kết mining theo slotTime phân tách = 86001s, minSup =45% - minSup = 40% ============================== starting mining miniSupport = 40.0 miningAllShortSQ pattern Hungry Shark : 379 62 pattern Paper Toss 2.0 : 376 pattern StickWars Lite : 364 …………………… ………………… pattern 47 Contract Killer: Zombies : 324 pattern 48 Hit Tennis : 320 Finished mining, total time = 11 ============================== Hình B.26 Kết mining theo slotTime phân tách = 86001s, minSup =40% - minSup = 35% ============================== starting mining miniSupport = 35.0 miningAllShortSQ pattern Hungry Shark : 379 pattern Paper Toss 2.0 : 376 pattern StickWars Lite : 364 ……………… ……………… pattern 47 Contract Killer: Zombies : 324 pattern 48 Hit Tennis : 320 Finished mining, total time = 10 ============================== Hình B.27 Kết mining theo slotTime phân tách = 86001s, minSup =35% - minSup = 30% ============================== starting mining miniSupport = 30.0 miningAllShortSQ pattern Hungry Shark : 379 pattern Paper Toss 2.0 : 376 pattern StickWars Lite : 364 …………… …………… pattern 47 Contract Killer: Zombies : 324 pattern 48 Hit Tennis : 320 Finished mining, total time = 11 ============================== Hình B.28 Kết mining theo slotTime phân tách = 86001s, minSup =30% - minSup = 25% ============================== starting mining miniSupport = 25.0 miningAllShortSQ 63 pattern Hungry Shark : 379 pattern Paper Toss 2.0 : 376 pattern StickWars Lite : 364 …………… …………… pattern 53 Hungry Shark,Paper Toss 2.0 : 184 pattern 54 Paper Toss 2.0,Ragdoll Blaster Lite : 182 Finished mining, total time = 12 ============================== Hình B.29 Kết mining theo slotTime phân tách = 86001s, minSup =25% - minSup = 20% ============================== starting mining miniSupport = 20.0 miningAllShortSQ pattern Hungry Shark : 379 pattern Paper Toss 2.0 : 376 pattern StickWars Lite : 364 …………… …………… pattern 1440 Finger Slayer,Mouse Maze Game : 144 pattern 1441 Frontline Commando,Real Racing GTI : 143 Finished mining, total time = 45 ============================== Hình B.30 Kết mining theo slotTime phân tách = 86001s, minSup =20% Mining liệu cắt theo ngày  Với số ngày - minSup = 45% ============================== starting mining miniSupport = 45.0 Mining short sequences by cutting off Day(s) Finished mining, total time = 24 ============================== Hình B.31 Kết mining theo nDays = 5, minSup =45% - minSup = 40% ============================== starting mining miniSupport = 40.0 Mining short sequences by cutting off Day(s) Mining short sequences by cutting off Day(s) pattern Hungry Shark : 1068 pattern Paper Toss 2.0 : 1057 64 pattern Fluff Friends Rescue : 1019 pattern Cake Maker : 1003 pattern Stupid Zombies : 997 Finished mining, total time = 25 ============================== Hình B.32 Kết mining theo nDays = 5, minSup =40% - minSup = 35% ============================== starting mining miniSupport = 35.0 Mining short sequences by cutting off Day(s) pattern Hungry Shark : 1068 pattern Paper Toss 2.0 : 1057 …………… …………… pattern 43 Hit Tennis : 882 pattern 44 Contract Killer: Zombies : 874 Finished mining, total time = 26 ============================== Hình B.33 Kết mining theo nDays = 5, minSup =35% - minSup = 30% ============================== starting mining miniSupport = 30.0 Mining short sequences by cutting off Day(s) pattern Hungry Shark : 1068 pattern Paper Toss 2.0 : 1057 pattern Fluff Friends Rescue : 1019 ………… ………… pattern 47 Hit Tennis : 882 pattern 48 Contract Killer: Zombies : 874 Finished mining, total time = 27 ============================== Hình B.34 Kết mining theo nDays = 5, minSup =30% - minSup = 25% ============================== starting mining miniSupport = 25.0 Mining short sequences by cutting off Day(s) pattern Hungry Shark : 1068 pattern Paper Toss 2.0 : 1057 ……………… ……………… pattern 47 Hit Tennis : 882 65 pattern 48 Contract Killer: Zombies : 874 Finished mining, total time = 27 ============================== Hình B.35 Kết mining theo nDays = 5, minSup =25% - minSup = 20% ============================== starting mining miniSupport = 20.0 Mining short sequences by cutting off Day(s) pattern Hungry Shark : 1068 pattern Paper Toss 2.0 : 1057 ……………… ……………… pattern 47 Hit Tennis : 882 pattern 48 Contract Killer: Zombies : 874 Finished mining, total time = 27 ============================== Hình B.36 Kết mining theo nDays = 5, minSup =20%  Ngày - minSup = 40% ============================== starting mining miniSupport = 40.0 Mining short sequences by cutting off Day(s) Finished mining, total time = 33 ============================== Hình B.37 Kết mining theo nDays = 7, minSup =40% - minSup = 35% ============================== Mining short sequences by cutting off Day(s) pattern Paper Toss 2.0 : 998 pattern Motor Academy : 930 pattern Racing Live : 922 ……… ……… pattern 12 Sunday Lawn : 699 pattern 13 Microsoft Word : 697 Finished mining, total time = 33 ============================== Hình B.38 Kết mining theo nDays = 7, minSup =35% - minSup = 30% ============================== 66 starting mining miniSupport = 30.0 Mining short sequences by cutting off Day(s) pattern Paper Toss 2.0 : 998 pattern Hungry Shark : 956 pattern Microsoft Excel : 942 ………………… ………………… pattern 47 Pocket Potions : 637 pattern 48 Hit Tennis : 635 Finished mining, total time = 33 ============================== Hình B.39 Kết mining theo nDays = 7, minSup =30% - minSup = 25% ============================== starting mining miniSupport = 25.0 Mining short sequences by cutting off Day(s) pattern Paper Toss 2.0 : 998 pattern Hungry Shark : 956 pattern Microsoft Excel : 942 ………………… ………………… pattern 47 Contract Killer: Zombies : 824 pattern 48 Hit Tennis : 805 Finished mining, total time = 34 ============================== Hình B.40 Kết mining theo nDays = 7, minSup =25% - minSup = 20% ============================== starting mining miniSupport = 20.0 Mining short sequences by cutting off Day(s) pattern Paper Toss 2.0 : 998 pattern Hungry Shark : 956 pattern Microsoft Excel : 942 ……………………… ……………………… pattern 47 Contract Killer: Zombies : 824 pattern 48 Hit Tennis : 805 Finished mining, total time = 34 ============================== Hình B.41 Kết mining theo nDays = 7, minSup =20%  10 ngày - minSup = 50% 67 ============================== starting mining miniSupport = 50.0 Mining short sequences by cutting off 10 Day(s) pattern Paper Toss 2.0 : 836 pattern Hungry Shark : 834 pattern Stupid Zombies : 805 …… …… pattern 45 Finger Basketball : 726 pattern 46 Contract Killer: Zombies : 708 Finished mining, total time = 48 ============================== Hình B.42 Kết mining theo nDays = 10, minSup =50% - minSup = 45% ============================== starting mining miniSupport = 45.0 Mining short sequences by cutting off 10 Day(s) pattern Paper Toss 2.0 : 836 pattern Hungry Shark : 834 ………… ………… pattern 47 Finger Basketball : 726 pattern 48 Contract Killer: Zombies : 708 Finished mining, total time = 52 ============================== Hình B.43 Kết mining theo nDays = 10, minSup =45% - minSup = 40% ============================== starting mining miniSupport = 40.0 Mining short sequences by cutting off 10 Day(s) pattern Paper Toss 2.0 : 836 pattern Hungry Shark : 834 ………………… ……………… pattern 47 Finger Basketball : 726 pattern 48 Contract Killer: Zombies : 708 Finished mining, total time = 55 ============================== Hình B.44 Kết mining theo nDays = 10, minSup =40% - minSup = 35% 68 ============================== starting mining miniSupport = 35.0 Mining short sequences by cutting off 10 Day(s) pattern Paper Toss 2.0 : 836 pattern Hungry Shark : 834 pattern Stupid Zombies : 805 ……………………… ……………………… pattern 47 Finger Basketball : 726 pattern 48 Contract Killer: Zombies : 708 ============================== Hình B.45 Kết mining theo nDays = 10, minSup =35% - minSup = 30% ============================== starting mining miniSupport = 30.0 Mining short sequences by cutting off 10 Day(s) pattern Paper Toss 2.0 : 836 pattern Hungry Shark : 834 ……………………… ……………………… pattern 90 Real Racing GTI,Hungry Shark : 367 pattern 91 Line Runner,Hungry Shark : 362 Finished mining, total time = 61 ============================== Hình B.46 Kết mining theo nDays = 10, minSup =30% - minSup = 25% ============================== starting mining miniSupport = 25.0 Mining short sequences by cutting off 10 Day(s) pattern Paper Toss 2.0 : 836 pattern Hungry Shark : 834 ………… …………… pattern 1198 MONOPOLY,SpongeBob Tickler Lite : 302 pattern 1199 Finger Basketball,Microsoft Excel : 301 Finished mining, total time = 99 ============================== Hình B.47 Kết mining theo nDays =105, minSup =25% - minSup = 20% ============================== starting mining miniSupport = 20.0 69 Mining short sequences by cutting off 10 Day(s) pattern Paper Toss 2.0 : 836 pattern Hungry Shark : 834 ……………… ……………… pattern 2392 Opera Mini,Stick Stunt Biker : 242 pattern 2393 Extreme Road Trip,SpongeBob Tickler Lite : 241 Finished mining, total time = 117 ============================== Hình B.48 Kết mining theo nDays = 10, minSup =20% 70 TÀI LIỆU THAM KHẢO [1] Hermersdorf, M Nyholm, H Perkio, J Tuulos, V “Sensing in Rich Bluetooth Environments”- Workshop on WorldSensorWeb, in Proc SenSys, 2006 - sensorplanet.org [2] Eagle, N Pentland, A “Reality mining: sensing complex social systems” Personal and Ubiquitous Computing 2006 – Springer, Vol 10, # 4, 255268 [3] Farrahi, K Gatica-Perez, D “Daily Routine Classification from Mobile Phone Data” In: Popescu-Belis, A., Stiefelhagen, R (eds.) MLMI 2008 LNCS, vol 5237, pp 173–184 Springer, Heidelberg (2008) [4] Farrahi, K Gatica-Perez, D “What did you today? Discovering daily routines from Large-Scale Mobile Data”.In: MM 2008: Proceeding of the 16th ACM International Conference on Multimedia, pp 849–852 ACM, New York (2008) [5] Human Behaviour Analysis Using DataCollected from Mobile Devices International Journal on Advances in Life Sciences, vol no & 2, year 2012, [6] Hara, K Omori, T Ueno, R “Detection of unusual human behaviour in intelligent house”; Proceedings of the 2002 12th IEEE workshop on Neural Networks for Signal Processing, pp 697-706, 2002 [7] Yiping, T Zhiying, Z Hui, G.Huiqiang, L Wei, W Gang, X “Elder Abnormal Activity Detection by Data Mining”, SICE Annual Conference in Sapporo, August 4-6, 2004, vol 1, pp 837–840 (2004) Japan [8] Wren, C Ivanov, Y Kaur, I Leigh, D Westhues, J “SocialMotion: Measuring the Hidden Social Life of a Building” In: J Hightower, B Schiele, and T Strang, (eds.) LoCA 2007 LNCS, vol 4718, pp 85–102 Springer, Heidelberg (2007) [9] McCowan, I Gatica-Perez, D Bengio, S Lathoud, G “Automatic Analysis of Multimodal Group Actions in Meetings”.IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI) 27(3), 305–317 (2005) [10] Vukovic, M Lovrek, I Jevtic, D “Predicting user movement for advanced location-aware services”.In 15th International Conference on Software, Telecommunications and Computer Networks, pp 1–5 SoftCOM 2007, 2007 [11] Azam, M A Tokarchuk, L Adeel, M “Human Behaviour detection Using GSM Location Patterns and Bluetooth Proximity Data” The Fourth International Conference on Mobile Ubiquitous Computing,Services and Technologies, pp 428-433, Florence, Italy, 2010 [12] Yang, J., Wang, W., and Yu, P S 2001 Infominer: mining surprising periodic patterns In Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining ACM Press 71 [13]Agrawal, R and Srikant, R 1995 Mining sequential patterns In Eleventh International Conference on Data Engineering, P S Yu and A S P Chen, Eds IEEE Computer Society Press, Taipei, Taiwan, 3-14 [14] http://www.philippe-fournier-viger.com/spmf/ [15] Han, J and Kamber, M 2000 Data Mining Concepts and Techniques Morgan Kanufmann [16] Srikant, R and Agrawal, R 1996 Mining sequential patterns: Generalizations and performance improvements In Proc 5th Int Conf Extending Database Technology, EDBT, P M G Apers, M Bouzeghoub, and G Gardarin, Eds Vol 1057 Springer-Verlag, 3-17 [17] J., Pei, J., Mortazavi-Asl, B., Chen, Q., Dayal, U., and Hsu, M.-C 2000 FreeSpan: fre-quent pattern-projected sequential pattern mining In Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining ACM Press, 355-359 [18] Pei, J., Han, J., Pinto, H., Chen, Q., Dayal, U., and Hsu, M C 2001 PrefixSpan: Mining sequential patterns efficiently by prefix-projected pattern growth Int Conf on Data Engineering [19] Garofalakis, M N., Rastogi, R., and Shim, K 1999 Spirit: Sequential pattern mining with regular expression constraints In VLDB'99, Proceedings of 25th International Conference on Very Large Data Bases, September 7-10, 1999, Edinburgh, Scotland, UK, M P Atkinson, M E Orlowska, P Valduriez, S B Zdonik, and M L Brodie, Eds Morgan Kaufmann, 223-234 [20] Lin, M.-Y and Lee, S.-Y 2002 Fast discovery of sequential patterns by memory indexing In Proc of 2002 DaWaK 150-160 [21] Zaki, M J 2001 SPADE: An efecient algorithm for mining frequent sequences Machine Learn-ing 42, 1/2, 31-60 [22] Jay Ayres, Johannes Gehrke, Tomi Yiu, and Jason Flannick SPAM: Sequential PAttern Mining using A Bitmap Representation SIGKDD ’02 Edmonton, Alberta, Canada 2002 [23] H Cao, T Bao, Q Yang, E Chen, and J Tian An effective approach for mining mobile user habits In Proceedings of the 19th ACM Conference on Information and Knowledge Management (CIKM’10), pages 1677–1680, 2010 72 ... sử dụng liệu sau gồm có 200 thiết bị, 49 ứng dụng, 30 ngày sử dụng, thiết bị sử dụng từ đến 10 ứng dụng ngày Với liệu nâng cao khả kết khai phá cho phương án phân tách theo ngày thiết bị sử dụng. .. điện di động cá nhân dựa việc phân loại liệu ID điện thoại di động vào địa điểm khác từ phân tích thói quen hành vi người sử dụng Các nghiên cứu sử dụng liệu thu thông qua Bluetooth để phân biệt... mẫu kiện theo trình tự Chúng ta tìm thấy mẫu sự kiê ̣n cụ thể, tìm thấy mẫu qua sự kiê ̣n khác Việc phát mẫu 14 sử dụng rộng rãi việc phân tích trình tự DNA Một ví dụ mẫu chứng khoán Microsoft

Ngày đăng: 16/03/2021, 12:38

Mục lục

  • MỤC LỤC

  • DANH MỤC CÁC HÌNH VẼ

  • DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT

  • DANH MỤC CÁC BẢNG

  • MỞ ĐẦU

  • Chương 1 - GIỚI THIỆU

  • Chương 2 - TỔNG QUAN KHAI PHÁ MẪU CHUỖI TUẦN TỰ

  • 2.1. Đặc điểm của dữ liệu

  • 2.2. Khai phá dữ liệu mẫu chuỗi tuần tự

  • 2.2.1. Giới thiệu chung

  • 2.2.2. Bài toán Khai phá mẫu chuỗi tuần tự

  • 2.2.3. Một số thuật toán khai phá mẫu tuần tự

  • Chương 3 - MÔ HÌNH ĐỀ XUẤT

  • 3.1. Mô hình đề xuất tổng thể

  • 3.2. Các phương án tách chuỗi

  • 3.3. Tách Itemset trong chuỗi.

  • 3.4. Tính thời gian cho phương án tách chuỗi

  • Chương 4 - THỰC NGHIỆM

  • 4.1 Bộ dữ liệu thứ nhất

  • 4.2. Bộ dữ liệu thứ 2

Tài liệu cùng người dùng

Tài liệu liên quan