Hiệu quả lưu trữ thông qua cơ chế giảm dữ liệu- 123docz.net

Để phân tích hiệu quả lưu trữ, dữ liệu được sinh ngẫu nhiên với số lượng cảm biến 5, 7 và 9, thời gian là 30 giây, tức là cứ sau 30 giây mẫu được gửi về và so sánh tốc độ lưu trữ dữ liệu giữa các phương pháp, cụ thể là cơ chế Event-weight của TinyDB, cơ chế giảm dữ liệu ba pha (Naïve, Level1, Level2). Cơ chế Event-weight của TinyDB sẽ được so sánh với cơ chế giảm dữ liệu ba pha tại bộ 9 cảm biến.

Với thí nghiệm gồm tập 5 cảm biến cùng với các mốc dữ liệu: 5 000; 15 000; 25 000 và 50 000 bản ghi.

Hình 6.3 Dữ liệu giảm theo cơ chế ba pha với tập 5 cảm biến và ngưỡng giá trị khoảng cách của Level1 và Level2 là 1

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 5000 15000 25000 50000 Raw Naïve Level1 (TL:1) Level2 (TL:1) Tổng số mẫu

Từ dữ liệu ban đầu, sau khi sử dụng cơ chế giảm dữ liệu ba pha, dữ liệu được giảm đi đáng kể. Cụ thể:

- Với 5 000 mẫu:

o Pha Naïve: dữ liệu giảm 8,5% so với dữ liệu thô ban đầu.

o Pha Level1: với ngưỡng giá trị khoảng cách là 1 thì dữ liệu giảm 61,38% so với pha Naïve, giảm 64.66% so với dữ liệu thô ban đầu. o Pha Level2: với ngưỡng giá trị khoảng cách là 1 thì dữ liệu giảm

61,01% so với pha Level1, giảm 86,22% so với dữ liệu thô ban đầu. - Với 50 000 mẫu:

o Pha Naïve: dữ liệu giảm 17,38% so với dữ liệu thô ban đầu.

o Pha Level1: với ngưỡng giá trị khoảng cách là 1 thì dữ liệu giảm 58,73% so với pha Naïve, giảm 65.90% so với dữ liệu thô ban đầu. o Pha Level2: với ngưỡng giá trị khoảng cách là 1 thì dữ liệu giảm

60,81% so với pha Level1, giảm 86,63% so với dữ liệu thô ban đầu.

Hình 6.4 Thời gian thực hiện thuật toán giảm giữ liệu theo cơ chế ba pha với tập 5 cảm biến và ngưỡng giá trị khoảng cách của Level1 và Level2 là 1

Thời gian để thực hiện thuật toán giảm dữ liệu theo cơ chế ba pha được thể hiện như hình 6.4. Cụ thể

- Với 5 000 mẫu:

o Pha Naïve: thời gian thực hiện là 11 giây 0 100 200 300 400 500 600 5000 15000 25000 50000 Naïve Level1 (TL:1) Level2 (TL:1) Tổng số mẫu Thời gian thự c hiện thuật toán (giây )

o Pha Level: với ngưỡng giá trị khoảng cách là 1 thì thời gian thực hiện là 2 giây

o Pha Level2: với ngưỡng giá trị khoảng cách là 1 thì thời gian thực hiện là 1 giây

- Với 50 000 mẫu:

o Pha Naïve: thời gian thực hiện là 563 giây

o Pha Level1: với ngưỡng giá trị khoảng cách là 1 thì thời gian thực hiện là 13 giây

o Pha Level2: với ngưỡng giá trị khoảng cách là 1 thì thời gian thực hiện là 5 giây.

Với thí nghiệm gồm tập 7 cảm biến cùng với các mốc dữ liệu: 7 000; 21 000; 35 000 và 70 000 bản ghi. Dữ liệu sau khi sử dụng cơ chế giảm dữ liệu ba pha được giảm đi đáng kể. Nhìn

Hình 6.5 Dữ liệu giảm theo cơ chế ba pha với tập 7 cảm biến và ngưỡng giá trị khoảng cách của Level1 và Level2 là 1

Từ dữ liệu ban đầu, sau khi sử dụng cơ chế giảm dữ liệu ba pha, dữ liệu được giảm đi đáng kể. Cụ thể:

- Với 7 000 mẫu:

o Pha Naïve: dữ liệu giảm 10,64% so với dữ liệu thô ban đầu.

o Pha Level1: với ngưỡng giá trị khoảng cách là 1 thì dữ liệu giảm 62,62% so với pha Naïve, giảm 66,66% so với dữ liệu thô ban đầu. 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 7000 21000 35000 70000 Raw Naïve Level1 (TL:1) Level2 (TL:1) Tổng số mẫu

o Pha Level2: với ngưỡng giá trị khoảng cách là 1 thì dữ liệu giảm 62,49% so với pha Level1, giảm 87,47% so với dữ liệu thô ban đầu. - Với 70 000 mẫu:

o Pha Naïve: dữ liệu giảm 23,11% so với dữ liệu thô ban đầu.

o Pha Level1: với ngưỡng giá trị khoảng cách là 1 thì dữ liệu giảm 61,14% so với pha Naïve, giảm 70,12% so với dữ liệu thô ban đầu. o Pha Level2: với ngưỡng giá trị khoảng cách là 1 thì dữ liệu giảm

61,64% so với pha Level1, giảm 88,54% so với dữ liệu thô ban đầu.

Hình 6.6 Thời gian thực hiện thuật toán giảm giữ liệu theo cơ chế ba pha với tập 7 cảm biến và ngưỡng giá trị khoảng cách của Level1 và Level2 là 1

Thời gian để thực hiện thuật toán giảm dữ liệu theo cơ chế ba pha được thể hiện như hình 6.6. Cụ thể như sau:

- Với 7 000 mẫu:

o Pha Naïve: thời gian thực hiện là 16 giây

o Pha Level: với ngưỡng giá trị khoảng cách là 1 thì thời gian thực hiện là 1 giây

o Pha Level2: với ngưỡng giá trị khoảng cách là 1 thì thời gian thực hiện là 0 giây - Với 70 000 mẫu: 0 200 400 600 800 1,000 1,200 7000 21000 35000 70000 Naïve Level1 (TL:1) Level2 (TL:1) Tổng số mẫu Thời gian thự c hiện thuật toán (giây )

o Pha Naïve: thời gian thực hiện là 1 018 giây

o Pha Level1: với ngưỡng giá trị khoảng cách là 1 thì thời gian thực hiện là 13 giây

o Pha Level2: với ngưỡng giá trị khoảng cách là 1 thì thời gian thực hiện là 5 giây

Với thử nghiệm với bộ 5, 7 cảm biến, cho ta thấy sự bùng nổ giữ liệu rất nhanh theo thời gian, nếu các cảm biến gửi mẫu về liên tục thì bộ nhớ lưu trữ sẽ nhanh chóng bị đầy nếu không có giải giáp tối ưu dữ liệu.

 So sánh cơ chế Event-weight của TinyDB với cơ chế giảm dữ liệu pha pha với thí nghiệm tập 9 cảm biến gồm các mốc dữ liệu: 9 000; 27 000; 45 000; 90 000 và 180 000 mẫu. Dữ liệu sau khi sử dụng cơ chế giảm dữ liệu ba pha được giảm đi đáng kể.

Thông thường cứ 30 giây thì mẫu được gửi về.

Khi các mẫu được gửi về càng nhiều thì việc tối ưu dữ liệu là cực kỳ quan trọng, đặc biệt không làm giảm độ chính xác dữ liệu, hay độ chính xác của dữ liệu có thể chấp nhận được.

Theo cơ chế ba pha:

Pha Naïve: mẫu gửi về có giá trị trùng với giá trị trước đó thì sẽ bị loại bỏ trong lưu trữ và nếu không trùng với giá trị trước đó thì sẽ được giữ lại. Như vậy dữ liệu sẽ không bị ảnh hưởng về độ chính xác, dung lượng cũng được giảm khá nhiều như thể hiện ở hình 6.7.

Tại pha Level1: Giá trị ước khoảng có thể tùy chỉnh, trong thực nghiệm này sẽ lấy giá trị ước khoảng là 0,5 để thực hiện tối ưu dữ liệu, giữ liệu đã được giảm đáng kể so với dữ liệu gửi về, mà độ chính xác của dữ liệu có thể chấp nhận được, đồng thời tiết kiệm dung lượng lưu trữ hiệu quả hơn nhiều.

Tại pha Level2: trường hợp cần giảm dữ liệu nữa thì tiếp tục thực hiện pha Level2 với giá trị ước khoảng 0,5.

Theo cơ chế Event-weight của TinyDB: Thay vì cứ 30 giây thì nhận mẫu, thì cơ chế sẽ thực hiện 60 giây sẽ nhận mẫu. Như vậy dữ liệu sẽ được giảm 50% so với dữ liệu ban đầu, nhưng như vậy độ chính xác của dữ liệu sẽ giảm đi nhiều.

Hình 6.7 Dữ liệu giảm theo cơ chế ba pha với tập 9 cảm biến và ngưỡng giá trị khoảng cách của Level1 và Level2 là 0,5

Như hình 6.7: cho thấy dữ liệu theo cơ chế ba pha dữ liệu được giảm rất nhiều so với cơ chế Event-weight của TinyDB, mà độ chính xác dữ liệu vẫn có thể chấp nhận được.

Từ dữ liệu ban đầu, sau khi sử dụng cơ chế giảm dữ liệu ba pha, dữ liệu được giảm đi đáng kể. Cụ thể như sau:

- Với 9 000 mẫu:

o Pha Naïve: dữ liệu giảm 10,37% so với dữ liệu thô ban đầu.

o Pha Level1: với ngưỡng giá trị khoảng cách là 1 thì dữ liệu giảm 71,34% so với pha Naïve, giảm 74,31% so với dữ liệu thô ban đầu. o Pha Level2: với ngưỡng giá trị khoảng cách là 1 thì dữ liệu giảm

57,6% so với pha Level1, giảm 89,11% so với dữ liệu thô ban đầu. o Trong khi đó cơ chế Event-weight của TinyDB dữ liệu chỉ giảm 50%

so với dữ liệu thô ban đầu. - Với 90 000 mẫu:

o Pha Naïve: dữ liệu giảm 16,56% so với dữ liệu thô ban đầu.

o Pha Level1: với ngưỡng giá trị khoảng cách là 1 thì dữ liệu giảm 71,63% so với pha Naïve, giảm 76,33% so với dữ liệu thô ban đầu. o Pha Level2: với ngưỡng giá trị khoảng cách là 1 thì dữ liệu giảm 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 9000 27000 45000 90000 180000 Raw Naïve Level1 (TL:0,5) Level2 (TL:0,5) Event-weight Tổng số mẫu

57,3% so với pha Level1, giảm 89,91% so với dữ liệu thô ban đầu. o Trong khi đó cơ chế Event-weight của TinyDB dữ liệu chỉ giảm 50%

so với dữ liệu thô ban đầu. - Với 180 000 mẫu:

o Pha Naïve: dữ liệu giảm 21,35% so với dữ liệu thô ban đầu.

o Pha Level1: với ngưỡng giá trị khoảng cách là 0,5 thì dữ liệu giảm 51,39% so với pha Naïve, giảm 61,77% so với dữ liệu thô ban đầu. o Pha Level2: với ngưỡng giá trị khoảng cách là 0,5 thì dữ liệu giảm

58,1% so với pha Level1, giảm 83,99% so với dữ liệu thô ban đầu. Trong khi đó cơ chế Event-weight của TinyDB dữ liệu chỉ giảm 50% so với dữ liệu thô ban đầu.

Hình 6.8 Thời gian thực hiện thuật toán giảm giữ liệu theo cơ chế ba pha với tập 9 cảm biến và ngưỡng giá trị khoảng cách của Level1 và Level2 là 0.5

Thời gian để thực hiện thuật toán giảm dữ liệu theo cơ chế ba pha được thể hiện như hình 6.8. Cụ thể như sau:

- Với 9 000 mẫu:

o Pha Naïve: thời gian thực hiện là 33 giây 0 1,000 2,000 3,000 4,000 5,000 6,000 9000 27000 45000 90000 180000 Naïve Level1 (TL:0,5) Level2 (TL:0,5) Tổng số mẫu Thời gian thự c hiện thuật toán (giây )

o Pha Level: với ngưỡng giá trị khoảng cách là 0,5 thì thời gian thực hiện là 3 giây

o Pha Level2: với ngưỡng giá trị khoảng cách là 0,5 thì thời gian thực hiện là 1 giây

- Với 90 000 mẫu:

o Pha Naïve: thời gian thực hiện là 1 511 giây

o Pha Level1: với ngưỡng giá trị khoảng cách là 0,5 thì thời gian thực hiện là 12 giây

o Pha Level2: với ngưỡng giá trị khoảng cách là 0,5 thì thời gian thực hiện là 5 giây

- Với 18 000 mẫu:

o Pha Naïve: thời gian thực hiện là 5 434 giây

o Pha Level1: với ngưỡng giá trị khoảng cách là 0,5 thì thời gian thực hiện là 50 giây

o Pha Level2: với ngưỡng giá trị khoảng cách là 0,5 thì thời gian thực hiện là 17 giây

Phương pháp lấy mẫu dựa trên Event-weight của TinyDB đã loại bỏ giá trị dữ liệu gần như không đổi hoặc thay đổi chút ít trong một thời gian, nó có hiệu quả tốt hơn so với các pha Naïve. Tuy nhiên, phương pháp lấy mẫu dựa trên Event-weight của TinyDB đã đưa ra một hiệu suất thấp hơn so với pha Level1. Bên cạnh đó, đề xuất giảm dữ liệu theo phương pháp của thí nghiệm giảm khoảng 9% đến 23% dữ liệu so với dữ liệu thô tại pha Naïve, giảm 50% đến 75% so với dữ liệu thô tại pha Level1 (tùy thuộc vào ngưỡng giá trị khoảng cách), giảm khoảng 75% đến 90% so với dữ liệu thô tại Level2 (tùy thuộc vào ngưỡng giá trị khoảng cách). Tức là các nút cảm biến sẽ loại bỏ các mẫu bản sao trước khi lưu trữ vào bộ nhớ, do đó chỉ có khoảng 81% đến 77% dữ liệu được giữ lại. Với việc sử dụng ngưỡng giá trị khoảng cách dựa trên dữ liệu thực hiện tại pha Level1 sẽ giảm lưu trữ so với pha Naïve rất nhiều, điều này có thể tiết kiệm dung lượng lưu trữ khá nhiều. Bởi vì chiến lược tối ưu dữ liệu tại pha Level1 đã kết hợp một số mẫu dữ liệu trong một khoảng thời gian dựa trên ngưỡng khoảng cách giá trị được định nghĩa, thường là trong một khoảng thời gian có khoảng hơn mẫu có thể được kết hợp theo ngưỡng giá trị khoảng cách này. Nếu dữ liệu vẫn bị tràn sau pha Naïve và pha Level1 thì có thể tiếp tục thực hiện tối ưu dữ liệu theo pha Level2, theo pha này thì dữ liệu được giảm khá nhiều so với dữ liệu ban đầu.

Trong cơ chế giảm dữ liệu ba pha, giá trị gần đúng được lấy từ giá trị trung bình của tổng giá trị dữ liệu đạt được từ khoảng thời gian đó, cho độ tin cậy của dữ liệu giá trị cao hơn. Đặc biệt, tại pha Level1 thuật toán giảm dữ liệu đề xuất thực hiện một số mẫu dữ liệu có giá trị khác biệt là nhỏ, mà từ đó một giá trị gần đúng như là giá trị đại

diện cho nhóm này.

Hình 6.7 cho thấy một thử nghiệm của bốn phương pháp để biểu hiện rõ hơn nữa về độ giảm liên tục của dữ liệu theo thời gian cùng với các dòng dữ liệu đến. Dữ liệu ước tính vẫn còn phù hợp với dữ liệu thô. Do dung lượng lưu trữ hạn chế trong các nút cảm biến, dữ liệu được gửi về liên tục, nên hiệu quả để lưu trữ tất cả dữ liệu đến sẽ không được khả quan. Do đó cơ chế tối ưu dữ liệu bằng cách giảm dữ liệu theo cơ chế ba sẽ mang lại hiệu quả khá tốt.

Hiệu quả lưu trữ thông qua cơ chế giảm dữ liệu

Hệ thống dữ liệu lịch sử dài hạn

Bối cảnh và giả thiết