Mô hình, giải thuật đề xuất

Một phần của tài liệu Xây dựng các dịch vụ tin sinh học trên nền tảng điện toán đám mây (Trang 50)

Mô hình giải thuật dự đoán của luận v n bao gồm hai phần: phần đầu là phƣơng pháp GA-BPNN (Genetic Algorithm – Back Propagation Neural Network) sử dụng m ng nơ-ron lan truyền ngƣợc kết hợp giải thuật di truyền để dự báo mà không tính đến chu kỳ thời gian của dữ liệu; phần thứ hai là phƣơng pháp kết hợp PD-GABP (Periodicity Detection – Genetic Algorithm Back Propagation) dự đoán chu kỳ lặp dữ liệu để t ng hiệu n ng của phƣơng pháp G -BPNN.

3.2.3.1. Giải thuật GA-BPNN

Luận v n sử dụng mô hình m ng nơ-ron 3 lớp perceptron nhƣ hình dƣới bao gồm: lớp đầu vào (I), lớp ẩn (H) và lớp đầu ra (O). Đây là mô hình m ng đầy đủ với mỗi lớp gồm nhiều nơ-ron. Kết nối của mỗi nơ-ron đƣợc gọi là c nh có trọng số, trọng số này phụ thuộc vào đặc trƣng bài toán và đƣợc thay đổi trong quá trình học. Hàm chuyển đổi phi tuyến đƣợc sử dụng là hàm sigmoid:

INPUT LAYER HIDDEN LAYER OUTPUT LAYER ... ...

Hình 12. Mô ì mạ g ơ-ro ều tầ g

Với yêu cầu dự đoán dữ liệu ở k bƣớc tiếp theo, đầu vào của m ng nơ-ron trên sẽ

là tập p dữ liệu quá khứ thu thập đƣợc , thƣờng đƣợc gọi

là vùng trƣợt (sliding windows). Đầu ra của m ng là giá trị . Nhƣ vậy, m ng nơ-ron trên sẽ thực hiện hàm phi tuyến sau:

Quá trình huấn luyện m ng nơ-ron sẽ thay đổi trọng số trên từng c nh để ra đƣợc mô hình m ng hợp lý phục vụ mục đích dự báo, ở đây mô hình m ng sử dụng phƣơng pháp lan truyền ngƣợc để cập nhật bộ trọng số c nh, hàm tính lỗi có công thức nhƣ sau:

trong đó, dk và yk lần lƣợt là giá trị đầu ra thực tế và ƣớc lƣợng, m là số lƣợng nốt nơ-ron đầu ra.

Nhƣ đã trình bày trong tiền đề, giải thuật di truyền (GA) và lan truyền ngƣợc (BP) [18] đều có mặt h n chế. Trong khi hiệu n ng BP phụ thuộc vào điểm cực tiểu cục bộ và khó đ t đƣợc tối ƣu toàn cục thì GA l i dễ dàng tới vùng cực tiểu toàn cục và

mất khoảng lớn thời gian để có thể đ t điểm tối ƣu toàn cục. Bởi vậy, phƣơng pháp kết hợp giữa GA và BP có thể đ t hiệu quả hơn bằng cách tận dụng các đặc điểm ƣu việt của hai phƣơng pháp. Giải thuật GA-BP bao gồm hai bƣớc. [10] [12] Bƣớc đầu tiên, G đƣợc sử dụng để huấn luyện m ng với mục tích tìm ra điểm gần nhất với cực tiểu toàn cục. Sau đó, sử dụng BP bắt đầu từ điểm tìm thấy và tiến hành lan truyền cục bộ. Chi tiết các bƣớc thực hiện nhƣ sau:

 Bƣớc 1: khởi t o quần thể ngẫu nhiên.

 Bƣớc 2: trích xuất trọng số c nh từ mỗi cá thể cho từng tầng trong mô hình m ng.

 Bƣớc 3: đánh giá từng cá thể trong quần thể sử dụng hàm mục tiêu.  Bƣớc 4: tái t o quần thể sử dụng các toán tử: lai ghép, đột biến, lựa chọn.  Bƣớc 5: lặp l i các bƣớc 3 tới 5 cho tới khi gặp điều kiện dừng.

 Bƣớc 6: lựa chọn cá thể xuất sắc nhất trong quần thể.  Bƣớc 7: tiến hành lan truyền cục bộ sử dụng BP. Trong đó, các tham số và hàm đƣợc sử dụng nhƣ sau:

 Các cá thể (trọng số c nh) đƣợc thể hiện dƣới d ng số thực.  Hàm mục tiêu:

trong đó: dk và yk lần lƣợt là giá trị đầu ra ƣớc lƣợng và thực tế, n là số lƣợng véc-tơ đầu vào.

 Quy trình khởi t o quần thể, trọng số đƣợc khởi t o ngẫu nhiên trong

khoảng giá trị , trong đó

 Lựa chọn cá thể xuất sắc nhất sử dụng phƣơng pháp lựa chọn Roulette để xác định xác suất một cá thể có thể dƣợc chọn. Xác suất lựa chọn đƣợc tính theo công thức trong đó s là kích thƣớc quần thể, fi là giá trị nghịch đảo của giá trị mục tiêu trên một cá thể.

3.2.3.2. Giải thuật PD-GABP

Giải thuật GA-BPNN có hƣớng tiếp cận cải thiện độ chính xác của các phƣơng pháp truyền thống BP và GA, tuy nhiên khi thực nghiệm thì hiệu n ng thực thi của giải thuật chƣa cao, bởi vậy, luận v n hƣớng tới sử dụng phƣơng pháp xác định chu kỳ lặp dữ liệu (Period Detection – PD) nhằm t ng hiệu n ng cho giải thuật GA-BPNN.

PD sử dụng phƣơng pháp UTOPERIOD trong [15] để ƣớc lƣợng chu kỳ lặp của tập dữ liệu. Phƣơng pháp này bao gồm hai bƣớc: thứ nhất, sử dụng hàm tính biểu đồ chu kỳ (periodogram) để xác định các điểm có thể là điểm dừng của một chu kỳ, đƣợc gọi là hints . Hàm biểu đồ chu kỳ đƣợc tính sử dụng DFT (biến đổi Fourier rời r c) theo công thức:

Trong đó P là hàm biểu đồ chu kỳ, X là biến đổi Fourier rời r c của chuỗi x(n), n = 0, 1 . . . N − 1.

Sau đó, vì các dự đoán hint có thể không chính xác, các giá trị dự đoán đƣợc sẽ đƣợc kiểm chứng sử dụng hàm tƣơng quan tự động ACF (Auto-Correlation Function). Nếu một giá trị nằm trên đƣờng ACF, giá trị đó đƣợc xác thực là đúng. Hàm ACF với chuỗi x(n) đƣợc xác định bởi công thức:

độ phức t p tính toán của ACF và P sử dụng DFT là . Nếu có tồn t i giá trị hợp lệ, nhƣ vậy tập dữ liệu là có chu kỳ, nếu không tồn t i thì tập dữ liệu đƣợc xác định là không có chu kỳ.

Trong trƣờng hợp tập dữ liệu có chu kỳ, giả sử T1 T2,…, Tr là tập giá trị xác định trong pha xác định chu kỳ lặp dữ liệu, ta định ngh a véc-tơ đầu vào gồm p phần từ liên tục trong quá khứ y(t), y(t−1),…, y(t−p) là vùng trƣợt. Các giá trị trong m chu kỳ y(t+k-T1), y(t+k-2T1),… y(t+k-mT1), y(t+k-T2), y(t+k-2T2),… y(t+k-mT2),.., y(t+k-Tr), y(t+k-2Tr),… y(t+k-mTr) đƣợc gọi là giá trị đầu vào theo chu kỳ. Khi đó, m ng nơ-ron sẽ thực hiện một hàm ánh x phi tuyến sau:

Giải thuật PD-GABP bao gồm các bƣớc mô tả trong giả mã sau:

Algorithm: PD-GABP

1: Tính toán chu kỳ sử dụng phƣơng pháp UTOPERIOD 2: if chuỗi dữ liệu đƣợc xác định có chu kỳ then (adsbygoogle = window.adsbygoogle || []).push({});

3: Xác định véc-tơ đầu vào cho m ng: y(t), y(t−1),…, y(t−p), y(t+k-T1), y(t+k- 2T1),… y(t+k-mT1), y(t+k-T2), y(t+k-2T2),… y(t+k-mT2),.., y(t+k-Tr), y(t+k- 2Tr),… y(t+k-mTr)

4: else

5: Xác định véc-tơ đầu vào cho m ng: y(t), y(t−1),…, y(t−p)

6: end if

7: Xác định giá trị đầu ra của m ng: y(t+k) 8: Huấn luyện m ng sử dụng giải thuật GA-BP

3.3. T ử g ệm

3.3.1. Giao diện tin sinh trên đám mây

Môi trƣờng thử nghiệm với L và BIMI nhƣ sau:

 Nền tảng: OpenStack Kilo

 Workflow engine: sử dụng OpenStack Mistral và một engine tự phát triển.  Ảo hoá: Docker Container 1.8

 Giao diện ngƣời dùng: OpenStack Horizon và thƣ viện gojs Dƣới đây là hình ảnh các bƣớc thực hiện:

Hình 13. Đ g ập vào g ao d ệ Web

Hình 15. K ở tạo uồ g g ệp vụ mớ

Hình 16. Cấu ì c o một cô g cụ t s

Việc cấu hình các công cụ tin sinh trên giao diện Web tƣơng tự nhƣ các PI của BIMI đƣợc mô tả ở phần trên.

Hình 17. Đặc tả JSON của uồ g g ệp vụ t s

Giao diện cung cấp cơ chế lƣu và tái hiện luồng nghiệp vụ tin sinh dựa vào dữ liệu đặc tả JSON nhƣ trên hinh. Sau khi cấu hình xong, ngƣời dùng có thể lựa chọn khởi ch y (RUN).

Hình 18. T ô g báo ệ t ố g k bắt đầu c ạy uồ g t s

Hình 20. T ô g báo ệ t ố g k uồ g t s gặp ỗ

Hình 21. Dữ ệu đầu ra của từ g bƣớc ƣu tr mô trƣờ g đám mây

3.3.2. Kết quả thử nghiệm mô hình tối ưu tài nguyên

Môi trƣờng thử nghiệm sử dụng bộ dữ liệu giám sát tài nguyên website World Cup 1998. [23] Tập dữ liệu thời gian bao gồm số lƣợng request gửi tới website mỗi 10 phút. Luận v n tính toán và dự đoán số lƣợng request của 10 phút tiếp theo dựa vào dữ liệu trong quá khứ. Tập dữ liệu huấn luyện m ng là từ ngày 40 đến ngày thứ 46, và dữ liệu từ ngày 46 đến 47 sẽ đƣợc dự báo và so sánh. Cấu hình cho GA và BP nhƣ sau: kích thƣớc tập Psize=225, tỉ lệ lai ghép PC=0.9, tỉ lệ đột biến PM=0.01, tỉ lệ học η=0.000001. Dữ liệu đầu vào của m ng đƣợc chuẩn hoá [16] theo công thức sau:

trong đó, và là giá trị nguyên bản và giá trị chuẩn hoá. Độ chính xác của mô hình dự báo đƣợc đánh giá bằng các giá trị:  Root mean square error (RMSE): [21] [24]

 Mean absolute percentage error (MAPE): [21]

 Mean absolute error (MAE): [24]

Kết quả thực nghiệm nhƣ sau:

Hình 22. Kết quả d báo mô ì BPNN vớ kíc t ƣớc vù g trƣợt 4

Hình 24. So sá tỉ ệ ỗ MEAN g ữa GA-BPNN và BPNN

Hình 25. Kết quả d đoá PD-GABP vớ p=4

Hình 26. So sá tỉ ệ ỗ MEAN g ữa GA-BPNN và PD-GABP BPNN p = 2 p = 4 p = 6 RMSE 328554.33 120275.67 328554.33 MAE 210424.84 69521.13 210425.17 MAPE 1.65 0.13 1.63 GA BPNN p = 2 p = 4 p = 6 RMSE 328552.29 104314.704 297306.04 MAE 210383.97 65649.54 175616.01 MAPE 1.63 0.12 0.98 Bả g 5. So sá độ c í xác g ữa BPNN và GA-BPNN vớ g á trị vù g trƣợt k ác au (adsbygoogle = window.adsbygoogle || []).push({});

Có thể thấy, GA-BPNN cung cấp giá trị dự báo sát hơn so với phƣơng pháp BPNN thông thƣờng. Thêm nữa, trong bảng 5 chỉ ra các giá trị lỗi của GA-BPNN nhỏ hơn BPNN với kích thƣớc vùng trƣợt thử nghiệm khác nhau.

GA-BPNN p = 2 p = 4 p = 6 RMSE 328552.29 104314.704 297306.04 MAE 210383.97 65649.54 175616.01 MAPE 1.63 0.12 0.98 PD-GABP p = 2 p = 4 p = 6 RMSE 70656.17 47109.41 60548.61 MAE 33742.82 23425.64 31186.69 MAPE 0.07 0.06 0.07

Bả g 6. So sá độ c í xác g ữa GA-BPNN và PD-GABP vớ g á trị vù g trƣợt k ác au

Tƣơng tự, độ chính xác trong quá trình dự báo của PD-GABP cho thấy còn sát hơn nhiều so với hai phƣơng pháp kia. Thêm nữa, nếu nhƣ các giá trị lỗi so sánh giữa BPNN và GA-BPNN là không quá chênh lệch thì PD-G BP bé hơn rất nhiều so với GA-BPNN. Điều này chứng tỏ PD-GABP có cải thiện so với hai phƣơng pháp kia.

KẾT LUẬN A. Kết uậ

Luận v n tốt nghiệp của tác giả với đề tài: Xây dựng dịch vụ tin sinh trên môi trƣờng điện toán đám mây đã cơ bản giải quyết đƣợc các vấn đề sau:

1. Chuyển dịch ứng dụng tin sinh truyền thống lên môi trƣờng đa đám mây dựa trên phƣơng pháp tổng quát.

2. Thiết kế giải thuật PD-GABP cải thiện hiệu n ng và độ chính xác của bài toán tối ƣu tài nguyên sử dụng khi chuyển dịch ứng dụng, dịch vụ lên môi trƣờng điện toán đa đám mây.

3. Tiến hành thử nghiệm mô hình chuyển dịch và đánh giá giải thuật đề xuất. Các kết quả chính đ t đƣợc trong đề tài:

1. Đề xuất mô hình và chứng minh tính phù hợp của thiết kế hệ thống tin sinh trên môi trƣờng đa đám mây.

2. Xây dựng hệ thống thử nghiệm trên h tầng LAB của Trung tâm tính toán hiệu n ng cao, Đ i học Bách Khoa Hà Nội.

3. Giải thuật PD-GABP tối ƣu, so sánh với GA-BPNN và BPNN.

Nhữ g k ó k gặp phải trong quá trình th c hiệ đề tài:

 Đề tài đƣa ra mô hình và phƣơng pháp tổng quát để chuyển dịch ứng dụng, dịch vụ truyền thống lên môi trƣờng đa đám mây, thử nghiệm trƣớc mắt với bài toán tin sinh. Tuy nhiên, vì môi trƣờng thử nghiệm đa đám mây đa phần đƣợc xây dựng từ các nền tảng ĐTĐM nội bộ nhƣ OpenStack, bởi vậy kết quả thử nghiệm chƣa chứng minh đƣợc hoàn toàn tính tổng quát hoá.

 Đối với bài toán tối ƣu hoá tài nguyên sử dụng trong môi trƣờng ĐTĐM, bộ dữ liệu thử nghiệm sử dụng là tập request tới máy chủ dịch vụ web World Cup 1998. Tuy nhiên, tập dữ liệu này chỉ gồm một tham số đặc trƣng là request trong khoảng thời gian cố định. Trong thực tế với môi trƣờng điện toán đa đám mây, dữ liệu tài nguyên sử dụng của một máy chủ thƣờng gồm

nhiều tham số nhƣ PU, R M.. và là dữ liệu thời gian thực, tính theo đơn vị giây, bởi vậy với tập dữ liệu liên tục nhƣ vậy cần kiểm chứng l i phƣơng pháp đã đề xuất. Hiện nay, dữ liệu thử nghiệm liên tục nhƣ vậy chƣa có đơn vị nào cung cấp.

Hƣớng giải quyết:

 Để có thể tổng quát hoá mô hình đề xuất, cần thử nghiệm với môi trƣờng đa đám mây đa d ng hơn. Hiện thời, nền tảng nguồn mở OpenStack sử dụng để triển khai ĐTĐM nội bộ hỗ trợ nhiều d ng API khác nhau ngo i trừ nova- api, bởi vậy hƣớng giải quyết là cài đặt và sử dụng OpenStack với nhiều máy, mỗi máy sử dụng một lo i API cần kiểm thử để mô phỏng môi trƣờng đa đám mây.

 Phối hợp với một số đơn vị t i Việt Nam triển khai đám mây nội bộ, hợp tác để các đơn vị cung cấp dữ liệu giám sát h tầng trong vòng vài tháng. Hiện nay, luận v n đã thu thập đƣợc dữ liệu thử nghiệm của VNPT, đang thử nghiệm cách bóc tách dữ liệu chuẩn hơn cho các nghiên cứu sau này.

B. Hƣớ g p át tr ể của đề tà .

Đối với mô hình tổng quát hoá đƣợc đề xuất trong luận v n, cần thử nghiệm mô hình đối với d ng bài toán chuyển dịch khác, ví dụ nhƣ IoT (Internet of Thing), xử lý dữ liệu lớn (Big Data Analytics) và phát triển hoàn thiện L hơn với mục đích dễ dàng thích nghi với nhiều d ng bài toán chuyển dịch khác sau này.

Đối với mô hình giải thuật dự đoán, hiện nay luận v n đã hoàn thành bƣớc đầu trong bài toán tối ƣu tài nguyên sử dụng. Để hoàn thiện mô hình giải thuật đề xuất và giải quyết đƣợc bài toán tối ƣu nhất, cần đƣa ra cơ chế để lƣu trữ, thực thi và quản lý các kho tài nguyên tri thức. Bƣớc tiếp theo, sau pha dự đoán dữ liệu trong các khoảng thời gian tƣơng lai sẽ nghiên cứu về các mô hình hệ chuyên gia, gợi ý ngƣời sử dụng những hành vi phù hợp với ngữ cảnh có thể xảy ra khi dự báo.

TÀI LIỆU THAM KHẢO

[1] Nguyen, Binh Minh; Tran, Dinh Viet and Hluchý, Ladislav. Abstraction Layer for Development and Deployment of Cloud Services. In: Computer Science

Journal, 2012, vol. 3, no. 3, p. 80-88, ISSN 1508-2806.

[2] Nguyen, Binh Minh; Dao, Quang Minh. Towards a Semantic Model of Resource in Cloud Environment. In proceeding of 5th International Symposium on

Information and Communication Technology (SOICT), ACM, Hanoi, 2014, p. 271-

279, ISBN: 978-1-4503-2930-9.

[3] Nguyen, Binh Minh; Tran, Dinh Viet and Hluchý, Ladislav. Programmable Workflow Composition. In proceeding of 2nd International Conference on Next

Generation Information Technology, IEEE, Gyeongju, 2011, p. 86-89, ISBN 978- (adsbygoogle = window.adsbygoogle || []).push({});

89-88678-38-1.

[4] Islam, Sadeka, et al. "Empirical prediction models for adaptive resource provisioning in the cloud." Future Generation Computer Systems 28.1 (2012): 155- 162.

[5] Huang, Jinhui, Chunlin Li, and Jie Yu. "Resource prediction based on double exponential smoothing in cloud computing." Consumer Electronics, Communications and Networks (CECNet), 2012 2nd International Conference on. IEEE, 2012.

[6] Vazquez, Carlos, Ram Krishnan, and Eugene John. "Time series forecasting of cloud data center workloads for dynamic resource provisioning." Journal of Wireless Mobile Networks, Ubiquitous Computing, and Dependable Applications (JoWUA) 6.3 (2015): 87-110.

[7] Roy, Nilabja, Abhishek Dubey, and Aniruddha Gokhale. "Efficient autoscaling in the cloud using predictive models for workload forecasting."Cloud Computing (CLOUD), 2011 IEEE International Conference on. IEEE, 2011.

[8] Hornik, Kurt, Maxwell Stinchcombe, and Halbert White. "Multilayer feedforward networks are universal approximators." Neural networks 2.5 (1989): 359-366.

[9] Venkatesan, D., K. Kannan, and R. Saravanan. "A genetic algorithm-based artificial neural network model for the optimization of machining processes."Neural Computing and Applications 18.2 (2009): 135-140.

[10] Ding, Shifei, Chunyang Su, and Junzhao Yu. "An optimizing BP neural network algorithm based on genetic algorithm." Artificial Intelligence Review36.2 (2011): 153-162.

[11] Fu, Zemin, et al. "Using genetic algorithm-back propagation neural network prediction and finite-element model simulation to optimize the process of multiple- step incremental air-bending forming of sheet metal." Materials & design 31.1 (2010): 267-277.

[12] Huang, Yuansheng, Yufang Lin, and Zilong Qiu. "Freight prediction model based on GABP neural network." Computational Intelligence and Design, 2008.

Một phần của tài liệu Xây dựng các dịch vụ tin sinh học trên nền tảng điện toán đám mây (Trang 50)