Bài viết này sẽ đề cập đến những cơ hội và thách thức trong việc phân tích dữ liệu. Trước hết, bài viết phân tích xu hướng các công nghệ trên thế giới hiện nay và giải thích rõ đặc điểm dữ liệu lớn, cũng như trình bày việc biến dữ liệu thành tri thức.
Nghiên trao ● Research-Exchange of 58 opinion Tạp chí cứu Khoa họcđổi - Viện Đại học Mở Hà Nội (08/2019) 21-26 21 PHÂN TÍCH DỮ LIỆU, CƠ HỘI VÀ THÁCH THỨC DATA ANALYSIS, OPPORTUNITIES AND CHALLENGES Trương Cơng Đồn*, Lê Hữu Dũng*, Thái Thanh Tùng* Ngày tòa soạn nhận báo: 4/02/2019 Ngày nhận kết phản biện đánh giá: 3/8/2019 Ngày báo duyệt đăng: 27/8/2019 Tóm tắt: Các công nghệ cloud computing, big data, AI IoT xuất gần có ảnh hưởng to lớn đến toàn cầu Bài viết đề cập đến hội thách thức việc phân tích liệu Trước hết, viết phân tích xu hướng cơng nghệ giới giải thích rõ đặc điểm liệu lớn, trình bày việc biến liệu thành tri thức Kế tiếp, viết trình bày khái niệm: Khoa học liệu gì; Tại phân tích liệu lại khó? đề cập đến phương pháp phân tích liệu Cuối cùng, viết đề cập đến tình hình nguồn nhân lực lĩnh vực đưa số đề xuất triển khai Khoa CNTT - Trường ĐH Mở Hà Nội Tóm lại, lĩnh vực phân tích liệu tạo hội thách thức lớn giáo dục Việt Nam Từ khóa: Dữ liệu lớn, khoa học liệu, hội, thách thức, nguồn nhân lực, Việt Nam Abstract: Technologies such as cloud computing, big data, AI and IoT have recently had tremendous impacts globally This article will address opportunities and challenges in data analysis First of all, the article analyzes the current trends of technologies in the world and clearly explains big data characteristics, as well as demonstrating the transformation of data into knowledge Next, the paper presents the concepts: What is data science?; Why is it difficult to analyze data? and refer to current data analysis methods Finally, the article addresses the situation of human resources in this area and offers some suggestions for implementation at the Faculty of Information Technology (Hanoi Open University) In short, the field of data analysis will create great opportunities and challenges for Vietnam’s education Keywords: Big data, data science, opportunities, challenges, human resources, Vietnam * Khoa Công nghệ thông tin- Trường Đại học Mở Hà Nội 22 Nghiên cứu trao đổi ● Research-Exchange of opinion Những xu hướng công nghệ lao động giản đơn lĩnh vực nông giới nghiệp thủ công Trong sản xuất công Trong năm gần đây, xu hướng nghiệp robots trạng bị trí tuệ nhân phát triển cơng nghệ nóng bỏng đóng tạo dần thay người thực vai trị lớn ảnh hưởng tới tác vụ khó có độ xác cao phát triển kinh tế nước giới mà người không thực Đứng Có thể kể đến cơng nghệ Clound trước thách thức lớn cách mạng cơng Computing, Big Data, AI IoT Trong nghiệp 4.0 diễn phủ Việt Nam Cloud Computing cụ thể nguồn điện ban hành Chỉ thị số 16/CT-TTg vào ngày toán khổng lồ phần mềm, dịch vụ 4/5/2017 tăng cường lực tiếp cận dịch vụ nằm máy chủ ảo (đám mây) cách mạng công nghiệp lần thứ tư Vì Internet để người kết nối sử dụng nói lĩnh vực khoa học liệu liên họ cần Còn Big data liệu lớn quan đến xử lý liệu lớn để mang lại tri thường bao gồm tập hợp liệu sinh thức hội thách thức từ nguồn mobile devices, sensro đào tạo nhân lực Việt Nam networks, cameras, Dựa nguồn IDC Các đặc điểm big data (dữ [1] dự đốn khối lượng liệu tồn cầu tăng theo cấp số nhân từ 4.4 zettabytes lên liệu lớn) 44 zettabytes từ 2013 đến 2020 Artificial Big Data nói tập liệu lớn intelligence trí tuệ người lập trình phức tạp vượt qua kỹ thuật xử tạo nên với mục tiêu giúp máy tính tự lý kỹ thuật truyền thống Một liệu lớn động hóa hành vi thơng minh phải có đặc điểm sau Thứ người Internet of Things (IoT) kết nối là Volume, tức kích thước liệu phải tất thiết thị đồ vật có khả truyền lớn lên đến zettabytes Thứ hai Velocity, tải, trao đổi thông tin, liệu qua mạng tăng trưởng mặt tốc độ Bên cạnh mà không cần đến tương tác trực tiếp người với người, hay người với máy tăng trưởng khối lượng, tốc độ tăng trưởng liệu tăng lên cách chóng tính (theo wikipedia) mặt theo thời gian thực Thứ ba Veracity tính xác thực liệu Với xu hướng ngày gia tăng mạnh mẽ tính tương tác chia sẻ người dùng Mobile làm cho việc xác định độ tin cậy tính xác liệu ngày khó khăn Bài tốn phân tích loại bỏ liệu thiếu xác nhiễu thách thức việc xử lý liệu Big Data Thứ tư Variety tăng lên tính đa dạng liệu Dữ Hình Mơ hình clound computing, big liệu khơng dạng có cấu trúc, mà data, AI, IoT [2] bao gồm nhiều kiểu liệu phi cấu trúc Các công nghệ có ảnh hưởng video, hình ảnh, liệu cảm biến, lớn tới phát triển kinh tế năm tới file log Cuối Value, Việt Nam Cụ thể triệt tiêu công giá trị thông tin tính chất quan trọng Nghiên cứu trao đổi ● Research-Exchange of opinion 23 Nhìn vào sơ đồ thấy, Ở doanh nghiệp phải hoạch định giá trị thơng tin hữu ích liệu tầng thứ nhất, mức thấp việc cho vấn đề, tốn mơ hình hoạt động phân tích thực báo cáo thông thường trả lời câu kinh doanh hỏi “Điều xảy ra?” Tiếp mức thứ Biến liệu lớn thành giá trị hai trả lời câu hỏi bao nhiêu, tần Dữ liệu lớn khơng phân tích suất đâu? Nâng cao khơng có giá trị Việc phân tích chút mức thứ ba liên quan đến trả lời liệu lớn giúp doanh nghiệp giải câu hỏi mang tính đào sâu ví dụ toán phức tạp trước chưa giải câu hỏi xác vấn đề gì? Mức thứ Vì phân tích giúp tư mức cảnh báo có câu hỏi định tốt Việc phân tích cho hiểu biết “Hành động cần thiết?” Ở tầng thức sâu (insights) hành vi phức tạp hai phân tích liệu trả lời người Trong lĩnh vực nghiên cứu khoa học câu hỏi mang tính dự báo cảnh báo Mức có nhiều khám phá đột phá ví tìm tầng trả lời câu hỏi điều loại thuốc trị bệnh, vật liệu tiết kiệm xảy dựa vào mơ hình thống kê nhiều tiền cho người Mức hai dạng câu hỏi “Điều Dữ liệu lớn hội lớn cho doanh xảy ta thử việc đó?”, dạng kiểm nghiệp Trong có nhiều công ty lớn chuyển định ngẫu nhiên Mức cao dần từ chế tạo sản phẩm sang cung cấp dịch biết điều xảy Cuối vụ, chẳng hạn dịch vụ phân tích kinh mức tối ưu trả lời dạng câu hỏi “Đâu doanh (business analytics) Ví dụ cơng khả tốt xảy ra?” ty IBM trước chế tạo servers, máy tính Tại phân tích liệu lớn lại desktop, laptops, thiết bị cho hạ tầng sở khó? IBM ngày tập trung vào phân tích kinh Trong năm tính chất liệu lớn doanh làm sản phẩm cung cấp dịch bốn tính chất Volume, Velocity, Variety vụ cho doanh nghiệp khác thuê dùng Veracity cộng với hai việc dự đốn phân Khoa học phân tích liệu gì? tích quan hệ tạo độ khó cho việc phân tích liệu Ở dạng thứ liệu có số chiều lớn cộng với liệu nhiều kiểu khác nhau, chuyển động liệu có nhiễu liệu dẫn đến phân tích hiệu Dạng thứ hai liệu có số chiều lớn cộng với số đối tượng lớn dẫn đến việc tính tốn tiêu tốn nhiều thời gian thuật tốn khó áp Hình Mơ hình trả lời câu hỏi dụng tính tốn Cuối liệu có phân tích liệu thể đến từ nhiều nguồn khác thu thập Big data analytics khoa học nhiều thời điểm khác kỹ trình phân tích liệu lớn để phát triển thuật khác nhau, điều có nghĩa liệu thơng tin hữu ích để định tốt khơng có nhiều khác biệt 24 Nghiên cứu trao đổi ● Research-Exchange of opinion độ lệch (bias) lớn Việc phân tích liệu dạng gặp nhiều khó khăn cần nhiều tài ngun máy tính có cấu hình cao thuật toán thiết kế phải tối ưu đảm bảo việc phân tích thu kết có ý nghĩa Sau lược đồ lưu trữ quản lý để phân tích liệu Hình Mơ hình lưu trữ quản lý phân tích liệu Đầu tiên liệu thu thập từ nhiều nguồn khác doanh nghiệp, khách hàng, từ sensors, từ mobiles, từ website dạng khơng có cấu trúc có cấu trúc Sau liệu lưu hệ quản trị sở/ liệu NoSQL hadoop mongoDB Kế tiếp liệu phân tích dựa vào kỹ thuật khai phá liệu (data mining), cụ thể học máy (machine learning) kỹ thuật thống kê Bước phân tích hiển thị liệu Cuối hiển thị kết phân tích ngồi thơng qua web browser, mobile devices qua web services Các phương pháp dùng để phân tích liệu? kê suy diễn dùng để ước lượng kiểm định giả thiết thống kê Những phương pháp thiết kế cho tập liệu nhỏ biến riêng lẻ thường dùng trước chưa có máy tính Ngồi phương pháp cho phân tích liệu nhiều biến dùng để kiểm định giả thiết có trước, phân tích thăm dị Factor analysis, PCA, Linear discriminant analysis, Regression analysis, Cluster analysis Phương pháp phân tích liệu nhiều biến có nhiền cải tiến để đáp ứng toán lớn nhờ cơng nghệ tính tốn nhanh hiệu Ví dụ tốn tính page rank phải nghịch đảo ma trận có kích thước hàng tỉ chiều Bên cạnh phương pháp học máy (machine learning) dùng để phân tích liệu Chúng ta hiểu mục đích phương pháp việc xây dựng hệ máy tính có khả thích ứng học từ kinh nghiệm (theo Tom Dieterich) Định nghĩa cho học máy đơn giản sau: chương trình máy tính nói học từ kinh nghiệm E cho lớp nhiệm vụ T với độ đo hiệu suất P (theo T.Mitchell) Sau dùng chương trình học để giải tốn tập liệu Đối với phương pháp thường áp dụng vào bái tốn dự đốn Có thể kể đến số phương pháp tiếng sau Thuật toán Linear regression, decision trees, neural networks, Support vector machines K-Nearest Neighbors Các phương pháp có mục đích giúp có nhiều lựa chọn cơng việc phân tích liệu Thống kê cung cấp phương pháp Đào tạo khoa CNTT – ĐH Mở kỹ thuật toán học để phân tích, khái quát định từ liệu Có hai phương pháp Hà nội trước tình hình nhu cầu nguồn sử dụng Thứ thống nhân lực phân tích liệu kê mơ tả dùng để tính phấn bố xác suất Theo số thống kê [3] năm 2017 biến phương pháp thứ hai thống Mỹ, công việc liên quan đến học máy, Nghiên cứu trao đổi ● Research-Exchange of opinion khoa học liệu big data tăng trưởng nhanh xếp thứ nhất, hai năm bảng danh sách 20 công việc liên quan đến STEM Điều cho thấy nhu cầu tăng cao giới mà điển hình nước Mỹ Vậy Việt Nam năm vừa qua Ở diễn đàn cung cấp thông tin việc làm vietnamworks com vn.indeed.com, jobstreet.vn đăng thông tin nhiều việc tuyển kỹ sư ngành phân tích liệu lập trình cho big data năm gần Điều chứng tỏ nhu cầu nhiều lĩnh vực Việt Nam Tuy nhiên đa số nhân lực tự học tham gia khóa học ngắn hạn cung cấp website coursera.org, udacity com datacamp.com Bởi việc đào tạo công nghệ thông tin nước hầu hết trường đại học chưa có chuyên ngành Điểm qua số địa đào tạo khoa học liệu sau đại học khóa ngắn hạn Việt Nam, kể đến JVN institute Vietnam National HCM có chương trình đào tạo thạc sỹ [4] khóa đào tạo ngắn hạn khu công nghệ ĐHQG HCM [5], học viện số quốc tế [6] Điều cho thấy gần chương trình đào tạo Việt Nam Nhìn qua nước tiến tiến khác đào tạo khoa học liệu Singapore, thấy có đến chục địa đáng tin cậy trường danh tiếng NUS NTU để người học lựa chọn [7], hay UK, cung cấp nhiều khóa học khoa học liệu [8] tương tự nhiều nước khác Mỹ, Canada, Đức Vậy đứng trước thách thức hội lớn phát triển đào tạo nhân lực lĩnh vực này, với thực tế phát triển chưa mạnh lĩnh vực nghĩ Đại 25 Học Mở Hà Nội cần có bước phương hướng cụ thể để có cung cấp nguồn nhân lực CNTT thích ứng tốt với nhu cầu nguồn nhân lực phân tích liệu tương lai Chúng ta xem xét nhóm yếu tố gồm Con người, Chương trình Tổ chức đào tạo 7.1 Con người Chúng ta gửi giảng viên có chuyên môn gần với chuyên ngành đào tạo nâng cao trường viện cung cấp khóa học Việt Nam sang nước lân cận (thơng qua chương trình hợp tác) để học hỏi nâng cao trình độ Các hội thảo chuyên môn lĩnh vực bên nhà trường, hướng nghiên cứu lĩnh vực hoạt động nghiên cứu khoa học giảng viên nên quan tâm, đầu tư Ngoài ra, cần xây dựng sách tốt để thu hút nhà khoa học lĩnh vực công tác trường song song với sách bồi dưỡng nguồn nhân lực có nói 7.2 Chương trình Với mơn học có Xác suất Thống kê tốn học (XSTK), cần bổ sung nội dung học phần để kết nối lí thuyết XSTK với cơng cụ để đáp ứng nhu cầu công việc thực tế SPSS IBM [9] hay công cụ tương đương hãng khác Các ngôn ngữ mạnh lĩnh vực đồng thời doanh nghiệp quan tâm Python R nên sớm cập nhật cho sinh viên thông qua chuyên đề đưa vào chương trình đào tạo thời gian tới Các nội dung Máy học(Machine Learning), Khai phá liệu (Data Mining) Trí tuệ nhân tạo (Artificial Intelligent) nên cung cấp mức độ “nhập môn” dạng học 26 Nghiên cứu trao đổi ● Research-Exchange of opinion phần tự chọn tổ chức đào tạo cho xu phát triển lĩnh vực CNTT sinh viên có lực phù hợp có quan tâm Từ chúng tơi đề cập đến tình hình nguồn nhân lực đào tạo lĩnh vực 7.3 Tổ chức đào tạo đưa số đề xuất có tính khả thi để triển Với chương trình đào tạo sinh viên khai Khoa CNTT- ĐH Mở Hà Nội tại, bước triển khai chuyên đề “Tìm hiểu” “Ứng dụng” Tài liệu tham khảo: nội dung đề cập mục 7.3 kết [1] Sh Hajirahimova “About Big Data Measurehợp với hội thảo có tham gia ment Methodologies and Indicators” Internanhà khoa học hay chuyên gia đến từ tional Journal of Modern Education and Computer Science (10): 1–9 doanh nghiệp có mối quan tâm Bên cạnh đó, dù khơng chun lĩnh vực phân tích liệu, hệ thống phần mềm phục vụ toán vốn quen thuộc toán quản lý, toán thương mại điện tử, đứng trước yêu cầu phải cập nhật tính cao cấp liên quan đến lĩnh vực phân tích liệu hay trí tuệ nhân tạo Những yêu cầu nên sớm cập nhật đề tài nghiên cứu khoa học sinh viên, đồ án tốt nghiệp thay đáp ứng (và có phần lặp lại) yêu cầu quen thuộc Những yêu cầu tuỳ điều kiện để chọn lựa giải pháp: phát triển giải pháp từ gốc, ứng dụng sâu kiến thức liên quan; phát triển dựa dịch vụ cung cấp hãng thứ ba IBM Watson[10], Google TensorFlow [11], Microsoft AI [12], Thời gian qua, dù chưa nhiều có đề tài tốt nghiệp triển khai theo hướng khoa CNTT – ĐH Mở Hà Nội Sinh viên khoa CNTT - ĐH Mở Hà Nội, nhờ đó, trang bị kiến thức kĩ từ đến nâng cao lĩnh vực đáp ứng yêu cầu nhà tuyển dụng mà không cần phải chờ đến chương trình đào tạo xây dựng hay phê duyệt Kết luận [2] http://www.ritsumei.ac.jp/research/radiant/ eng/robot_ai/story6.html/ [3] https://qz.com/1149999/linkedin-jobs-report-shows-the-best-emerging-us-jobs-arentall-engineering/ [4] http://www.jvn.edu.vn/vi/page/Thac-si-ICT html [5] http://www.vnu-itp.edu.vn/vi/su-kien/825tuyen-sinh-khoa-hoc-data-science.html [6] http://idl.biz.vn/Chuong-trinh-hoc/baiviet-9/ Chuong-trinh-khoa-hoc-ngan-han-Data-Science.html [7] https://digitalsenior.sg/data-science-analytics-courses-singapore/ [8] https://www.shortcoursesportal.com/studyoptions/268927258/data-science-big-data-united-kingdom.html [9] ”IBM SPSS Software | IBM Analytics”, Ibm com, 2018 [Online] Available: https://www ibm.com/analytics/spss-statistics-software [Accessed: 03- Sep- 2018] [10] https://www.ibm.com/watson/ [11] https://www.tensorflow.org/ [12] https://www.microsoft.com/en-us/ai Địa tác giả: Khoa Công nghệ thông tin Trường Đại học Mở Hà Nội Trên đây, chúng tơi trình bày Email: tttung@rocketmail.com đặc điểm lĩnh vực Phân tích liệu ... Khoa học phân tích liệu gì? tích quan hệ tạo độ khó cho việc phân tích liệu Ở dạng thứ liệu có số chiều lớn cộng với liệu nhiều kiểu khác nhau, chuyển động liệu có nhiễu liệu dẫn đến phân tích hiệu... mongoDB Kế tiếp liệu phân tích dựa vào kỹ thuật khai phá liệu (data mining), cụ thể học máy (machine learning) kỹ thuật thống kê Bước phân tích hiển thị liệu Cuối hiển thị kết phân tích ngồi thơng... hoạt động phân tích thực báo cáo thông thường trả lời câu kinh doanh hỏi “Điều xảy ra?” Tiếp mức thứ Biến liệu lớn thành giá trị hai trả lời câu hỏi bao nhiêu, tần Dữ liệu lớn khơng phân tích suất