Nghiên cứu phát triển một số phương pháp xử lí dữ liệu lớn và ứng dụng trong thương mại điện tử

37 26 1
Nghiên cứu phát triển một số phương pháp xử lí dữ liệu lớn và ứng dụng trong thương mại điện tử

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ Nộ] VỈẸN CONG NGHẸ THONG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN c ứ PHÁT TRIỂN MỘT SĨ PHƯƠNG PHÁP x LÍ DỮ LIỆU LỚN VÀ ỨNG DỤNG TRONG THƯƠNG MẠI ĐIỆN TỦ j ĐAI HỌC QUỐC GIA HÀ NÔI TRUNG TẮM THƠNG TIN THƯ VIÊN I _ODOfiOnm ỸQ í Hà N ôi 04/2017 MỤC LỤC I II Các thông tin Thông tin chung Tổng quan tình hình nghiên cứu 2.1 Một số nét Big Data 2.2 Các công nghệ liên quan 2.3 ủ n g dụng Big Data 2.4 Big Data Việt Nam Nội dung đăng kí đề tài Nội dung thực sản phẩm có 4.1 Các báo cáo chuyên đề sản phẩm phần mềm 4.2 Các báo khoa học 4.3 Sản phẩm đào tạo Bảng tổng hợp Kinh phí Thử nghiệm hệ phần mềm tìm sở thích khách hàng Các thông tin Hướng dẫn sử dụng hệ phần mềm tìm sở thích khách hàng I CÁC THƠNG TIN c BẢN Thơng tin chung: - Tên đề tài: N ghiên u p h t triển m ột số p h n g pháp x lí d ữ liệu lởn ứng dụng thư ng m ại điện tử - Mã số: QG 15.41 - Chủ nhiệm đề tài: GS.TS Vũ Đức Thi - Đơn vị chủ trì: Viện Cơng nghệ Thơng tin - Đại học Quốc gia Hà Nội - Thời gian thực hiện: Từ tháng 01 năm 2015 đến tháng 12 năm 2016 Gia hạn đến tháng 6/2017 Mục tiêu đề tài - Nghiên cứu phát triển ứng dụng sổ phương pháp tổ chức xử lí liệu lớn - Thiết kể xây dựng hệ phần mềm thử nghiệm hỗ trợ việc đánh giá xu hướng khách hàng với hàng hóa thương mại điện tử Tổng quan tình hình nghiên cứu Những năm gần đây, chứng kiên phát triên mạnh mẽ truyên thông xã hội, cơng nghệ tìm kiếm, Facebook, MySpace, Twitter, Blogger, Google Yahoo Các công nghệ công nghệ khác làm tăng đột biến khối lượng liệu Chính xu dẫn đến phát triển sôi động hướng nghiên cứu lĩnh vực Cơng nghệ thơng tin Đó hướng nghiên cứu hệ thống liệu lớn (Big Data) Không khối lượng liệu tăng vọt mà cấu trúc liệu đa dạng bao gồm liệu phi cấu trúc (bảng, file) liệu có cấu trúc Dữ liệu có cấu trúc bao gồm liệu dạng chuỗi (sequence), dạng (tree), dạng đồ thị (graph) có mặt khắp nơi gia tăng nhanh chóng Khai phá dự đốn liệu có cấu trúc xu giới, thu hút ý lớn giới nghiên cứu doanh nghiệp ứng dụng to lớn chúng lĩnh vực phân tích hình ảnh, phân tích hiệu kinh doanh, xử lý ngơn ngữ tự nhiên, phân tích mạng xã hội, ứng dụng y sinh, hố sinh, viễn thơng, Hiện nay, Google, Yahoo, Facebook nhiều công ty khác phát triển mạnh mẽ phương pháp tổ chức xử lí hệ thống liệu lớn Việc phân tích liệu lớn đóng vai trị quan trọng để tăng chất lượng doanh nghiệp Các công ty lớn Công nghệ thông tin nhiều nhà khoa học nghiên cứu phát triển giải pháp phân tích liệu lớn Các phưưng pháp khai phá liệu phân lớp/dự đoán, phân cụm, khai phá luật kết hợp, đ ã tập trung nghiên cứu ứng dụng nhiều lĩnh vực quan trọng Với xuất hệ thống liệu lớn, nhiều phương pháp khai phá liệu khác đời Đặc biệt phương pháp khai phá liệu liệu có cấu trúc Trên thực tế, hệ thống liệu lớn, phương pháp khai phá liệu truyền thống khơng cịn phù hợp Chính VI thế, người ta phát triển phương pháp khai phá liệu liệu có cấu trúc (dạng chuỗi, cây, đồ thị) Như biết, lí thuyết sở liệu, toán bao gồm nhiều thực thể Chúng ta mơ hình hóa thực thể bảng, cột mơ tả thuộc tính thực thể, dòng thể cụ thể thực thể Mối quan hệ thực thể mô tả mối quan hệ cặp thực thể theo mối quan hệ 1-1, 1- nhiều nhiều - nhiều Việc xử lí hệ thống liệu lớn, khối lượng liệu lớn đặc biệt liệu có cấu trúc phức tạp đa dạng, phương pháp khơng cịn phù hợp Một phương pháp phổ biến dùng cấu trúc đồ thị để mơ hình hóa tốn xử lí hệ thống liệu lớn thực chất, đồ thị đỉnh thể thực thể, cạnh thể quan hệ hai thực thể Như vậy, việc tìm mẫu phổ biến vấn đề khai phá đồ thị con, thường xuyên xuất đồ thị Khai phá liệu liệu có cấu trúc tiếp nối nghiên cứu khai phá tập mục (itemset), phát triển mạnh thập kỷ gần Đa phần thuật toán khai phá phát triển dựa nghiên cứu Reverse Search Avis Fukuda [1], Reverse Search thuật toán mà framework hướng dẫn phát triển thuật toán nhàm tránh đưa mẫu trùng lặp Các thuật tốn khác chỗ chúng tìm đặc tính mẫu cần khai phá để đến phương pháp sinh tỉa ứng viên khác Trong năm gần đây, số kết nghiên cứu khai phá liệu có cấu trúc theo hướng Reverse Search cơng bổ Eppstein [2] ứng dụng Reverse Search để liệt kê tập đồ thị độc lập cực đại Kiyomi Ưno [3] liệt kê đồ thị dạng dây đồ thị sinh cách đính thêm clique Ưno [5] sinh giả clique với sổ cạnh lớn ngưỡng xác định Ngoài ra, số phương pháp khác không áp dụng Reverse Search công bố M ột số tác giả phát triển W ARMR bàng cách kết hợp quy hoạch logic quy nạp tìm kiếm kiểu Apriori Tan đồng [4] sinh cấu trúc theo mẫu dạng Một số tác giả khác sử dụng phương pháp chiếu rút gọn (chia để trị) để sinh cấu trúc thường xuyên Nhằm mục đích cung cấp nhìn tổng quan tồn diện tranh tổng thể lĩnh vực Big Data Báo cáo tổng kết trình bày số nét Big Data Đầu tiên báo cáo giới thiệu tảng chung Big Data trình bày cơng nghệ liên quan điện tốn đám mây, Internet kết nối vạn vật (Internet o f Things -IoT), trung tâm liệu (data center) Hadoop Tiếp theo, báo cáo khái quát số ứng dụng tiêu biểu Big Data, bao gồm quản lý doanh nghiệp, Internet o f Things, mạng xã hội trực tuyến, y tế trí tuệ tập trung Cuối cùng, báo cáo trình bày khái quát tình hình nghiên cứu phát triển Big Data Việt Nam 2.1 M ột số nét Big Data Trong 20 năm qua, liệu tăng lên với quy mô lớn lĩnh vực khác Theo báo cáo từ Tập đoàn Dữ liệu Quốc tế (IDC), năm 2011, dung lượng liệu tạo chép toàn giới 1.8ZB (~ 1021B), tăng gần chín lần vịng năm năm Con số tăng gấp đơi hai năm lần tương lai gần Dưới gia tăng cách bùng nố liệu toàn câu, thuật ngữ vê Big Data chủ yếu sử dụng để mô tả hệ thống liệu lớn So với tập liệu truyền thống, dừ liệu lớn thường bao gồm khối dừ liệu phi cấu trúc cần thêm phân tích thời gian thực Ngồi ra, liệu lớn mang lại hội để khám phá giá trị mới, giúp đạt hiểu biết sâu sắc giá trị tiềm ẩn, thách thức mới, ví dụ, làm để tổ chức quản lý tập liệu cách hiệu Gần đây, ngành công nghiệp trở nên quan tâm đến tiềm lớn Big Data, nhiều quan phủ công bố kế hoạch lớn để thúc đẩy nghiên cứu ứng dụng Big Data Ngoài ra, vấn đề Big Data thường nhắc đến phương tiện truyền thông công cộng, chẳng hạn New York Times, National Public Radio Hai tạp chí khoa học đầu ngành, Nature Science, m mục riêng để thảo luận thách thức tác động Big Data Ngày nay, Big Data có liên quan đến dịch vụ công ty Internet phát triển nhanh chóng Ví dụ, Google xử lý liệu khoảng hàng trăm Petabyte (PB), Facebook tạo khoảng 10 PB liệu log tháng, Baidu, công ty Trung Quốc, xử lý khoảng hàng chục PB liệu, Taobao, công ty Alibaba, tạo hàng chục Terabyte (TB) liệu giao dịch trực tuyến ngày Các đặc trưng Big Data Big Data khái niệm trừu tượng Ngồi liệu khổng lồ, cịn có sơ đặc trưng khác, xác định khác biệt “dữ liệu lổm” hay “dữ liệu lớn” Hiện nay, tầm quan trọng Big Data thừa nhận rộng rãi, người cịn có ý kiến khác định nghĩa Nói chung, Big Data có nghĩa liệu nhận diện, thu hồi, quản lý, xử lý CNTT truyền thống công cụ phần mềm / phần cứng thời gian chấp nhận Do mối quan tâm khác nhau, doanh nghiệp khoa học công nghệ, học giả nghiên cứu, nhà phân tích liệu, kỹ thuật viên có định nghĩa khác Big Data Các định nghĩa sau giúp có hiểu biết tốt ý nghĩa xã hội, kinh tế, công nghệ rộng lớn Big Data Trong năm 2010, Apache Hadoop định nghĩa liệu lớn "bộ liệu mà thu thập, quản lý xử lý máy tính nói chung phạm vi chấp nhận được." Trên sở định nghĩa này, tháng năm 2011, McKinsey & Company, cơng ty tư vấn tồn cầu cơng bố Big Data địa hạt cho đổi mới, cạnh tranh hiệu suất Big Data có nghĩa liệu mà khơng thu lại, lưu trữ, quản lý phần mềm sở liệu cổ điển Định nghĩa bao gồm hai ý nghĩa: Thứ nhất, dung lượng tập liệu mà phù hợp với tiêu chuẩn Big Data thay đổi, tăng trưởng theo thời gian với tiến công nghệ; Thứ hai, dung lượng tập liệu mà phù hợp với tiêu chuẩn Big Data ứng dụng khác ứng dụng Từ định nghĩa McKinsey & Company, thấy dung lượng tập liệu khơng phải tiêu chí cho Big Data Quy mô liệu ngày phát triển việc quản lý m khơng thể xử lý công nghệ sở liệu truyền thống hai đặc trưng quan trọng Như m ột vấn đề thực tế, liệu lớn định nghĩa sớm từ năm 2001 Doug Laney, nhà phân tích META (nay Gartner) định nghĩa thách thức hội mang lại tăng trưởng liệu với mơ hình Vs, tức là, gia tăng dung lượng, tốc độ tính đa dạng, báo cáo nghiên cứu Mặc dù mơ ban đầu khơng sử dụng để xác định Big Data, Gartner nhiều doanh nghiệp khác, bao gồm IBM sổ sở nghiên cứu Microsoft sử dụng mơ hình "3Vs" để mơ tả liệu lớn vịng mười năm Trong mơ hình "3Vs", D ung lượng có nghĩa là, với sản sinh thu thập liệu lớn, quy mô liệu trở nên ngày lớn; Tốc độ có nghĩa tính kịp thời liệu lớn, cụ thể thu thập phân tích liệu, vv phải tiến hành nhanh chóng kịp thời, để sử dụng cách tối đa giá trị thương mại Big Data; Tính đa dạng cho biết loại liệu khác bao gồm liệu bán cấu trúc phi cấu trúc âm thanh, video, web, văn bản, liệu có cấu trúc truyền thống Tuy nhiên, có ý kiến khác định nghĩa Big Data, bao gồm IDC, m ột công ty hàng đầu ảnh hưởng lĩnh vực Big Data lĩnh vực nghiên cứu Năm 2011, báo cáo IDC định nghĩa Big Data "công nghệ Big Data mô tả thể hệ công nghệ kiến trúc, thiết kế để lấy giá trị kinh tế từ dung lượng lớn loạt liệu, cách cho phép tốc độ cao việc thu thập, khám phá, / phân tích" Với định nghĩa này, đặc trưng liệu lớn tóm tắt thành bổn Vs, tức là, Dung lượng (dung lượng lớn), Tính đa dạng (các phương thức khác nhau), Tốc độ (sản sinh nhanh chóng), Giả trị (giá trị lớn mật độ thấp) Định nghĩa 4Vs cơng nhận rộng rãi làm bật ý nghĩa cần thiết Big Data, tức là, khám phá giá trị tiềm ẩn lớn Định nghĩa cho thấy vấn đề quan trọng liệu lớn, làm để khám phá giá trị từ liệu với quy mơ lớn, nhiều loại hình, sản sinh nhanh chóng Ngồi ra, NIST định nghĩa liệu lớn "dữ liệu lớn có nghĩa liệu mà dung lượng liệu, tốc độ thu thập, biểu diễn liệu hạn chế khả việc sử dụng phương pháp quan hệ truyền thống để tiến hành phân tích hiệu liệu mà xử lý cách hiệu với cơng nghệ", tập trung vào khía cạnh cơng nghệ Big Data Nó ràng phương pháp hay công nghệ hiệu cần phải phát triển sử dụng để phân tích xử lý dừ liệu lớn Sự phát triển Big Data Trong vài năm qua, gần tất công ly lớn, bao gồm EMC, Oracle, IBM, Microsoft, Google, Amazon, Facebook, vv bắt đầu dự án Big Data họ Lấy IBM ví dụ, từ năm 2005, IBM đầu tư 16 tỷ USD vào 30 tiếp nhận liên quan đến liệu lớn v ề học thuật, Big Data chiếm địa vị bật Trong năm 2008, Nature công bố m ột vấn đề đặc biệt Big Data Năm 2011, Science đưa vấn đề đặc biệt công nghệ chủ chốt "xử lý liệu" Big Data Năm 2012, Tap chí Hiệp hội Nghiên cứu châu Âu Tin học Toán học (ERCIM) đăng vấn đề đặc biệt liệu lớn Vào đầu năm 2012, báo cáo mang tên Big Data, Big Im pact trình bày Diễn đàn Davos Thụy Sĩ, thông báo ràng Big Data trở thành loại tài sản kinh tế mới, giống tiền tệ vàng Gartner, quan nghiên cứu quốc tế, đưa Hype Cycles from 2012-2013, phân loại tính tốn Big Data, phân tích xã hội, phân tích liệu lưu trữ thành 48 công nghệ lên mà đáng để ý nhiều Nhiều phủ quốc gia Hoa Kỳ quan tâm đến liệu lớn Trong tháng năm 2012, quyền Obama cơng bố khoản đầu tư 200 triệu USD để khởi động "Ke hoạch Nghiên cứu Phát triển Big Data", mà sáng kiến phát triển khoa học công nghệ chủ yếu thứ hai sau "xa lộ thông tin" bắt đầu vào năm 1993 Trong tháng năm 2012 , dự án "Đẩy mạnh công nghệ thông tin Nhật Bản" ban hành Bộ Nội vụ Truyền thông Nhật Bản phát triển Big Data, nên có chiến lược quốc gia công nghệ ứng dụng nên trọng tâm Trong tháng năm 2012, Liên Hiệp Quốc đưa báo cáo Big Data cho phát triển, tóm tắt cách phủ sử dụng Big Data để phục vụ tốt bảo vệ người dân họ Những thách thức Big Data Sự gia tăng mạnh dồn dập liệu kỷ nguyên big data m ang tới thách thức lớn việc thu thập, lưu trữ, quản lý phân tích liệu Hệ thống quản lý phân tích liệu truyền thống dựa hệ thống quản lý sở liệu quan hệ (RDBM S) Tuy nhiên, RDBMS áp dụng cho liệu có cấu trúc, khác với liệu bán cấu trúc khơng có cấu trúc Ngồi ra, RDBMS ngày sử dụng ngày nhiều phần cứng đắt tiền Các RDBMS truyền thống xử lý dung lượng lớn không đồng big data Cộng đồng nghiên cứu đề xuất số giải pháp theo quan điểm khác Đối với giải pháp lưu trữ vĩnh viễn quản lý tập liệu qui mô lớn trật tự, hệ thống tập tin phân phổi sở liệu NoSQL lựa chọn tốt Những frameworks lập trình đạt thành cơng lớn tốn xử lý cụm, đặc biệt lập thứ hạng trang web (webpage ranking) Nhiều ứng dụng liệu lớn phát triến dựa Irên công nghệ tảng cách mạng Một số nghiên cứu trở ngại phát triển ứng dụng big data tiến hành Các thách thức liệt kê sau đây: - - - Biểu diễn liệu: nhiều liệu có mức độ không đồng kiểu, cấu trúc, ngữ nghĩa, tổ chức, độ chi tiết, khả tiếp cận Biểu diễn liệu nhằm mục đích để làm cho liệu có ý nghĩa cho phân tích máy tính giải thích người dùng Tuy nhiên, biểu diễn liệu không cách làm giảm giá trị ban đầu liệu chí gây cản trở cho phân tích liệu hiệu Biểu diễn liệu hiệu phản ánh cấu trúc, lớp kiểu liệu cơng nghệ tích hợp, phép hoạt động hiệu tập liệu khác Giảm dư thừa nén liệu: nhìn chung, có mức độ cao dư thừa tập liệu Giảm dư thừa nén liệu cách hiệu để giảm chi phí gián tiếp toàn hệ thống tiền đề giá trị tiềm liệu không bị ảnh hưởng Ví dụ, hầu hết liệu tạo mạng cảm biến cần thiết, lọc nén đơn đặt hàng cường độ Quản lý vòng đời liệu: so với tiến hệ thống lưu trữ tương ứng, cảm biến máy tính tạo liệu với qui mô tốc độ chưa có Chúng ta phải đối mặt với nhiều thách thức, số hệ thống lưu trữ hỗ trợ liệu lớn Nói chung, giá trị ẩn liệu lớn phụ thuộc vào tươi liệu Vì vậy, nguyên tắc quan trọng liên quan đến giá trị phân tích cần phát triển để định liệu lưu trữ liệu loại bỏ Cơ chế phân tích: hệ thống phân tích big data xử lý khối lượng liệu không đồng thời gian giới hạn Tuy nhiên, RDBM S truyền thống thiết kế với thiếu khả thay đổi khả mở rộng, khơng thể đáp ứng yêu cầu hiệu suất Cơ sở liệu không quan hệ lợi riêng việc xử lý liệu phi cấu trúc bắt đầu trở thành đề tài chủ đạo phân tích big data Mặc dù vậy, số vấn đề sở liệu không quan hệ hoạt động ứng dụng cụ thể chúng Chúng ta phải tìm giải pháp thỏa hiệp RDBM S sở liệu khơng quan hệ Ví dụ, số doanh nghiệp sử dụng kiến trúc sở liệu hỗn hợp mà tích hợp nhũng ưu điểm hai loại sở liệu (ví dụ, Facebook Taobao) c ầ n nghiên cứu thêm sở liệu mẫu liệu nhớ dựa phân tích gần - - - - Bảo mật liệu: nhà cung cấp dịch chủ sở hữu dịch vụ big data khơng trì phân tích cách hiệu tập liệu lớn khả hạn chế họ Họ phải dựa vào chuyên gia công cụ để phân tích liệu vậy, làm tăng rủi ro bảo mật Quản lý lượng: lượng tiêu thụ hệ thống máy tính lớn thu hút nhiều quan tâm từ quan điểm kinh tế môi trường Với gia tăng dung lượng liệu nhu cầu phân tích, xử lý, lưu trữ truyền tải big data chắn tiêu thụ ngày nhiều lượng điện Vì vậy, chế kiểm soát quản lý điện tiêu thụ cấp hệ thống thành lập với big data khả mở rộng khả tiếp cận đảm bảo Khả m rộng thay đổi: hệ thống phân tích big data phải hỗ trợ tập liệu tương lai Thuật tốn phân tích phải có khả xử lý tập liệu ngày mở rộng phức tạp Sự hợp tác: phân tích liệu lớn nghiên cứu liên ngành, yêu cầu chuyên gia lĩnh vực khác hợp tác để thu thập liệu M ột kiến trúc mạng lưới big data toàn diện phải thiết lập để giúp nhà khoa học kỹ sư lĩnh vực khác truy cập loại liệu khác sử dụng đầy đủ chun mơn họ, phối hợp để hồn thành mục tiêu phân tích 2.2 Các cơng nghệ liên quan Mục giới thiệu số công nghệ có liên quan chặt chẽ với big data, bao gồm điện toán đám mây, IoT, trung tâm liệu Hadoop Điện toán đám mây Big Data Điện tốn đám mây có liên quan chặt chẽ với big data Big data đối tượng hoạt động tính toán chuyên sâu nhấn mạnh khả lưu trữ hệ thống đám mây Mục tiêu điện tốn đám mây sử dụng tài ngun tính toán lưu trữ lớn quản lý tập trung để cung cấp cho ứng dụng big data khả tính tốn tốt Sự phát triển điện toán đám mây cung cấp giải pháp cho việc lưu trữ xử lý big data M ặt khác, xuất big data làm tăng tốc độ phát triển điện toán đám mây Các cơng nghệ lưu trữ phân tán dựa điện tốn đám mây quản lý big data cách hiệu quả; khả tính tốn song song điện tốn đám mây nâng cao hiệu việc thu thập phân tích liệu lớn Mặc dù có nhiều cơng nghệ trùng lặp điện tốn đám mây big data, nhiên chúng khác hai khía cạnh sau Đầu tiên, khái niệm khác mức độ định Điện toán đám mây biến đổi kiến trúc CNTT big data ảnh hưởng đến định kinh doanh Tuy nhiên, big data phụ thuộc vào điện toán đám mây sở hạ tầng để hoạt động trơn tru Thứ hai, Big Data điện tốn đám mây có khách hàng mục tiêu khác Điện tốn đám mây cơng nghệ sản phẩm nhắm đến C hief Information Officers (CIO) giải pháp CNTT tiên tiến Big data sản phẩm nhắm đến Chief Executive Officers (CEO) người mà tập trung vào hoạt động kinh doanh Khi người định trực tiếp cảm nhận áp lực cạnh tranh thị trường, họ phải đánh bại đối thủ kinh doanh theo nhiều cách cạnh tranh Với tiến big data điện tốn đám mây, hai cơng nghệ tất yếu ngày kết hợp chặt với Điện toán đám mây, với chức tương tự máy tính hệ điều hành, cung cấp tài nguyên cấp hệ thống; liệu lớn hoạt động cấp độ bên hỗ trợ điện toán đám mây cung cấp chức tương tự sở liệu khả xử lý liệu có hiệu Kissinger, Chủ tịch EMC, ứng dụng liệu lớn phải dựa điện toán đám mây Sự phát triển big data thúc đẩy tăng trưởng nhanh chóng nhu cầu ứng dụng điện tốn đám mây phát triển từ cơng nghệ ảo hóa Do đó, điện tốn đám mây khơng cung cấp tính tốn xử lý big data, mà tự chế độ dịch vụ Đến mức độ đó, tiến điện tốn đám mây thúc đẩy phát triển big data, hai bổ sung cho IoT Big Data Trong mơ hình IoT, sổ lượng lớn cảm biến kết nối mạng nhúng vào thiết bị máy móc khác giới thực Các cảm biến triển khai lĩnh vực khác thu thập loại liệu khác nhau, chẳng hạn liệu môi trường, liệu địa lý, liệu thiên văn liệu logistic Thiết bị di động, phương tiện vận tải, phương tiện công cộng, đồ gia dụng tất thiết bị thu thập liệu IoT Big data tạo IoT có đặc trưng khác so với big data nói chung loại khác liệu thu thập được, đặc trưng cổ điển bao gồm khơng đồng nhất, tính đa dạng, tính khơng có cấu trúc, nhiễu, độ dư thừa cao Mặc dù liệu IoT phần thống trị big data, đến năm 2030, số lượng cảm biến đạt nghìn tỷ liệu IoT phàn quan trọng liệu lớn, theo dự báo HP Một báo cáo từ Intel liệu lớn IoT cỏ ba tính phù hợp với mơ hình liệu lớn: (i) thiết bị đầu cuối phong phú tạo khối lượng liệu lớn; (ii) liệu tạo IoT thường bán cấu trúc khơng có cấu trúc; (iii) liệu IoT có ích phân tích Hiện nay, khả xử lý liệu IoT giảm vô cấp thiết để nhanh chóng đưa cơng nghệ big data vào để thúc đẩy phát triển IoT Nhiều nhà khai thác IoT nhận tầm quan trọng big data từ thành cơng IoT tích hợp 10 nghiệm) + Chuyên đề: Xây dựng module phần mềm thử nghiệm hỗ trợ việc đánh giá xu hướng ưu thích lựa chọn hàng hóa khách hàng (thiết kế, lập trình thử nghiệm) Nội dung thực sản phấm có 4.1 Các báo cáo chuyên đề sản phẩm phần mềm: Năm 2015: + Nội dung Báo cáo chuyên đề “Nghiên cứu phát triển công nghệ liệu lớn” + Nội dung Báo cáo chuyên đề “Một số phương pháp xử lý đữ liệu lớn” + Nội dung 3, hoạt động Báo cáo chuyên đề “Thu thập liệu, lựa chọn phương pháp tổ chức” + Nội đung 3, hoạt động Báo cáo chuyên đề “Các phương pháp khai phá liệu bảng (dữ liệu phi cấu trúc)” + Nội dung 3, hoạt động Báo cáo chuyên đề “Phương pháp khai phá liệu bảng sử dụng lý thuyết tập thô” Năm 2016- 6/2017 + Nội dung 3, hoạt động Báo cáo chuyên đề “Các phương pháp khai phá liệu chuỗi (sequence) (dữ liệu có cấu trúc)” + Nội dung 3, hoạt động Báo cáo chuyên đề “Các phương pháp khai phá liệu (dữ liệu có cấu trúc)” + Nội dung 3, hoạt động Báo cáo chuyên đề “Các phương pháp khai phá liệu đồ thị (dữ liệu có cấu trúc)” + Nội dung 3, hoạt động Báo cáo chuyên đề “Nghiên cứu đề xuất thuật toán phục vụ cho việc xử lý liệu lớn” + Nội dung 4, hoạt động Báo cáo chuyên đề “Khai thác hệ phần mềm Hadoop” + Nội dung 4, hoạt động Báo cáo chuyên đề “Nghiên cứu số trang web liên quan đến thương mại điện tử” - Hoạt động 5: Thực thử nghiệm khai phá liệu phân cụm liệu + Chuyên đề: Thực thử nghiệm khai phá liệu bàng phân cụm liệu - Hoạt động 6: Xây dựng module phần mềm thu thập liệu khách hàng (thiết kế, lập trình thử nghiệm ) + Chuyên đề: Xây dựng module phần mềm thu thập liệu khách hàng (thiết 23 kế, lập trình thử nghiệm) - Hoạt động 7: Xây dựng module phần mềm thử nghiệm hỗ trợ việc đánh giá xu hướng ưu thích lựa chọn hàng hóa khách hàng (thiết kế, lập trình thử nghiệm) + Chuyên đề: Xây dựng module phần mềm thử nghiệm hỗ trợ việc đánh giá xu hướng ưu thích lựa chọn hàng hóa khách hàng (thiết kế, lập trình thử nghiệm) 4.2 Các báo khoa học: Các báo IS I/Scopus: [1] Demetrovics Janos, Vu Due Thi, Nguyen Long Giang, Tran Huy Duong On the Time Complexity o f the Problem Related to Reduct o f Consistent Decision Tables Serdica Journal of Computing, 2015, Bulgarian Academy o f sciences, V 9, N.2, pp 101-110 [2] Demetrovics Janos, Vu Due Thi, Tran Huy Duong An algorithm to mine normalized weighted sequential patterns using prefix-projected database Serdica Journal o f Computing 2015, Bulgarian Academy o f sciences, V 9, N.2, pp 111-118 [3] c c Nghia, Demetrovics J., V.D.Thi, N.L.Giang “ About a fuzzy distance b etw een tw o fuzzy partitions and application in attribute reduction problems” J Commucations and Information Technologies - CIT, Bulgarian Academy o f Sciences, có giấy xác nhận đăng năm 2016, V 16, N.4 (12/2016) [4] N Thien, Demetrovics J., V.D.Thi, N.L.Giang, N.N Son “ A method to contruct extention fuzzy information granularity based on fuzzy distance” J Serdica of Computing, 2016, Bulgarian Academy of Sciences, V 10, N l, pp 13-30 [5] Demetrovics J., Huong N.T.L., V.D.Thi, N.L.Giang “ Metric Based Attribute Method in Dynamic Decision Tables” J Commucations and Information Technologies - CIT, Bulgarian Academy of Sciences, 2016, V.16, N.2, pp 3-15 [6] Demetrovics J., Quang H.M., V.D.Thi, N v Anh “ An optimization o f closed frequent subgraph mining algorith” J Commucations and Information Technologies - CIT, Bulgarian Academy of Sciences Có giấy xác định dăng sổ năm 2017 [7] Demetrovics J., Quang H M., V.D.Thi, N.V.Anh “ An efficient method to reduce the size of consistent decision tables” J ACTA CYBERNETICA, Hungarian Academy o f Sciences ( Accepted 2017) Các báo nư c: [8] Hoàng Minh Quang, Vũ Đức Thi, Kiều Thu Thủy Đào Văn Tuyết Phan Trung Kiên Khai phá thường xuyên sở liệu WEBLOGS Kỷ yếu Hội nghị “Nghiên cứu ứng dụng Công nghệ thông tin” lần thứ VIII (FAIR 8) Viện CNTT-ĐHQGHN, tháng 07 năm 2015 p 327-335 [9] Trần Đức Minh, Trần Huy Dương, Vũ Đức Thi Một số vẩn đề dự báo liệu chuỗi thời gian Kỷ yếu Hội nghị “Nghiên cứu ứng dụng Công nghệ thông tin” lần thứ VIII (FAIR 8) Viện CNTT-ĐHQGHN, tháng 07 năm 2015 p 467-470 [10] Nguyễn Ngọc Cương Vũ Đức Thi độ phức tạp tính toán toán liên quan đến tập rút gọn bảng định Kỷ yếu Hội nghị “Nghiên cứu ứng dụng Công nghệ thông tin” lần thứ VIII (FAIR 8) Viện CNTT-ĐHQGHN, thang 07 năm 2015 p 755-759 [11] Vũ Văn Định, Vũ Đức Thi, Ngô Quốc Tạo, Nguyễn Long Giang Phương pháp rút gọn thuộc tỉnh bảng định không đầy đủ sử dụng khoảng cách phân hoạch Chun san “Các cơng trình nghiên cứu phát triển ứng dụng Công nghệ thông tin Truyền thông”, số 34, tháng 12 năm 2015, trang 23-32 [12] Trần Huy Dương, Vũ Đức Thi Thuật toán khai phá mẫu dãy thường xuyên trọng sổ chuẩn hóa với khoảng cách thời gian Chun san “Các cơng trình nghiên cứu phát triển ứng dụng Cơng nghệ thông tin Truyền thông” Số 34, tháng 12 năm 2015, trang 72-82 [13] Hoàng Minh Quang, Vũ Đức Thi “ Một số vấn đề khai phá đồ thị thường xuyên đóng” Kỷ yếu Hội nghị quốc gia “ Nghiên cứu ứng dụng CNTT” lần thứ 9, ĐH cần Thơ, tháng 8/2016, trang 471-479 [14] c c Nghĩa, N.L Giang, V.D.Thi, T Hạnh “ Fuzzy distance based attribute reduction in numerial decision tables “ Chuyên san “ Nghiên cứu phát triển CNTT TT” - Bộ Thông tin truyền thơng, có giấy xác nhận đăng s 1,N 16(36) [15] Vũ Đức Thi, “ Công nghệ tri thức”, sách chuyên khảo, Nhà xuất Khoa học tự nhiên công nghệ , tháng 11/2016 4.3 Sản phẩm đào tạo: + Số lượng thạc sỹ: 05 25 + Tiến sĩ: đào tạo 06 nghiên cứu sinh Trong có 02 nghiên cứu sinh bảo thành cơng ( Vũ Văn Định - ĐH Điện lực, Nguyễn Lan Hương- Học viện cảnh sát) NCS chuẩn bị bảo vệ cấp Học viện Bưu viễn thơng ( Cao Chính Nghĩa - Học viện Cảnh sát) NCS đào tạo: Hoàng Minh Quang - Viện CNTT - Viện HLKHCNVN Trần Huy Dương - Viện CNTT - Viện HLKHCNVN Nguyễn Văn Tuấn - ĐH CNTT - TT Thái Nguyên Bảng tổng hợp TT Tên nội dung, sản phẩm theo họp đồng Nội dung Nghiên cứu phát triển công nghệ liêu lớn Nội dung Một sô phương pháp xử lý liệu lớn Nội dung 3, hoạt động Thu thập liệu, lựa chọn phương pháp tổ chức Nội dung 3, hoạt động Các phương pháp khai phá liệu bảng (dữ liệu phi cấu trúc) Nội dung 3, hoạt động Phương pháp khai phá liệu bảng sử dụng lý thuyết tập thô Nội dung 3, hoạt động Các phương pháp khai phá liệu chuỗi (sequence) (dữ liệu có cấu trúc) Nội dung 3, hoạt động Các phương pháp khai phá liệu (dữ liệu có cấu trúc) Nội dung 3, hoạt động Các phương pháp khai phá liệu đồ thị (dữ liệu có cấu trúc) Nội dung 3, hoạt động 7 Hoàn thành (Chỉ rõ mức độ: tỉ lệ %) 100% Chưa hoàn thành (đang thực hiện/ chưa thực hiện) Minh chứng Báo cáo chuyên đề 100% Báo cáo chuyên đề 100% Báo cáo chuyên đề 100% Báo cáo chuyên đề 100% Báo cáo chuyên đề 100% Báo cáo chuyên đề 100% Báo cáo chuyên đề 100% Báo cáo chuyên đề 100% Báo cáo 26 10 11 12 13 14 Nghiên cứu đê xuât thuật toán phục vụ cho việc xử lý liệu lớn Nội dung 4, hoạt động Khai thác hệ phần mềm Hadoop Nội dung 4, hoạt động Nghiên cứu số trang web liên quan đến thương mại điện tử Đào tạo thạc sỹ: 04 chuyên đê 100% Báo cáo chuyên đề 100% Báo cáo chuyên đề 125% (đã bảo vệ 05) 100% Đào tạo tiên sĩ: 02 Các báo ISI/Scopus: 100% 02 15 Các báo nước: 200% (07 bài) 03 16 Nội dung 4: Hoạt động 2, Hoạt động 3, Hoạt động 5, Hoạt động 6, Hoạt động 100% Có sách theo Có sách theo Đã xây dựng xong Theo phần mềm thử đồng: nghiệm, viết báo cáo 2016 Kinh phí Kinh phí năm 2015 nhận 150 triệu đồng Kinh phí duyệt năm 2016: 150 triệu đồng Đã nhận: 116 triệu đồng II TH Ử NGHIỆM HỆ PHẦN MÈM TÌM SỞ THÍCH KHÁCH HÀNG CÁC THƠNG TIN C BẢN danh kèm danh kèm hợp năm Hệ phần mềm bao gồm phần : - Phân cụm khách hàng - Tìm sở thích khách hàng liệu phân cụm Mô tả liệu Dữ liệu chương trình thực nghiệm bao gồm thơng tin 2.250.000 khách hàng đặt hàng trực tuyến mạng Internet Các thuộc tính liệu bao gồm: độ tuổi, giới tính, địa danh sách 10 mặt hàng tiêu biểu khách hàng đặt mua Bảng thơng tin khách hàng Mã khách hàng • Giới tính Địa Độ tuổi Nam Thái Bình 26 Nam Hà Nội 42 Nữ Hà Nội 36 Nữ Hải Phòng 28 Nữ Nam Định 26 Nam Nam Định 32 Nữ Hà Nội 38 Nam Thái Bình 21 Nữ Hà Nam 32 10 Nữ Nghệ An 39 Quy trình xử lý liệu chương trình gồm bước sau: Bước 1: Tiền xử lý liệu o Rời rạc hóa thuộc tính phân cụm hỗ trợ phân cụm liệu o Chuyển đổi danh sách mặt hàng dạng từ điển bảng chữ (ví dụ: “điện thoại” dùng kí tự “a”, “quần áo” dùng kí từ “b” ) hỗ trợ sinh luật kết hợp • Bước 2: Phân cụm liệu o Thực phân cụm danh sách khách hàng theo thuộc tính: giới tính, địa độ tuổi • Bưóc 3: Sinh luật kết hợp o Thực sinh tập mặt hàng phổ biến luật kết hợp mặt hàng cụm phân cụm bước • Bưóc 4: Biểu diễn liệu o Chuyển đổi kết từ dạng từ điển chữ sang tên sản phẩm B4: Biếu diễn liệu B2: Phân cụm dừ liệu Hình Các bước xử lý chương trình thực nghiệm Xử lý liệu phân cụm Thuộc tính sử dụng để phân cụm gồm: giới tính, địa độ tuổi Hai thuộc tính cần rời rạc hóa giới tính địa Thơng qua thử nghiệm, chương trình áp dụng phương pháp rời rạc cho hai thuộc tính sau: • Với thuộc tính “Giới tính”: sử dụng rời rạc nhị phân • Với thuộc tính “Địa chỉ”: sử dụng cách phân chia khu vực sau: o Khu vực 1: Các quận nội thành thành phổ trực thuộc trung ương o Khu vực 2: Các thị xã, thành phố trực thuộc tỉnh; thị xã, huyện ngoại thành thành phố trực thuộc trung ương o Khu vực 3: Các xã thuộc vùng dân tộc miền núi o Khu vực 4: Các địa phương lại Bảng Chuyển đổi liệu thuộc tính “Giới tính ” “Địa ch ỉ” STT Tên thc tính Giới tính Địa Giá trị Nam Nữ Khu vưc Khu vưc Khu vưc Khu vực Giá trị sau chuyến đổi 1 29 X lý liệu sinh luật Thuộc tính sử dụng để sinh luật tên 10 sản phẩm khách hàng đặt mua lưu trữ dạng nhị phân, mặt hàng đặt mua có giá trị 1, ngược lại có giá trị Tên mặt hàng chuyển đổi thành dạng chữ từ a đến jCụ thể, có Bảng chuyển đổi tên mặt hàng bảng chữ sau: Bảng chuyển đổi tên mặt hàng STT 10 Kí tự chuyến đổi a b c d e f Tên mặt hàng Tivi thiết bi số Máy ảnh Điện thoại phồ thơng Smartphone Laptop Quần áo Máy tính để bàn Đồ trang điểm Giầy dép Đồ gia dụng g h i i Khi bảng liệu mua hàng chuyển thành dạng sau: Bảng liệu mua hàng chuyển đổi # a 1 b 0 c 0 0 d 0 e 1 f 1 g 1 h 1 i 1 J 0 Trong bảng 2.3, khách hàng mua mặt hàng a,b,e,f Khách hàng mua mặt hàng a,g,h,i M ột số thống kê liệu Dưới số thống kê liệu thông tin khách hàng đặt hàng mua sản phẩm trực tuyến sử dụng chương trình thực nghiệm Thống kê theo khu vực: Bảng Thống kê khách hàng theo khu vực Khu vực Số ghi Khu vực 543.411 Khu vực 653.493 Khu vực 691.433 Khu vực 361.663 Thống kê theo khu vực 1K hu vực * K hu vực » Khu vực * K.hu vực Hĩnh Thống kê khách hàng theo khu vực Thống kê theo giới tính/khu vực: Bảng Thống kê khách hàng theo giới tính/khu vực Khu vưc Giới tính Nam Nữ Khu vực 393.675 149.736 Khu vực 162.115 491.378 Khu vực 120.884 570.549 Khu vực 241.518 120.145 Tổng 918.192 1.331.808 31 Thống kê theo giới tính/khu vực 800 700 600 500 i 400 300 200 100 Khu vực Khu vực * Giới tính Khu vực Khu vực ■ G iới tinh Hĩnh Thống kê khách hàng theo giới tỉnh/khu vực HƯỚNG DẢN s ữ DỤNG HỆ PHẦN MÈM PHÂN TÍCH SỞ THÍCH KHÁCH HÀNG Phần ỉ: Phần m ềm “Phân cụm khách hàng” B1: Mờ Computer (Click vào biểu tượng Computer Desktop) B2: Vào ổ D:/ B3: Vào mục “CT” (D:\CT) B4: Vào mục “Chuong trinh -> phan cum”(D:\CT\Chuonqĩrinh\PhanCum) Q rq tn tỉt » Sum to íiiw 'J '( ĩt v ũ ỉA t s ■ O e tk tc p Files C urrently o n The D isc (3) tỆ Downloads v _ p.ecínt PlrtcM ■U lib U -:017 i n PM j:< O u u t V ìẦ -m ĩi.iìP M fu n b at ỉfiỉ- '2ỮI7 U-M m ^ libuiiet *; Oocumer-ts ■Ịậi M u h c Im Pictures V ideos Compute* W1N7 'c*»£jr Oij ỉh c D ii lib Ccwputei & AÌNỈ iCr? ^ DATA fC:j ttTOf-ifc; Ỉ * DVD Rw D m t

Ngày đăng: 18/03/2021, 16:27

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan