Giới thiệu
Trong thời đại hiện nay, dữ liệu trở thành nguồn lực thiết yếu cho sự phát triển của doanh nghiệp bên cạnh vốn và nhân lực Khi mua sắm trực tuyến trên các trang thương mại điện tử như eBay, Amazon, Sendo hay Tiki, người dùng thường ngạc nhiên khi nhận được những gợi ý sản phẩm liên quan phù hợp với nhu cầu của mình.
Khi bạn duyệt điện thoại, các trang mua sắm trực tuyến thường gợi ý thêm các sản phẩm như ốp lưng và pin dự phòng Tương tự, khi bạn chọn mua áo thun, hệ thống sẽ đề xuất thêm quần jean và thắt lưng để hoàn thiện bộ trang phục của bạn.
Các trang web thông minh dựa vào nghiên cứu sở thích và thói quen của khách hàng để tối ưu hóa sản phẩm Dữ liệu khách hàng được thu thập từ tương tác trên website hoặc mua từ các công ty chuyên cung cấp Thông tin này không chỉ giúp doanh nghiệp tăng lợi nhuận mà còn cải thiện trải nghiệm mua sắm cho người tiêu dùng Doanh nghiệp có thể phát triển sản phẩm phù hợp và xây dựng chính sách phân phối hiệu quả Người tiêu dùng tiết kiệm thời gian và cảm thấy an tâm hơn khi mua sắm Ở tầm vĩ mô, ứng dụng Big Data giúp dự đoán tỉ lệ thất nghiệp, xu hướng nghề nghiệp, và hỗ trợ các quyết định kinh tế, bao gồm cả phòng ngừa dịch bệnh.
Việc khai thác hiệu quả nền tảng Big Data mang lại lợi thế cạnh tranh và hiệu quả lớn trong nhiều lĩnh vực, đặc biệt là trong thị trường dịch vụ tài chính đang bão hòa Phân tích các ứng dụng của Big Data cùng với các điều kiện cần thiết sẽ giúp tối ưu hóa nguồn tài nguyên, tối đa hóa doanh thu và gắn kết các mục tiêu kinh doanh với hành vi của khách hàng.
Luận văn thạc sĩ Công nghệ thông tin
8 khách hàng, nhằm mang lại cho doanh nghiệp phương án kinh doanh hiệu quả nhất
Việc khai thác dữ liệu lớn như một nguồn tài nguyên quý giá giúp doanh nghiệp tiếp cận người dùng hiệu quả hơn, đồng thời hỗ trợ hoàn thiện chính sách kinh doanh Mục tiêu là tối đa hóa lợi ích cho người dùng và đảm bảo tăng trưởng doanh thu bền vững cho doanh nghiệp.
Đề tài “Phân Tích Hành Vi Sử Dụng Dịch Vụ Viễn Thông Của Khách Hàng Dựa Trên Thuật Toán Phân Cụm Đưa Ra Chính Sách Khuyến Mại Về Sản Phẩm Và Theo Phân Khúc Khách Hàng” tập trung vào việc ứng dụng phân tích dữ liệu lớn để khai thác tài nguyên Big Data Bằng cách sử dụng các công cụ như Hadoop cho lưu trữ và vận hành hệ thống Big Data, cùng với Spark và Zeppelin cho xử lý dữ liệu lớn, nghiên cứu này áp dụng các kỹ thuật học máy và phân tích hành vi khách hàng Mục tiêu là đưa ra các kết quả phù hợp nhất cho từng nhóm khách hàng sử dụng dịch vụ viễn thông, từ đó phát triển chính sách khuyến mại hiệu quả.
Phần còn lại của luận văn được trình bày theo cấu trúc như sau
Chương 2 giới thiệu các khái niệm cơ bản liên quan đến nghiên cứu về Big Data, các công cụ hỗ trợ trong quá trình thực hiện đề tài, và phương thức xây dựng hệ cơ sở dữ liệu khách hàng 360 Đây là khung dữ liệu quan trọng cho việc phát triển và đánh giá các mô hình học máy Bên cạnh đó, chương cũng trình bày các thuật toán sẽ được áp dụng trong quá trình thực hiện, nhấn mạnh tính ứng dụng của thư viện Spark ML và những ưu điểm nổi bật của Spark trong việc xây dựng và triển khai giải thuật rừng ngẫu nhiên song song.
Chương 3 sẽ trình bày về quá trình thực hiện, các phiên bản xây dựng mô hình và kết quả thực nghiệm
Cuối cùng sẽ là phần kết luận, ý nghĩa phương pháp triển khai, các kết quả đạt được và định hướng nghiên cứu tiếp theo
Luận văn thạc sĩ Công nghệ thông tin
Công cụ, nền tảng, thuật toán sử dụng và ứng dụng Phân tích dữ liệu
Các công cụ nền tảng
Với sự phát triển nhanh chóng của công nghệ điện toán đám mây và Internet vạn vật (IoT), dữ liệu toàn cầu đang gia tăng với tốc độ gấp đôi mỗi hai năm Giá trị của dữ liệu trong mọi lĩnh vực đang ngày càng trở nên quan trọng, đồng thời tồn tại nhiều thông tin quý giá trong kho dữ liệu khổng lồ Tuy nhiên, sự bùng nổ dữ liệu lớn cũng mang đến nhiều thách thức, đặc biệt là yêu cầu xử lý dữ liệu theo thời gian thực trong môi trường cạnh tranh Vấn đề chính là làm thế nào để khai thác thông tin có giá trị một cách hiệu quả và chính xác từ khối lượng dữ liệu đồ sộ, trong khi dữ liệu lớn thường có nhiều chiều, độ phức tạp và nhiễu Việc lựa chọn các kỹ thuật phân tích phù hợp để đạt được hiệu suất tốt cho các tập dữ liệu đa chiều trở nên cấp thiết Do đó, khai thác và phân tích dữ liệu lớn đã trở thành chủ đề nóng trong nghiên cứu học thuật và công nghiệp, với nhiều thành tựu đạt được trong khai thác dữ liệu phân tán và song song dựa trên nền tảng điện toán đám mây, trong đó Hadoop là một nền tảng nổi bật.
Dữ liệu lớn (Big Data) là thuật ngữ chỉ quá trình xử lý và phân tích một lượng dữ liệu khổng lồ, bao gồm cả dữ liệu có cấu trúc và không có cấu trúc Đối với các tổ chức và doanh nghiệp, việc khai thác dữ liệu lớn ngày càng trở nên quan trọng, vì lượng dữ liệu gia tăng sẽ nâng cao độ chính xác của các phân tích và đưa ra những quyết định hiệu quả hơn.
Luận văn thạc sĩ Công nghệ thông tin
10 chính xác này sẽ giúp doanh nghiệp đưa ra các quyết định giúp tăng hiệu quả sản xuất, giảm rủi ro và chi phí
Dữ liệu lớn được thu thập từ nhiều nguồn khác nhau, bao gồm cảm biến thời tiết, thông tin từ mạng xã hội, hình ảnh và video kỹ thuật số, cũng như dữ liệu giao dịch từ hoạt động mua sắm trực tuyến Những dữ liệu này xuất hiện dưới nhiều hình thức khác nhau, bao gồm có cấu trúc, phi cấu trúc và bán cấu trúc.
Big Data là khái niệm chỉ tập hợp dữ liệu lớn và phức tạp mà các công cụ xử lý truyền thống khó có thể quản lý Nó tổng hợp thông tin từ nhiều nguồn khác nhau, giúp ra quyết định kinh doanh và nhận diện xu hướng nhanh chóng và hiệu quả hơn Big Data được phân tích qua ba khía cạnh: Dữ liệu, Công nghệ và Quy mô Dữ liệu bao gồm nhiều định dạng như hình ảnh, video và thông tin từ các hệ thống công nghệ thông tin, với sự cập nhật liên tục từ thiết bị kết nối mạng Khối lượng dữ liệu hiện nay được đo lường bằng Terabytes (TB), Petabytes (PB) và Exabytes (EB), ví dụ như Walmart xử lý hơn 1 triệu giao dịch mỗi giờ với dữ liệu khoảng 2,5 PB Công nghệ trong Big Data thường được xây dựng từ dưới lên, với Hadoop là một trong những hệ sinh thái mạnh mẽ nhất, cho phép xử lý dữ liệu phức tạp Quy mô dữ liệu là yếu tố quan trọng, tuy nhiên, vẫn chưa có một tiêu chuẩn cụ thể để đo lường chính xác.
Luận văn thạc sĩ Công nghệ thông tin
Dữ liệu được coi là lớn khi nó vượt quá khả năng xử lý của các hệ thống truyền thống Khi dữ liệu phát triển đến mức mà các công cụ và phương pháp hiện tại không thể quản lý hiệu quả, nó sẽ được phân loại là Big Data.
Việc doanh nghiệp sở hữu Big Data đã trở nên phổ biến, như eBay sử dụng hai trung tâm dữ liệu với dung lượng 40 petabyte để quản lý truy vấn và thông tin hàng hóa, hay Amazon xử lý hàng triệu hoạt động và yêu cầu từ nửa triệu đối tác bán hàng mỗi ngày Facebook quản lý 50 tỉ bức ảnh từ người dùng, trong khi YouTube và Google lưu trữ lượt truy vấn và video cùng nhiều thông tin khác Theo khảo sát của Qubole và Dimensional Research, lĩnh vực chăm sóc khách hàng, công nghệ thông tin, và tài chính là những lĩnh vực thu lợi nhiều nhất từ Big Data Mục đích khai thác Big Data của các nhà cung cấp toàn cầu là cải thiện chăm sóc khách hàng, phân tích dữ liệu để phát triển sản phẩm và dịch vụ, cũng như ứng dụng công nghệ để nâng cao trải nghiệm khách hàng trong bối cảnh cạnh tranh khốc liệt Các công cụ phân tích, đặc biệt là phân tích dự đoán và khai thác dữ liệu, giúp doanh nghiệp đo lường, phân tích vấn đề sản phẩm, phát hiện cơ hội và rủi ro, đồng thời dự báo doanh thu từ hoạt động kinh doanh hàng ngày.
Big Data có thể bao gồm những kiểu dữ liệu sau:
Dữ liệu trong các hệ thống doanh nghiệp truyền thống bao gồm thông tin từ hệ thống quản lý khách hàng, giao dịch tài chính, dữ liệu kế toán, cũng như thông tin giao dịch giữa khách hàng và doanh nghiệp.
Luận văn thạc sĩ Công nghệ thông tin
Dữ liệu sinh tự động hoặc do cảm biết bao gồm thông tin khách hàng sử dụng dịch vụ, lịch sử truy cập các trang web và các dữ liệu ghi lại lịch sử thiết bị sử dụng.
Dữ liệu mạng xã hội là tập hợp các thông tin được tạo ra từ hoạt động của người dùng trên các nền tảng như Facebook, Twitter, và Instagram, bao gồm ảnh, video và các thông tin khác Đặc điểm nổi bật của Big Data trong lĩnh vực này là khối lượng dữ liệu khổng lồ, tính đa dạng cao và tốc độ phát sinh nhanh chóng, cho phép phân tích sâu sắc hành vi và xu hướng của người dùng.
Ba đặc điểm chính của Big Data bao gồm Dung lượng (volume), Tốc độ (velocity) và Tính đa dạng (variety) Dung lượng của Dữ liệu lớn đang tăng lên mạnh mẽ từng ngày Theo thông tin từ Google, cứ mỗi giây, lượng dữ liệu được tạo ra là vô cùng khổng lồ.
Trên toàn cầu, có tới 87.000 từ khóa tìm kiếm và hàng petabyte dữ liệu được tạo ra, cho thấy tốc độ (Velocity) phân tích dữ liệu ngày càng nhanh chóng để nâng cao trải nghiệm người dùng Sự phát triển của các kỹ thuật và công cụ lưu trữ đã giúp nguồn dữ liệu được cập nhật liên tục với tốc độ cao Về tính đa dạng (Variety), nguồn dữ liệu hiện nay rất phong phú, bao gồm dữ liệu có cấu trúc, bán cấu trúc và không có cấu trúc, từ dữ liệu giao dịch đến văn bản ngẫu nhiên trên internet Đặc biệt, độ lớn dữ liệu (Volume) ngày càng gia tăng, với dữ liệu sinh ra tự động (machine-generated data) vượt xa dữ liệu truyền thống, có thể đạt hàng terabyte trong thời gian ngắn và lưu trữ lên đến petabytes Trước đây, việc lưu trữ dữ liệu lớn là thách thức lớn, nhưng hiện nay, với sự phát triển của phần cứng và công nghệ lưu trữ đám mây, việc xác định giá trị cần thiết từ tập dữ liệu lớn trở thành vấn đề cốt yếu.
Tốc độ xử lý dữ liệu (velocity) là yếu tố quan trọng trong quản lý dữ liệu lớn Dữ liệu lớn không chỉ đơn thuần là khối lượng lớn mà còn yêu cầu khả năng xử lý nhanh chóng để đáp ứng nhu cầu của người dùng Các hệ thống truyền thông hiện đại cần đảm bảo tốc độ xử lý dữ liệu nhanh và phản hồi kịp thời, điều này giúp cải thiện trải nghiệm người dùng và tối ưu hóa hiệu suất hệ thống.
Tính đa dạng dữ liệu trong Big Data được thể hiện qua việc thu thập từ nhiều nguồn khác nhau như web và mobile Ngày nay, dữ liệu không chỉ giới hạn ở dạng truyền thống với cấu trúc schema mà còn bao gồm nhiều loại hình khác nhau, chẳng hạn như hình ảnh.
Luận văn thạc sĩ Công nghệ thông tin
Big Data có khả năng xử lý nhiều loại dữ liệu, bao gồm dữ liệu có cấu trúc, phi cấu trúc và bán cấu trúc Để đáp ứng các yêu cầu này, nhiều công ty lớn toàn cầu như Amazon, Google và Facebook đã lựa chọn nền tảng Hadoop làm công cụ chính để lưu trữ và xử lý dữ liệu.
Apache Hadoop là một framework mạnh mẽ cho phép xử lý phân tán dữ liệu lớn qua cụm máy tính, sử dụng mô hình lập trình đơn giản Được thiết kế để mở rộng từ một đến hàng nghìn máy, Hadoop thực hiện tính toán và lưu trữ cục bộ hiệu quả Điểm nổi bật của Apache Hadoop là khả năng phát hiện và quản lý lỗi tại tầng ứng dụng, thay vì phụ thuộc vào phần cứng để thiết lập cơ chế sẵn sàng cao (HA) Điều này cho phép Hadoop cung cấp dịch vụ HA tại cụm máy tính thông qua việc thiết lập thêm một ứng dụng ở chế độ hoạt động hoặc chờ (active/standby).
Giới thiệu về học máy
Luận văn thạc sĩ Công nghệ thông tin
Học máy là lĩnh vực khoa học nghiên cứu và phát triển các kỹ thuật dựa trên trí tuệ nhân tạo, cho phép máy tính suy luận và dự đoán kết quả tương lai Quá trình này dựa vào việc huấn luyện từ dữ liệu lịch sử để cải thiện khả năng dự đoán.
Việc xây dựng mô hình học máy và ứng dụng thực tiễn đòi hỏi sử dụng nhiều mô hình khác nhau, trong đó mô hình tổng hợp đóng vai trò quan trọng để đạt được kết quả tối ưu Cần lựa chọn mô hình nhanh, mạnh và hiệu quả về chi phí cũng như tài nguyên Theo [20], học máy được phân chia thành ba nhóm chính: học có giám sát (supervised), học không giám sát (unsupervised), học bán giám sát (semisupervised) và học tăng cường (Reinforcement Learning).
Cây quyết định là một công cụ mạnh mẽ và phổ biến trong khai thác dữ liệu lớn, đặc biệt là trong phân lớp dữ liệu Với ưu điểm xây dựng nhanh chóng và dễ hiểu, cây quyết định giúp đơn giản hóa quá trình phân tích Hơn nữa, các cây quyết định có thể dễ dàng chuyển đổi sang câu lệnh SQL, cho phép truy cập cơ sở dữ liệu hiệu quả Cuối cùng, phương pháp phân lớp dựa trên cây quyết định thường đạt được độ chính xác cao hơn so với các phương pháp phân lớp khác.
Trong quá trình nghiên cứu, chúng tôi đã áp dụng các thuật toán kiểm định và phân lớp như rừng ngẫu nhiên (random forest) và phân cụm K-Means để tương tác hiệu quả với tập khách hàng, nhằm đạt được tỷ lệ thành công cao nhất.
Cho một tập dữ liệu X:
Một hàm mục tiêu f: X → {đúng, sai}
Tính toán một hàm f’: X → {đúng, sai} sao cho f’(x) f(x), x X
2.2.1 Một số khái niệm cơ bản
Không gian biểu diễn là một tập hợp:
Luận văn thạc sĩ Công nghệ thông tin
Ký hiệu là X, mỗi phần tử thuộc X có thể được gọi là các dữ liệu, các thể hiện, các đối tượng hay các ví dụ
Mỗi phần tử S X được biểu diễn bởi một tập gồm n thuộc tính:
Đối tượng S có thể được biểu diễn kết hợp với lớp liên thuộc của nó, tức là dưới dạng nhãn z = (s, c) Hình thức này thường áp dụng trong học có giám sát.
Học có giám sát (supervised learning) là một kỹ thuật trong lĩnh vực học máy nhằm xây dựng hàm f từ dữ liệu huấn luyện Dữ liệu huấn luyện bao gồm các cặp đầu vào và đầu ra mong muốn, với đầu ra của hàm f có thể là giá trị liên tục hoặc dự đoán nhãn phân lớp cho đối tượng đầu vào.
Hình 2.10 Mô hình học có giám sát
Chương trình học có giám sát nhằm dự đoán giá trị của hàm f cho các đối tượng đầu vào hợp lệ, dựa trên các mẫu dữ liệu huấn luyện (các cặp đầu vào và đầu ra tương ứng) Để thực hiện điều này, chương trình cần tổng quát hóa từ dữ liệu hiện có, giúp dự đoán các tình huống chưa gặp một cách hợp lý.
Các bước giải bài toán học có giám sát Ứng dụng các giải thuật sử dụng trong đề tài:
Phân lớp nhị phân (BinaryClassification)
Cây quyết định (Decision Tree)
Thuật toán học Mô hình
Luận văn thạc sĩ Công nghệ thông tin
29 b Học không có giám sát
Học không có giám sát (unsupervised learning) là một phương pháp học máy sử dụng dữ liệu huấn luyện hoàn toàn chưa được gán nhãn, nhằm tìm kiếm mô hình phù hợp với các quan sát Khác với học có giám sát, đầu ra đúng cho mỗi đầu vào trong học không có giám sát là không được biết trước Trong phương pháp này, dữ liệu đầu vào thường được thu thập ngẫu nhiên, và một mô hình mật độ kết hợp sẽ được xây dựng cho tập dữ liệu đó.
Có thể kết hợp học không giám sát với suy diễn Bayes để tạo ra xác suất có điều kiện cho bất kỳ biến ngẫu nhiên nào, chuyển từ học không giám sát sang học có giám sát Tất cả các thuật toán nén dữ liệu đều dựa vào một phân bố xác suất trên tập đầu vào, có thể là tường minh hoặc không tường minh Thuật toán Clustering phân tích và tìm các đặc trưng của dữ liệu, sau đó phân nhóm thành các cụm khác nhau dựa trên những đặc trưng này, và phân chia các đầu vào mới vào các cụm đã có sẵn theo loại đặc trưng của chúng.
Thuật toán này có 3 loại điển hình:
K-Means Clustering: Phân nhóm dữ liệu vào một số K cụm với quy luật nhất định
Hierarchical Clustering: Phân loại theo thứ bậc
Probabilistic Clustering: Phân loại theo xác suất c Học bán giám sát
Học nửa giám sát (semi-supervised learning) là một kỹ thuật trong lĩnh vực học máy, sử dụng dữ liệu huấn luyện bao gồm cả dữ liệu đã được gán nhãn và dữ liệu chưa được gán nhãn Phương pháp này giúp cải thiện độ chính xác của mô hình học máy bằng cách tận dụng thông tin từ cả hai loại dữ liệu, từ đó tối ưu hóa quá trình học và giảm thiểu chi phí gán nhãn.
Luận văn thạc sĩ Công nghệ thông tin
Hình 2.11 Mô hình học bán giám sát
Khi áp dụng học có giám sát, dữ liệu huấn luyện được gán nhãn, giúp đạt độ chính xác cao Tuy nhiên, việc gán nhãn cho một lượng lớn dữ liệu tốn thời gian và tài nguyên, khiến cho quá trình này trở nên đắt đỏ và đòi hỏi nỗ lực lớn từ con người Ngược lại, trong mô hình học không có giám sát, dữ liệu huấn luyện không được gán nhãn, dẫn đến độ chính xác thấp hơn Dù vậy, dữ liệu chưa được gán nhãn lại dễ dàng thu thập và có chi phí thấp hơn nhiều.
Học nửa giám sát kết hợp ưu điểm của cả học có giám sát và học không có giám sát, giúp khắc phục nhược điểm của từng phương pháp Bằng cách sử dụng một lượng lớn dữ liệu chưa gán nhãn cùng với một lượng nhỏ dữ liệu đã gán nhãn, các thuật toán học nửa giám sát mang lại kết quả với độ chính xác cao và tiết kiệm thời gian Vì vậy, học nửa giám sát là phương pháp hiệu quả trong lĩnh vực học máy.
Trong quá trình thực hiện đề tài, việc áp dụng các mô hình học máy và phân tích dữ liệu một cách kết hợp là cần thiết để đạt được hiệu quả tối ưu, đặc biệt là khi làm việc với khối lượng dữ liệu lớn.
2.2.2 Các vấn đề trong quá trình thực hiện đề tài
Luận văn thạc sĩ Công nghệ thông tin
Trong quá trình thực hiện đề tài, một trong những vướng mắc chính của bài toán học máy là chọn thuật toán phù hợp và huấn luyện trên tập dữ liệu nhất định Có hai tình huống xấu nhất có thể xảy ra: một là thuật toán không hiệu quả, hai là dữ liệu không đủ chất lượng Ngay cả khi dữ liệu đã được làm sạch, việc bị nhiễu bởi các yếu tố bên ngoài hoặc ảnh hưởng bởi các thuộc tính đặc thù từ thực tế là điều khó tránh khỏi.
Theo nghiên cứu, các vấn đề thường gặp trong quá trình đào tạo mô hình bao gồm thiếu dữ liệu, dữ liệu không đại diện, chất lượng dữ liệu kém, và hiện tượng overfitting hoặc underfitting Để cải thiện hiệu quả mô hình, cần xây dựng và bổ sung dữ liệu, loại bỏ thuộc tính dư thừa, và tách tập dữ liệu để tránh overfitting Việc lựa chọn tập dữ liệu phù hợp và giải thuật tối ưu cũng rất quan trọng Sử dụng kết hợp giữa cơ chế xử lý của Spark, giải thuật Rừng Ngẫu Nhiên và giải thuật Phân Cụm sẽ giúp nâng cao hiệu quả mô hình Các giải thuật chi tiết và thuộc tính dữ liệu sau khi xử lý sẽ được trình bày trong các phần tiếp theo.
Luận văn thạc sĩ Công nghệ thông tin
Spark và giải thuật rừng ngẫu nhiên song song (Parallel Random Forest - PRF)
Thuật toán rừng ngẫu nhiên
Thuật toán rừng ngẫu nhiên là một phương pháp phân loại dựa trên mô hình cây quyết định, tạo ra k tập con dữ liệu huấn luyện từ tập dữ liệu gốc thông qua kỹ thuật lấy mẫu bootstrap Sau đó, k cây quyết định được xây dựng từ các tập con này, hình thành nên một rừng ngẫu nhiên Mỗi mẫu trong tập dữ liệu thử nghiệm được dự đoán bởi tất cả các cây quyết định, và kết quả phân loại cuối cùng được xác định dựa trên đánh giá của các cây này.
Luận văn thạc sĩ Công nghệ thông tin
Hình 3.2 Quá trình xây dựng thuật toán rừng ngẫu nhiên RandomForest
Tập dữ liệu huấn luyện ban đầu được biểu diễn là S = {f(x_i; y_j); i=1,2,…,N; j=1,2,…,M}, trong đó x là mẫu đại diện và y là thuộc tính đặc trưng của S Tập dữ liệu này bao gồm N mẫu và M biến đặc trưng cho mỗi mẫu Quy trình xây dựng thuật toán RF được mô tả chi tiết trong hình minh họa.
Các bước xây dựng thuật toán rừng ngẫu nhiên như sau:
Bước 1 : lấy k mẫu con huấn luyện
Trong bước này, k tập con huấn luyện được tạo ra từ tập dữ liệu huấn luyện ban đầu S thông qua phương pháp lấy mẫu bootstrap Cụ thể, N bản ghi được chọn từ S bằng cách lấy mẫu ngẫu nhiên với thay thế Sau khi hoàn thành bước này, k tập con huấn luyện sẽ hình thành một tập hợp các tập con huấn luyện S Train.
Tập S Train bao gồm các bản ghi S1, S2, …, Sk Trong mỗi giai đoạn lấy mẫu, những bản ghi không được chọn sẽ tạo thành tập dữ liệu Out-Of-Bag (OOB) Như vậy, từ k giai đoạn lấy mẫu, chúng ta xây dựng được k tập OOB, tạo thành tập hợp S OOB.
Luận văn thạc sĩ Công nghệ thông tin
Khi k rất nhỏ so với N, tập hợp S i giao với OOB i là rỗng và tập hợp S i hợp với OOB i bằng S Để đánh giá độ chính xác phân loại của từng cây, các bộ OOB được sử dụng làm tập kiểm tra sau quá trình huấn luyện.
Bước 2: Xây dựng mô hình cây quyết định
Trong mô hình Random Forest (RF), mỗi cây quyết định được xây dựng từ thuật toán C4.5 dựa trên các tập huấn luyện nhỏ Trong quá trình phát triển cây, m thuộc tính sẽ được chọn ngẫu nhiên từ tập M Khi phân tách mỗi nút, thuật toán sẽ xem xét tất cả các phép thử có thể để chia tách dữ liệu và chọn phép thử có Gain Ratio tốt nhất Gain Ratio đánh giá hiệu quả của thuộc tính trong việc tách dữ liệu để phát triển cây quyết định Quá trình này tiếp tục cho đến khi tạo ra các nút lá Cuối cùng, k cây quyết định được hình thành từ k tập con huấn luyện theo quy trình tương tự.
Bước 3: thu thập k cây vào trong một mô hình RF
Toàn bộ k cây huấn luyện được thu thập vào một mô hình RF:
Trong bài viết này, chúng ta tìm hiểu về cây quyết định trong thuật toán Random Forest (RF), trong đó h j (x, Θ j ) đại diện cho số cây quyết định, X là các vectơ thuộc tính đầu vào của tập dữ liệu huấn luyện, và Θ j là vectơ ngẫu nhiên độc lập Độ phức tạp của thuật toán RF ban đầu được xác định là O(kMNlogN), với k là số lượng cây, M là số thuộc tính, N là số mẫu, và logN là độ sâu trung bình của cây Thuật toán cải tiến PRF áp dụng phương pháp giảm chiều dữ liệu với độ phức tạp O(MN), cho phép xử lý song song và phân chia task trên Spark diễn ra đồng thời trên các node, giúp tối ưu hóa quá trình phân chia và xử lý.
Luận văn thạc sĩ Công nghệ thông tin
36 entropy(), gain(), và gainratio() với mỗi không gian thuộc tính con đặc trưng
Theo đó, việc tính toán giảm chiều dữ liệu, sẽ giảm từ M xuống còn m (m 2 người, có dùng di động, Internet đơn lẻ, thường xuyên gọi điện cho nhau, có sử dụng nhiều data có bán them được gói FMC hay không?
17 Địa chỉ thiết bị có nhiều máy truy cập cùng lúc và là quán cafe/nhà hàng/ văn phòng Có
18 Hộ gia đình đã có TH bán thêm gói FMC
Khách hàng truy cập vào URL liên quan đến dịch vụ
Internet của Viettel và đối thủ Có
Khách hàng liên hệ/ được liên hệ từ hotline dịch vụ
FTTH của Viettel và đối thủ Có
21 Khách hàng sử dụng data và mất phí ngoài gói cao Có
Khách hàng sử dụng dịch vụ của đối thủ đến hạn đóng cước Chưa có
Khách hàng đang sử dụng dịch vụ ADSL có khả năng phát triển thành thuê bao FTTH
Bảng 4-1: Danh mục thuộc tính đánh giá xây dựng C360
Việc xây dựng bộ cơ sở dữ liệu với 160 features thuộc tính và có hơn
Bài viết này đề cập đến 400 tính năng chi tiết, giúp xác định rõ đối tượng khách hàng và nâng cao hiệu quả cho các mô hình học máy Việc củng cố kết quả đầu ra là rất quan trọng, đặc biệt khi có khoảng 15 triệu bản ghi dữ liệu đầu vào Do đó, việc sử dụng nền tảng cơ sở dữ liệu C360 để khai thác và ứng dụng dữ liệu là điều thiết yếu.
Luận văn thạc sĩ Công nghệ thông tin
Trong quá trình ứng dụng phân tích dữ liệu vào thực tế, các chi tiết về dữ liệu sử dụng và quy trình huấn luyện mô hình sẽ được trình bày cụ thể trong Chương 3.
Mô hình ứng dụng
Hình 4.1 Quá trình kết hợp K-Means và RandomForest
Quá trình huấn luyện và kiểm định mô hình được thực hiện qua các bước sau: đầu tiên, một tập dữ liệu lớn được phân nhóm bằng phương pháp K-Means Các cụm dữ liệu này sau đó được sử dụng làm đầu vào cho mô hình PRF Mô hình PRF sẽ chọn ngẫu nhiên các tập thuộc tính con để huấn luyện và đánh trọng số, tạo ra n tập mẫu con tương ứng với k cụm dữ liệu Tiếp theo, trong quá trình kiểm định, PRF xây dựng các cây quyết định con và tạo ra các phân lớp theo thứ tự trọng số của các tập thuộc tính con, đồng thời đánh giá tỷ lệ nhãn giữa các tập con khác nhau.
Luận văn thạc sĩ Công nghệ thông tin
Trong quá trình phân loại, 61 cây quyết định được sử dụng để tạo ra các giá trị ngẫu nhiên cho mỗi cây Đến bước cuối cùng, dữ liệu sẽ được phân lớp tốt nhất dựa trên thuộc tính chiếm ưu thế.
Việc lựa chọn giải thuật PRF và Kmeans giúp tối ưu hóa tài nguyên trên nền tảng SparkML, cải thiện thời gian xử lý và giảm chi phí khi làm việc với dữ liệu lớn phân tán Bộ dữ liệu đầu vào bao gồm hơn 15 triệu bản ghi và 684 thuộc tính tương ứng với một ID định danh, không bao gồm các thuộc tính thông tin cơ bản của khách hàng.
Các thuộc tính cơ bản được trình bày trong bảng dưới đây, trong đó mỗi thuộc tính hành vi sẽ được xử lý để tạo ra các thuộc tính dạng chuỗi thời gian theo tháng, bao gồm tháng n-1, tháng n-2, tháng n-3 và ba tháng gần nhất.
Theo delta tăng giảm: delta tháng n-1 = (tháng n-1) - (tháng n-2); delta tháng n-2 = (tháng n-2) - (tháng n-3); delta tháng n-3 = (tháng n-3) - (tháng n-4)
Quý_n = tổng số lần/giao dịch trong 3 tháng gần nhất = (tháng n-1 + tháng n-2+tháng n-3)
Quý_n_1 = tổng số lần/giao dịch trong 3 tháng gần nhất = (tháng n-4 + tháng n-5+tháng n-6)
Quý_n_2 = tổng số lần/giao dịch trong 3 tháng gần nhất = (tháng n-7 + tháng n-8+tháng n-9)
Tính độ lệch chuẩn STD theo chu kỳ từng tháng và quý
Nhóm trường Tên trường Chú thích Kiểu dữ liệu Định danh khách hàng
Mã thuê bao sub_id Numeric
Mã khách hàng cust_id Nominal
Mã account gline account_gline Numeric
Mã account ftth account_ftth Numeric
Tên khách hàng name Nominal
Tuổi khách hàng customer_age Nominal
Luận văn thạc sĩ Công nghệ thông tin
Ngày đăng kí sử dụng sta_datetime Nominal
Ngày đầu tiên kết nối first_connect Nominal
Ngày kết thúc end_datetime Nominal
Tháng cắt kết nối end_month Nominal
Tháng bị chặn 1 chiều block_month Nominal Địa điểm lắp đặt register_province Nominal
Loại sản phẩm sử dụng product_code Nominal
Dịch vụ sử dụng telecom_service_name Nominal
Tuổi thuê bao sub_age Nominal
Số tháng sử dụng num_usage_month Nominal
Tình trạng hợp đồng contract_status Nominal
Loại thuê bao sub_type Nominal
Hành vi sử dụng dịch vụ cơ bản bao gồm số ngày phát sinh lưu lượng trong tháng (usage_day_n) và số ngày không phát sinh lưu lượng (non_usage_day_n), với số ngày không phát sinh lưu lượng lớn nhất được ghi nhận Ngoài ra, có số ngày liên tục không phát sinh lưu lượng trong tháng lớn nhất Thông tin về số lần đóng cước trước (no_prepaid_payment) và trung bình số tháng đóng cước trước (avg_amt_prepaid_payment) cũng rất quan trọng Số tháng đóng cước trước gần nhất (no_month_last_prepaid_payment) cùng với số tiền đóng cước trước gần nhất (amt_last_prepaid_payment) giúp đánh giá hành vi tài chính của người dùng Cuối cùng, số tháng tiền đóng cước trước còn lại (reserve_prepaid_charge) và số tháng khuyến mại cho lần đóng cước trước gần nhất (no_month_prom_last_payment) cung cấp cái nhìn tổng quát về tình trạng tài khoản của khách hàng.
Trong quản lý dịch vụ khách hàng (CSKH), các chỉ số quan trọng bao gồm số ngày nợ cước đến khi bị chặn (reserve_days_to_block) và số ngày nợ cước đến khi cắt dịch vụ (no_days_to_churn) Ngoài ra, số lần phản ánh tới hệ thống CSKH trong tháng (no_report_cskh_n) và số lần gọi điện tới CSKH trong tháng (no_call_cskh_n) cũng cần được theo dõi Thêm vào đó, số lần gọi điện tới nhân viên phát triển khách hàng (no_staff_n) và nội dung phản ánh nhiều nhất (no_reason_n) sẽ cung cấp cái nhìn sâu sắc về nhu cầu và vấn đề của khách hàng.
Hành vi sử dụng hạ tầng bao gồm việc thay đổi địa chỉ lắp đặt, nâng cấp hạ tầng, và thay đổi gói sản phẩm FTTH và TH đang sử dụng Ngoài ra, người dùng cũng có thể sử dụng sản phẩm FMC trong hệ thống của Binominal.
Luận văn thạc sĩ Công nghệ thông tin
The article discusses key metrics related to service cancellation, including the churn order flag, which indicates a request to cancel a service, and the reason for cancellation identified by a numeric ID It also highlights the FMC product in use, the duration of customer usage exceeding 12 months, and the number of days the modem has been active within the month.
Hành vi đóng cước prepaid_last_datetime thể hiện tháng hết hạn đóng cước, trong khi prepaid_last_datetime_prom là tháng hết hạn đóng cước trước cộng với tháng được khuyến mại Các cờ binominal như flag_prepaid_1month, flag_prepaid_3month, flag_prepaid_6month và flag_prepaid_12month cho biết người dùng đã từng đóng cước trước đó theo chu kỳ 1 tháng, 3 tháng, 6 tháng và 12 tháng Ngoài ra, flag_sms_prepaid và flag_call_prepaid cho biết người dùng có nhận được tin nhắn và cuộc gọi thông báo hết cước dịch vụ hay không Cuối cùng, flag_nv_prepaid cho biết có nhân viên đến thu cước dịch vụ hay không.
Bảng 4-2: Danh mục thuộc tính được sử dụng
Mã thuê bao đóng vai trò là ID định danh cho từng bản ghi Mục tiêu là xác định nhóm khách hàng có nguy cơ rời bỏ mạng, từ đó đánh giá và đề xuất chính sách phù hợp cho từng phân khúc khách hàng.
4.2.1 Quá trình Phân cụm dữ liệu huấn luyện:
Toàn bộ quá trình thử nghiệm được tiến hành trên nền tảng Spark, sử dụng một cụm gồm 1 nút chính (Master) và 100 nút phụ (Slaves) Mỗi nút trong cụm được cấu hình đồng nhất để đảm bảo hiệu suất tối ưu trong quá trình xử lý dữ liệu.
Hệ điều hành sử dụng là Ubuntu 12.04.4, với mỗi nút được cấu hình với CPU Pentium (R) Dual-Core 3,20GHz và bộ nhớ RAM 8GB Tất cả các nút được kết nối qua mạng Gigabit tốc độ cao và được cấu hình với Hadoop 2.5.0 và Spark 2.0.2 Các thuật toán và giải thuật được phát triển trên nền tảng Scala 2.10.4, cùng với việc sử dụng Zeppelin để viết mã, tạo script và trích xuất thuộc tính, nhằm tăng cường tính linh hoạt trong xây dựng, sử dụng và tái sử dụng dữ liệu.
Luận văn thạc sĩ Công nghệ thông tin
64 a Phân nhóm/cụm khách hàng
Trong quá trình phân nhóm khách hàng bằng phương pháp KMeans, độ đo Davies-Bouldin được sử dụng để xác định số lượng cụm tối ưu Số cụm tối thiểu được đề xuất là 4, tương ứng với 4 phân khúc khách hàng cơ bản cần đánh giá E đại diện cho số cụm tối ưu trong nghiên cứu này.
Các thuộc tính sẽ được lựa chọn dựa trên kinh nghiệm trong lần phân cụm đầu tiên Sau khi xác định được các thuộc tính ban đầu, chúng ta sẽ sử dụng thuộc tính được xếp hạng từ các cụm của mô hình rừng ngẫu nhiên để tiến hành đánh giá.
Theo đánh giá sử dụng độ đo Davies – Bouldin (DB), chúng tôi đã thực hiện thử nghiệm với số cụm khác nhau và ghi nhận kết quả trong bảng dưới đây.
Đánh giá hiệu suất
Nhiều thí nghiệm đã được thực hiện để đánh giá hiệu suất của PRF, so sánh với các thuật toán RF và Spark-MLRF Các tiêu chí đánh giá bao gồm thời gian thực hiện, tốc độ xử lý, khối lượng dữ liệu và chi phí đường truyền trong quá trình huấn luyện dữ liệu.
4.3.1 Đánh giá thời gian xử lý với nhóm dữ liệu
Khi kích thước dữ liệu nhỏ dưới 1,0GB, thời gian thực thi của PRF và Spark-MLRF cao hơn RF do thời gian cố định để gửi thuật toán đến cụm Spark Tuy nhiên, khi kích thước dữ liệu vượt 1,0GB, PRF và Spark-MLRF cho thấy thời gian thực thi trung bình thấp hơn RF Cụ thể, khi dữ liệu tăng từ 1,0 lên 500,0GB, thời gian thực thi của RF tăng từ 19,9 lên 517,8 giây, trong khi Spark-MLRF chỉ tăng từ 24,8 lên 186,2 giây và PRF từ 23,5 đến 101,3 giây Điều này cho thấy PRF có tốc độ xử lý nhanh hơn RF và Spark-MLRF, đặc biệt là khi kích thước dữ liệu lớn, giúp giảm chi phí huấn luyện và thời gian Nhờ vào tối ưu hóa xử lý đồng thời và kết hợp song song, PRF đạt hiệu suất vượt trội so với Spark-MLRF và RF.
4.3.2 Đánh giá thời gian xử lý với từng cụm
Hiệu suất của PRF trên nền tảng Spark được đánh giá qua việc tăng dần số lượng nút phụ từ 10 lên 100 Thời gian xử lý PRF thay đổi tùy thuộc vào kích thước và nội dung dữ liệu huấn luyện Khi số lượng nút phụ tăng từ 10 lên 50, thời gian thực thi trung bình của PRF giảm đáng kể, cụ thể là từ 405,4 xuống 182,6 giây ở cụm 7 và từ 174,8 xuống 78,3 giây ở cụm 6 Sự cải thiện này chứng tỏ hiệu quả của việc mở rộng quy mô nút phụ trong việc tối ưu hóa thời gian xử lý PRF.
Luận văn thạc sĩ Công nghệ thông tin
Khi số lượng nút phụ (slave nodes) tăng từ 50 lên 100, sự giảm thời gian thực thi trung bình của PRF không rõ ràng như mong đợi Cụ thể, trong trường hợp cụm 3, thời gian thực thi giảm từ 182,4 xuống 76,0 giây, trong khi ở cụm 2, thời gian giảm từ 78,3 xuống 33,0 giây Nguyên nhân là do khi số lượng Spark Slaves vượt quá số lượng thuộc tính của tập dữ liệu huấn luyện, mỗi tập hợp con tính năng được phân bổ cho nhiều nút phụ, dẫn đến việc tăng cường xử lý dữ liệu và trao đổi thông tin giữa các nút, từ đó làm tăng thời gian thực thi PRF.
Đánh giá hiệu quả thực tế
Việc sử dụng kết quả triển khai ứng dụng vào thực tế là điều cần thiết, thay vì chỉ đo dựa trên các chỉ số precision, hay recall
Hình 4.7 Phương pháp đo lường kết quả trong thực tế
Theo [21], thực hiện chia các tập thử nghiệm ra làm 4 nhóm TB từ tập sau khi huấn luyện, Tiếp tục phân chia thành các nhóm như hình 3.7:
Chọn ngẫu nhiên; nhận được tin nhắn truyền thông Đánh giá tỷ lệ phản hồi truyền thông không có mô hình
Chọn bởi mô hình; nhận được tin nhắn truyền thông Đánh giá tỷ lệ phản hồi truyền thông qua mô hình
Chọn ngẫu nhiên; không nhận được tin nhắn truyền thông
Sử dụng đánh giá tỷ lệ phản hồi tự nhiên.
Chọn bởi mô hình; không nhận được tin nhắn truyền thông
Sử dụng đánh giá tỷ lệ phản hồi tự nhiên của tập được chọn bởi mô hình.
Luận văn thạc sĩ Công nghệ thông tin
Lấy ra hai tập Control Group và Hold Out để triển khai và theo dõi tỷ lệ tự nhiên, nhằm so sánh hiệu quả giữa việc áp dụng mô hình vào triển khai và các chỉ số thực tế.
• Tập CG (Control Group): Tập lấy ngẫu nhiên số lượng 10% các cụm triển khai để thử nghiệm
Tập HO (hold out) là phương pháp lấy ra một khối lượng ngẫu nhiên từ các cụm triển khai, trong đó 10% mẫu được chọn để đánh giá hiệu quả của chương trình triển khai so với tỷ lệ tự nhiên.
Với 2 tập Target và tập Model hold out: là tập tối ưu nhất của cụm – sử dụng 3 nhóm dữ liệu đánh giá tiềm năng là cụm 3, cụm 6, cụm 7 có chỉ số ROC tốt nhất để triển khai sau khi có phân tích và đánh giá, lấy theo tỷ lệ phản hồi (TakeUpRate) cắt ngưỡng theo lift charge – hình 24; cắt ngưỡng triển khai là 28%, tương đương với 896 nghìn, không bao gồm nhóm đã cắt bỏ riêng:
• Tập TG (target): sử dụng top 90% của tập 896 nghìn để đánh giá hiệu quả mô hình trong thực tế
• Tập MHO (model hold out): sử dụng top 10% của tập 896 nghìn để tách riêng theo dõi tỷ lệ tự nhiên
Hình 4.8 So sánh tỷ lệ triển khai thực tế TG và MHO
Luận văn thạc sĩ Công nghệ thông tin
Hình 4.9 So sánh tỷ lệ triển khai thực tế MHO và HO
So sánh MHO và TG: Đánh giá hiệu quả của chương trình truyền thông với nhóm có điểm cao được chọn bởi mô hình
So sánh Control và TG: Đánh giá hiệu quả mô hình giữa việc thực hiện truyền thông và không truyền thông
Tỷ lệ triển khai thực tế đã chứng minh hiệu quả của mô hình kết hợp, như thể hiện trong Hình 4.8 So sánh giữa tỷ lệ triển khai thực tế của TG và MHO được trình bày trong Hình 4.9.
So sánh tỷ lệ triển khai thực tế giữa MHO và HO cho thấy tỷ lệ triển khai của MHO cao hơn 1.7 lần so với nhóm không triển khai Việc cung cấp thông tin về các thuộc tính quan trọng đã hỗ trợ và đánh giá kết quả mô hình ứng dụng, giúp nâng cao hiệu quả triển khai trong thực tế.
Luận văn thạc sĩ Công nghệ thông tin
KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU
Luận văn đề xuất mô hình kết hợp thuật toán phân cụm và rừng ngẫu nhiên song song nhằm giải quyết các vấn đề trong khai phá dữ liệu lớn và ứng dụng học máy trong sản xuất kinh doanh Mô hình thực hiện qua việc phân chia dữ liệu thành các cụm, sau đó áp dụng mô hình PRF, kết hợp tối ưu hóa song song và xử lý đồng thời trên nền tảng Apache Spark Việc tối ưu hóa này giúp tái sử dụng tập dữ liệu huấn luyện và giảm đáng kể khối lượng dữ liệu xử lý ở mỗi bước Kết quả cho thấy chi phí truyền dữ liệu giảm hiệu quả và hiệu suất thuật toán được cải thiện rõ rệt, chứng minh tính ưu việt của mô hình kết hợp giữa xử lý phân cụm và phân nhóm.
PRF so với các thuật toán khác về độ chính xác phân loại, hiệu suất và khả năng mở rộng
1) Tính sáng tạo và khoa học:
Sử dụng mô hình và thuật toán học máy để giải quyết các vấn đề thực tiễn, kết hợp giữa phân cụm và phân lớp dữ liệu nhằm xác định nhóm dữ liệu có đặc trưng tương đồng Đánh giá dữ liệu dựa trên thuộc tính sau khi kết hợp các mô hình học máy sẽ nâng cao hiệu quả khi triển khai ứng dụng thực tế.
Sau khi hoàn tất huấn luyện các mô hình, chúng tôi đã phân loại được nhóm dữ liệu tối ưu để ứng dụng vào quá trình thử nghiệm Kết quả mô hình đã được đánh giá và sẽ được triển khai lặp lại qua mỗi chu kỳ nhằm nâng cao hiệu quả, đồng thời loại bỏ các thuộc tính dữ liệu dư thừa không cần thiết Chúng tôi sẽ bổ sung dữ liệu và phân cụm khách hàng một cách chính xác hơn, từ đó xác định nhóm khách hàng tiềm năng và phát triển các nhóm dữ liệu khả thi để triển khai.
Luận văn thạc sĩ Công nghệ thông tin
Mô hình triển khai đã cho thấy kết quả rõ rệt, đặc biệt trong việc xác định nhóm dữ liệu tiềm năng và phân tích thuộc tính của nhóm dữ liệu ít tiềm năng Điều này không chỉ bổ sung vào quá trình đánh giá mà còn cung cấp dữ liệu cho nhóm kinh doanh để phân tích sâu hơn Việc bổ sung thuộc tính dữ liệu mới giúp tối ưu hóa kết quả cho các chu kỳ triển khai tiếp theo Tính hiệu quả của mô hình được đánh giá qua tỷ lệ phản hồi của các nhóm: Target, Model Hold Out, Control và Hold Out, như đã trình bày trong chương 3, mục 3.4.
Việc hoàn thiện giải thuật nhằm nâng cao hiệu quả triển khai thực tế là một quá trình liên tục, bao gồm phát triển, xây dựng, tối ưu và đánh giá kết quả Quá trình này cho phép tối ưu hóa kết quả qua từng chu kỳ, dựa trên các nhóm dữ liệu theo tỷ lệ triển khai thực tế tốt và chưa tốt, từ đó đưa ra phương án tối ưu cho các lần triển khai tiếp theo.
Mô hình ứng dụng hiện tại chưa tối ưu do vẫn còn phụ thuộc vào ý kiến chủ quan của người có kinh nghiệm và chưa bao quát toàn bộ nhóm dữ liệu, cần có sự tham gia của nhân sự Cần cải thiện hiệu năng và tối ưu hóa kết quả, đặc biệt là trong việc áp dụng các giải thuật như KMeans và RandomForest, vì kết quả phân nhóm và xây dựng thuộc tính tối ưu vẫn chưa đạt yêu cầu Đề xuất một giải thuật mới để lựa chọn thuộc tính có trọng số thay vì dựa vào số đông, nhất là khi dữ liệu không cân bằng Hơn nữa, việc chưa tái sử dụng dữ liệu từ các cây quyết định và phải huấn luyện lại cho mỗi cụm làm tăng thời gian triển khai thực tế.
Một nhược điểm là chưa áp dụng được các mô hình học sâu để tối ưu hóa kết quả triển khai Hiệu suất của mô hình ứng dụng được đánh giá dựa trên thời gian phản hồi, khả năng xử lý dữ liệu lớn và liên tục, cũng như khả năng tối ưu hóa kết quả trong thực tế.
Luận văn thạc sĩ Công nghệ thông tin
Nghiên cứu tương lai sẽ tập trung vào thuật toán rừng ngẫu nhiên song song gia tăng cho luồng dữ liệu trong môi trường đám mây, đồng thời cải thiện cơ chế phân bổ dữ liệu và lập lịch tác vụ trong môi trường phân tán Quá trình huấn luyện và gán nhãn sẽ được tự động hóa để nâng cao hiệu suất thực tế Việc đánh giá và bổ sung các phương án lựa chọn có trọng số cũng như tối ưu hóa việc sử dụng lại dữ liệu qua cơ chế cache trong quá trình huấn luyện sẽ giúp tối ưu thời gian xử lý Hơn nữa, việc ứng dụng học sâu và triển khai các mô hình học sâu sẽ được đánh giá nhằm tối đa hóa hiệu năng và kết quả, đồng thời cân bằng giữa chi phí thời gian và hiệu suất trong thực tiễn.
Luận văn thạc sĩ Công nghệ thông tin