hỗ trợ quyết định kinh doanh dịch vụ viễn thông theo xu hướng khách hàng ở tây ninh

Ý nghĩa khoa học và thăc tißn Ý nghĩa khoa học cÿa luận văn: tập trung phân tích các số liệu thu thập được tại VNPT Tây Ninh, để xác định māc độ tương quan cÿa các yếu tố ảnh hưáng đến g

T ổ ng quan v ề h ọ c máy

Khái ni ệ m

Học máy là một lĩnh vực của trí tuệ nhân tạo, tập trung vào việc nghiên cứu và phát triển các kỹ thuật cho phép hệ thống máy tính tự động học hỏi từ dữ liệu cung cấp để giải quyết các vấn đề cụ thể.

Học máy là một quá trình tự động cÿa các quá trình học và việc học thì tương đương với quá trình xây dựng các tập luật trên cơ sá quan sát các trạng thái cÿa cơ sá dữ liệu và những sựthay đổi cÿa chúng Học máy là lĩnh vực rộng lớn và nó không chỉ bao gồm việc học từ cỏc mẫu, mà cũn là học tăng cưòng Cỏc thuật toỏn học mỏy dựa trên tập dữ liệu mẫu và các thông tin liên quan đểlàm đầu vào và trả v kết quả đầu ra là một mô hình diễn tả những kết quả học được

Nhìn chung, học máy sẽ sử dụng một tập hữu hạn các dữ liệu được gọi là tập huấn luyện Tập này sẽ chāa các mẫu dữ liệu mà nó được chuẩn hóa bằng mã theo một cách nào đó để máy có thể đọc và hiểu được Tuy nhiên có một sự thật là tập huấn luyện bao giò cũng cú hữu hạn cỏc phần tử, vỡ vậy khụng phải toàn bộ dữ liệu sẽđược học một cách chính xác.

Phân lo ạ i các k ỹ thu ậ t h ọ c máy

Các thuật toán học máy được chia làm 3 loại chính: học có giám sát, học không giám sát và học bán giám sát

Học có giám sát là phương pháp học từ những dữ liệu mà trong quá trình học các kỹ thuật học máy sẽ giúp hệ thống xây dựng cách xác định những lớp dữ liệu Hệ nthống bắt buộc phải tỡm ra một sự mụ tả cho từng lớp dữ liệu Sau đú ngưòi ta cú thể sử dụng các luật phân loại được hình thành trong quá trình học và phân lớp nó để có thể sử dụng cho việc dự báo các lớp dữ liệu sau này

Học không giám sát là hệ thống khai thác dữ liệu āng dụng với những dữ liệu không có lớp được định nghĩa cụ thể từtrước, mà để máy học phải tự hệ thống quan sát các mẫu và nhận ra mẫu Hệ thống này sẽ dẫn đến một tập lớp, mỗi lớp có một tập mẫu riêng được khám phá từ trong tập dữ liệu Học không giám sát hay còn gọi là học từ quan sát và khám phá

Học bán giám sát là phương pháp học máy kết hợp giữa học giám sát và học không giám sát Nó sử dụng cả dữ liệu đã dán nhãn và chưa dán nhãn trong quá trình huấn luyện Điều này thường bao gồm một lượng nhỏ dữ liệu có dán nhãn ban đầu và một lượng lớn dữ liệu chưa dán nhãn.

Học bán giám sát là quá trình học đāng giữa học không giám sát (không có bất kì dữ liệu đ愃̀ được nhãn nào) và có giám sát (toàn bộ dữ liệu đu được gán nhãn)

Học bán giám sát kết hợp các ưu điểm của học có giám sát và học không giám sát, khắc phục được những hạn chế thường gặp của cả hai phương pháp này.

Bài toán phân l á p d ā li á u

Khái ni ệ m v ề phân l ớ p d ữ li ệ u và bài toán phân l ớ p d ữ li ệ u

Khai phá dā liáu: Khai phá dữ liệu nói chung có nghĩa là khai thác hoặc đào sâu vào dữ liệu á các dạng khác nhau để có được các mẫu và để có được kiến thāc v mẫu đó Trong quá trình khai thác dữ liệu, các tập dữ liệu lớn trước tiên được sắp xếp, sau đó các mẫu được xác định và các mối quan hệ được thiết lập để thực hiện phân tích dữ liệu và giải quyết vấn đ [28]

Phân láp dā liáu: Đây là một nhiệm vụ phân tích dữ liệu, tāc là quá trình tìm kiếm một mô hình mô tả và phân biệt các lớp và khái niệm dữ liệu Phân loại là vấn đ xác định một tập hợp các danh mục (quần thể con), một dữ liệu mới thuộc v loại nào, trên cơ sá một tập dữ liệu huấn luyện chāa các dữ liệu và các lớp cÿa chúng đ愃̀ được biết đến [28]

Phân lớp dữ liệu có thể chia làm các bước sau:

Trong giai đoạn đào tạo của học máy, một mô hình phân loại được xây dựng bằng cách sử dụng các thuật toán khác nhau để học từ một tập dữ liệu huấn luyện Mục đích của việc đào tạo là để mô hình có khả năng dự đoán kết quả chính xác Để đánh giá hiệu suất của mô hình phân loại, dữ liệu kiểm tra được sử dụng để ước tính độ chính xác và tin cậy của các dự đoán.

B°ác phân lo¿i: Mô hình được sử dụng để dự đoán và thử nghiệm mô hình đ愃̀ xây dựng trên dữ liệu thử nghiệm và sau đó ước tính độ chính xác cÿa các quy tắc phân loại Dữ liệu kiểm tra được sử dụng đểước tính độ chính xác cÿa quy tắc phân loại

Bài toán phân lớp dữ liệu có thể được phát biểu như sau: Đầu vào là tập dữ liệu D = {(xi, yi) | i = 1, 2, …, n}, trong đó xi = (xi1, xi2, , xik)  R k là dữ liệu gồm k thuộc tính tương ứng với tập thuộc tính A = {A1, A2, …, Ak} và yi  C = {c1, c2, …, cm} là tập nhãn của các lớp dữ liệu ban đầu Đầu ra của bài toán phân lớp dữ liệu là một mô hình phân lớp F: R k → C, tương ứng mỗi phần tử x  R k là một nhãn lớp F(x)  C, sao cho đối với tập mẫu đầu vào D là phù hợp nhất.

||F(xi) – yi||  0, với mọi (xi, yi)  D và || || là một độ đo nào đó.

Các bướ c gi ả i quy ế t bài toán phân l ớ p d ữ li ệ u

Để giải quyết bài toán phân lớp dữ liệu, chúng ta tiến hành hai giai đoạn:- Giai đoạn đầu tiên, chúng ta xây dựng mô hình phân lớp, hay còn gọi là giai đoạn huấn luyện.- Giai đoạn thứ hai, chúng ta kiểm tra và đánh giá mô hình phân lớp, được gọi là giai đoạn kiểm tra.

Quá trình này nhằm mục đích xây dựng ra một mô hình phân lớp dữ liệu dựa trên việc mô tả tập các lớp dữ liệu hoặc các khái niệmđ愃̀được xác định trước Trong giai đoạn này, thuật toán phân lớp được sử dụng để xây dựng mô hình phân lớp bằng cách phân tích hay

Tiêu đề	Hỗ trợ quyết định kinh doanh dịch vụ viễn thông theo xu hướng khách hàng ở Tây Ninh
Tác giả	Lờ Đāc Hũa Bỡnh
Người hướng dẫn	TS. Tõn H¿nh
Trường học	Học Viện Cụng Nghệ Bưu Chớnh Viễn Thụng
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn tốt nghiệp
Năm xuất bản	2022
Thành phố	Tp. HCM

Định dạng
Số trang	61
Dung lượng	602,08 KB