1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân lớp nguyên nhân sự cố thuê bao

30 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân lớp nguyên nhân sự cố thuê bao
Tác giả Nguyễn Đắc Tiến
Người hướng dẫn TS. Phan Thị Hà
Trường học Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành Hệ thống Thông tin
Thể loại Luận văn Thạc sĩ
Năm xuất bản 2017
Thành phố Hà Nội
Định dạng
Số trang 30
Dung lượng 6,58 MB

Nội dung

Nội dung luận văn được chia làm 3 chương, cụ thể :Chương 1 : Tông quan về bài toán phân lớp nguyên nhân sự có thuê bao, chương giớithiệu chỉ tiết về bài toán trong thực tế, phương pháp l

Trang 1

NGUYEN DAC TIEN

PHAN LOP NGUYEN NHAN SU CO THUE BAO

Chuyên ngành : HE THONG THONG TIN

Mã số : 60.48.01.04

TOM TAT LUẬN VĂN THAC SĨ

HÀ NỘI - 2017

Trang 2

Luận văn được hoàn thành tại:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIÊN THÔNG

Người hướng dẫn khoa học: TS PHAN THỊ HÀ

Phản biện 1: TS Nguyễn Duy Phương

Phản biện 2: PGS TS Nguyễn Hà Nam

Công nghệ Bưu chính Viễn thông

Vào lúc: 08 giờ 30 ngày 05 tháng 08 năm 2017

Có thê tìm hiệu luận van tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

-1-LỜI MỞ ĐẦU

Trong thời gian qua, lĩnh vực dịch vụ viễn thông, công nghệ thông tin của Việt Nam

đã đạt được những thành tựu nồi bật với tốc độ tăng trưởng vượt trội so với các ngành dịch

vụ khác Thị trường viễn thông và công nghệ thông tin hiện nay bao gồm nhiều loại hìnhdịch vụ khác nhau Ngành viễn thông và công nghệ thông tin của Việt Nam chỉ thật sự bắtđầu bước vào cạnh tranh từ năm 2003 sau khi một số nhà khai thác mới được cấp phép cungcấp dịch vụ Cùng với đó, sự cạnh tranh giữa các nhà cung cấp dịch vụ cũng trở nên sôiđộng và quyết liệt hơn, đồng thời cũng tạo ra các hoạt động cạnh tranh gay gắt, thiếu lànhmạnh, chèn ép cạnh tranh trong hoạt động cung cấp dịch vụ, thậm chí vi phạm luật cạnhtranh của một số doanh nghiệp trong lĩnh vực này

Trong giai đoạn đổi mới, VNPT Bắc Giang luôn là đơn vị tích cực trong ngành triểnkhai và đưa vào sử dụng công nghệ viễn thông hiện đại với nhiều loại hình dịch vụ mdi,théhiện những thành tựu mới nhất trong công nghệ Viễn thông như truyền hình tương tác thế

hệ mới MyTV, dịch vụ Internet cáp quang fiberVNN, các dich vụ truyền dữ liệu, gia tăng

trên điện thoại di động

Với mục tiêu đưa VNPT trở thành doanh nghiệp có chất lượng dịch vụ cao nhất,VNPT Bắc Giang luôn xác định tầm quan trọng của công tác phân lớp nguyên nhân sự cốthuê bao nhằm đảm bảo chất lượng dịch vụ từ đó đưa tới sự hài lòng của khách hàng Vớimục tiêu phân lớp nguyên nhân hu hỏng sự có thuê bao nhằm đưa ra các biện pháp khắcphục, đảm bảo chất lượng dịch vụ, tạo nên uy tín về thương hiệu VNPT trên địa bàn tỉnh

Bắc Giang

Có một số phương pháp phân lớp được đã được sử dụng như phân lớp theo từ khóa,tuy nhiên kết quả đạt được còn hạn chế do thiếu các cơ sở lý thuyết vững chắc và đa sốthường chỉ được sử dụng để giải quyết một trường hợp cụ thể

Trong quá trình triển khai, công nhân đường dây thuê bao thực hiện phân lớp thủcông nên dẫn tới tỷ lệ sai sót rất lớn Qua nghiên cứu, một số sai sót về phân lớp thủ công cócác nguyên nhân chủ yếu sau :

-_ Công nhân chưa nam vững về phân lớp thuê bao thủ công

- Cố tình phân lớp sai dé không bị giảm trừ điểm chất lượng

- Trach nhiệm trong công việc chưa cao.

Trang 4

-2-Luan văn với dé tai "Phân lớp nguyên nhân sự cô thuê bao" nham giải quyết bài toánphân lớp nguyên nhân sự cô một cách có hệ thống trên cơ sở lý thuyết vững chắc, đáp ứngyêu cầu quản lý, điều hành Luận văn cũng giải quyết được việc phát sinh lớp nguyên nhânmới do yêu cầu quản lý đặt ra

Nội dung luận văn được chia làm 3 chương, cụ thể :Chương 1 : Tông quan về bài toán phân lớp nguyên nhân sự có thuê bao, chương giớithiệu chỉ tiết về bài toán trong thực tế, phương pháp lưu trữ số liệu Chương này cũng giớithiệu các đặc diém cơ bản của dữ liệu cần phân lớp và cụ thé về van đề đang gặp phải trongviệc giải quyết bài toán hiện nay

Chương 2 : Nghiên cứu các phương pháp học máy có giám sát để ứng dụng vào bàitoán phân lớp nguyên nhân sự có thuê bao Đặc biệt sẽ đi sâu vào 2 thuật toán chính là SVM

(Support Vector Machine) và Naive Bayes.

Chương 3 :Trinh bày phan tiền xử ly dữ liệu, cu thé là xử lý các phản hồi từ côngnhân xử lý đường dây thuê bao trên CSDL Chương này cũng xây dựng dé liệu huấn luyện

và kiểm thử nhằm đánh giá, đưa ra kết luận về lựa chọn mô hình phân lớp có hiệu quả caonhất đề đưa vào thực tiễn

Trang 5

-3-CHUONG 1: TONG QUAN VE BAI TOAN PHAN LOP NGUYEN

NHAN SU CO THUE BAO

1.1 Giới thiệu bài toán

Tại VNPT Bắc Giang, việc triển khai hệ thống quản lý sự cố thuê bao đã được triểnkhai với mục tiêu điều hành công tác tiếp nhận, xử lý sự có thuê bao Bên cạnh đó, hệ thốngcòn giúp cho các cấp quản lý theo dõi, thống kê được những biến động về thuê bao có sự có,

từ đó đưa ra các biện pháp nâng cao chất lượng mạng lưới, chất lượng phục vụ khách hàng

Trong quy trình xử lý sự cố thuê bao, sau khi tiếp nhận, xử lý, công nhân kỹ thuậtviễn thông cập nhật nguyên nhân sự cố thuê bao thực tế (Dạng Text), trên trườngnguyen nhan Đây là số liệu đóng một vai trò quan trọng nhằm phân lớp các nguyên nhândẫn tới sự cô với mục đích quản trị cho nhiều mục tiêu khác nhau

Với yêu cầu hiện tại, các nguyên nhân sự cố thuê bao được phân thành 7 lớp như sau :

Bang 1.1 Các lớp nguyên nhân sự cố thuê bao

Lớp Mô tả lớp

1 Nguyên nhân khách quan

2 Do dây thuê bao

3 Do mạng ngoại vi

4 Do tông đài, truyền dẫn, GPON, AON

5 Do thiết bị dau cudi

6 Do khách hàng

7 Nguyên nhân khác

Hiện tại, việc phân lớp nguyên nhân sự có thuê bao được tiễn hành thủ công dựa trêncác phản hồi từ công nhân viễn thông Tuy nhiên, qua nghiên cứu cho thấy tỷ lệ sai sót trongphân lớp thủ công khá cao, chiếm tới 56,48 %, như vậy chỉ có khoảng 43,52 % số liệu được

phân lớp đúng.

Một trong các nguyên nhân chính của việc phân lớp sai ké trên là :

- _ Công nhân chưa nam vững về phân lớp thuê bao

- Đơn vị cố tình phân lớp sai dé không bị giảm trừ điểm chất lượng

- Trach nhiệm trong công việc chưa cao.

Trang 6

-4-Do việc phân lớp thiếu chính xác, dan tới hiệu quả khai thác số liệu không cao, thậmchí trong một số trường hợp gây tôn thất cho đơn vị vì đầu tư khắc phục không đạt hiệu quảnhư mong muốn

Việc phân lớp chính xác sẽ giúp cho bộ phận quản lý đưa ra các quyết định khắcphục và giải quyết van đề một cách chính xác, đảm bảo hiệu quả cao, tránh tổn thất khôngđáng có trong công tác phòng ngừa các nguyên nhân gây nên sự có thuê bao

Như vậy, yêu cầu đặt ra cần có một công cụ hỗ trợ nhằm phân lớp chính xác hơn và

hoàn toàn không phụ thuộc vào chủ quan của công nhân đường dây thuê bao.

Ngoài ra, nó còn giải quyết thêm các yêu cầu trong tương lai về mặt quản lý là : Cóthể phân lớp nguyên nhân mới dựa trên các số liệu đã có nhằm đáp ứng yêu cầu quản lý Ví

dụ, có thé phân lớp nguyên nhân sự có thiết bị đầu cuối là do mat cấu hình hay chỉ hỏngnguồn điện, adaptor

Dé phân lớp bằng các công cụ học máy tự động, trường số liệu phản hồi của côngnhân viễn thông sẽ được xử lý chuẩn hóa về mặt ngữ nghĩa, tách từ, loại bỏ từ dừng (Stopwords) sau đó Vector hóa, biểu diễn trong không gian đặc trưng và thực hiện quá trình họcmáy (Training) bằng SVM hoặc Naive Bayes Quá trình nay sẽ được trình bày chỉ tiết trong

Chương 3 của luận văn.

1.2 Phương pháp lưu trữ dữ liệu sự cỗ thuê bao

Số liệu sự cố thuê bao được lưu trữ bằng Database SQL Server với cấu trúc cụ thể

như sau :

Bảng 1.2 Mô tả dữ liệu lưu trữ nguyên nhân sự cố thuê bao

Trường dữ liệu Diễn giải Ghi chú

kiemtra Đánh dâu gọi kiêm tra sau xử lý

ghichu_kiemtra Ghi chú việc gọi kiểm tra sau xử ly

baohonglai Đánh dấu báo hỏng lại của thuê bao

Tài khoản thực hiện việc kiểm tra sau

tk_kiemtra xu ly

tk_kiemtra_time Thoi gian kiểm tra sau xử lý

Chỉ kiêm tra về thái độ côngdiem Điểm kiểm tra nhân sửa chữa

Trang 7

Trong trường hợp báo hỏng

account Tai khoản Internet của khách hang Internet

Trong trường hợp báo hỏngSomay Số máy điện thoại bị sự cố điện thoại

hoten Ho tên khách hàng

diachi Dia chi khách hang

huyen Don vi quan ly thué bao

giobao Giờ báo sự cô

VIp Mức độ quan trọng của khách hàng

loaikh Loai khach hang

nguoisua_id Mã công nhân sửa chữa thuê bao

giosua Giờ sửa chữa

nguyennhan_id Lớp nguyên nhân sự cô thuê bao

Phản hôi vê nguyên nhân sự cô từ

nguyennhan công nhân viễn thông sau khi sửa chữa | Trường dữ liệu cần phân lớplienhe Số máy liên hệ của khách hàng

Dữ liệu nguyên nhân sự cô thuê bao được khai thác bởi các phần mềm quản lý tạiđơn vị như : Hệ thống thống kê -báo cáo về sự có thuê bao, hệ thống cham điểm BSC, hệthống nhắn tin quan trị với các thuê bao VIP, hệ thống công thông tin của VNPT Bắc Giang

Trong đó, trường nguyennhan là trường dữ liệu dạng văn bản tiếng Việt, là nguyênnhân sự cố phản hồi từ công nhân đường dây thuê bao nhập vào CSDL trước khi khóa phiếusửa chữa Day là trường số liệu sẽ được dùng dé phân lớp nguyên nhân các sự cé thuê bao

1.3 Đặc điểm dữ liệu phản hồi của công nhân sửa chữa

Như đã nói ở mục 1.2, dit liệu phản hồi của công nhân sửa chữa đường dây thuê baotrong trường nguyenhan chứa các thông tin về nguyên nhân sự cố, tình trạng thuê bao vàcác thông tin khác nhằm phản ánh thực tế trước và sau khi sửa chữa Thông tin này cũngbao gồm các ghi chú của công nhân sửa chữa về sự có hoặc kết quả đã đạt được sau khi xử

lý Chính vì vậy, các thông tin này thường ngăn gon và ít khi ở dưới dang một câu tiếng

Việt hoàn chỉnh, mà thường chi ở dạng các từ hoặc cụm từ Ví dụ : Dut dây, đứt cáp, mang sông lỗi, cháy cáp

Trang 8

-6-Trong khi đó việc viết tắt tên các thiết bị hoặc các thuật ngữ kỹ thuật thường thiếuchính xác hoặc các ghi chú biéu diễn đưới dang văn nói, không hoàn chỉnh về câu tiếngViệt Như vậy, có thể thấy rằng các phản hồi của công nhân sửa chữa là các thông điệpngắn gon (Short Message) dạng text, bao gồm những thuật ngữ kỹ thuật, các cụm từ ngắn dédiễn giải công việc, nguyên nhân và ton tại sau khi tiếp nhận, sửa chữa thuê bao Do vậy,

ta có thé hiểu răng, đây là bài toán phân lớp văn bản với đoạn thông điệp ngắn gon (baogốm cụm từ, thuật ngữ ngắn mô tả nguyên nhân, kết quả hay tình trạng sau khi xử lý sự cốthuê bao), khác với các bài toán phân lớp văn bản tiếng Việt với câu hay hay đoạn văn hoànchỉnh.

1.4 Phân lóp nguyên nhân sự cỗ thuê bao

Phân lớp nguyên nhân sự cố thuê bao thành 07 lớp như đã chỉ ra ở Bang 1-1 là bàitoán cần phải giải quyết

1.4.1 Các cách tiếp cận bài toán phân lớp nguyên nhân sự cô thuê bao

a Phân lớp văn bản dựa trên cách tiếp cận hệ chuyên gia

Điều trở ngại của cách tiếp cận này là hạn chế trong quá trình thu nhận tri thức từ tàiliệu của các hệ thống chuyên gia Nghĩa là, các luật phải được định nghĩa bằng tay bởi kỹ sưtri thức với sự giúp đỡ của chuyên gia về lĩnh vực được nêu trong tài liệu

b Phan lớp dựa trên cách tiếp cận máy học

Một số thuật toán dựa trên tiếp cận máy học được sử dụng pho bién hién nay gồm:

Cây quyết định, K-Nearest Neighbor (KNN), Support Vector Machine (SVM), thuật toánNaive Bayes (NB), Neural Network (NNet) Ngoài ra, còn một số thuật toán được phát triểndựa trên các thuật toán đã nói ở trên ví dụ với SVM ta có các thuật toán cải tiễn như FuzzySupport Vector Machines Cũng có một số phương pháp người ta kết hợp các thuật toán lạivới nhau như Support Vector Machines Nearest Neighbor (SVM-NN) việc kết hợp này sẽtận dụng những ưu điểm và bổ sung những mặt yếu của các thuật toán

1.4.2 Xây dựng hệ thống phân lớp nguyên nhân sự cố thuê bao

Phân lớp nguyên nhân sự cố thuê bao là công việc phân tích nội dung của phản hồidạng văn bản của công nhân viễn thông và sau đó ra quyết định (hay dự đoán) nguyên nhânnày thuộc nhóm nào trong Bảng 1-1 Nguyên nhân được phân lớp có thể thuộc một nhóm,nhiều nhóm hoặc không thuộc nhóm mà ta đã định nghĩa trước

1.4.3 Các giai đoạn chính xây dựng hệ thống phân lớp nguyên nhân sự có thuê bao

Trang 9

-7-Từ các thuật toán mà đã chọn trong hệ thống phân lớp nguyên nhân sự cố ta sẽ xâydựng bộ phân lớp cho hệ thống Ở đây có thé hiểu là xây dựng mau dé làm mốc đánh giá

cho quá trình phân lớp.

1 Chuẩn 2 Tiền xử ; aan 4 Huấn 5 Đánh

bị dữ liệu lý how luyén gid

Hình 1-1 Các giai đoạn xây dựng hệ thống phân lớp

a — Giai đoạn chuẩn bị số liệu :

Đây là giai đoạn đọc số liệu từ CSDL của hệ thống điều hành sửa chữa (Đã nêu tạimục 1.2 - Chương ]) Dé đọc số liệu từ hệ thống này, ta có thể dùng lập trình dé đọc hoặc

dùng các công cụ có sẵn như Excel, SQL Server Management Tool và lưu trữ dưới dạng văn bản hoặc bảng tính.

b Giai đoạn tiền xử lý số liệu

Đây là giai đoạn "làm sạch" số liệu, là quá trình Loại bỏ các từ đặc biệt, các từ trùnglặp số, ngày tháng năm Sau đó chuyên đổi sang chữ thường (Nếu cần), tách từ tiếng Việt,

;oại bỏ các từ dừng

c Giai đoạn biểu diễn dữ liệu

Tùy theo công cụ huấn luyện của hệ thống phân lớp mà ta chọn các biéu diễn dữ liệuđầu vào tương ứng Thường là các số liệu sẽ được Vector hóa bằng phương pháp đếm các

từ xuất hiện trong mỗi nhóm theo TF (Term Frequency) hoặc IDF (Inverse DocumentFrequency), trong mô hình SVM có thé được kết hợp cả 2 là TF-IDF Sau khi biểudiễn dưới dạng các trọng số như trên thì ta có thể gọi số liệu đã được Vector hóa

d ˆ Giai đoạn huấn luyện

Đây là giai đoạn dùng phần mềm dé huấn luyện dữ liệu và lưu trữ kết quả huấn luyện

dé làm căn cứ dự đoán các lớp nguyên nhân sự có thuê bao đối với số liệu đầu vào mới Détăng tốc cho giai đoạn nay, các bước tiền xử lý số liệu và biéu diễn số liệu rất quan trong vìkhi không gian Vector lớn, khối lượng tính toán sẽ rất lớn, dẫn tới tăng thời gian huấn luyện

dữ liệu

e Giai đoạn đánh giá :

Trang 10

-8-Sau khi kiểm thử sau huấn luyện, ta căn cứ vào các chỉ tiêu sau dé đánh giá và lựachọn mô hình, phương pháp biểu diễn sau cho tối ưu nhất :

e_ Độ chính xác: Dựa vào phan trăm của văn bản đúng so với thông tin đưa vào phân

lớp Tỉ lệ càng cao thì hệ thống sẽ được đánh giá là tốt

e Tốc độ: Một hệ thống có tốc độ phân lớp nhanh nhưng độ chính xác thấp hoặc hệ

thống có tốc độ thấp nhưng độ chính xác cao thì không được cho là hệ thống tốt vìvậy phải đảm bảo tính tốc độ và chính xác cho hệ thống

e Dễ hiểu: Một hệ thống phân lớp dễ hiểu sẽ tạo cho người sử dụng tin tưởng hơn vào

hệ thông, đồng thời cũng giúp cho người sử dụng tránh được việc hiểu lầm kết quảcủa một luật được đưa ra bởi hệ thống.

Thời gian để học: Yêu cầu hệ thống phải học rất nhanh một luật phân lớp hoặc nhanhchóng điều chỉnh một luật đã được học cho phù hợp với thực tế

1.5 Tổng kết chương

Chương này đã giới thiệu được tổng quát về bài toán phân lớp nguyên nhân sự cốthuê bao Trong nội dung chương đã dé cập đến chi tiết các loại nguyên nhân cần phân lớpcũng như đặc trưng của dữ liệu cần phân lớp Chương cũng đã giới thiệu sơ lược các giaiđoạn xây dựng hệ thống phân lớp nguyên nhân sự cô thuê bao cũng như các tiêu chí đánhgiá mô hình hệ thống

Trang 11

-9-CHUONG 2: MOT SO PHƯƠNG PHAP HỌC MAY CÓ GIAM

SAT SU DUNG TRONG BAI TOAN PHAN LOP NGUYEN

NHAN SU CO THUE BAO 2.1 Tổng quan về học máy

2.1.1 Khái niệm về học máy

Hoạt động học là hoạt động tiếp thu những tri thức lý luận, khoa học Nghĩa làviệc học không chỉ dừng lại ở việc nắm bắt những khái niệm đời thường mà học phải tiễnđến những tri thức khoa học, những tri thức có tính chọn lựa cao, đã được khái quát hoá,

hệ thống hoá

Một số ứng dụng thường thấy:

- _ Xử lý ngôn ngữ tự nhiên (National Language Processing): xử lý văn bản, giao tiếp

người máy,

- _ Nhận dang (Pattern Recognition): nhận dạng tiếng nói, chữ viết tay, vân tay, thị giác

máy (Computer Vision) Tim kiém (Search Engine)

2.1.2 Một số khái niệm co bản trong học máy

a Khong gian biểu diễn của dữ liệu

Không gian biểu diễn là một tập hợp:

- Ky hiệu là X, mỗi phần tử thuộc X có thé được gọi là các dữ liệu, các thé hiện

(instance), các đối tượng hay các ví dụ

- Mỗi phần tử S c X được biéu diễn bởi một tập gồm n thuộc tính S=(s), So, $3, Sp)

- Mét đối tượng S cũng có thé được biêu diễn kết hợp với lớp liên thuộc của nó hay

nói cách khác có thể được biểu diễn dưới dạng nhãn: z = (s, c)

b Ban chất của các dit liệu

Ban chất của các dir liệu có thé là các giá tri số trong tập số thực, các giá tri roi rac,các giá trị nhị phân, dãy các phan tử trong một bảng chữ cái (alphabet), Không gian biéudiễn của dữ liệu có thể biểu diễn dưới dạng thuần nhất (cùng kiểu) hoặc dưới dạng trộn

(không cùng kiểu).

c Tiền xử lý dữ liệu

Là quá trình xử lý đữ liệu đầu vào nhằm mục đích làm giảm số chiều của dữ liệu đầu

vào, giảm sô chiêu của vân đê, xử lý nhiễu,

Trang 12

-10-d — Quá trình roi rac hóa dit liệu

Có những thuật toán học không xử lý được các dữ liệu mang tính liên tục Do vậy,

cần phải biến đổi các dữ liệu mang tính liên tục thành các giá tri rời rac

e Tập mẫu

Tập mẫu là tập hữu hạn các ví dụ Có ba kiểu tập mẫu:

- Tap mau hoc hay tap hoc.

- Tap mau hop thức hoá hay tập hợp thức.

- Tap mẫu thử hay tập thử.

f Quá trình tìm kiếm trong không gian giả thuyết

Trong một không gian các giả thiết X, học trở thành bài toán tìm kiếm giả thiết tốtnhất trong X Nếu ta đánh giá mỗi giả thiết bởi một hàm "mục tiêu" thì ta xét học như mộtbài toán tối ưu hoá Nghĩa là bài toán tìm phần tử của X làm tối ưu hàm mục tiêu Trong

học máy người ta thường dùng tối ưu không ràng buộc hoặc tối ưu có ràng buộc Cácphương pháp tối ưu hoá thường dùng trong học máy như Gradient, nhân tử Lagrange

2.2 Phân loại học may

2.2.1 Học có giám sát

Học có giám sát (supervised learning) là một kỹ thuật của ngành học máy nhằm mụcđích xây dựng một hàm f từ dữ tap dữ liệu huấn luyện (Training data) Dữ liệu huấn luyệnbao gồm các cặp đối tượng đầu vào và đầu ra mong muốn Đầu ra của hàm ƒ có thé là mộtgiá trị liên tục hoặc có thể là dự đoán một nhãn phân lớp cho một đối tượng đầu vào

2.2.2 Học không có giám sát

Học không có giám sát (unsupervised learning) là một phương pháp học máy mà dữ

liệu huấn luyện là dữ liệu hoan toàn chưa được gan nhãn, nhằm tìm ra một mô hình phù hợpvới các quan sát Học không có giám sát khác với học có giám sát ở chỗ, là đầu ra đúngtương ứng cho mỗi đầu vào là chưa biết trước Trong học không có giám sát, một tập dữ liệuđầu vao thường được thu thập một cách ngẫu nhiên, và sau đó một mô hình mật độ kết hợp

sẽ được xây dựng cho tập dir liệu đó.

2.2.3 Học nửa giám sát

Học nửa giám sát (semi-supervised learning) là một phương pháp hoc máy mà dữ

liệu huấn luyện là sự kết hợp cua đữ liệu được gan nhãn và dữ liệu chưa được gán nhãn

Trang 13

-ll-2.3 Phương pháp Naive Bayes

2.3.1 Co sở lý thuyết

a Cơng thức xác suất cĩ điều kiện

Ý tưởng cơ bản của cách tiếp cận Nạve Bayes là sử dụng xác suất cĩ điều kiện giữa

từ và các nhãn dé dự đốn xác suất nhãn của một câu văn cần phân lớp Điểm quan trọngcủa phương pháp này chính là ở chỗ giả định rằng sự xuất hiện của tất cả các từ trong câuđều độc lập với nhau

Định lý Bayes cho phép tính xác xảy ra của một sự kiện ngẫu nhiên A khi biết sự

kiện liên quan B đã sảy ra Cơng thức tính như sau:

P(AB)

P(B) Suy ra: P( AIB ) P(B ) = P( BIA) P(A ) = P(AB)

P(A|B) =

e P(A): xác suất say ra của riêng A mà khơng quan tâm tới B.

e P(B): xác suất say ra của riêng B mà khơng quan tâm tới A.

e P(BIA): xác suất (cĩ điều kiện) của sự kiện B xay ra, nếu biết rằng sự kiện A đã xảy ra.

e P(AIB): xác suất (cĩ điều kiện) của sự kiện A xảy ra, nếu biết rang sự kiện B đã xảy ra.

b Cơng thức xác suất đầy di

Gia sử Bị, B; , B, là nhĩm day đủ các biến cố Xét biến cơ A sao cho A xảy ra chỉ khi mộttrong các biến cĩ sử By, B; , By xảy ra Khi đĩ:

n

P(A) =) P(A|B,) + PB)

i=1

c Phát biểu thuật tốn Naive Bayes

Thuật tốn Naive Bayes dựa trên định ly Bayes được phát biểu như sau:

P(XY) _ P(X|Y)P(Y)

"ŒlX) = Soy = Pex)

Trong đĩ:

e _ Y đại diện một giả thuyết, giả thuyết này được suy luận khi cĩ được chứng cứ mới X.

e P(X): xác suất X xay ra.

e PCY): xác suất Y xảy ra.

e P(XIY): xác suất X xảy ra khi Y xảy ra (xác suất cĩ điều kiện, khả năng của X khi Y đúng).

e P(YIX): xác suất Y xảy ra khi X xảy ra (xác suất cĩ điều kiện, khả năng của Y khi X đúng).

Trang 14

-12-2.3.2 Bài toán phân lớp với Naive Bayes

Phân lớp NB (Naive Bayes classifier) là một thuật ngữ trong xử lý số liệu thống kêBayesian với một phân lớp xác suất dựa trên các ứng dụng định lý Bayes với giả định độclập bền vững Một thuật ngữ mô tả chỉ tiết cho những mô hình xác suất sẽ là “mô hình đặc

trưng không phụ thuộc”.

Phân lớp Bayes đơn giản sử dụng trong trường hợp mỗi ví dụ được cho bằng tập cácthuộc tinh <x), Xz , xạ> và cần xác định nhãn phân lớp y, y có thé nhận giá trị từ một tập

e P(x; | c¡) được tính từ dữ liệu huấn luyện băng số lần x; xuất hiện cùng với c; chia

cho số lần Cj xuất hiện

e P(c;) là xác suất của nhãn trên tập huấn luyện

Ta có thể tóm tắt lại cách phân lớp này như sau:

Theo tinh chat độc lập điều kiện:

POXIG) = | | PGC) = PCr IG) * P@¿|0) + „+ PGa|6)

Trang 15

e P(C;) được tính dựa trên tần suất xuất hiện tài liệu trong tập huấn luyện.

e P(X, | C;) được tính từ những tập thuộc tinh đã được tính trong quá trình huấn

luyện.

2.4 Phương pháp SVM

2.4.1 Nội dung thuật toán SVM

Support Vector Machine (SVM) là một phương pháp phân lớp dựa trên lý thuyết họcthống kê Để đơn giản ta sẽ xét bài toán phân lớp nhị phân, sau đó sẽ mở rộng vấn đề ra chobài toán phân nhiều lớp Xét một ví dụ của bài toán phân lớp như hình vẽ 2-3 ở đó ta phảitìm một đường thắng sao cho bên trái nó toàn là các điểm đỏ, bên phải nó toàn là các điểmxanh Bài toán mà dùng đường thắng để phân chia này được gọi là phân lớp tuyến tính

(linear classification).

Hình 2-1 Đường phân lớp tuyến tinh

Hàm tuyến tính phân biệt hai lớp như sau:

" (x) € RTM là véc to đặc trưng, ở làm hàm ánh xạ từ không gian đầu vào sang

không gian đặc trưng.

Ngày đăng: 09/04/2024, 17:13

HÌNH ẢNH LIÊN QUAN

Bảng 1.2 Mô tả dữ liệu lưu trữ nguyên nhân sự cố thuê bao - Phân lớp nguyên nhân sự cố thuê bao
Bảng 1.2 Mô tả dữ liệu lưu trữ nguyên nhân sự cố thuê bao (Trang 6)
Hình 2-4 Xác định những điểm phan lớp sai - Phân lớp nguyên nhân sự cố thuê bao
Hình 2 4 Xác định những điểm phan lớp sai (Trang 18)
Hình 3-1 Quy trình tách từ - Phân lớp nguyên nhân sự cố thuê bao
Hình 3 1 Quy trình tách từ (Trang 23)
Bảng 3.4 Biểu diễn số liệu với trọng số TF*IDF - Phân lớp nguyên nhân sự cố thuê bao
Bảng 3.4 Biểu diễn số liệu với trọng số TF*IDF (Trang 25)
Bảng 3.5 Một sô từ có tần suât xuât hiện cao - Phân lớp nguyên nhân sự cố thuê bao
Bảng 3.5 Một sô từ có tần suât xuât hiện cao (Trang 25)
Bảng 3.6 Một số từ có tần suất xuất hiện thấp - Phân lớp nguyên nhân sự cố thuê bao
Bảng 3.6 Một số từ có tần suất xuất hiện thấp (Trang 26)
Bảng 3.7 Số lượng dữ liệu huấn luyện - Phân lớp nguyên nhân sự cố thuê bao
Bảng 3.7 Số lượng dữ liệu huấn luyện (Trang 26)
Bảng 3.9 Kết quả thử nghiệm đánh trọng số TE - Phân lớp nguyên nhân sự cố thuê bao
Bảng 3.9 Kết quả thử nghiệm đánh trọng số TE (Trang 28)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w