Nội dung luận văn được chia làm 3 chương, cụ thể :Chương 1 : Tông quan về bài toán phân lớp nguyên nhân sự có thuê bao, chương giớithiệu chỉ tiết về bài toán trong thực tế, phương pháp l
Trang 1NGUYEN DAC TIEN
PHAN LOP NGUYEN NHAN SU CO THUE BAO
Chuyên ngành : HE THONG THONG TIN
Mã số : 60.48.01.04
TOM TAT LUẬN VĂN THAC SĨ
HÀ NỘI - 2017
Trang 2Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIÊN THÔNG
Người hướng dẫn khoa học: TS PHAN THỊ HÀ
Phản biện 1: TS Nguyễn Duy Phương
Phản biện 2: PGS TS Nguyễn Hà Nam
Công nghệ Bưu chính Viễn thông
Vào lúc: 08 giờ 30 ngày 05 tháng 08 năm 2017
Có thê tìm hiệu luận van tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3-1-LỜI MỞ ĐẦU
Trong thời gian qua, lĩnh vực dịch vụ viễn thông, công nghệ thông tin của Việt Nam
đã đạt được những thành tựu nồi bật với tốc độ tăng trưởng vượt trội so với các ngành dịch
vụ khác Thị trường viễn thông và công nghệ thông tin hiện nay bao gồm nhiều loại hìnhdịch vụ khác nhau Ngành viễn thông và công nghệ thông tin của Việt Nam chỉ thật sự bắtđầu bước vào cạnh tranh từ năm 2003 sau khi một số nhà khai thác mới được cấp phép cungcấp dịch vụ Cùng với đó, sự cạnh tranh giữa các nhà cung cấp dịch vụ cũng trở nên sôiđộng và quyết liệt hơn, đồng thời cũng tạo ra các hoạt động cạnh tranh gay gắt, thiếu lànhmạnh, chèn ép cạnh tranh trong hoạt động cung cấp dịch vụ, thậm chí vi phạm luật cạnhtranh của một số doanh nghiệp trong lĩnh vực này
Trong giai đoạn đổi mới, VNPT Bắc Giang luôn là đơn vị tích cực trong ngành triểnkhai và đưa vào sử dụng công nghệ viễn thông hiện đại với nhiều loại hình dịch vụ mdi,théhiện những thành tựu mới nhất trong công nghệ Viễn thông như truyền hình tương tác thế
hệ mới MyTV, dịch vụ Internet cáp quang fiberVNN, các dich vụ truyền dữ liệu, gia tăng
trên điện thoại di động
Với mục tiêu đưa VNPT trở thành doanh nghiệp có chất lượng dịch vụ cao nhất,VNPT Bắc Giang luôn xác định tầm quan trọng của công tác phân lớp nguyên nhân sự cốthuê bao nhằm đảm bảo chất lượng dịch vụ từ đó đưa tới sự hài lòng của khách hàng Vớimục tiêu phân lớp nguyên nhân hu hỏng sự có thuê bao nhằm đưa ra các biện pháp khắcphục, đảm bảo chất lượng dịch vụ, tạo nên uy tín về thương hiệu VNPT trên địa bàn tỉnh
Bắc Giang
Có một số phương pháp phân lớp được đã được sử dụng như phân lớp theo từ khóa,tuy nhiên kết quả đạt được còn hạn chế do thiếu các cơ sở lý thuyết vững chắc và đa sốthường chỉ được sử dụng để giải quyết một trường hợp cụ thể
Trong quá trình triển khai, công nhân đường dây thuê bao thực hiện phân lớp thủcông nên dẫn tới tỷ lệ sai sót rất lớn Qua nghiên cứu, một số sai sót về phân lớp thủ công cócác nguyên nhân chủ yếu sau :
-_ Công nhân chưa nam vững về phân lớp thuê bao thủ công
- Cố tình phân lớp sai dé không bị giảm trừ điểm chất lượng
- Trach nhiệm trong công việc chưa cao.
Trang 4-2-Luan văn với dé tai "Phân lớp nguyên nhân sự cô thuê bao" nham giải quyết bài toánphân lớp nguyên nhân sự cô một cách có hệ thống trên cơ sở lý thuyết vững chắc, đáp ứngyêu cầu quản lý, điều hành Luận văn cũng giải quyết được việc phát sinh lớp nguyên nhânmới do yêu cầu quản lý đặt ra
Nội dung luận văn được chia làm 3 chương, cụ thể :Chương 1 : Tông quan về bài toán phân lớp nguyên nhân sự có thuê bao, chương giớithiệu chỉ tiết về bài toán trong thực tế, phương pháp lưu trữ số liệu Chương này cũng giớithiệu các đặc diém cơ bản của dữ liệu cần phân lớp và cụ thé về van đề đang gặp phải trongviệc giải quyết bài toán hiện nay
Chương 2 : Nghiên cứu các phương pháp học máy có giám sát để ứng dụng vào bàitoán phân lớp nguyên nhân sự có thuê bao Đặc biệt sẽ đi sâu vào 2 thuật toán chính là SVM
(Support Vector Machine) và Naive Bayes.
Chương 3 :Trinh bày phan tiền xử ly dữ liệu, cu thé là xử lý các phản hồi từ côngnhân xử lý đường dây thuê bao trên CSDL Chương này cũng xây dựng dé liệu huấn luyện
và kiểm thử nhằm đánh giá, đưa ra kết luận về lựa chọn mô hình phân lớp có hiệu quả caonhất đề đưa vào thực tiễn
Trang 5-3-CHUONG 1: TONG QUAN VE BAI TOAN PHAN LOP NGUYEN
NHAN SU CO THUE BAO
1.1 Giới thiệu bài toán
Tại VNPT Bắc Giang, việc triển khai hệ thống quản lý sự cố thuê bao đã được triểnkhai với mục tiêu điều hành công tác tiếp nhận, xử lý sự có thuê bao Bên cạnh đó, hệ thốngcòn giúp cho các cấp quản lý theo dõi, thống kê được những biến động về thuê bao có sự có,
từ đó đưa ra các biện pháp nâng cao chất lượng mạng lưới, chất lượng phục vụ khách hàng
Trong quy trình xử lý sự cố thuê bao, sau khi tiếp nhận, xử lý, công nhân kỹ thuậtviễn thông cập nhật nguyên nhân sự cố thuê bao thực tế (Dạng Text), trên trườngnguyen nhan Đây là số liệu đóng một vai trò quan trọng nhằm phân lớp các nguyên nhândẫn tới sự cô với mục đích quản trị cho nhiều mục tiêu khác nhau
Với yêu cầu hiện tại, các nguyên nhân sự cố thuê bao được phân thành 7 lớp như sau :
Bang 1.1 Các lớp nguyên nhân sự cố thuê bao
Lớp Mô tả lớp
1 Nguyên nhân khách quan
2 Do dây thuê bao
3 Do mạng ngoại vi
4 Do tông đài, truyền dẫn, GPON, AON
5 Do thiết bị dau cudi
6 Do khách hàng
7 Nguyên nhân khác
Hiện tại, việc phân lớp nguyên nhân sự có thuê bao được tiễn hành thủ công dựa trêncác phản hồi từ công nhân viễn thông Tuy nhiên, qua nghiên cứu cho thấy tỷ lệ sai sót trongphân lớp thủ công khá cao, chiếm tới 56,48 %, như vậy chỉ có khoảng 43,52 % số liệu được
phân lớp đúng.
Một trong các nguyên nhân chính của việc phân lớp sai ké trên là :
- _ Công nhân chưa nam vững về phân lớp thuê bao
- Đơn vị cố tình phân lớp sai dé không bị giảm trừ điểm chất lượng
- Trach nhiệm trong công việc chưa cao.
Trang 6-4-Do việc phân lớp thiếu chính xác, dan tới hiệu quả khai thác số liệu không cao, thậmchí trong một số trường hợp gây tôn thất cho đơn vị vì đầu tư khắc phục không đạt hiệu quảnhư mong muốn
Việc phân lớp chính xác sẽ giúp cho bộ phận quản lý đưa ra các quyết định khắcphục và giải quyết van đề một cách chính xác, đảm bảo hiệu quả cao, tránh tổn thất khôngđáng có trong công tác phòng ngừa các nguyên nhân gây nên sự có thuê bao
Như vậy, yêu cầu đặt ra cần có một công cụ hỗ trợ nhằm phân lớp chính xác hơn và
hoàn toàn không phụ thuộc vào chủ quan của công nhân đường dây thuê bao.
Ngoài ra, nó còn giải quyết thêm các yêu cầu trong tương lai về mặt quản lý là : Cóthể phân lớp nguyên nhân mới dựa trên các số liệu đã có nhằm đáp ứng yêu cầu quản lý Ví
dụ, có thé phân lớp nguyên nhân sự có thiết bị đầu cuối là do mat cấu hình hay chỉ hỏngnguồn điện, adaptor
Dé phân lớp bằng các công cụ học máy tự động, trường số liệu phản hồi của côngnhân viễn thông sẽ được xử lý chuẩn hóa về mặt ngữ nghĩa, tách từ, loại bỏ từ dừng (Stopwords) sau đó Vector hóa, biểu diễn trong không gian đặc trưng và thực hiện quá trình họcmáy (Training) bằng SVM hoặc Naive Bayes Quá trình nay sẽ được trình bày chỉ tiết trong
Chương 3 của luận văn.
1.2 Phương pháp lưu trữ dữ liệu sự cỗ thuê bao
Số liệu sự cố thuê bao được lưu trữ bằng Database SQL Server với cấu trúc cụ thể
như sau :
Bảng 1.2 Mô tả dữ liệu lưu trữ nguyên nhân sự cố thuê bao
Trường dữ liệu Diễn giải Ghi chú
kiemtra Đánh dâu gọi kiêm tra sau xử lý
ghichu_kiemtra Ghi chú việc gọi kiểm tra sau xử ly
baohonglai Đánh dấu báo hỏng lại của thuê bao
Tài khoản thực hiện việc kiểm tra sau
tk_kiemtra xu ly
tk_kiemtra_time Thoi gian kiểm tra sau xử lý
Chỉ kiêm tra về thái độ côngdiem Điểm kiểm tra nhân sửa chữa
Trang 7Trong trường hợp báo hỏng
account Tai khoản Internet của khách hang Internet
Trong trường hợp báo hỏngSomay Số máy điện thoại bị sự cố điện thoại
hoten Ho tên khách hàng
diachi Dia chi khách hang
huyen Don vi quan ly thué bao
giobao Giờ báo sự cô
VIp Mức độ quan trọng của khách hàng
loaikh Loai khach hang
nguoisua_id Mã công nhân sửa chữa thuê bao
giosua Giờ sửa chữa
nguyennhan_id Lớp nguyên nhân sự cô thuê bao
Phản hôi vê nguyên nhân sự cô từ
nguyennhan công nhân viễn thông sau khi sửa chữa | Trường dữ liệu cần phân lớplienhe Số máy liên hệ của khách hàng
Dữ liệu nguyên nhân sự cô thuê bao được khai thác bởi các phần mềm quản lý tạiđơn vị như : Hệ thống thống kê -báo cáo về sự có thuê bao, hệ thống cham điểm BSC, hệthống nhắn tin quan trị với các thuê bao VIP, hệ thống công thông tin của VNPT Bắc Giang
Trong đó, trường nguyennhan là trường dữ liệu dạng văn bản tiếng Việt, là nguyênnhân sự cố phản hồi từ công nhân đường dây thuê bao nhập vào CSDL trước khi khóa phiếusửa chữa Day là trường số liệu sẽ được dùng dé phân lớp nguyên nhân các sự cé thuê bao
1.3 Đặc điểm dữ liệu phản hồi của công nhân sửa chữa
Như đã nói ở mục 1.2, dit liệu phản hồi của công nhân sửa chữa đường dây thuê baotrong trường nguyenhan chứa các thông tin về nguyên nhân sự cố, tình trạng thuê bao vàcác thông tin khác nhằm phản ánh thực tế trước và sau khi sửa chữa Thông tin này cũngbao gồm các ghi chú của công nhân sửa chữa về sự có hoặc kết quả đã đạt được sau khi xử
lý Chính vì vậy, các thông tin này thường ngăn gon và ít khi ở dưới dang một câu tiếng
Việt hoàn chỉnh, mà thường chi ở dạng các từ hoặc cụm từ Ví dụ : Dut dây, đứt cáp, mang sông lỗi, cháy cáp
Trang 8-6-Trong khi đó việc viết tắt tên các thiết bị hoặc các thuật ngữ kỹ thuật thường thiếuchính xác hoặc các ghi chú biéu diễn đưới dang văn nói, không hoàn chỉnh về câu tiếngViệt Như vậy, có thể thấy rằng các phản hồi của công nhân sửa chữa là các thông điệpngắn gon (Short Message) dạng text, bao gồm những thuật ngữ kỹ thuật, các cụm từ ngắn dédiễn giải công việc, nguyên nhân và ton tại sau khi tiếp nhận, sửa chữa thuê bao Do vậy,
ta có thé hiểu răng, đây là bài toán phân lớp văn bản với đoạn thông điệp ngắn gon (baogốm cụm từ, thuật ngữ ngắn mô tả nguyên nhân, kết quả hay tình trạng sau khi xử lý sự cốthuê bao), khác với các bài toán phân lớp văn bản tiếng Việt với câu hay hay đoạn văn hoànchỉnh.
1.4 Phân lóp nguyên nhân sự cỗ thuê bao
Phân lớp nguyên nhân sự cố thuê bao thành 07 lớp như đã chỉ ra ở Bang 1-1 là bàitoán cần phải giải quyết
1.4.1 Các cách tiếp cận bài toán phân lớp nguyên nhân sự cô thuê bao
a Phân lớp văn bản dựa trên cách tiếp cận hệ chuyên gia
Điều trở ngại của cách tiếp cận này là hạn chế trong quá trình thu nhận tri thức từ tàiliệu của các hệ thống chuyên gia Nghĩa là, các luật phải được định nghĩa bằng tay bởi kỹ sưtri thức với sự giúp đỡ của chuyên gia về lĩnh vực được nêu trong tài liệu
b Phan lớp dựa trên cách tiếp cận máy học
Một số thuật toán dựa trên tiếp cận máy học được sử dụng pho bién hién nay gồm:
Cây quyết định, K-Nearest Neighbor (KNN), Support Vector Machine (SVM), thuật toánNaive Bayes (NB), Neural Network (NNet) Ngoài ra, còn một số thuật toán được phát triểndựa trên các thuật toán đã nói ở trên ví dụ với SVM ta có các thuật toán cải tiễn như FuzzySupport Vector Machines Cũng có một số phương pháp người ta kết hợp các thuật toán lạivới nhau như Support Vector Machines Nearest Neighbor (SVM-NN) việc kết hợp này sẽtận dụng những ưu điểm và bổ sung những mặt yếu của các thuật toán
1.4.2 Xây dựng hệ thống phân lớp nguyên nhân sự cố thuê bao
Phân lớp nguyên nhân sự cố thuê bao là công việc phân tích nội dung của phản hồidạng văn bản của công nhân viễn thông và sau đó ra quyết định (hay dự đoán) nguyên nhânnày thuộc nhóm nào trong Bảng 1-1 Nguyên nhân được phân lớp có thể thuộc một nhóm,nhiều nhóm hoặc không thuộc nhóm mà ta đã định nghĩa trước
1.4.3 Các giai đoạn chính xây dựng hệ thống phân lớp nguyên nhân sự có thuê bao
Trang 9-7-Từ các thuật toán mà đã chọn trong hệ thống phân lớp nguyên nhân sự cố ta sẽ xâydựng bộ phân lớp cho hệ thống Ở đây có thé hiểu là xây dựng mau dé làm mốc đánh giá
cho quá trình phân lớp.
1 Chuẩn 2 Tiền xử ; aan 4 Huấn 5 Đánh
bị dữ liệu lý how luyén gid
Hình 1-1 Các giai đoạn xây dựng hệ thống phân lớp
a — Giai đoạn chuẩn bị số liệu :
Đây là giai đoạn đọc số liệu từ CSDL của hệ thống điều hành sửa chữa (Đã nêu tạimục 1.2 - Chương ]) Dé đọc số liệu từ hệ thống này, ta có thể dùng lập trình dé đọc hoặc
dùng các công cụ có sẵn như Excel, SQL Server Management Tool và lưu trữ dưới dạng văn bản hoặc bảng tính.
b Giai đoạn tiền xử lý số liệu
Đây là giai đoạn "làm sạch" số liệu, là quá trình Loại bỏ các từ đặc biệt, các từ trùnglặp số, ngày tháng năm Sau đó chuyên đổi sang chữ thường (Nếu cần), tách từ tiếng Việt,
;oại bỏ các từ dừng
c Giai đoạn biểu diễn dữ liệu
Tùy theo công cụ huấn luyện của hệ thống phân lớp mà ta chọn các biéu diễn dữ liệuđầu vào tương ứng Thường là các số liệu sẽ được Vector hóa bằng phương pháp đếm các
từ xuất hiện trong mỗi nhóm theo TF (Term Frequency) hoặc IDF (Inverse DocumentFrequency), trong mô hình SVM có thé được kết hợp cả 2 là TF-IDF Sau khi biểudiễn dưới dạng các trọng số như trên thì ta có thể gọi số liệu đã được Vector hóa
d ˆ Giai đoạn huấn luyện
Đây là giai đoạn dùng phần mềm dé huấn luyện dữ liệu và lưu trữ kết quả huấn luyện
dé làm căn cứ dự đoán các lớp nguyên nhân sự có thuê bao đối với số liệu đầu vào mới Détăng tốc cho giai đoạn nay, các bước tiền xử lý số liệu và biéu diễn số liệu rất quan trong vìkhi không gian Vector lớn, khối lượng tính toán sẽ rất lớn, dẫn tới tăng thời gian huấn luyện
dữ liệu
e Giai đoạn đánh giá :
Trang 10-8-Sau khi kiểm thử sau huấn luyện, ta căn cứ vào các chỉ tiêu sau dé đánh giá và lựachọn mô hình, phương pháp biểu diễn sau cho tối ưu nhất :
e_ Độ chính xác: Dựa vào phan trăm của văn bản đúng so với thông tin đưa vào phân
lớp Tỉ lệ càng cao thì hệ thống sẽ được đánh giá là tốt
e Tốc độ: Một hệ thống có tốc độ phân lớp nhanh nhưng độ chính xác thấp hoặc hệ
thống có tốc độ thấp nhưng độ chính xác cao thì không được cho là hệ thống tốt vìvậy phải đảm bảo tính tốc độ và chính xác cho hệ thống
e Dễ hiểu: Một hệ thống phân lớp dễ hiểu sẽ tạo cho người sử dụng tin tưởng hơn vào
hệ thông, đồng thời cũng giúp cho người sử dụng tránh được việc hiểu lầm kết quảcủa một luật được đưa ra bởi hệ thống.
Thời gian để học: Yêu cầu hệ thống phải học rất nhanh một luật phân lớp hoặc nhanhchóng điều chỉnh một luật đã được học cho phù hợp với thực tế
1.5 Tổng kết chương
Chương này đã giới thiệu được tổng quát về bài toán phân lớp nguyên nhân sự cốthuê bao Trong nội dung chương đã dé cập đến chi tiết các loại nguyên nhân cần phân lớpcũng như đặc trưng của dữ liệu cần phân lớp Chương cũng đã giới thiệu sơ lược các giaiđoạn xây dựng hệ thống phân lớp nguyên nhân sự cô thuê bao cũng như các tiêu chí đánhgiá mô hình hệ thống
Trang 11-9-CHUONG 2: MOT SO PHƯƠNG PHAP HỌC MAY CÓ GIAM
SAT SU DUNG TRONG BAI TOAN PHAN LOP NGUYEN
NHAN SU CO THUE BAO 2.1 Tổng quan về học máy
2.1.1 Khái niệm về học máy
Hoạt động học là hoạt động tiếp thu những tri thức lý luận, khoa học Nghĩa làviệc học không chỉ dừng lại ở việc nắm bắt những khái niệm đời thường mà học phải tiễnđến những tri thức khoa học, những tri thức có tính chọn lựa cao, đã được khái quát hoá,
hệ thống hoá
Một số ứng dụng thường thấy:
- _ Xử lý ngôn ngữ tự nhiên (National Language Processing): xử lý văn bản, giao tiếp
người máy,
- _ Nhận dang (Pattern Recognition): nhận dạng tiếng nói, chữ viết tay, vân tay, thị giác
máy (Computer Vision) Tim kiém (Search Engine)
2.1.2 Một số khái niệm co bản trong học máy
a Khong gian biểu diễn của dữ liệu
Không gian biểu diễn là một tập hợp:
- Ky hiệu là X, mỗi phần tử thuộc X có thé được gọi là các dữ liệu, các thé hiện
(instance), các đối tượng hay các ví dụ
- Mỗi phần tử S c X được biéu diễn bởi một tập gồm n thuộc tính S=(s), So, $3, Sp)
- Mét đối tượng S cũng có thé được biêu diễn kết hợp với lớp liên thuộc của nó hay
nói cách khác có thể được biểu diễn dưới dạng nhãn: z = (s, c)
b Ban chất của các dit liệu
Ban chất của các dir liệu có thé là các giá tri số trong tập số thực, các giá tri roi rac,các giá trị nhị phân, dãy các phan tử trong một bảng chữ cái (alphabet), Không gian biéudiễn của dữ liệu có thể biểu diễn dưới dạng thuần nhất (cùng kiểu) hoặc dưới dạng trộn
(không cùng kiểu).
c Tiền xử lý dữ liệu
Là quá trình xử lý đữ liệu đầu vào nhằm mục đích làm giảm số chiều của dữ liệu đầu
vào, giảm sô chiêu của vân đê, xử lý nhiễu,
Trang 12-10-d — Quá trình roi rac hóa dit liệu
Có những thuật toán học không xử lý được các dữ liệu mang tính liên tục Do vậy,
cần phải biến đổi các dữ liệu mang tính liên tục thành các giá tri rời rac
e Tập mẫu
Tập mẫu là tập hữu hạn các ví dụ Có ba kiểu tập mẫu:
- Tap mau hoc hay tap hoc.
- Tap mau hop thức hoá hay tập hợp thức.
- Tap mẫu thử hay tập thử.
f Quá trình tìm kiếm trong không gian giả thuyết
Trong một không gian các giả thiết X, học trở thành bài toán tìm kiếm giả thiết tốtnhất trong X Nếu ta đánh giá mỗi giả thiết bởi một hàm "mục tiêu" thì ta xét học như mộtbài toán tối ưu hoá Nghĩa là bài toán tìm phần tử của X làm tối ưu hàm mục tiêu Trong
học máy người ta thường dùng tối ưu không ràng buộc hoặc tối ưu có ràng buộc Cácphương pháp tối ưu hoá thường dùng trong học máy như Gradient, nhân tử Lagrange
2.2 Phân loại học may
2.2.1 Học có giám sát
Học có giám sát (supervised learning) là một kỹ thuật của ngành học máy nhằm mụcđích xây dựng một hàm f từ dữ tap dữ liệu huấn luyện (Training data) Dữ liệu huấn luyệnbao gồm các cặp đối tượng đầu vào và đầu ra mong muốn Đầu ra của hàm ƒ có thé là mộtgiá trị liên tục hoặc có thể là dự đoán một nhãn phân lớp cho một đối tượng đầu vào
2.2.2 Học không có giám sát
Học không có giám sát (unsupervised learning) là một phương pháp học máy mà dữ
liệu huấn luyện là dữ liệu hoan toàn chưa được gan nhãn, nhằm tìm ra một mô hình phù hợpvới các quan sát Học không có giám sát khác với học có giám sát ở chỗ, là đầu ra đúngtương ứng cho mỗi đầu vào là chưa biết trước Trong học không có giám sát, một tập dữ liệuđầu vao thường được thu thập một cách ngẫu nhiên, và sau đó một mô hình mật độ kết hợp
sẽ được xây dựng cho tập dir liệu đó.
2.2.3 Học nửa giám sát
Học nửa giám sát (semi-supervised learning) là một phương pháp hoc máy mà dữ
liệu huấn luyện là sự kết hợp cua đữ liệu được gan nhãn và dữ liệu chưa được gán nhãn
Trang 13-ll-2.3 Phương pháp Naive Bayes
2.3.1 Co sở lý thuyết
a Cơng thức xác suất cĩ điều kiện
Ý tưởng cơ bản của cách tiếp cận Nạve Bayes là sử dụng xác suất cĩ điều kiện giữa
từ và các nhãn dé dự đốn xác suất nhãn của một câu văn cần phân lớp Điểm quan trọngcủa phương pháp này chính là ở chỗ giả định rằng sự xuất hiện của tất cả các từ trong câuđều độc lập với nhau
Định lý Bayes cho phép tính xác xảy ra của một sự kiện ngẫu nhiên A khi biết sự
kiện liên quan B đã sảy ra Cơng thức tính như sau:
P(AB)
P(B) Suy ra: P( AIB ) P(B ) = P( BIA) P(A ) = P(AB)
P(A|B) =
e P(A): xác suất say ra của riêng A mà khơng quan tâm tới B.
e P(B): xác suất say ra của riêng B mà khơng quan tâm tới A.
e P(BIA): xác suất (cĩ điều kiện) của sự kiện B xay ra, nếu biết rằng sự kiện A đã xảy ra.
e P(AIB): xác suất (cĩ điều kiện) của sự kiện A xảy ra, nếu biết rang sự kiện B đã xảy ra.
b Cơng thức xác suất đầy di
Gia sử Bị, B; , B, là nhĩm day đủ các biến cố Xét biến cơ A sao cho A xảy ra chỉ khi mộttrong các biến cĩ sử By, B; , By xảy ra Khi đĩ:
n
P(A) =) P(A|B,) + PB)
i=1
c Phát biểu thuật tốn Naive Bayes
Thuật tốn Naive Bayes dựa trên định ly Bayes được phát biểu như sau:
P(XY) _ P(X|Y)P(Y)
"ŒlX) = Soy = Pex)
Trong đĩ:
e _ Y đại diện một giả thuyết, giả thuyết này được suy luận khi cĩ được chứng cứ mới X.
e P(X): xác suất X xay ra.
e PCY): xác suất Y xảy ra.
e P(XIY): xác suất X xảy ra khi Y xảy ra (xác suất cĩ điều kiện, khả năng của X khi Y đúng).
e P(YIX): xác suất Y xảy ra khi X xảy ra (xác suất cĩ điều kiện, khả năng của Y khi X đúng).
Trang 14-12-2.3.2 Bài toán phân lớp với Naive Bayes
Phân lớp NB (Naive Bayes classifier) là một thuật ngữ trong xử lý số liệu thống kêBayesian với một phân lớp xác suất dựa trên các ứng dụng định lý Bayes với giả định độclập bền vững Một thuật ngữ mô tả chỉ tiết cho những mô hình xác suất sẽ là “mô hình đặc
trưng không phụ thuộc”.
Phân lớp Bayes đơn giản sử dụng trong trường hợp mỗi ví dụ được cho bằng tập cácthuộc tinh <x), Xz , xạ> và cần xác định nhãn phân lớp y, y có thé nhận giá trị từ một tập
e P(x; | c¡) được tính từ dữ liệu huấn luyện băng số lần x; xuất hiện cùng với c; chia
cho số lần Cj xuất hiện
e P(c;) là xác suất của nhãn trên tập huấn luyện
Ta có thể tóm tắt lại cách phân lớp này như sau:
Theo tinh chat độc lập điều kiện:
POXIG) = | | PGC) = PCr IG) * P@¿|0) + „+ PGa|6)
Trang 15e P(C;) được tính dựa trên tần suất xuất hiện tài liệu trong tập huấn luyện.
e P(X, | C;) được tính từ những tập thuộc tinh đã được tính trong quá trình huấn
luyện.
2.4 Phương pháp SVM
2.4.1 Nội dung thuật toán SVM
Support Vector Machine (SVM) là một phương pháp phân lớp dựa trên lý thuyết họcthống kê Để đơn giản ta sẽ xét bài toán phân lớp nhị phân, sau đó sẽ mở rộng vấn đề ra chobài toán phân nhiều lớp Xét một ví dụ của bài toán phân lớp như hình vẽ 2-3 ở đó ta phảitìm một đường thắng sao cho bên trái nó toàn là các điểm đỏ, bên phải nó toàn là các điểmxanh Bài toán mà dùng đường thắng để phân chia này được gọi là phân lớp tuyến tính
(linear classification).
Hình 2-1 Đường phân lớp tuyến tinh
Hàm tuyến tính phân biệt hai lớp như sau:
" (x) € RTM là véc to đặc trưng, ở làm hàm ánh xạ từ không gian đầu vào sang
không gian đặc trưng.