Luận văn thạc sĩ công nghệ thông tin xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh

Từ đó đề xuất mô hình cóthể tự động phát hiện những trang web có nội dung không lành mạnh sử dụng ngônngữ tiếng Việt bằng các kỹ thuật rút trích thông tin từ website cũng như ứng dụngkha

Trang 1

TRƯỜNG ĐẠI HỌC LẠC HỒNG

***

CAO NGUYỄN THỦY TIÊN

XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE

CÓ NỘI DUNG KHÔNG LÀNH MẠNH

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Đồng Nai, Năm 2011

Trang 2

TRƯỜNG ĐẠI HỌC LẠC HỒNG

***

CAO NGUYỄN THỦY TIÊN

XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE

CÓ NỘI DUNG KHÔNG LÀNH MẠNH

Chuyên ngành: CÔNG NGHỆ THÔNG TIN

Mã số: 60 48 05

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS VŨ ĐỨC LUNG

Đồng Nai, 2011

Trang 3

Tôi xin cam đoan luận văn thạc sỹ công nghệ thông tin “Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh” là kết quả của quá trình

học tập, nghiên cứu khoa học độc lập, nghiêm túc

Các số liệu trong luận văn là trung thực, có nguồn gốc rõ ràng, được trích dẫn

và có tính kế thừa, phát triển từ các số liệu, tạp chí, các công trình nghiên cứu đãđược công bố, trên các website

Các phương pháp nêu trong luận văn được rút từ những cơ sở lý luận và quátrình nghiên cứu tìm hiểu

Đồng Nai, ngày 15 tháng 10 năm 2011

Tác giả

Cao Nguyễn Thủy Tiên

Trang 4

Trước hết tôi xin gởi lời cảm ơn chân thành đến ban giám hiệu và tập thể thầy

cô trường Đại học Lạc Hồng đã quan tâm tổ chức và giảng dạy khóa cao học

công nghệ thông tin và tạo môi trường thuận lợi cho chúng tôi được học tập và nghiên cứu chuyên sâu về CNTT.

Xin cảm ơn bạn bè và đồng nghiệp đã động viên, giúp đỡ cũng như tạo điều kiện thuận lợi cho tôi trong quá trình thực hiện luận văn.

Đặc biệt tôi xin gởi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn khoa học –

TS Vũ Đức Lung - đã tận tình chỉ bảo, hướng dẫn cho tôi trong quá trình nghiên cứu và thực hiện luận văn.

Cuối cùng, tôi biết ơn gia đình đã tạo mọi điều kiện thuận lợi cho tôi yên tâm trong suốt thời gian nghiên cứu và hoàn thành luận văn cao học này.

Biên Hòa, ngày 15 tháng 10 năm 2011

Cao Nguyễn Thủy Tiên

Trang 5

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC HÌNH VẼ iv

DANH MỤC BẢNG BIỂU v

MỞ ĐẦU 1

1 Tóm lược đề tài 1

2 Mục tiêu đề tài 1

3 Nội dung thực hiện 1

4 Phạm vi ứng dụng 2

CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 3

1.1 Bộ lọc web 3

1.1.1 Khái niệm 3

1.1.2 Đặc điểm web có nội dung không lành mạnh 4

1.1.3 Nguyên nhân cần xây dựng bộ lọc web 7

1.2 Các phương pháp lọc web có nội dung không lành mạnh 7

1.2.1 Bộ lọc web dựa vào địa chỉ mạng 7

1.2.2 Bộ lọc web dựa vào URL (Universal Resource Locator) 9

1.2.3 Bộ lọc web dựa vào DNS 12

1.2.4 Bộ lọc web dựa vào từ khóa (key word) 13

1.3 Những phần mềm lọc web hiện nay 14

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 16

2.1 Tổng quan khai phá dữ liệu 16

Trang 6

2.1.1.1 Khái niệm 16

2.1.1.2 Một số loại khai phá Text 16

2.1.1.3 Quy trình khai phá Text 17

2.1.2 Khai phá web 18

2.1.2.1 Khái niệm 18

2.1.2.2 Phân loại khai phá web 18

2.1.2.3 Phương pháp biểu diễn trang web 19

2.1.3 Xử lý văn bản tự động 21

2.1.3.1 Rút trích đặc trưng văn bản 21

2.1.3.2 Biểu diễn văn bản bằng vector đặc trưng 22

2.2 Lọc nội dung trang web bằng thuật tốn Nạve Bayes 25

2.2.1 Giới thiệu 25

2.2.2 Học Bayes (Bayes Learning) 25

2.2.3 Cơng thức Bayes 28

2.2.4 Các bước tiến hành lọc nội dung bằng mạng Bayes 30

2.3 Phương pháp tách từ trong tiếng Việt 31

2.3.1 Tình hình nghiên cứu 31

2.3.2 Một số phương pháp tách từ 32

2.3.2.1 Tách câu dựa trên Maximum Entropy 32

2.3.2.2 Phương pháp khớp tối đa (Maximum Matching) 34

2.3.2.3 Phương pháp WFST (Weighted Finite – State Transducer) 35

2.3.2.4 Bài tốn tách từ và cơng cụ vnTokenizer 37

2.3.2.5 Phương pháp tách từ dựa trên sự xác suất tồn tại của từ khơng phụ thuộc vào ngữ nghĩa 38

Trang 7

2.4 Phân tích nội dung website 42

2.4.1 Phân loại nội dung website 42

2.4.2 Đặc trưng của ngôn ngữ tiếng Việt 43

2.4.3 Phương pháp xử lý nội dung website 44

2.4.4 Phân tích câu 45

CHƯƠNG 3: ỨNG DỤNG 47

3.1 Xây dựng bộ lọc nội dung web tiếng Việt không lành mạnh 47

3.1.1 Ý tưởng đề xuất 47

3.1.2 Hướng tiếp cận 47

3.1.3 Tiến trình thu thập nội dung 48

3.1.4 Quy trình thực hiện 49

3.1.4.1 Tiến trình 1 50

3.1.4.2 Tiến trình 2 53

3.1.4.3 Tiến trình 3 55

3.2 Kiến trúc hệ thống chương trình 56

3.2.1 Trình duyệt web với các chức năng cơ bản thông thường 56

3.2.2 Các chức năng cơ bản của hệ thống 56

3.3 Chức năng của chương trình 57

3.3.1.Giao diện chính của chương trình 57

3.3.2 Sơ đồ chức năng của chương trình 58

3.3.2.1 Chức năng đăng nhập hệ thống 58

3.3.2.2 Chức năng chương trình 59

3.4 Chức năng học từ tiếng Việt 60

3.5 Chức năng xử lý 61

Trang 8

3.5.2 Quản lý bộ từ điển tiếng Việt 61

3.5.3 Phân tích câu đối với nội dung website tiếng Việt 62

3.5.4 Phân tích nội dung website tiếng Việt 63

3.6 Chức năng huấn luyện từ cho việc lọc nội dung 63

3.6.1 Huấn luyện từ tiếng Anh 64

3.6.2 Huấn luyện từ tiếng Việt 64

3.7 Phân loại nội dung website 65

3.7.1 Nội dung tiếng Anh 65

3.7.2 Nội dung tiếng Việt 65

3.8 Quản lý các thông số hệ thống 66

3.9 Quản lý các danh sách 67

3.9.1 Black List 67

3.9.2 White List 68

3.10 Kết quả thực nghiệm và đánh giá kết quả đạt được 68

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 70 TÀI LIỆU THAM KHẢO

Trang 9

Hình 1.1 – Màn hình trình duyệt cấm truy cập 3

Hình 1.2 – Báo cáo tìm kiếm từ khóa “sex” tại Việt Nam 6

Hình 1.3 – Báo cáo tìm kiếm từ khóa “sex” trên thế giới 6

Hình 2.1 – Sơ đồ lĩnh vực khai phá web 18

Hình 2.2 – Quy trình tách từ 37

Hình 3.1 – Tiến trình thu thập nội dung 49

Hình 3.2 – Mô hình tổng quát lọc nội dung không lành mạnh 50

Hình 3.3 – Mô hình tách câu trong tiếng Việt 51

Hình 3.4 – Mô hình tách từ đơn tiếng Việt 52

Hình 3.5 – Mô hình tách từ ghép tiếng Việt 53

Hình 3.6 – Mô hình tính xác suất cho từ ghép 54

Hình 3.7 – Mô hình cập nhật bộ từ điển 55

Hình 3.8 – Giao diện chính của chương trình 57

Hình 3.9 – Giao diện thông báo không cho truy cập nội dung website 58

Hình 3.10 – Chức năng đăng nhập hệ thống chương trình quản lý 58

Hình 3.11 – Chức năng học từ đơn và từ ghép tiếng Việt 61

Hình 3.12 – Lấy nội dung website cần phân tích 61

Hình 3.13 – Bộ từ điển tiếng Việt 62

Hình 3.14 – Phân tích câu trong tiếng Việt 62

Hình 3.15 – Phân tích nội dung website tiếng Việt 63

Trang 10

Hình 3.17 – Huấn luyện từ tiếng Việt 64

Hình 3.18 – Phân lớp nội dung website tiếng Anh 65

Hình 3.19 – Phân lớp nội dung website tiếng Việt 66

Hình 3.20 – Quản lý thông số hệ thống 67

Hình 3.21 – Danh sách Black List 67

Hình 3.22 – Danh sách White List 68

Trang 11

Bảng 1.1 – Kết quả đánh giá của NetProject 9

Bảng 1.2 – Một số sản phẩm lọc web theo phương thức URL 11

Bảng 2.1 – Sự khác biệt cơ bản giữa tiếng Anh và tiếng Việt 42

Bảng 3.1 – Bảng mô tả chức năng của chương trình 59

Bảng 3.2 – Kết quả xây dựng bộ từ điển tiếng Việt 68

Bảng 3.3 – Kết quả phân loại web 69

Trang 12

MỞ ĐẦU

1 Tóm lược đề tài

Trong thời kỳ hiện nay, Internet ngày càng phát triển mạnh mẽ và trở nênthông dụng đối với mọi lứa tuổi đặc biệt là thanh thiếu niên, học sinh, sinh viên.Lợi ích thiết thực nhất mà Internet mang lại đó là cung cấp nguồn tài nguyên thôngtin vô tận cho người sử dụng, nó góp phần không nhỏ vào việc nâng cao kiến thứccho lứa tuổi thanh thiếu niên Tuy nhiên, mặt mạnh của Internet cũng chính là yếuđiểm của nó, ngoài những kiến thức hữu ích thì người dùng cũng dễ dàng tìm thấynhững nội dung không lành mạnh trên Internet

Chính vì vậy, mục đích chính của đề tài là nghiên cứu các phương pháp và đềxuất kỹ thuật ngăn chặn tự động các trang web có nội dung bằng tiếng Việt khônglành mạnh

2 Mục tiêu đề tài

Tìm hiểu đặc trưng cũng như sự phát triển của website có nội dung không lànhmạnh, kết hợp phân tích các hệ thống lọc web hiện có Từ đó đề xuất mô hình cóthể tự động phát hiện những trang web có nội dung không lành mạnh sử dụng ngônngữ tiếng Việt bằng các kỹ thuật rút trích thông tin từ website cũng như ứng dụngkhai phá dữ liệu văn bản, đặc biệt sử dụng thuật toán Naive Bayes nhằm xác địnhngưỡng xác suất website không lành mạnh để có hướng xử lý phù hợp

Bênh cạnh đó, hiện thực hóa mô hình thành một trình duyệt web có khả năng

tự động ngăn chặn những website tiếng Việt có nội dung không lành mạnh

3 Nội dung thực hiện

Nội dung chính cần thực hiện trong đề tài gồm các phần sau:

−Nghiên cứu tổng quan các hệ thống lọc web “đen” thông dụng hiện nay, xácđịnh những điểm bất cập từ những chương trình ứng dụng lọc web hiện có,những điểm mạnh, điểm yếu của những phương pháp xây dựng bộ lọc web

Trang 13

−Nghiên cứu những điểm mạnh của các kỹ thuật phân loại văn bản nhằm áp dụng

nĩ tốt nhất vào đề tài nghiên cứu

−Tìm hiểu các phương pháp tách từ trong tiếng Việt, từ đĩ lựa chọn phương pháptối ưu nhất để giải quyết bài tốn lọc nội dung

−Nghiên cứu các thuận tốn, đặc biệt là thuật tốn Nạve Bayes

−Đề xuất phương pháp lọc web phù hợp và xây dựng mơ hình

−Cài đặt bộ lọc web hiện thực hĩa vấn đề nghiên cứu

4 Phạm vi ứng dụng

Đề tài “Xây dựng bộ lọc phát hiện các website cĩ nội dung khơng lành mạnh”

được ứng dụng bằng một trình duyệt giúp phụ huynh kiểm sốt được quá trình truycập vào các website của con em mình, hạn chế truy cập vào các website cĩ nộidung khơng lành mạnh

Trang 14

CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 Bộ lọc web

1.1.1 Khái niệm

Bộ lọc web là phần mềm có chức năng lọc nội dung hiển thị trên một trìnhduyệt hay khóa một vài vị trí của website mà người dùng cố gắng truy cập vào Bộlọc kiểm tra nội dung hay địa chỉ của trang web dựa vào tập luật và được thay thếnội dung không mong muốn bằng một trang web thay thế, thường trang này có nộidung có dòng “Access Dinied”

Quản trị hệ thống nắm quyền kiểm soát và loại nội dung đi qua bộ lọc Các bộlọc web thường được sử dụng trong các trường học, thư viện, các dịch vụ Internetcông cộng và tại gia đình nhằm giữ an toàn cho đối tượng thanh thiếu niên tránhđược những nội dung không lành mạnh vì lứa tuổi này chưa có ý thức việc mìnhlàm

Hình 1.1 – Màn hình trình duyệt cấm truy cập

Trang 15

1.1.2 Đặc điểm web có nội dung không lành mạnh

Hiện nay, nhiều người quan tâm nhiều đến vấn đề web “đen” hay web “xấu”.Mọi người tùy theo nhận thức và quan điểm của mình có thể có các đánh giá khácnhau Tuy nhiên, thông thường một trang web được coi là xấu khi có một trong haiđiều kiện sau:

+ Nội dung khiêu dâm, đồi trụy

+ Nội dung phản động chính trị

Nội dung khiêu dâm, đồi trụy

Các trang web này đã đang và sẽ luôn là đề tài nóng bỏng được mọi ngườiquan tâm Các trang web này sử dụng công cụ khiêu dâm, gợi dục như hình ảnhsex, truyện sex, … để thu hút người dùng Internet truy cập vào

Ở Châu Á nói chung và tại Việt Nam nói riêng, các website này làm băng hoại

xã hội, khiến cho các thành phần thanh thiếu niên và một số người trưởng thànhsao lãng học tập, làm việc, nảy sinh tư tưởng bệnh hoạn, gia tăng các tệ nạn đingược lại với truyền thống văn hóa tốt đẹp của người Việt Nam

Tuy nhiên ta cũng phải nhìn nhận rằng ở một số quốc gia có nền văn hóathoáng như ở Mỹ hay Châu Âu, vẫn cho phép một số website khiêu dâm được cấpphép hoạt động và chỉ cho phép người trưởng thành truy cập vào Các trang webnày hoạt động có tổ chức rõ ràng và dưới sự kiểm soát của chính quyền nước sởtại Như vậy, các trang web này chưa hẳn đã “xấu” nếu xét theo khía cạnh pháp lý.Vậy căn cứ vào đâu để chúng ta phân biệt đâu là một trang web “xấu”, đâu làmột trang web “không xấu” ? Điều đó phụ thuộc vào truyền thống văn hóa củangười Việt Nam, căn cứ vào luật pháp hiện tại của nước Việt Nam chưa có thừanhận ngành công nghiệp sex, tất cả các trang web sử dụng công cụ khiêu dâm đều

bị xem là trang web “xấu”

Trang 16

Nội dung phản động chính trị

Do cá nhân hoặc tổ chức phản động với mục đích tuyên truyền tư tưởng phảnđộng, chống phá nhà nước Việt Nam, kêu gọi mọi người “tự do chính trị”, “đanguyên đa đảng”, … Các trang web này có rất nhiều, chủ yếu đặt tại nước ngoài,

sử dụng tiếng Việt là ngôn ngữ chính để tuyên truyền Hệ quả sự tồn tại của cáctrang web này là sự chia rẽ nội bộ, kích động các phần tử vốn đã có tư tưởng phảnđộng Cần có cái nhìn nghiêm túc đối với những trang web này, không thể vì lý do

“tự do ngôn luận” mà có thể lợi dụng điều này để thực hiện ý đồ phá hoại

Tính đến năm 2010, Việt Nam hiện đứng thứ 3 ở khu vực Đông Nam Á với24.269.083 người sử dụng Internet chiếm 2.9% người dùng Internet châu Á, vớitốc độ tăng trưởng trung bình 12.034,5% trong 10 năm qua Việt Nam vẫn đang làmột trong những thị trường công nghệ viễn thông đầy triển vọng ở châu Á cũngnhư khu vực, thu hút sự quan tâm của các nhà đầu tư nước ngoài

(internetworldstats.com)

Theo Google Trends (Hot Trends) là công cụ theo dõi xu hướng tìm kiếm của

từ khóa theo vùng miền, thành phố, ngôn ngữ thì Việt Nam nằm trong top 3 nhữngnước thích tìm hiểu về sex trực tuyến nhất toàn cầu trong năm 2011 Xét về vùng

miền ở Việt Nam, theo thống kê “Hà Nội” là nơi có tìm kiếm từ khóa “sex” nhiều

nhất, tiếp theo là Vũng Tàu và Quãng Ngãi Theo bảng thống kê phần lớn nhữngnơi có mật độ tìm kiếm từ khóa sex cao thường tập trung ở các thành phố du lịch

Trang 17

Hình 1.2 – Báo cáo tìm kiếm từ khóa “sex” tại Việt Nam [12]

Hình 1.3 – Báo cáo tìm kiếm từ khóa “sex” trên thế giới [12]

Trang 18

1.1.3 Nguyên nhân cần xây dựng bộ lọc web

Từ những nguyên nhân nêu trên, tại Việt Nam việc xây dựng bộ lọc web “đen”nhằm phục vụ cho vấn đề an toàn trong việc truy cập mạng Internet là một yêu cầucấp thiết và luôn làm đau đầu các nhà quản lý

Hiện nay trên thị trường có rất nhiều phần mềm lọc web “đen” nhưng hầu hếtnhững phần mềm này đều có chung một nhược điểm là làm chậm đường truyền do

sử dụng các phép kiểm tra và so sánh liên tục, một nhược điểm khác là không có

cơ chế tự động cập nhật hành vi sử dụng web của người dùng Phần dưới sẽ trìnhbày một số phương pháp lọc website có nội dung không lành mạnh

1.2 Các phương pháp lọc web có nội dung không lành mạnh

1.2.1 Bộ lọc web dựa vào địa chỉ mạng

 Bức tường lửa (Firewall)

Firewall là một kỹ thuật được tích hợp vào hệ thống mạng để chống sự truy cậptrái phép, nhằm bảo vệ các nguồn thông tin nội bộ và hạn chế sự xâm nhập khôngmong muốn vào hệ thống Thông thường Firewall được đặt giữa mạng bên trong(Intranet) của một công ty, tổ chức, … vai trò chính là bảo mật thông tin, ngănchặn sự truy cập không mong muốn từ bên ngoài và cấm truy cập từ bên trong(Intranet) tới một số địa chỉ nhất định trên Internet

Ưu điểm: Đa số các các hệ thống firewall đều sử dụng bộ lọc packet Một trong

những ưu điểm của phương pháp này là chi phí thấp vì cơ chế lọc packet đã đượcbao gồm trong mỗi phần mềm router

Hạn chế: việc định nghĩa các chế độ lọc packet là một việc phức tạp, đòi hỏi

người quản trị mạng cần có hiểu biết chi tiết về các dịch vụ Internet, các dạngpacket header, …

Trang 19

 Danh sách đen (Back List) và danh sách trắng (White List)

Danh sách trắng và danh sách đen là 2 phương pháp phổ biến được nhiều nhàcung cấp phần mềm sử dụng, vì nó đơn giản, dễ quản lý và cho một kết quả có thểchấp nhận

Danh sách trắng là danh sách các website được phép truy cập, danh sách đen làdanh sách những trang cấm, các danh sách này thường được tạo bằng cách thủcông bằng cách khảo sát trang web để đưa ra quyết định trang web này là cấm hayđược phép truy cập

Hàng này, số lượng các website mới xuất hiện rất nhiều gây khó khăn cho việccập nhật danh sách Backlist, Whitelist và được do làm thủ công nên mất nhiều thờigian cho việc bổ sung các danh sách này

 Lọc web qua địa chỉ IP

Đây là kỹ thuật ngăn chặn trực tiếp trên đường mạng bằng các địa chỉ IP củamột website Kỹ thuật này có thể là thiết thực trong bối cảnh các website thường bịtruy cập thông qua địa chỉ IP hay nó có thể truy cập thông qua IP thay cho tênDSN Đa số trường hợp, không được khuyến dùng do 3 sự kém cỏi sau:

−Ngăn chặn truy cập đến một IP cũng sẽ ngăn chặn lưu thông mạng đến nhữngsite có host ảo trên cùng IP ngay cả khi nó có nội dung liên quan đến vấn đề cấmhay không

−Ngăn chặn truy cập đến một IP cũng sẽ ngăn chặn lưu thông mạng đến mỗithành viên của cổng thông tin nằm trên IP đó Nó sẽ ngăn chặn một thành phầncủa website không phải là một phần hay một tập các trang con

−Đó là sự thay đổi thường xuyên của các website bị lọc ngay khi chủ nhânwebsite phát hiện ra bị lọc Hành động này dựa trên DNS để cho phép ngườidùng vẫn còn truy cập đến trang web Bảng thống kê phía dưới sẽ so sánh kếtquả lọc của một số phần mềm theo dự án khảo sát website của dự án NetProject

Trang 20

Bảng 1.1 – Kết quả đánh giá của NetProject.

Phần mềm lọc Tỉ lệ khóa đúng Efectiveness Rate

1.2.2 Bộ lọc web dựa vào URL (Universal Resource Locator)

 Dựa vào từ khóa (keyword) của URL

Với cách tiếp cận này có một danh sách chứa các từ khóa (keyword) được hìnhthành để nhận ra những địa chị web bị chặn URL keyword là chuỗi con nằm trongmột địa chỉ web, những địa chỉ web có chứa chuỗi này thường là những trang webxấu

Theo khảo sát [5] [8], đa phần những trang web xấu dùng từ ngữ khiêu dâm,gợi dục làm tên miền cho website của mình với mục đích thu hút sự chú ý củangười dùng Internet Với những trang web như vậy, việc chặn trực tiếp ngay từ địachỉ URL mà không cần quan tâm đến nội dung trang web là một điều đúng vìkhông có một trang web nào có nội dung là tốt nếu địa chỉ là xấu

Trang 21

do đều chứa các từ khóa là “sex”

Hoặc các trang web sex sau đây

−Chắc chắn bỏ qua các trang web không sử dụng URL keyword phổ biến

−Một số ít những trang web không xấu có chứa một URL keyword nào đó và bịxem là xấu

 Kỹ thuật lọc web dựa vào URL

Đây là kỹ thuật lọc bằng cách quan sát lưu thông web (HTTP) bằng cách theodõi URL và các host field bên trong các yêu cầu HTTP để nhận ra đích đến củayêu cầu Host field đuợc dùng riêng biệt bởi các máy chủ web hosting để nhận ratài nguyên nào được trả về

Lọc web qua URL [9] thường được xếp vào loại chủ đề rộng lớn về “Content

Management” Các kỹ thuật lọc qua URL ra đời từ 2 kiểu lọc by” và

“pass-through”.

Lọc theo “pass-by”: xử lý trên đường mạng mà không cần phải trực tiếp trong

đường nối giữa người dùng và internet Yêu cầu ban đầu được chuyển đến máy chủweb đầu cuối Nếu yêu cầu bị cho là không thích hợp thì bộ lọc sẽ ngăn chặnnhững trang gốc từ bất cứ yêu cầu truy cập nào Kỹ thuật này cho phép thiết bị lọckhông bao gồm bộ định hướng yêu cầu Nếu thiết bị lọc bị hỏng, lưu thông mạngvẫn tiếp tục hoạt động một cách bình thường

Trang 22

Lọc theo “pass-through”: gồm việc sử dụng một thiết bị trên đường của tất cả yêu cầu của người dùng Vì thế lưu thông mạng đi qua bộ lọc “pass-through” là

thiết bị lọc thực sự Thường bộ lọc này nằm trong các kiểu firewall, router,application switch, proxy server, cache server

 Tùy chọn bộ lọc URL

Điểm đặc biệt của các sản phẩm theo phương pháp này cho phép người dùngchỉ định các URL bằng cách thêm hay bớt các URL khỏi “danh sách các site xấu”(Bad Site List) mặc dù các website nguyên thủy trong danh sách không thể bị loại

bỏ Dưới đây là danh sách các sản phẩm lọc web phổ biến

Bảng 1.2 – Một số sản phẩm lọc web theo phương thức URL

Sản Phẩm Hãng (Công ty)

CyBlock Web Filter Wavecrest Computing

Ưu điểm khi sử dụng bộ lọc qua URL

−Những Website ảo không bị ảnh hưởng: Kỹ thuật này không ảnh hưởng đến các

máy chủ web ảo khi chúng cùng dùng một IP như những website hạn chế Mộtwebsite bị chặn và website không bị chặn có thể chia sẻ cùng một địa chỉ IP

−Không ảnh hưởng đối với việc thay đổi IP: Trong phần lớn tình huống, sự thay

đổi IP của website bị hạn chế sẽ không ảnh hưởng đến phương pháp này Vìphương pháp lọc này không phụ thuộc vào địa chỉ IP Chủ sở hữu những trangweb có thể đòi bất cứ IP nào họ muốn, nhưng người dùng đứng sau bộ lọckhông thể truy cập được

Trang 23

Hạn chế khi sử dụng bộ lọc thông qua URL

−Thường không thể ngăn chặn các cổng phi tiêu chuẩn:

+ Những Web server làm việc với cổng tiêu chuẩn rất tốt

+ Website trên các cổng phi tiêu chuẩn thì khó khăn cho việc ngăn cấm vìchúng yêu cầu một cấp độ cao hơn trong bộ lọc

+ Một giải pháp lọc qua URL có thể là kỹ thuật có khả năng cần thiết chonhững kết nối HTTP trên các cổng phi tiêu chuẩn

−Không làm việc với các lưu thông bị mã hóa: vì HTTP yêu cầu sử dụng

SSL/TLS bị mã hóa Phương pháp lọc theo URL không thể đọc các hostfield.Cho nên, bộ lọc không có hiệu quả phát hiện một tài nguyên nào trên một địa chỉ

IP mà yêu cầu thực sự định hướng vào

Tóm lại, các server cần có bộ lọc để thực hiện loại bỏ một số trang web khôngtốt, nhưng nó có thể làm cho hệ thống chậm lại

1.2.3 Bộ lọc web dựa vào DNS

Những website bị lọc sẽ hoàn toàn không thể truy cập được đến tất cả các cấuhình sử dụng bộ lọc nameserver cho bộ phân giải tên do tất cả các bộ lọcnameserver sẽ trả về thông tin bất hợp lệ khi yêu cầu phân giải một hostname củawebsite bị lọc Như vậy không thể truy cập đến tài liệu trên của máy chủ chứaWebsite Tuy nhiên, các website không bị lọc sẽ cho phép truy cập miễn là chúng

nó có một hostname khác từ các website bị lọc Vì tên của chúng không được hỗtrợ thông tin bất hợp lệ bởi bộ lọc nameserver nên dữ liệu đúng sẽ trả về cho bất cứngười dùng nào yêu cầu phân giải tên và website hiển nhiên là có thể truy cập vàođược

Ưu điểm

−Sử dụng đa nghi thức (multi-protocol): http, ftp, gropher và bất kỳ nghi thức nàokhác dựa trên hệ thống tên

Trang 24

−Không bị ảnh hưởng bởi việc thay đổi IP: Khi thay đổi IP của một websitekhông ảnh hưởng đến phương pháp lọc này, đây là phương pháp lọc hoàn toànđộc lập với địa chỉ IP.

Nhược điểm

−Không hiệu quả đối với các URL có chứa địa chỉ IP:

+ Phần lớn những địa chỉ của một website ở dạng DNS (www.lhu.edu.vn), tuynhiên cũng có những địa chỉ được chỉ định bằng một địa chỉ IP thay vì làdạng DNS (http://118.69.126.40)

+ Trong trường hợp này nó được truy cập đến bằng địa chỉ IP mà không phảidùng địa crhỉ DNS của nó

−Toàn bộ web server bị chặn hoàn toàn:

+ Kỹ thuật không cho phép việc khóa có chọn lựa các trang còn lại trên mộtwebserver Vì thế, nếu một trang bị cấm là www.exp.com/bad.htmthì có thểtất cả các truy cập không thể truy xuất đến www.exp.comdù nó không trongdanh sách bị khóa

−Ảnh hưởng đến các subdomain

+ Xét về kỹ thuật, một tên miền đơn như example.com trong URLhttp://www.example.com được dùng truy cập đến web server Cùng mộtthời điểm, domain name có thể phục vụ như một domain cấp trên của cáccổng khác như host1.example.com Trong trường hợp này, những địa chỉDNS dạng www.example.com có thể bị phân giải sai Ngoài ra, nó cũng làmcho bộ phân giải tên miền bị sai đối với các miền con Và nó còn ảnh hưởngđến các dịch vụ chạy trên mạng như e-mail

1.2.4 Bộ lọc web dựa vào từ khóa (key word)

Tương tự như cách tiếp cận dựa vào URL keyword [10], cũng có một danhsách các từ khóa để nhận ra những trang web bị chặn Một trang web cấm sẽ chứa

Trang 25

nhiều từ khóa không hợp lệ, đây là cơ sở để nhận ra trang web bị cấm Điều quantrọng đối với phương pháp này là ngữ nghĩa của từ khóa theo ngữ cảnh, điều nàylàm cho hệ thống có những nhầm lẫn khi đưa ra một quyết định về một trang web

có được thể hiện hay không

Một website chuyên đề bệnh ung thư có thể bị khóa với lý do bài viết về “bệnh

ung thư vú”, ta thấy được rằng nếu trong bài viết có đề cập quá nhiều đến từ khóa

nằm trong danh sách từ khóa chặn là “vú” thì vô tình hệ thống sẽ nhầm lẫn và

khóa trang này

Vấn đề tiếp theo đó là các từ cố ý hay vô ý đánh vần sai, ở một số trang chứanội dung xấu thì ngôn từ được dùng trong trang web của nó bị thay đổi để đánh lừa

hệ thống lọc, tuy nhiên khi người sử dụng đọc thì có thể hiểu ngay đó chỉ là saichính tả thôi còn đối với hệ thống lọc điều đó làm ảnh hưởng lớn đến hệ thống

1.3 Những phần mềm lọc web hiện nay

SurfControl – Enterprise Threat Protecion: đây là phần mềm của hãng

SurfControl, phần mềm này thiết kế theo cách tiếp cận lọc web và ngăn chặn từproxy qua URL và từ khóa, có khoảng 20 cách ngăn chặn

Internet Filter – Web Filters: do hãng iPrism Internet Filters & Web Filters

phát triển, là phần mềm thực hiện giám sát và ngăn chặn Phần mềm này đượcquảng cáo là dùng kỹ thuật lọc web động kiểm soát nội dung trang web ngay từ ởngõ vào Tuy nhiên, theo hướng dẫn của nhà sản xuất thì phần mềm này cũng cóbóng dáng của kỹ thuật dùng phương pháp lọc chặn từ khóa

DWK4.1: Depraved Web Killer (DWK) do tác giả Vũ Lương Bằng dự thi

chung kết cuộc thi Trí Tuệ Việt Nam năm 2004, tính đến thời điểm này phiên bảnmới nhất là v4.1 (2011) có nhiều chức năng như:

– Ngăn chặn các trang web có nội dung xấu (từ khóa, URL)

– Ghi nhật ký các chương trình đã được chạy trên máy

– Ghi nhật ký các trang web đã được truy cập

Trang 26

– Ghi nhật ký các trang web xấu mà phần mềm đã ngăn chặn.

– Gửi nhật ký đến địa chỉ mail do người dùng thiết lập

FamilyWall: là phần mềm bức tường lửa chạy thường trú trên máy tính của

người sử dụng Chức năng chủ yếu của FamilyWall là ngăn chặn việc truy cập cácWebsite có nội dung xấu trên mạng Internet, bao gồm các lớp kiểm soát chính sau:các từ khóa có nội dung xấu, nội dung các trang Web, danh sách các Website xấu

đã được phát hiện, …

Tổng thể chung, các phần mềm trên thực hiện tốt các chức năng chặn từ khóa, chặn URL, … nhưng hầu hết các phần mềm này không có cơ chế tự học, cơ chế tự học giúp cho nguồn dữ liệu ngày càng phong phú hơn.

Trang 27

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Tổng quan khai phá dữ liệu

2.1.1 Khai phá Text

2.1.1.1 Khái niệm

Theo Hà Quang Thụy [2] , Khai phá Text là quá trình trích chọn ra các tri thứcmới, có giá trị và tác động được đang tiềm ẩn trong các văn bản để sử dụng các trithức này vào việc tổ chức thông tin tốt hơn nhằm hỗ trợ con người

Về bản chất, khai phá Text là sự kết hợp giữa khai phá dữ liệu và xử lý ngônngữ tự nhiên (NLP: Natural Language Processing)

2.1.1.2 Một số loại khai phá Text

Phân tích kết hợp dựa trên từ khóa: Một tài liệu có thể xem như một chuỗi ký

tự và có thể xác định bằng tập các từ khóa Việc phân tích các tài liệu dựa trên từkhóa để tìm ra một kết luận về tài liệu đó

Phân tích tài liệu tự động: Giống như một người trợ lý, hỗ trợ đắc lực trong

việc phân loại tài liệu bằng cách “đọc” tất cả các nguồn tài liệu đến và xếp nó theo

từng loại một cách tự động

Đo độ tương đồng giữa các tài liệu: Đo độ tương đồng là việc xem xét tài liệu

đó xem nó có thuộc về một dòng văn học nào hay thuộc về một tác giả nào đó.Hoặc cũng có thể dùng để xếp loại văn bản thuộc về lĩnh vực nào

Phân tích trình tự: Đoán sự kiện, dự báo xu hướng Như đã nói bên trên, văn

bản là một chuỗi các ký tự diễn đạt một ý Nhiều tài liệu gởi đến, có nhiều cấp độdiễn đạt về một vấn đề Từ các vấn đề này hệ thống có thể đưa ra dự đoán về cácdiễn biến của hiện tượng hay những điều sẽ xảy ra tiếp theo

Xác định các hiện tượng không bình thường: Hiện tượng không bình thường là

một văn bản đến có sự khác biệt hay “cá tính” quá khác so với cùng loại nó đếntrước đó để cho một kết luận về sự bất thường của văn bản

Trang 28

2.1.1.3 Quy trình khai phá Text

Quá trình khai phá text trải qua các bước sau

−Thu thập dữ liệu văn bản thuộc miền ứng dụng Ở bước này có 2 điều cần được

lưu ý Thứ nhất, thu thập dữ liệu văn bản thuộc miền ứng dụng mà không phải làtập tất cả các văn bản có thể có của thế giới thực Ví dụ, bài toán khai phá dữliệu văn bản của Rich Caruana cùng cộng sự, miền ứng dụng quy định rằng, tập

dữ liệu chỉ là tập tất cả các công trình khoa học; còn trong bài toán khai phá dữliệu văn bản thuộc lĩnh vực y tế và chăm sóc sức khỏe thì chỉ cần quan tâm thuthập các văn bản về y tế và chăm sóc sức khỏe Thứ hai, yêu cầu của bước thuthập dữ liệu là tập dữ liệu thuộc miền ứng dụng Cụ thể, tập dữ liệu trang web

mà máy tính tìm kiếm của Google thu thập được cho là đại diện cho toàn bộ tậpmọi trang web trên Internet Mô hình sinh trang web, tính ngẫu nhiên của việcthu thập dữ liệu là yếu tố cần được quan tâm trong thuật toán thu thập trang web.Tập trang web mà Google thu thập được dù rất đồ sộ, song không phải là toàn

bộ mọi trang web có thể

−Biểu diễn dữ liệu văn bản: sang khuôn dạng phù hợp với bài toán khai phá văn

bản Biểu diễn dữ liệu văn bản càng phù hợp với bài toán khai phá văn bản, thìchất lượng của kết quả khai phá văn bản càng được nâng cao

−Lựa chọn tập dữ liệu đầu vào cho thuật toán khai phá dữ liệu: trong hầu hết

trường hợp, tập dữ liệu thuộc miền ứng dụng đã thu thập được là rất lớn Vì vậy,nhiều trường hợp là vượt qua khả năng xử lý về không gian và thời gian, đối vớicác thuật toán khai phá dữ liệu Do vậy, cần chọn ra từ tập dữ liệu thu thập được

01 tập con để thực hiện bài toán khai phá dữ liệu Các yếu tố đảm bảo tính đạidiện của tập dữ liệu thu thập được cũng được áp dụng trong các giải pháp lựachọn tập dữ liệu đầu vào cho thuật toán khai phá dữ liệu

−Thực hiện thuật toán khai phá dữ liệu đối với tập dữ liệu đã được lựa chọn để tìm ra các mẫu, các tri thức: đối với bài toán phân lớp văn bản, mẫu (tri thức)

Trang 29

được tích hợp thành bộ phân lớp kết quả và bộ phân lớp này sẽ được sử dụngvào việc phân lớp đối với các văn bản mới.

−Thực hiện việc khai thác sử dụng mẫu: các tri thức nhận được từ quá trình khai

phá văn bản vào thực tiễn hoạt động

2.1.2 Khai phá web

2.1.2.1 Khái niệm

Theo Hà Quang Thụy [2], Khai phá web là việc trích chọn ra các thành phầnđược quan tâm hay được đánh giá là có ích cùng các cùng các thông tin tiềm năng

từ các tài nguyên hoặc các hoạt động liên quan tới World Wide Web

Một cách trực quan có thể quan niệm khai phá web là sự kết hợp giữa khai phávăn bản với Công nghệ Web, hay cụ thể hơn là:

Khai phá Web = Khai phá dữ liệu + Xử lý ngôn ngữ tự nhiên + World Wide Web

Hiện tại, phần nội dung điển hình nhất trong trang web là văn bản, vì vậy, khaiphá văn bản web là một thành phần cơ bản của khai phá web Tuy nhiên, với sựtiến bộ không ngừng của công nghệ Internet, nhu cầu về khai phá dữ liệu đối vớicác dữ liệu đa phương tiện khác như hình vẽ, tiếng nói, ca nhạc, phim, … đã khôngngừng phát triển cả về chiều rộng lẫn chiều sâu

2.1.2.2 Phân loại khai phá web

Khai phá Web được phân thành 03 lĩnh vực chính: khai phá nội dung web, khaiphá cấu trúc web và khai phá sử dụng web

Hình 2.1 – Sơ đồ lĩnh vực khai phá web [2]

Khai phá web

Khai phá nội dung trang web

Khai phá cấu trúc web Khai phá sử dụng

web

Khai phá nội dung

trang web

Khai phá các mẫu truy cập Tối ưu hóa kết

quả trả về

Khai phá các xu

hướng cá nhân

Trang 30

Theo như sơ đồ trên, thấy được rằng phân loại khai phá web có nhiều lĩnh vựcnhưng nội dung chính của luận văn muốn đề cập ở đây là khai phá nội dung trangweb và khai phá cấu trúc trang web.

−Khai phá nội dung trang web: Phần lớn nội dung chính của trang web được chứatrong nội dung văn bản của trang web đó Khai phá nội dung trang web liênquan đến việc truy xuất các thông tin từ các văn bản có cấu trúc, văn bản siêuliên kết hay văn bản bán cấu trúc

−Khai phá cấu trúc trang web: Nhờ vào các kết nối giữa các văn bản siêu liên kết,World Wide Web chứa đựng nhiều thông tin hơn so với tập các văn bản nộidung trang web Ví dụ, số lượng liên kết trỏ tới 01 trang web được coi là một chỉ

số về mức quan trọng của trang web đó, đồng thời, các liên kết đi ra từ 01 trangweb chỉ ra rằng, các trang đích có nội dung liên quan đến các chủ đề được đềcập trong trang hiện tại Khai phá cấu trúc web là các quá trình, xử lý, nhằm rút

ra các tri thức từ cách tổ chức và liên kết giữa các tham chiếu của các trang web

2.1.2.3 Phương pháp biểu diễn trang web

Khác với một trang văn bản thông thường, trong nội dung một trang web còn

có các chỉ dẫn (liên kết) ngoài tới các trang web khác với ý nghĩa là nội dung đangđược nói tại trang web hiện thời cũng là 01 nội dung được quan tâm của trang webđược chỉ tới Trong nhiều trường hợp, nội dung tại trang web được chỉ dẫn tới còn

là 01 lời giải thích cho nội dung đang được quan tâm Điều đó có nghĩa là, một chủ

đề trong tập chủ đề của các trang web mà nó chỉ dẫn tới Quan hệ “chủ đề cùng

quan tâm” là đối xứng giữa hai trang web tồn tại một liên kết giữa chúng Chính vì

lý do đó, biểu diễn trang web có những điểm mở rộng so với biểu diễn thôngthường Những khía cạnh mở rộng đáng kể nhất của biểu diễn trang web so vớibiểu diễn văn bản thông thường gồm có việc mở rộng nội dung trang web từ cáctrang web kề cận nó và khai thác kiến thức trang web vào biểu diễn nó

Mở rộng nội dung văn bản trang web bằng nội dung văn bản trang web kề cận.

Trang 31

Khái niệm “kề cận” của hai trang web được hiểu theo nghĩa tồn tại ít nhất một

liên kết giữa chúng Việc mở rộng nội dung văn bản từ các văn bản kề cận nó xuấtphát từ nhận định cho rằng, việc sử dụng các siêu liên kết có nguồn gốc từ sự liênquan về nội dung giữa chúng

Có 04 phương án xây dựng biểu diễn một trang web:

– Nội bộ trang hiện thời

– Hợp không phân biệt nội dung trang hiện thời và kề cận

– Hợp phân biệt nội dung trang hiện thời với trang kề cận

– Tổng quát hóa của cách 3 với 4 mức kề cận

Trong 04 phương án trên thì

– Phương án đầu tiên chỉ sử dụng nội dung trang web hiện thời

– Phương án hai dùng trộn nội dung trang web hiện thời với các kề cận của nó– Phương án ba biểu diễn trang web gồm hai phần: phần đầu sử dụng nội dungtrang web hiện thời, phần hai dùng nội dung của các trang web kề cận

– Phương án bốn là phương án tổng quát hóa của phương án thứ ba theo

hướng số lượng mức được tăng lên từ 2 lên k Trong biểu diễn loại này, cho trước 01 mức k và 01 kho dữ liệu trang web Biểu diễn trang web sẽ bao gồm k thành phần

Khai thác các yếu tố trong trang web được bổ sung từ ngôn ngữ tạo trang web

Khai thác các yếu tố trong trang web được bổ sung từ ngôn ngữ tạo trang webnhư các thẻ tạo trang web vào việc xác định các giá trị trọng số tương ứng với các

từ Vì lý do các thẻ HTML trong một trang web thường được gán 01 ý nghĩa nhấtđịnh Do đó, việc khai thác các thẻ này sẽ làm cho biểu diễn của văn bản được giàuhơn

Ví dụ, cặp thẻ <title>…</title> được quy định là biểu diễn tiêu đề của nội dung trang web đề cập đến Cặp thẻ đề mục <h1>…</h1>, <h2>…</h2>,… được

qui định để hiển thị các đề mục trong nội dung trang web

Trang 32

Tiêu đề và các đề mục thường nêu các ý chính, quan trọng của trang web Do

đó, có thể gán cho nội dung (các từ khóa xuất hiện) trong các cặp thẻ này có trọng

số cao hơn so với các nội dung khác (các từ khóa ở các vị trí khác)

2.1.3 Xử lý văn bản tự động

Xử lý văn bản tự động (Automatic text processing) là một công đoạn vôcùng quan trong các lĩnh vực như khai thác văn bản (text mining), xử lý dữ liệu(Data analize) , rút trích thông tin (information extract), phân loại văn bản (textclassification), gom cụm văn bản (clustering text), tổng kết văn bản (TextSummarization), lập chỉ mục cho máy tìm kiếm (document index), so sánh độtương tự của 2 hay nhiều văn bản (Document similarity) …

− Phân tích ngữ nghĩa: Mục tiêu của phân tích ngữ nghĩa là tạo những dạng bên

Các từ khác nhau có thể sử dụng để mô tả những khái niệm tương tự nhau vàviệc phân tích hình thái học có thể giúp giải quyết điều này bằng cách đưa cácbiến thể về dạng chung…Trong một số ngôn ngữ, đặc biệt là tiếng Anh – có thểlàm điều này bằng cách tự động loại bỏ hậu tố

Kỹ thuật này gọi là Stemming, là một kỹ thuật để chuyển đổi các biến tố và

nguồn gốc khác nhau của một từ về một nguồn gốc chung, nghĩa là loại bỏ tiền

Trang 33

tố và hậu tố Mục đích của việc áp dụng kỹ thuật Stemming là để quy về dạng

cơ bản nhất của một từ để sử dụng trong tiến trình lấy thông tin mà cụ thể làviệc thay thế một từ nào đó trong câu truy vấn chẳng hạn như từ số nhiều thành

số ít…, bởi vì các từ ở dạng số ít thường xuất hiện nhiều hơn so với các từ ởdạng số nhiều, và điều này ảnh hưởng đến sự sắp xếp các tài liệu trả về

− Phân tích thống kê: Phân tích thống kê tần số sử dụng thuật ngữ đã được kiểmchứng là hữu ích Phương pháp đơn giản nhất là dựa trên tổng số lần xuất hiệncủa mỗi thuật ngữ (từ gốc, n-gram, cụm từ…) trong kho văn bản có chủ đề,công việc thường thực hiện là tìm những cụm từ sử dụng trong những ngữ cảnhkhác nhau sẽ đại diện cho những khái niệm khác nhau Việc phân tích các cụm

từ xuất hiện đồng thời có thể giúp giải quyết nghĩa của từ nhập nhằng nghĩa

− Phân tích cú pháp: Phân tích từ loại ở tất cả chủ đề và tốc độ xử lý những khovăn bản lớn đang trở thành hiện thực Phân tích từ giúp phán đoán những từkhông rõ nghĩa và các thành ngữ cú pháp như nhau Qua đó cung cấp thêmthông tin cho phân ích thống kê

− Phân tích sử dụng: Cách thức sử dụng tài liệu có thể có những gợi ý giá trị vềbản thân tài liệu đó Người ta có thể xác định được bốn loại thói quen của ngườidùng và từ đó có thể phân tích sử dụng và kiểm tra , duy trì, tham khảo và đánhgiá

2.1.3.2 Biểu diễn văn bản bằng vector đặc trưng

 Giới thiệu phương pháp

Sử dụng mô hình không gian vector (vector space model) là cách làm phổ biến

để biểu diễn các văn bản Mỗi văn bản sẽ tương ứng với một vectơ nhiều chiềutrong không gian Euclide Ở đây mỗi chiều sẽ tương ứng với một từ Dựa trên tậphợp các văn bản, có thể xây dựng khối lượng từ vựng tương đối đầy đủ, tương ứng

số chiều của không gian Điều quan trọng ngoài văn bản lưu trữ, các câu truy vấnđưa vào cũng phải được biểu diễn bằng vector Theo phương pháp này, sử dụng

Trang 34

mô hình không gian vector để mô tả đặc trưng của văn bản Trong đó số chiều củakhông gian vector phụ thuộc vào phương pháp rút trích đặc trưng văn bản sẽ nêu ở

sau và mỗi thành phần của vector đặc trưng là trọng số của 1 từ (term) trong hệ

D , , trong đó i là chỉ số dùng để nhận diện văn bản này và d→i là vector đặc

trưng của văn bản D i này , trong đó : d→ = (wi1, ,win) , và n là số luợng đặc trưng của vector văn bản , W ij là trọng số của đặc trưng thứ j, j∈{1 , 2 , ,n} .Trọng số W ijlà

là một đại lượng được sẽ được trình bày dưới đây

 Một số công thức tính vector thành phần của vector đặc trưng

Mỗi thành phần của vector đặc trưng là mỗi từ hay cụm từ Chất lượng củaviệc tách từ trong văn bản phụ thuộc vào phương pháp và kỹ thuật tách từ

n k

i tf

Trong đó

– n là tổng số văn bản trong cơ sở dữ liệu.

– tf ik là số lần từ k xuất hiện trong văn bản D i

– df k là tổng số văn bản có từ k.

+ Phương pháp đếm từ (Term count)

Theo phương pháp này, mỗi thành phần của vector đặc trưng được tính theocông thức sau:

Trang 35

– n là tổng số văn bản trong cơ sở dữ liệu.

– tf ik là số lần từ thứ k xuất hiện trong văn bản D i

– df k là tổng số văn bản có từ k.

+ Phương pháp nhị phân

Phương pháp này khá đơn giản, trọng số W ik =1 nếu từ i xuất hiện trong văn

bản D i và ngược lại thì W ik =0

 Các đặc điểm của vector đặc trưng của văn bản

−Số chiều không gian đặc trưng thường lớn

−Các đặc trưng độc lập nhau

−Các đặc trưng rời rạc nhau như khi vector đặc trưng d i có thể có nhiều thành

phần mang giá trị 0 do có nhiều đặc trưng không xuất hiện trong văn bản d i(nếutiếp cận theo cách sử dụng giá trị nhị phân 1, 0 để biểu diễn cho việc có xuấthiện hay không một đặc trưng nào đó trong văn bản đang được biểu diễn thànhvector), tuy nhiên nếu đơn thuần cách tiếp cận sử dụng giá trị nhị phân 0, 1 nàythì kết quả phân loại phần nào hạn chế là do có thể đặc trưng đó không có trongvăn bản đang xét nhưng trong văn bản đang xét lại có từ khóa khác với từ đặctrưng nhưng có ngữ nghĩa giống với từ đặc trưng này, do đó một cách tiếp cậnkhác là không sử dụng số nhị phân 0,1 mà sử dụng giá trị số thực để phần nàogiảm bớt sự rời rạc trong vector văn bản

W ik = 1: nếu từ thứ k xuất hiện trong văn bản

Di

0 :nếu từ thứ k không xuất hiện trong văn bản

Di

Trang 36

2.2 Lọc nội dung trang web bằng thuật tốn Nạve Bayes

2.2.1 Giới thiệu

Thuật tốn Nạve Bayes [6] là một thuật tốn phân tích thống kê, nĩ thực hiệntrên dữ liệu số Mơ hình xác suất Nạve Bayes là phương pháp được sử dụng phổbiến nhất trong phân lớp tài liệu text Ý tưởng của phương pháp Nạve Bayes là sửdụng các xác suất liên kết của các nhĩm dựa trên một tài liệu Sự đơn giản của nĩ

là giả thiết các từ độc lập nhau

Thuật tốn Nạve Bayes trong bài tốn lọc nội dung được thực hiện trênnguyên tắc coi một tài liệu text là được phát sinh bởi cách chọn ngẫu nhiên từ tất

cả các từ cĩ mặt trong nhĩm Các từ cĩ cơ hội được bổ sung vào là tỉ lệ với xácsuất tìm thấy từ trong nhĩm đang được xem xét Bộ phân lớp Nạve Bayes sau đĩxác định khả năng nội dung cần đang được kiểm tra sẽ thuộc về nhĩm nào NạveBayes là một thuật tốn đơn giản và nhanh, nĩ hoạt động tốt với các biểu diễnthống kê như là phương pháp túi từ (bag-of-words) Ngược lại với các phươngpháp dựa trên luật, Nạve Bayes cĩ thể được thực hiện tăng cường và cần thiết phảithực hiện bước tiền xử lý bổ sung để tạo vector đặc tính tần suất của từ với kíchthước nhỏ Vì kích thước của vector đặc tính cĩ thể là khá lớn và do vậy cần cĩ cácbước bổ sung để giảm kích thước của nĩ

2.2.2 Học Bayes (Bayes Learning)

Giả thiết rằng đã cĩ một phân bố xác suất trước cho tất cả các biến cố Giả thiếtnày sẽ là một phương pháp định lượng để đánh giá chứng cứ cĩ được trong quátrình huấn luyện Những phương pháp này cho phép xây dựng một ranh giới chitiết hơn của các giả thiết luân phiên thay vì chỉ quan tâm đến tính ổn định của cácgiả thiết Như vậy, các phương pháp Bayes cung cấp các thuật tốn học thực

tế Ngồi ra, nĩ cịn được coi là một chuẩn để đánh giá các thuật tốn học khác

Trang 37

 Xác suất điều kiện

Giả sử rằng ta ấn định một hàm phân bố cho một không gian mẫu và sau đó

học để nhận biết biến cố E Cách thức ta thay đổi xác suất của các biến cố còn lại? Gọi xác suất mới của các biến cố F là xác suất điều kiện của F trên E và

kí hiệu là P(F|E).

Gọi Ω = {w 1 , w 2 , w 3,…,wn } là không gian mẫu gốc với hàm phân bố được gán

là m(w j ) Giả sử ta học thấy rằng biến cố E đã xảy ra Ta muốn gán một hàm phân

bố mới m(w j |E) tới Ω để phản ánh lại thực tế này Rõ ràng là nếu một điểm mẫu w j

không có trong E, ta phải có m(w j |E) = 0 Hơn nữa, khi không có thông

tin trái ngược, có thể giả sử rằng xác suất cho w k trong E sẽ có độ lớn tương tự đã

có trước, khi học thấy E xảy ra Vì lý do này, ta cần:

1(

1

w m

( )

|

E P

w m E wk

(2.6)Cho wktrong E Phân bố mới này có tên là phân bố cho điều kiện E

Đối với biến cố F chung, có

) (

( )

| ( )

|

E P

E F P E P

w m E

F P

E F

k E

Trang 38

Xác suất điều kiện là xác suất kết hợp với một biến cố F, dựa trên sự xuất hiệncủa một biến cố liên quan E Biểu diễn xác suất điều kiện F dựa trên E là P(F|E).P(F|E) cũng có thể được phát biểu là xác suất xuất hiện của F khi E đã xảy ra, xácsuất điều kiện được tính bằng công thức sau

) (

)

| (

E P

E F P E F

(2.8)

Có hai định lý quan trọng liên quan đến xác suất điều kiện

Đối với ba biến cố bất kỳ A1, A2 và A3 luôn có quan hệ như sau:

) 2 1

| 3 ( ) 1

| ) 2 ( ) 1 ( ) 3 2 1 (A A A P A P A A P A A A

) 2

| ( ) 2 ( ) 1

| ( ) 1 ( ) (A P A P A A P A P A A P An P A An

Biến cố độc lập

Thực tế thường xảy ra trường hợp kiến thức mà một biến cố E nào đó xảy rakhông tác động đến xác suất biến cố F khác xảy ra, nghĩa là P(F|E) = P(F) Tamuốn rằng trong trường hợp như thế này, công thức P(F|E) = P(F) cũng sẽ đúng.Trong thực tế, công thức này bao hàm công thức kia Nếu những công thức này

là đúng, ta có thể nói rằng F là độc lập của E Thí dụ như ta không mong muốnrằng kiến thức kết quả của việc đánh giá biến cố đầu tiên thay đổi xác suất ta muốngán cho xác suất kết quả của việc đánh giá biến cố thứ hai, nghĩa là ta không muốnđánh giá thứ hai phụ thuộc vào đánh giá đầu tiên Ý tưởng này được hình thức hóathành định nghĩa biến cố độc lập như sau, từ định nghĩa xác suất điều kiện:

) (

)

| (

E P

E F P F E

)

| ( ) ( ) (E F P F P E F

Với hai biến cố E và F bất kì.

Trang 39

Nếu các biến cố E và F độc lập, sự xuật hiện của F không tác động đến sự xuất hiện của E và

) ( )

| (E F P E

Thay kết quả của công thức (2.12) vào công thức (2.11) ta có công thức chocác biến cố độc lập E và F:

) ( ) ( ) (E F P F P E

Và ngược lại, nếu P(E∩F) =P(F)P(E), khi đó các biến cố E và F độc lập.Những phát biểu này có thể được tóm tắt lại như sau:

Các biến cố E và F độc lập nếu cả E và F có xác suất dương và nếu P(E|F) =

P(E) thì P(F|E) = P(F) Hay nói cách khác: nếu P(E)> 0 và P(F) > 0, khi đó E và

F là độc lập với nhau nếu đối với bất kỳ tập con nào {Ai, Aj, , Am,} của chúng, ta

đều có:

) ( )

( ) ( )

=

Ta gọi những biến cố này là giả thuyết Ta cũng có một biến cố E cung cấp một

số thông tin về giả thuyết nào là đúng Ta gọi những biến cố này là dữliệu huấn luyện Trước khi nhận dữ liệu huấn luyện, ta có tập xác suất trước P(H1),P(H2), …, P(Hm) đối với các giả thuyết Nếu ta biết giả thuyết đúng, ta biết được

xác suất cho dữ liệu huấn luyện Tức là, ta biết P(E|H) với mọi i Ta muốn tìm xác

suất cho giả thuyết với dữ liệu huấn luyện đã cho, nghĩa là muốn tìm xác suất điều

kiện P(H i |E) Những xác suất này gọi là xác suất sau.

Để tìm những xác suất này, ta viết chúng dưới dạng như công thức

Trang 40

) (

)

| (

E P

E H P E Hi

Do chỉ có duy nhất một biến cố trong số các biến cố H 1 , H 2,…,Hm là xảy ra, ta

có thể viết xác suất của E như sau:

) (

) 2 ( ) 1 ( )

) 2

| ( ) 2 ( ) 1

| ( ) 1 (H P E H P H P E H P Hm P E Hm

H E P H P

H E P H P E

Hi P

1 ( ) ( | )

)

| ( ) ( )

|

Công thức (2.21) cho phép ta tìm xác suất của các biến cố khác nhau H 1 , H 2,…,

H n mà có thể là nguyên nhân làm cho biến cố H xảy ra.

Tâm điểm của định lý Bayes là tính hiển nhiên của một biến cố xác nhận khảnăng xảy ra của một giả thuyết đúng với mức độ mà sự xuất hiện của tính hiểnnhiên này sẽ là có khả năng xảy ra với giả sử của giả thuyết hơn là sự vắng mặt của

nó Biểu diễn hình thức của định lý Bayes trong trường hợp máy học như sau:

) (

) ( )

| ( )

| (

D P

h P h D P D h

Trong đó

D là tập dữ liệu huấn luyện

h là một giả thuyết

P(h|D) là xác suất sau (posterior probability), là xác suất điều kiện của h sau

khi tập huấn luyện được biểu diễn (dựa trên D)