Phân tích nội dung website

4. Phạm vi ứng dụng

2.4. Phân tích nội dung website

2.4.1. Phân loại nội dung website

Khi một nội dung website được yêu cầu hiển thị thì nội dung đĩ thuộc vào một trong hai dạng: tiếng Anh hoặc tiếng Việt. Tuy nhiên, hai ngơn ngữ này cĩ những đặc thù khá riêng biệt ngoại trừ đặc điểm chung đều là ngơn ngữ Latinh, cụ thể như bảng bên dưới:

Bảng 2.1 – Sự khác biệt cơ bản giữa tiếng Anh và tiếng Việt

Đặc điểm của tiếng Việt Đặc điểm của tiếng Anh

Được xếp là loại hình đơn lập (isolae) hay cịn gọi là loại hình phi hình thái, khơng biến hình,đơn tiết

Là loại hình biến cách (flexion) hay cịn gọi là loại hình khuất chiết

Từ khơng biến đổi hình thái, ý nghĩa ngữpháp nằm ởngồi từ

Ví dụ: Chị ngã em nâng và Em ngã chịnâng

Từ cĩ biến đổi hình thái ý nghĩa ngữpháp nằm trong từ.

Ví dụ: I see him và He sees me

Phương thức ngữ pháp chủ yếu: trật tựtừ và hư từ

Ví dụ: Gạo xay và Xay gạo

Phương thức ngữ pháp chủ yếu là phụ tố

Ví dụ: studying và studied Ranh giới từ khơng được xác định

mặc nhiên bằng khoảng trắng

Kết hợp giữa các hình vị là chặt chẽ, khĩ xác định, được nhận diện bằng khoảng trắng hoặc dấu câu

(classifier) hay cịn gọi là phĩ danh từchỉloại kèm theo với danh từ như: cái bàn, cuốn sách, bức thư..

thêm phụ tố (affix) vào gốc từ là rất phổ biến

Ví dụ: anticomputerizational Cĩ hiện tượng láy và nĩi láy trong

tiếng Việt. Ví dụ: lấp lánh, lung linh

Từ bảng so sánh trên, cĩ thể thấy được những đặc trưng cơ bản của tiếng Việt cũng như là khĩ khăn gặp phải khi tách từ trong tiếng Việt.

2.4.2. Đặc trưng của ngơn ngữ tiếng Việt

– Đơn vị cấu tạo từ là tiếng, tức là những âm tiết được sử dụng trong thực tiễn ngơn ngữ Việt. Tiếng cĩ thể cĩ nghĩa đủ rõ, cĩ thể mang nghĩa bị phai mờ và tiếng cĩ thể tự mình khơng cĩ nghĩa. Hơn nữa, 3 hiện tượng này cĩ thể chuyển hĩa lẫn nhau.

– Tính chất âm tiết (tiếng) là một trong những đặc điểm chi phối đặc tính loại hình của ngơn ngữ Việt. Xétởmặt số lượng tiếng:

+ Từ chỉchứa một tiếng, gọi là từ đơn, như: nhà, đã, …

+ Từ nhiều tiếng, phần lớn là 2 tiếng, gọi là từ phức, như: nhà cửa, sạch sẽ, … Nếu xét ởsố lượng từ tố (yếu tố nhỏ nhất tham gia cấu tạo từ) tham gia cấu tạo từ thì cĩ sự phân chia như sau:

+ Từ chỉchứa một từ tố, gọi là đơn tố, như: nhà, đủng đỉnh, ra đi ơ, …

+ Từ đơn tố gồm nhiều tiếng và cĩ hiện tượng hịa âm tạo nghĩa, gọi là từ láy. Nếu khơng thì nĩ thuộc loại ngẫu kết.

+ Từ chứa nhiều từtố, gọi là từ đa tố,như: nhà cửa, xe đạp, sạch sẽ, …

+ Từ đa tố nếu cĩ hiện tượng hịa âm phối ngữ âm tạo nghĩa thì thuộc kiểu láy. Nếu khơng thì thuộc loại từghép.

– Việc tiền xử lý văn bản (tách từ, tách đoạn, tách câu…) sẽ thêm phức tạp với phần xử lý các hư từ, phụ từ, từláy…

– Phương thức ngữ pháp chủ yếu là trật tự từ nên nếu áp dụng phương pháp tính xác suất xuất hiện của từ cĩ thể khơng chính xác như mong đợi.

– Ranh giới từ khơng được xác định mặc nhiên bằng khoảng trắng. Điều này khiến cho việc phân tích hình thái (tách từ) tiếng Việt trở nên khĩ khăn. Việc nhận diện ranh giới từ là quan trọng làm tiền đề cho các xử lý tiếp theo sau đĩ như: kiểm tra lỗi chính tả, gán nhãn từloại, thống kê tần suất từ…

– Vì giữa tiếng Anh và tiếng Việt cĩ nhiều điểm khác biệt nên khơng thể áp dụng y nguyên các thuật tốn tiếng Anh vào tiếng Việt.

Chính vì những nguyên nhân đĩ phần tiếp theo sẽ đề xuất các phương pháp xử lý nội dung tiếng Việt và tiếng Anh.

2.4.3. Phương pháp xử lý nội dung website

Như đã trình bàyởtrên, nội dung website đang được đềcập là tiếng Việt hay tiếng Anh. Dưới đây sẽ đềxuất các phương pháp xử lý nội dung website.

– Cách thứ nhất là phân chia nội dung được thành tiếng Anh và tiếng Việt, sau đĩ tiến hành phân loại nội dung tiếng Anh và tiếng Việt riêng. Tất nhiên, cĩ thể cĩ trường hợp trong một nội dung cĩ cả tiếng Việt và tiếng Anh nhưng tỷ lệ này khơng nhiều.

– Cách thứ hai là xây dựng một bộ phân loại chung cho cả tiếng Anh và tiếng Việt. Cách thứ hai đơn giản hơn nhưng cĩ thể gặp vấn đề khi lựa chọn tham số k để tách các k-gram.

– Nếu sử dụng cách thứ nhất thì xuất hiện một vấn đề cần giải quyết là phân biệt nội dung tiếng Anh và tiếng Việt. Mặc dù cĩ những giải pháp phức tạp hơn được đề xuất cho vấn đề này, ở đây đề xuất sử dụng một giải pháp rất đơn giản. Khi lựa chọn đặc trưng, các đặc trưng được đánh dấu riêng tiếng Việt hoặc tiếng Anh và lưu vào bảng băm. Khi một nội dung mới xuất hiện, 20 đặc trưng đầu tiên của nội dung sẽ được băm vào bảng tiếng Việt và tiếng Anh. Nếu số lượng băm trúng trong bảng tiếng Việt lớn hơn bảng tiếng Anh thì nội dung được coi là nội

dung tiếng Việt và ngược lại. Tuy nhiên, đối với những nội dung sử dụng cả tiếng Việt và tiếng Anh việc kết luận nội dung thuộc một trong hai ngơn ngữ duy nhất cĩ thể ảnh hưởng tới quá trình phân loại tiếp theo.

Sau khi phân biệt được nội dung tiếng Anh thì sẽ được lọc riêng. Hiệu quả phân loại chung sau đĩ được lấy bằng trung bình cộng của phân loại cho nội dung tiếng Việt và nội dung tiếng Anh. Để tăng độ chính xác trong quá trình phân tích nội dung, cĩ thể chia nhỏ nội dung thành từng câu đơn thể nhằm tạo tiền đề cho việc tách từ tiếng Việt mang lại độ chính xác cao nhất.

2.4.4. Phân tích câu

Quan niệm câu là một chuỗi ký tự kết thúc bởi một dấu chấm (.), (?) hay (!) khơng thể loại trừ các nhập nhằng, trong đĩ dấu chấm câu khơng chỉlà ký hiệu kết thúc câu: một số dùng trong các từ viết tắt hoặc trong chuỗi số. Tuy nhiên, phương pháp dựa trên kinh nghiệm cơ bản này cho kết quả khơng tồi: nhìn chung, khoảng 90% các dấu chấm là ký hiệu kết thúc câu. Tuy nhiên, cũng cần lưu ý các trường hợp: trong đĩ các ký hiệu khác cĩ thể được coi là dấu hiệu kết thúc câu. Ví dụ: các dấu câu như hai chấm, dấu chấm phẩy và dấu ngang (“:” , “;” và “-”) cĩ thể theo sau bởi một câu hồn chỉnh.

Mục đích cơ bản của phân tích từ vựng là tách và xác định các đặc trưng của văn bản, bắt đầu với việc tách một thơng điệp ra thành các bộ phận nhỏ hơn, thường là các từ đơn giản.Vì vậy, việc tách câu rất quan trọng hỗ trợ cho việc tách từ về sau. Vì thế dấu phân cách nên dùng là khoảng trắng, vì khoảng trắng thường dùng để tách các từ trong hầu hết các ngơn ngữ, sau đây là một số phân cách câu được dùng rộng rãi:

+ Dấu chấm (.) + Dấu phẩy (,)

+ Dấu chấm phẩy (;) + Dấu nháy đơi (“)

+ Dấu hai chấm (:) + Dấu ngoặc vuơng [ ] + Dấu ngoặc nhọn { } + Dấu ngoặc đơn ( ) + Các tốn tử+ - / * = <>

Hiện nay, việc tách câu thường dựa trên một số tiêu chí sau đây:

- Đặt điểm phân cách câu sau dấu đĩng ngoặc kép (nếu cĩ)

- Loại ra một điểm phân cách câu giả định (là dấu chấm) trong các trường hợp sau:

o Nếu nĩ đi sau một từ viết tắt thường khơng xuất hiện ở cuối câu, nhưng thường đi trước một danh từ riêng, ví dụ: Prof hay vs

o Nếu nĩ đi sau một từ viết tắt đã biết và khơng đi trước một từ viết hoa. Trường hợp này cĩ thể giải quyết đúng hầu hết các trường hợp viết tắt như etc. hoặc Jr. (những từ cĩ thể xuất hiệnở giữa hoặc cuối câu).

- Loại một điểm phân cách câu giả định với ? hay ! nếu nĩ đi trước một từ khơng viết hoa.

- Xem xét tất cả các điểm phân cách câu giả định cịn lại như các điểm phân cách câu thực sự.

CHƯƠNG3:ỨNG DỤNG

3.1. Xây dựng bộ lọc nội dung web tiếng Việt khơng lành mạnh3.1.1. Ý tưởng đề xuất 3.1.1. Ý tưởng đề xuất

Ý tưởng đề xuất là tìm cách xây dựng một bộ phân loại nhằm phân loại cho một mẫu mới bằng cách huấn luyện từ những mẫu cĩ sẵn. Ở đây mỗi mẫu được xét đến chính là mỗi một nội dung của một trang web, tập các lớp mà mỗi nội dung cĩ thểthuộc vềlà y={tốt, xấu}

Khi trình duyệt nhận được 1 nội dung cần hiển thị, khi đĩ dựa vào một số đặc điểm hay thuộc tính nào đĩ của nội dung để tăng khả năng phân loại chính xác nội dung đĩ. Các đặc điểm của 1 nội dung như: tiêu đề, nội dung, cĩ hình ảnh nhiều hay khơng… Càng nhiều những thơng tin như vậy xác suất phân loại đúng càng lớn, tất nhiên cịn phụ thuộc vào kích thước của tập mẫu huấn luyện.

Việc tính tốn xác suất sẽ dựa vào cơng thức Nạve Bayes, từxác suất thu được đem so sánh với một giá trị ngưỡng t nào đĩ mà xem là ngưỡng để phân loại nội dung tốt hau xấu . Nếu lớn hơn t thì nội dung đĩ là xấu, ngược lại là tốt. Tuy nhiên, khi phân loại nội dung cĩ hai lỗi : lỗi nhận 1 nội dung tốt thành xấu và lỗi cho hiển thị một nội dung xấu. Loại lỗi thứ nhất nghiêm trọng hơn, vì vậy ta xem mỗi một nội dung tốt như là λ nội dung xấu. Như vậy khi lỗi nhận 1 nội dung tốt thành xấu xảy ra thì được xem như là λ lỗi, và khi phân loại đúng xem như λ lần thành cơng. Ngưỡng để phân loại t sẽphụ thuộc và chỉsố λnày.

3.1.2. Hướng tiếp cận

Theo ý tưởng đề xuất trên thì vấn đề cần giải quyết là phân lớp một nội dung trang web vào một trong hai lớp tốt và xấu trong một khoảng thời gian chấp nhận được. Dựa vào các phương pháp tách từ nêu trên cùng với ưu nhược điểm, hướng tiếp cận của đềtài dựa vào phương pháp tách từdựa vào tần số xuất hiện của từ mà khơng dựa vào ngữ nghĩa của từ kết hợp với thuật tốn Nạve Bayes vì những lý do sau đây:

Nội dung xấu chỉ nằm trong phạm vi (nội dung vi phạm thuần phong mỹ tục Việt Nam). Do đĩ, đặc điểm và số lượng từsẽ chỉnằm trong lĩnh vực nhất định.

Bộ từ điển từ thuộc lĩnh vực nêu trên sẽ tạo mới và cập nhật thuận lợi dễ dàng do đã giới hạn phạm vi, đồng thời, thời gian xử lý phải đảm bảo nhanh chĩng nên nếu theo hướng tiếp cận xử lý ngữnghĩa sẽ mất rất nhiều thời gian.

Theo các cơng trình đã cơng bố. Nạve Bayes cho hiệu quả cao trong các bài tốn phân lớp văn bản như bài tốn lọc thư rác tiếng Anh hay tiếng Việt.

Đề tài ngăn chặn từ khĩa theo các hướng sau

- Dựa vào địa chỉwebsite

- Dựa vào nội dung trong tiêu đề của website (title)

- Dựa vào nội dung chính của website

3.1.3. Tiến trình thu thập nội dung

Ở tiến trình này các Crawler sẽ làm nhiệm vụ thu thập dữ liệu. Crawler nhận cấu hình đầu vào là một website (tin tức, blog, diễn đàn, …) tiến hành bĩc tách, tổng hợp chủ đề liên quan, lưu trữvà phát lại tới người đầu cuối khi cĩ yêu cầu.

Đầu tiên, đầu vào Crawler là tập các trang web xấu và tập các trang web tốt, các Crawler sẽ truy xuất trực tiếp vào nội dung tồn diện rồi tiến hành bĩc tách. Sau quy trình khai thác nội dung sẽ độc lập với website nguồn, được lưu trữ và tái sử dụng cho bước học từ.

Hình 3.1–Tiến trình thu thập nội dung

3.1.4. Quy trình thực hiện

Quy trình lọc nội dung khơng lành mạnh bằng tiếng Việt trên Internet cĩ thể được cụ thể hĩa bằng mơ hình. Trong mơ hình thể hiện rõ khi trình duyệt web tiếp nhận một nội dung cho đến bước cuối cùng là cho phép hiển thịhay khơng hiển thị nội dung đĩ trên trình duyệt đĩ thơng qua việc áp dụng thuật tốn Nạve Bayes để tính xác suất từ dựa vào nội dung tiếng Việt cần áp dụng bộ lọc.

Trong mơ hìnhđềxuất gồm 4 tiến trình nhỏ nhưhình dưới

Tiến trình 1: làm nhiệm vụ tiền xử lý, lấy nội dung, tách câu, tách từ đơn, từ ghép tiếng Việt trước khi cho qua tiến trình 2 áp dụng thuật tốn Nạve Bayes.

Tiến trình 2: áp dụng thuật tốn Nạve Bayes dựa trên danh sách các từ đơn lẫn từ ghép đã phân tích trong tiến trình 1 để xác định tần số xuất hiện của các từ

Tiến trình 3: Dựa vào kết quả tính xác suất xem nội dung cĩ lành mạnh hay khơng, qua đĩ phân lớp nội dung cần hiển thị cho đúng. Đồng thời, cập nhật lại danh sách Black list và White list địa chỉcần truy cập để bộ lọc làm việc tốt hơn.

Tiến trình 4:Giai đoạn học từ. Trong giai đoạn này, các từ ghép, từ đơn mới sẽ tự động được học và cập nhật vào trong tập huấn luyện cơ sở, cịn các từ đã tồn tại sẽ thay đổi tần số xuất hiện trong nội dung lành mạnh hay khơng lành mạnh

Tập các trang web xấu Tập các trang web xấu Crawler (Vietspider) Nội dung xấu Nội dung tốt Từ xấu Từtốt Học từ

Phần I

Phần II

Phần III

Phần IV

Hình 3.2– Mơ hình tổng quát lọc nội dung khơng lành mạnh

3.1.4.1. Tiến trình 1

Trong tiến trình 1 gồm 02 thành phần: bộ lọc lấy nội dung thuần của website và bộphân tích từ vựng tiếng Việt.

Tiến trình thứ nhất, cĩ thể mơ tả như sau: Đưa vào tập Ts gồm những tài liệu huấn luyện, trong đĩ mỗi tài liệu Ti  Ts (1≤ i≤ s) thuộc về một trong hai lớp: nội dung bình thường và khơng lành mạnh. Tài liệu huấn luyện này được chọn trong giai đoạn khởi tạo và được cập nhật thường xuyên trong giai đoạn phân lớp thành cơng nội dung website (tiến trình 4).

Website cần duyệt Bộlọc lấy nội dung thuần của website & tiền xửlý Bộ phân tích từ vựng tiếng Việt Tập hợp các token từ2 tiếng Bộlọc Nạve Bayes Xác định các token từ 2 tiếng cĩ trọng số

cao trong nội dung Tính xác suất để xác định nội của website thuộc dạng nào Nội dung khơng lành mạnh ma5nh Đúng Khơng cho hiển thị nội dung website Cho phép hiển thị nội dung website Cập nhật danh sách Black list Cập nhật danh sách White list Huấn luyện bộtừxuất hiện trong nội dung Sai Bộdữ liệu từ điển

Ứng với mỗi nội dung đầu vào phải qua bước xử lý gồm:

− Xử lý loại bỏ các định dạng của ngơn ngữ HTML

− Xử lý loại bỏ những từ phổ biến như “thì”, “là”, “mà”, “các”, “những”,… và các từ dùng để nối câu như “tuy nhiên”, “mặc dù”, “vì thế”, “khơng những”, “mà cịn”,… những ký tự đặc biệt như “@”, “#”, “$”, ?”, “&”,… để là tăng tốc độxử lý của việc tách từ

− Xử lý tách câu trong nội dung, chuyển tồn bộ nội dung website thành các câu đơn chuẩn, mỗi từ trong câu đơn chuẩn cách nhau bởi một khoảng trắng duy nhất. Quy trình tách câu tiếng Việt được mơ tả bằng mơ hình sau đây

− Input : nội dung website tiếng Việt cần lọc

− Output: Tập hợp các câu đơn chuẩn đãđược hiệu chỉnh

Hình 3.3– Mơ hình tách câu trong tiếng Việt

Trong bộ phân tích từ vựng tiếng việt gồm cĩ 2 phần: phân tích từ đơn và phân tích từghép.

Quy trình tách từ đơn tiếng Việt được mơ tả cụ thể qua mơ hình sau đây, bắt đầu từ bước đã cĩ danh sách các câuđơn chuẩn

Bắt đầu Nội dung website tiếng Việt Bộ lọc loại bỏ ngơn ngữHTML Xửlý nội dung loại bỏtừnối Tách câu từnội dung ( Split ) Tạo danh sách các

Phân loại khai phá web

Rút trích đặc trưng văn bản