2.1.1 Các công nghệ lọc thư rác hiện nay
Hiện nay thư rác là một nỗi phiền toái của người dùng. Vì vậy một số công nghệ lọc thư rác phổ biến ra đời để đáp ứng nhu cầu người dùng:
- DNS Blacklist - Chặn IP
- Kiểm tra địa chỉ
- Sử dụng bộ lọc Bayesian
- Sử dụng danh sách Black/white list - Sử dụng Challenge/Response - Kiểm tra header
- Report Spam Email
Ngoài ra, một số công nghệ chống spam thú vị đang được nghiên cứu: - Tem cho e-mail- Cài mật mã
- Khai báo thông tin - Lọc email qua nội dung
2.1.2 Quá trình hoạt động của bộ lọc thư rác Bayes
Ở đây mỗi mẫu mà ta xét chính là một email, tập các lớp mà mỗi email có thể thuộc về là C = {spam,non-spam}.
Khi ra nhận được một email, sử dụng phương pháp Naives Bayes huấn luyện tập mẫu (email) ban đầu, sau đó sẽ sử dụng các xác suất này ứng dụng vào phân loại một mẫu (email) mới.
Giả thiết mỗi một thư được đại diện bởi một vectơ thuộc tính đặc trưng = (x1, x2, …, xn), trong đó x1, x2, …, xn là giá trị của thuộc tính X1, X2,…, Xn tương ứng trong không gian vector đặc trưng . Theo M Sahamietal ta sử dụng giá trị nhị phân, Xi = 1 nếu các đặc điểm của Xi có trong email, ngược lại Xi=0.
Ta tính giá trị tương hỗ MI(X,C) mà mỗi một đại diện của X thuộc về loại C như sau:
Sau đó ta chọn các thuộc tính có giá trị MI cao nhất. Các xác suất P(X), P(C), P(X,C) được tính dựa trên dữ liệu học.
Dựa vào công thức xác suất Bayes và công thức xác suất đầy đủ ta có được xác suất của một thư với vector đặc trưng ,
Thực tế thì rất khó tính được xác suất P( | C) bởi Naïve Bayes giả thiết rằng X1, X2, …,Xn là những biến cố độc lập, do đó chúng ta có thể tính được xác suất ở trên như sau:
Với P(Xi|C) và P(C) được tính dựa trên dữ liệu học, việc tính này dựa vào tập huấn luyện ban đầu. Từ xác suất này, chúng ta so sánh với một giá trị ngưỡng t mà ta cho là ngưỡng để phân loại thư rác hay không, nếu xác suất này lớn hơn t, chúng ta cho là thư đó là thư rác ngược lại thì không phải là thư rác.
2.1.3 Sự hoạt động của các bộ lọc thư rác thực tế
Phương pháp Bayes tiếp cận với các thư rác một cách có hiệu quả cao. Đầu tháng 5/2003 một bài báo BBC cho biết kết quả của việc tìm kiếm thư rác trong bộ lọc đạt 99.7% có thể hoàn thành với một số thấp các sai sót.
2.1.4 Các ưu điểm của bộ lọc thư rác Bayes
Phương pháp Bayes nhận dạng một thư điện tử dựa vào các mô tả. Nhiều thông minh hơn bởi vì nó kiểm tra tất cả các khía cạnh của tin nhắn. Bộ lọc Bayes giải quyết và thích nghi với các công nghệ lọc thư rác kiểu mới. Bộ lọc thư rác sử dụng thuật toán Naive Bayes cung cấp một chức năng lọc thư tự rác tự động.
2.2 Cài đặt và thử nghiệm ứng dụng khai phá dữ liệu văn bản trong một bệnh viện:
Mỗi một bệnh viện đều lưu trữ dữ liệu dưới dạng file word, excel, cơ sở dữ liệu,… Trong đó hồ sơ bệnh án của mỗi bệnh nhân được lưu giữ lại để phục vụ cho công tác nghiên cứu về sau.
Tuy nhiên, hàng năm các bệnh viện thường lưu trữ lượng hồ sơ bệnh án của mỗi bệnh nhân rất lớn, tiềm ẩn nhiều thông tin tri thức hữu ích tiềm ẩn mà chúng ta chưa biết đến.
Vì vậy, việc tìm những tri thức tiềm ẩn này trong lượng dữ liệu văn bản hồ sơ bệnh án khổng lồ này là một điều không đơn giản chút nào. Nhưng nhờ kỹ thuật và công nghệ
khai phá dữ liệu nói chung và khai thác dữ liệu văn bản nói riêng thì việc tìm tri thức tiềm ẩn trong lượng dữ liệu này trở nên đơn giản hơn.
KẾT LUẬN
Công nghệ thông tin đã và đang là một trong những lĩnh vực đem lại nhiều lợi ích cho người dùng và không thể thiếu trong nền kinh tế phát triển. Trong đó khai phá dữ liệu và kho dữ liệu là một trong những yếu tố quan trọng cho nhiều ứng dụng trên internet.
Trong quá trình nghiên cứu khai phá dữ liệu các nhà nghiên cứu đã phát minh khai phá dữ liệu văn bản. Khai phá dữ liệu văn bản giúp cho người dùng trích ra, lấy ra các thông tin có ích, chưa được biết đến còn tiềm ẩn trong các kho dữ liệu văn bản lớn trở nên đơn giản, tiết kiệm được thời gian tìm kiếm hơn.
Qua quá trình làm bài thu hoạch môn học này, đã giúp em có cơ hội nghiên cứu kiến thức liên quan trong môn học khai phá dữ liệu và kho dữ liệu, đặc biệt là những kiến thức về khai phá dữ liệu văn bản phục vụ những mục đích khác nhau trong cuộc sống thực tế.
Những kiến thức này chắc chắn sẽ rất bổ ích cho em trong quá trình học tập, nghiên cứu khoa học về sau. Em xin chân thành cảm ơn thầy PGS.TS. Đỗ Phúc đã nhiệt tình giảng dạy, hướng dẫn em hoàn thành bài thu hoạch này và гất mong nhận được sự đóng góp ý kiến của Thầy và các anh chị học viên.
TÀI LIỆU THAM KHẢO
1. Bài giảng khai phá dữ liệu và kho dữ liệu – PGS.TS. Đỗ Phúc. 2. Giáo trình khai phá dữ liệu – PGS.TS. Đỗ Phúc.
3. Trang web http://en.wikipedia.org/wiki/Data_mining.
4. “Text Categorization Using a Hierarchical Topic Dictionary” - Alexander Gelbukh, Grigori Sidorov, Adolfo Guzmán-Arenas.
5. “Machine Learning in Automated Text Categorization” - Fabrizio Sebastiani.
6. http://www.roguewave.com/portals/0/products/imsl-numerical-libraries/c- library/docs/7.0/html/cstat/default.htm?turl=naivebayesanoverview.htm. 7. “Ngư phap tiêng Viêt” – Trung tâm Khoa hoc xa hôi va Nhân văn quôc
gia – Nha xuât ban Khoa hoc va xa hôi – Ha nôi 2000[4] “Information retrieval: standard and AI - based methods” - Ilya Baraev.