Bài tập lớn môn học:Xử lý ngôn ngữ tự nhiên Đề tài: Phân loại thư, lọc thư rác áp dụng giải thuật Naïve Bayes Giảng viên hướng dẫn: PGS TS Lê Thanh Hương Sinh viên thực hiện: Đặng Văn Oai 20081948 Đào Văn Long 20081576 Đinh Văn Đức 20080723 Đào Quang Đức 20080720 Lã Hữu Thành 20082375 Lớp: Hệ thống thông tin K53 Nội dung Bài toán phân loại văn bản, phân loại thư rác. Phương pháp phân loại văn bản Naïve Bayes. Cài đặt chương trình. Bài toán phân loại văn bản Cho một tập các lớp đã định nghĩa : C = {c1, c2, …, cn} Tập văn bản đã được phân lớp: D = {d1, d2, …, dm} Cho một văn bản mới, phải chỉ ra văn bản này thuộc lớp nào ? Bài toán phân loại thư rác Là bài toán phân loại văn bản, trong đó có 2 lớp : Thư hợp lệ và thư rác. Tập tài liệu mẫu ban đầu là các thư đã được phân thành thư hợp lệ và thư rác. Văn bản cần phân lớp là email mới nhận được. Một số phương pháp phân loại Phương pháp SVM. Phương pháp k-NN. Phương pháp Naïve Bayes. Phương pháp Naïve Bayes Cơ sở lý thuyết. Thuật toán phân loại Naïve Bayes. Áp dụng vào phân loại thư điện tử. Cơ sở lý thuyết Dựa trên định lý Bayes về xác suất có điều kiện: Hay Thuật toán phân loại Naïve Bayes Coi các từ xuất hiện trong một văn bản là độc lập thống kê. Tài liệu d cần phân loại, tính xác suất d thuộc vào lớp văn bản ci. Thuật toán phân loại Naïve Bayes Tài liệu d sẽ được gán cho lớp văn bản nào có xác suất hậu nghiệm cao nhất. C* là lớp của văn bản d : Thuật toán phân loại Naïve Bayes Vì xác suất của mỗi từ trong tài liệu là độc lập với ngữ cảnh xuất hiện của từ và độc lập với vị trí của từ trong tài liệu nên : Trong đó : P(wj | ci) là xác suất xuất hiện của từ wj trong lớp ci. [...].. .Phân loại thư điện tử Nội dung của thư gửi đến là content Lớp thư rác ký hiệu là spam Lớp thư hợp lệ ký hiệu là ham Ta cần tính P(spam | content) là xác suất thư điện tử là thư rác w1, w2,…, wn là các từ đặc trưng xuất hiện trong nội dung thư Phân loại thư điện tử Xác suất thư này là thư rác được tính như sau: • P(spam) = (tổng số thư rác) /(tổng số thư) • P(ham) = (tổng số thư hợp... trong lớp thư hợp lệ và thư rác, phục vụ cho việc phân loại Cài đặt chương trình Cài đặt chương trình Cài đặt chương trình Kết luận Kết quả đạt được: Cài đặt được hương trình gửi và nhận thư điện tử Thực hiện được chức năng lọc thư rác tự động Hạn chế: Chỉ xử lý được những email định dạng text thông thư ng Việc lọc thư rác mới chỉ dựa trên nội dung của thư, chưa kết hợp được lọc thư qua địa... P(ham) = (tổng số thư hợp lệ)/(tổng số thư) • P(content|spam)=P(w1|spam)*P(w2|spam)*…*P(wn| spam) • P(content|ham)=P(w1|ham)*P(w2|ham)*…*P(wn|ham) Phân loại thư điện tử Nếu P(spam | content) lớn hơn ngưỡng t nào đó thì kết luận thư này là thư rác Ngược lại, là thư hợp lệ Cài đặt chương trình Tất cả thư hợp lệ được lưu trong file HamMail.txt Tất cả thư rác được lưu trong file SpamMail.txt ... năng lọc thư rác tự động Hạn chế: Chỉ xử lý được những email định dạng text thông thư ng Việc lọc thư rác mới chỉ dựa trên nội dung của thư, chưa kết hợp được lọc thư qua địa chỉ người gửi và tiêu đề thư Signature Not Verified Ký bởi: ĐẶNG LAM GIANG Ký ngày: 14/8/2017 22:21:31 Tìm hiểu giải thuật A* , ứng dụng giải bài toán 8-puzzle Nội dung Giao diện Sử dụng A* vào bài toán Giải thuật A* Phân tích bài toán Giới thiệu bài toán N-puzlle Bài toán 8-puzzle Bài toán gồm một bảng 3×3 với các ô số được đánh từ 1->8 và một ô trống. Ở trạng thái bắt đầu, các ô được sắp đặt ngẫu nhiên, và nhiệm vụ của người giải là tìm cách di chuyển các ô sao cho các con số về đúng thứ tự, bài toán đặt ra ở đây là tìm phương án tối ưu sao cho số lần di chuyển là ít nhất. Trạng thái đầu Trạng thái đích 1 5 7 2 3 6 4 8 1 2 3 4 5 6 7 8 Bài toán 8-puzzle Điều đầu tiên cần phải quan tâm để giải bài toán này là xác định trạng thái đích. Trạng thái đích được xác định dựa trên trạng thái đầu. Vậy trạng thái đích được xác định như thế nào. 1 5 7 2 3 6 4 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 8 4 7 6 5 A C B với trạng thái đầu như trên thì có thể có 3 trạng thái đích có thể xảy ra Company Logo Phân tích Cho trạng thái đầu tiên như hình dưới, duyệt qua từng ô theo thứ tự từ trái qua và từ trên xuống, ở mỗi ô số duyệt đến, bạn hãy đếm xem có bao nhiêu ô số có giá trị bé hơn nó : N= 0+ 3 +4+ 0 +0 +1 +0 +0 = 8. Với số N này ta chỉ cần biết 1 thông tin là nó có chia hết cho 2 hay không (lẻ hay chẵn). Nếu N là số chẵn thì chúng ta chỉ có thể có đáp án là trạng thái đích là A hoặc B, ngược lại là trạng thái C . 1 5 7 2 3 6 4 8 Tổng quan về A* Trong khoa học máy tính, A* (đọc là A sao) là một thuật toán tìm kiếm trong đồ thị. Thuật toán này tìm một đường đi từ một nút khởi đầu tới một nút đích cho trước (hoặc tới một nút thỏa mãn một điều kiện đích. Thuật toán này sử dụng một "đánh giá heuristic" để xếp loại từng nút theo ước lượng về tuyến đường tốt nhất đi qua nút đó. Thuật toán này duyệt các nút theo thứ tự của đánh giá heuristic này. Do đó, thuật toán A* là một ví dụ của tìm kiếm theo lựa chọn tốt nhất (best-first search). Tổng quan về A* Sử dụng hàm đánh giá f(n) = g(n) + h(n) trong đó : g(n) = chi phí từ nút gốc cho đến nút hiện tại n h(n) = chi phí ước lượng từ nút hiện tại n tới đích f(n) = chi phí tổng thể ước lượng của đường đi qua nút hiện tại n đến đích. Giải thuat A với hàm heuristic h(n) luôn luôn giá trị thực đi từ n đến goal. ≤ Tổng quan về A* Tổng quan về A* Tổng quan về A* [...]... quan về A* Tổng quan về A* Tổng quan về A* Tổng quan về A* Tổng quan về A* Tính hoàn chỉnh? Có (trừ khi có rất nhiều các nút có chi phí f ≤ f(G) ) Độ phức tạp về thời gian? Bậc c a hàm mũ – Số lượng các nút được xét là hàm mũ c a độ dài đường đi c a lời giải Độ phức tạp về bộ nhớ? Lưu giữ tất cả các nút trong bộ nhớ Tính tối ưu? Có Sử dụng A* vào bài toán Thuật toán A* : Gọi G(n)... chuyển ô trống H(n) là hàm heuristic, ước tính số hao tổn để tới trạng thái đích, tính bằng tổng các quãng đường c a các ô ở vị trí sai để về tới vị trí đúng F(n)=G(n)+H(n) ? Tính H(n) Sử dụng A* vào bài toán 1 2 3 1 5 7 4 5 6 2 3 6 7 8 4 8 Trong bảng số 3×3 trên, để di chuyển ô số 5 vào đúng vị trí ta cần di chuyển nó 1 lần, để di chuyển ô số 7 về đúng vị trí ta cần cần 4 lần (qua 4 ô khác) | row1 - row2|... ta cần cần 4 lần (qua 4 ô khác) | row1 - row2| + |column1 – column2| Với : RowIndex = Index / m ColIndex = Index % m Tổng quan về A* Ví dụ ô số 7 có thứ tự trong bảng là 6 (tính từ 0 với m là cạnh) ta có row = 6 / 3 = 2, col = 6 % 3 = 0 h = 0+1+4+2+2+0+1+1+1 = 12 Không gian trạng thái* Cảm ơn các bạn đã lắng nghe! • • !"# $ • %&' ( • )"* $ • "*+ $ • , /0 1%23 4567819:;5-%<=968 ) >19?=968 +319@687ABC D -B2!E 4@198F ,GB=9- 68+H72?3? G @@+I19-:J!7K = !8-> 23>6819E LMN1:G7 6 7ABC@68 @@+I19-:J!7K = 4567819:;5-%<=968 ) > 19 ?=9 68 F:OP77 F:O<2 F:O F:OP77 F:O<2 F:O [...]...Xây dựng tập nước đi hợp lệ cho các quân cờ Loại quân cờ Số hướng tối đa Số nước tối đa trong một hướng Tướng 4 1 Sĩ 4 1 Tượng 4 1 Xe 4 9 Pháo 4 9 Mã 8 1 Tốt 3 1 Xây dựng tập nước đi hợp lệ cho các quân cờ • Kiểm tra giới hạn bàn cờ Xây dựng tập nước đi hợp lệ cho các quân cờ Xây dựng tập nước đi hợp lệ cho các quân cờ Tập Vị Trí Hợp Lệ Thuật toán Minimax Đi thử để Tập nước được tập đi tại... nước đi được lượng giá Lượng giá khi độ sâu cao nhất nước đi là 0 Thiết lập lại thông số trước khi đi thử Thuật toán Minimax Cắt bỏ miền tồi tệ khi giá trị lượng Cắt bỏ miền tồi tệ khi giá trị giá < alpha lượng giá > beta Hàm lượng giá (thế cờ hiện tại) Xây dựng chương trình • Giao diện chương trình Độ sâu Số lượng nút Thời gian 1 44 0.00 • Kết quả đạt được 2 877 0.00 3 24441 0.30 4 150480 2.60 5 5574794 1CƠNG TY TNHH DELTA 900 Đại Lộ Hòa Bình, TPCT BẢNG THUYẾT MINH BÁOCÁO TÀI CHÍNH NĂM 2010 I- Đặc điểm hoạt động của doanh nghiệp 01- Hình thức sở hữu vốn : Trách nhiệm hữu hạn 02- Lĩnh vực kinh doanh : Sản xuất 03- Tổng số cơng nhân viên và người lao động : ………. người 04- Đặc điểm hoạt động của doanh nghiệp trong năm tài chính có ảnh hưởng đến Báocáo tài chính : II- Chính sách kế tốn áp dụng tại doanh nghiệp: 01- Kỳ kế tốn năm ( bắt đầu từ ngày 01/01 kết thúc vào ngày 31/12/2010 ) 02- Đơn vị tiền tệ sử dụng trong kế tốn : Đồng Việt Nam 03- Chế độ kế tốn áp dụng : Áp dụng chế độ kế tốn doing nghiệp vừa và nhỏ( theo quyết định số 48/2006/QĐ-BTC ngày 14/09/2006 của Bộ trưởng BTC ) 04- Hình thức kế tốn áp dụng : Áp dụng hình thức chứng từ ghi sổ 05- Phương pháp kế tốn hàng tồn kho : - Ngun tắc ghi nhận hàng tồn kho : Được ghi nhận theo giá gốc - Phương pháp tính giá trị hàng tồn kho cuối kỳ: Áp dụng theo phương pháp nhập trước xuất trước - Phương pháp hạch tốn hàng tồn kho: Áp dụng theo phương pháp kê khai thường xun 06- Phương pháp khấu hao tài sản cố định đang áp dụng : Áp dụng theo phương pháp khấu hao đướng thẳng 07- Ngun tắc ghi nhận chi phí đi vay 08- Ngun tắc ghi nhận chi phí phải trả 09- Ngun tắc và phương pháp ghi nhận các khoản dự phòng phải trả 10- Ngun tắc ghi nhận chênh lệch tỷ giá 11- Ngun tắc và phương pháp ghi nhận doanh thu : Tn thủ đầy đủ 5 điều kiện ghi nhận doanh thu quy định tại Chuẩn mực kế tốn 14“ Doanh thu và thu nhập khác “ . Doanh thu bán hàng được xác định theo giá trị hợp lý của các khoản tiền đã thu. III- Tơng tin bổ sung cho các khoản mục trình bày trong Bảng Cân đối kế tốn ( Đơn vị tính :đồng ) Mẫu số B 09 – DNN (Ban hành theo QĐ số 48/2006/QĐ-BTC ngày 14/9/2006 của Bộ trưởng BTC)
201- Tiền và tương đương tiền Cuối năm Đầu năm - Tiền mặt 14.545.000 13.000.000 - Tiền gửi ngân hàng 104.529.963 37.000.000 - Tương đương tiền Cộng 119.074.963 50.000.000 02- Hàng tồn kho Cuối năm Đầu năm - Nguyên liệu, vật liệu 34.400.000 46.000.000 - Công cụ, dụng cụ 5.600.000 5.000.000 - Chi phí SX, KD dở dang 15.028.571 1.000.000 - Thành phẩm - Hàng hóa - Hàng gửi đi bán 7.598.500 Cộng 64.144.242 68.000.000 * Thuyết minh số liệu và giảitrình khác(nếu có)
303- Tình hình tăng, giảm tài sản cố định hữu hình : Khoản mục Nhà cửa, vật kiến trúc Máy móc, thiết bị Phương tiện vận tải truyền dẫn . TSCĐ hữu hình khác Tổng cộng (1) Nguyên giá TSCĐ hữu hình - Số dư đầu năm - Số tăng trong năm Trong đó : + Mua sắm + Xây dựng + Góp vốn - Số giảm trong năm Trong đó :+ Thanh lý + Nhượng bán + Chuyển sang BĐS đầu tư - Số dư cuối năm (2) Giá trị đã hao mòn lũy kế - Số dư đầu năm - Số tăng trong năm - Số giảm trong năm - Số dư cuối năm (3) Giá trị còn lại của TSCĐ hữu hình ( 1 – 2 ) - Tại ngày đầu năm - Tại ngày cuối năm Trong đó : + TSCĐ đã dung để thế chấ, cầm cố các khoản vay + TSCĐ tạm thời không sử dụng + TSCĐ chờ thanh lý 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 200.000.000 194.000.000 10.000.000 12.784.498 190.000.000 181.215.502 CÔNG TY TNHH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc , ngày tháng .năm BẢNG GIẢITRÌNH (Kèm theo Báocáo toán bổ sung năm ) Kính gửi: CHI CỤC THUẾ HUYỆN Chúng tôi, Công ty TNHH có trụ sở , Mã số Số: /GT-ĐQ Tp, HCM ngày tháng năm 2009 (V/v giảitrình kết SXKD quý I-2009) Kính gửi: SỞ GIAO DỊCH CHỨNG KHOÁN TP HỒ CHÍ MINH Trên sở báocáo tài Quý I năm 2009, Công ty cổ phần Bóng đèn Điện Quang (DQC) xin giảitrình kết kinh doanh Quý I sau: − Về doanh thu: Doanh thu Quý I thấp rơi vào thời điểm tết nguyên đán, thời gian nghỉ lễ tết nhiều đồng thời sau tết công trình xây dựng đa số xây dựng nên chưa phải giai đoạn hoàn thiện để sử dựng thiết bị điện sức mua sản lượng thời điểm đầu năm thấp Thị trường xuất tiếp tục gặp khó khăn ảnh hưởng khủng hoảng kinh tế toàn cầu Mặc dù Chính phủ áp dụng nhiều biện pháp, sách để kích cầu sức mua chưa cao − Về chi phí lợi nhuận: Do sản lượng tiêu thụ thấp so với lực sản xuất Công ty dẫn đến doanh thu không bù đắp đủ chi phí đặc biệt chi phí cố định Trên số giảitrình Điện Quang nguyên nhân ảnh hưởng đến tiêu lợi nhuận Quý I năm 2009, kính trình quý Sở xem xét Trân trọng kính chào./ TM HỘI ĐỒNG QUẢN TRỊ Nơi nhận: - Như - Lưu VT, HĐQT PHÓ CHỦ TỊCH