Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 111 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
111
Dung lượng
4,78 MB
Nội dung
TRƯỜNG ĐẠI HỌC HÀ NỘI KỶ YẾU HỘI THẢO GIÁO VIÊN KHOA CÔNG NGHỆ THÔNG TIN 5/2019 MỤC LỤC PHƯƠNG PHÁP MỚI CHO QUẢN LÝ KHÓA RIÊNG TƯ Tạ Quang Hùng KIỂM TRA ĐÁNH GIÁ – THÚC ĐẨY ĐỔI MỚI PHƯƠNG PHÁP DẠY VÀ HỌC Hoàng Phương Thảo ÁP DỤNG PHƯƠNG PHÁP HỌC DỰA TRÊN VẤN ĐỀ VÀ HỌC TỰ CHỦ TRONG GIẢNG DẠY TẠI TRƯỜNG ĐẠI HỌC HÀ NỘI 13 Đinh Thị Minh Nguyệt TỔNG QUAN VỀ INTERNET VẠN VẬT VÀ ỨNG DỤNG TRONG CHĂM SÓC SỨC KHỎE 20 Hoàng Thị Kiều Hoa HỆ THỐNG QUẢN LÝ ĐUA NGỰA PRISM 25 Hoàng Thị Kiều Hoa XÂY DỰNG BỘ CÂU HỎI THI TRẮC NGHIỆM MÔN TIN HỌC CƠ SỞ 32 Hoàng Phương Thảo HỌC CHỦ ĐỘNG (ACTIVE LEARNING): HƯỚNG ÁP DỤNG VÀO HỌC TẬP VÀ GIẢNG DẠY TẠI KHOA CÔNG NGHỆ THÔNG TIN – TRƯỜNG ĐẠI HỌC HÀ NỘI 38 Đỗ Thị Phương Thảo VẤN NẠN ĐẠO VĂN Ở CÁC TRƯỜNG ĐẠI HỌC - THỰC TRẠNG VÀ GIẢI PHÁP 45 Nguyễn Đình Trần Long SỬ DỤNG GIT TRONG THỰC TIỄN 52 Nguyễn Hữu Cầm 10 ỨNG DỤNG ĐỘ TƯƠNG ĐỒNG ẢNH HỖ TRỢ TÌM KIẾM VÀ GỢI Ý SẢN PHẨM LIÊN QUAN TRONG MUA SẮM THỜI TRANG TRỰC TUYẾN 59 Nguyễn Văn Cơng 11 TÌM HIỂU VỀ Ổ ĐĨA CD_ROM 68 Nguyễn Văn Hợi 12 TÌM HIỂU VỀ BÀN PHÍM (KEYBOARD) MÁY TÍNH 73 Nguyễn Văn Hợi 13 TÌM HIỂU VỀ CHUỘT (MOUSE) MÁY TÍNH 78 Nguyễn Văn Hợi 14 THU THẬP YÊU CẦU CHO HỆ THỐNG QUẢN LÝ TÀI SẢN TRƯỜNG ĐẠI HỌC HÀ NỘI 82 Trần Nguyễn Khánh 15 XÂY DỰNG HỆ THỐNG THÔNG TIN QUẢN LÝ TÀI SẢN TRƯỜNG ĐẠI HỌC HÀ NỘI 87 Trần Nguyễn Khánh 16 GIỚI THIỆU VỀ HỌC MÁY, PHÂN LOẠI VÀ CÁC BƯỚC XÂY DỰNG MODEL 100 Đỗ Thùy Dương PHƯƠNG PHÁP MỚI CHO QUẢN LÝ KHÓA RIÊNG TƯ Tạ Quang Hùng Cho phép bảo đảm an tồn tiên tiến tính bảo mật khóa riêng với người dùng PKI, quy trình truy cập lưu trữ khóa riêng trình bày báo Bằng cách sử dụng đặc tính ưu việc phương pháp thủy vân ảnh mã hóa đối xứng, phân mảnh khóa riêng mã hóa lữu trữ vùng liệu riêng biệt, tồn khóa riêng khôi phục miễn vùng liệu hiệu lực Hiệu suất lưu trữ truy xuất khóa riêng trình bày quy trình Đồng thời, khách hàng hợp lệ hệ thống xác minh cách sử dụng sinh trắc học chữ ký số Từ khóa: Lưu trữ an tồn, ẩn liệu, hình chìm mờ, hình ảnh an toàn Enabling the advance assurance of the security of the private keys of PKI users, a new scheme of accessing and storing the private key is proposed in this paper Making use of the advance characteristics of watermarking and symmetric encryption, the divided private key slices are encrypted and stored into the different boxes, and the whole private key is restructured as long as the boxes are effective The secure performance of storing and accessing private keys is also presented in the scheme At the same time, the legal users can be verified by system using biometric or signature authentication Keywords: Secure storage, data hiding, watermarking, secure image A NEW METHOD FOR PRIVATE KEY MANAGEMENT I INTRODUCTION Data storage gradually evolves towards network storage systems Sensitive data are transmitted to third party sites for backup and disaster recovery Data security is based on a few general methods: cryptography, steganography… Cryptographic methods may be classified according to cryptographic module location Encryption may be performed by the following components: operating system in the source system, application (e.g database), backup agent, network hardware device, backup destination system Each method has its weaknesses and drawbacks Evaluating and selecting the optimum solution for a given information system we have to analyze many intricate criterions: security level, performance, key management issues, and overall cost The diversity of the architectures, communication protocols and user objectives induces vast research agenda Steganography is covered or invisible writing In digital steganography, the user typically uses a program to hide a message or file within a carrier file, then sends that carrier file to the recipient or posts it on a site for download Then the recipient receives the file and uses the same program to reveal the hidden message or file For further protection, some hiding programs may also password protect the hidden message while other data hiding programs may encrypt and password protect the hidden contents There are various techniques and methods for hiding digital data divided into two main categories: • Insertion: Insertion involves inserting additional content This content may include the hidden message, as well as file markers as identifiers to the steganography program indicating the location of the hidden payload Insertion usually takes advantage of unused space within the file format Substitution: Substitution involves changing or swapping the existing bytes such that nothing new is inserted into the carrier file, but rather existing bytes are tweaked or changed to make them unnoticeable visibly or audibly One such example is Least Significant Bit (LSB) substitution, whereby the steganography program modifies the Least Significant Bit of a series of bytes in the file, by changing those bits from a to a 1, or a to a Among many Steganography methods [35], Digital watermarking is one of the best solutions to prevent illegal copying, modifying and redistributing multimedia data Encryption of multimedia products prevents an intruder from accessing the contents without a proper decryption key Digital watermarking is a technique to embed copyright or other information into the underlying data The embedded data should maintain the quality of the host signal In order to achieve the copyright protection, the algorithm should meet few basic requirements: • Imperceptibility: The watermark should not affect the quality of the original signal; thus it should be invisible/inaudible to human eyes/ears • Robustness: The watermarked data should not be removed or eliminated by unauthorized distributors, thus it should be robust to resist common signal processing manipulations such as filtering, compression, filtering with compression • Capacity: the number of bits that can be embedded in one second of the host signal • Security: The watermark should only be detected by authorized person Watermark detection should be done without referencing the original signals The watermark should be undetectable without prior knowledge of the embedded watermark sequence In this paper, I present a proposed model for the protection of private key This model can be used to secure any type of text messages by the applications of cryptography and watermarking By the employment of the QR-code, we can split secrete information to blocks then keep those fragment key in secure places II PROPOSED MODEL In this section, a proposed method for key storage with the use of black and white (B&W) QR code is presented The diagram of the key-storage and key-recovery are also provided with details explanation Inputs and outputs are defined clearly in the Figure The locations of databases demonstrate distributed databases located in different places A Key-storage Figure 1(a) shows the first proposed model First, the private key is split to N parts The 1st part of private key is then encoded to create a B&W QR code (QR1) This QR1 will play as a host image of a watermarking step where the 2nd part of the private key used as a watermark The watermarking step represents by a block with input, output and the watermark are QR1, QR2, and the 2nd part of the private key respectively Therefore, the 2nd part of the private key is embedded to a transformation of the 1st part of private key (QR1) In other words, the 2nd part of the private key is hidden into the 1st part of private key to build a new QR code (QR2) Similarly, the 3rd part of the private key is then embedded to the QR2 code to generate QR3 code The rest parts of the private key will be embedded sequentially as watermarks to previous QR code created by preceding step Finally, all parts of the private key will be hidden into the a QR code generated from the 1st part of private key The condition for this hiding process is that the final output (QRN) must be a valuable QR code Otherwise, we need to decrease N and restart the process The algorithm used in the watermarking step is the one presented in [9] To secure the watermarking steps, a signature will be used as a pass-phrase (Kw) for the watermarking blocks If the encryption process for N parts of the private key are done, this pass-phrase and number N will be encrypted by AES block to build a cipher text (AESkey) with another signature (input signature) The protection of private key is now changed to a protection problem of three items: two plain texts (AESkey and a signature) and a B&W image (QRN) Methods, which can be applied to keep those items, depend on the type of model For the online model, the AESkey is stored in a database located in Iceland The B&W image (QRN) can be stored in US as a printed card (offline) or as a single file in a secured database (online) The signature will be kept by the user who own the private key In this model, the user just have a piece of the secrete key For the off-line model, the AESkey will be encoded to a QR code (QRkey) Then the QRkey, QRN and signature will be kept off-line in different places (a) Key-storage (b) Key-recovery Figure Proposed model for key management scheme B Key-recovery Now we will discuss how the private key is recovered from the storage Figure 1(b) shows the recovery process used in the first model In this Figure, there are two stage of the recovery process The first stage is to recover QRN, N, and Kw from the online or off-line data The second stage is to recover the private key from the watermark extraction blocks In the online storage, users will provide their signatures to decrypt the AESkey stored in a database In the off-line storage, we first get the printed QRkey, then the AESkey is obtained by a standard QR decode module After that, we obtain the number N (watermarking times) and a key (Kw) used in watermarking process It is straightforward to get the printed QR-code (QRN) stored in US then we have QRN, N, and Kw Next stage is to extract the watermarks repeatedly from QRN using Kw as an extraction key Each step, we can obtain a part of the private key When the QR is extracted, the 1st part of the private key is then decoded Finally, the whole private key is constructed by concatenation of key fragments III.CONCLUSION In this paper, we propose a new model for key management scheme The private key will be divided into blocks and then hidden into an image using watermarking The necessary pieces of recovery information will be kept in different places The proposed methods are used a combination of cryptography and steganography methods [3,4,9] The proposed model can also use the color QR code or biometric model with user signatures REFERENCES [1] Y Aumann, Y Z Ding, and M O Rabin, “Everlasting security in the bounded storage model,” IEEE Trans Information Theory, vol 48, no 6, pp 1668– 1680, Jun 2002 [2] K Bae and I You, “A secure secondary backup storage with an isolated authentication,” in Proc Sixth International Conference on Innovative Mobile and Internet Services in Ubiquitous Computing Palermo: IEEE, Jul 2012, pp 122–125 [3] D J Cho, “Study on method of new digital watermark generation using QRcode,” in Proc Eight International Conference on Broadband, Wireless Computing, Communication and Applications Compiegne: IEEE, Oct 2013, pp 585–588 [4] I J Cox, M L Miller, J A Bloom, J Fridrich, and T Kalker, Digital Watermarking and Steganography, 2nd ed., ser The Morgan Kaufmann Series in Computer Security Elsevier, Inc., 2008 [5] X Du, Y Xiao, S Guizani, and H H Chen, “An efficient key management scheme for heterogeneous sensor networks,” in Proc 4th International Conference on Wireless Communications, Networking and Mobile Computing Dalian: IEEE, Oct 2008, pp 1–4 [6] A Eliasi, M Eliasi, and Z Haghoubi, “Digital images watermarking robust to print & scan for electronic evidence,” in Proc International Conference on Computer Applications and Industrial Electronics (ICCAIE) Penang: IEEE, 2011, pp 453 – 458 [7] S Gandhi and D Indira, “An efficient key management scheme for heterogeneous sensor networks,” International Journal of Computer Science and Information Technologies (IJCSIT), vol 2, no 5, pp 2343–2347, 2011 [8] M D Gupta, Ed., Watermarking, 2012, vol [9] S Vongpradhip and S Rungraungsilp, “QR code using invisible watermarking in frequency domain,” in Proc Ninth International Conference on ICT and Knowledge En- gineering Bangkok: IEEE, Jan 2012, pp 47–52 [10] M Raggo and C Hosmer, Data Hiding: Exposing Concealed Data in Multimedia, Operating Systems, Mobile Devices and Network Protocols, W McGrew, Ed Elsevier, 2013 KIỂM TRA ĐÁNH GIÁ – THÚC ĐẨY ĐỔI MỚI PHƯƠNG PHÁP DẠY VÀ HỌC Hoàng Phương Thảo Bài báo tổng kết nghiên cứu tác giả hoạt động kiểm tra đánh giá đào tạo tập trung vào nội dung khái niệm, chức năng, nguyên tắc kiểm tra đánh giá… Bên cạnh việc nghiên cứu lý thuyết tác giả trình bày thực tiễn triển khai hoạt động kiểm tra đánh giá học phần Tin học sở khoa Công nghệ thông tin vấn đề liên quan Khái niệm kiểm tra đánh giá giáo dục - đào tạo Trong tài liệu kiểm tra đánh giá kết học tập học sinh, sinh viên có nhiều khái niệm kiểm tra, đánh giá, nêu nhiều tác giả khác Trong đó, lý luận dạy học đại học có nêu: kiểm tra đánh giá cơng đoạn định chất lượng q trình dạy học Kiểm tra đánh giá giúp giáo viên biết hiệu chất lượng giảng dạy, điều chỉnh nội dung phương pháp dạy học, giúp người học biết chất lượng học tập, điều chỉnh phương pháp học, giúp nhà quản lí định kết học tập người học, điều chỉnh chương trình đào tạo tổ chức dạy học Lý luận dạy học bậc phổ thơng cho rằng: đánh giá kết học tập học sinh hoạt động quan trọng trình giáo dục Đánh giá kết học tập trình thu thập xử lý thơng tin trình độ, khả thực mục tiêu học tập học sinh nhằm tạo sở cho định sư phạm giáo viên, giải pháp cấp quản lý giáo dục cho thân học sinh, để học sinh học tập đạt kết tốt Đánh giá kết học tập học sinh cần sử dụng phối hợp nhiều cơng cụ, phương pháp hình thức khác Đề kiểm tra công cụ dùng phổ biến để đánh giá kết học tập học sinh Trong phạm vi đề tài tác giả xác định khái niệm kiểm tra đánh sau: Kiểm tra theo dõi, tác động người kiểm tra (người dạy) người học mục đích để thu thông tin cần thiết hỗ trợ cho việc đánh giá Thông tin phản hồi từ việc kiểm tra cung cấp cho người học, giúp người học tự điều chỉnh hoạt động học cung cấp cho người dạy, đơn vị quản lý đào tạo để rút kinh nghiệm tự điều chỉnh Đánh giá kết học tập trình đo lường mức độ đạt người học so với mục tiêu q trình dạy học Mơ tả cách định tính, định lượng, tính đầy đủ, xác tính vững kiến thức, mối liên hệ kiến thức với thực tiễn khả vận dụng kiến thức vào thực tiễn; mức độ thơng hiểu, diễn đạt lại lời nói, văn ngôn ngữ chuyên môn người học,… Đánh giá thực sở phân tích thơng tin phản hồi từ kiểm tra Chức kiểm tra, đánh giá giáo dục – đào tạo Kiểm tra, đánh giá giáo dục – đào tạo nhằm nâng cao chất lượng học tập sinh viên, thông qua giúp đơn vị quản lý giáo dục có thông tin để đưa định xử lý kịp thời Kiểm tra gồm có ba chức thành phần ln gắn bó mật thiết với là: Đánh giá, phát sai lệch điều chỉnh Đánh giá kết học tập sinh viên: trình xác định mức độ đạt mục tiêu môn học, nhằm xác định xem sau kết thúc giai đoạn (một chương, học kỳ …), sinh viên đạt mức độ kiến thức, kỹ tư Phát sai lệch: qua việc kiểm tra đánh giá, người dạy đơn vị quản lý đào tạo so sánh kết đạt với mục tiêu ban đầu, nhờ phát điểm đạt chưa đạt sinh viên so với mục tiêu môn học Đồng thời phát sai lệch người dạy người học để kịp thời đưa phương án giải Điều chỉnh: Căn vào đánh giá thông tin phản hồi từ kiểm tra, người dạy đơn vị quản lý đào tạo tìm điều chỉnh cần thiết trình giảng dạy để loại trừ sai lệch, nâng cao nhận thức sinh viên, giúp việc dạy học phù hợp với yêu cầu thực tiễn Các nguyên tắc đánh giá Đánh giá kết quảhọc tập sinh viên q trình phức tạp địi hỏi nhiều cơng sức phải tuân theo nguyên tắc đánh giá sau đây: Nguyên tắc khách quan: Việc đánh giá không chứa yếu tố tình cảm, tâm lý hay yếu tố ngoại lai khác Đây nguyên tắc quan trọng ảnh hưởng lớn tới kết đánh giá; đánh giá khách quan giúp giáo viên thu tín hiệu ngược cách xác, từ điều chỉnh phương pháp giảng dạy nâng cao hiệu truyền đạt Đồng thời khách quan tạo tâm lý tích cực cho người học, khuyến khích ý thức tự học, giảm yếu tố tiêu cực, gian lận sinh viên Bám sát mục tiêu dậy học: Đánh giá phải dựa đặc thù môn học mục tiêu cần đạt mơn học mặt kiến thức, kỹ Các nội dung cần đánh giá đặt cách tùy tiện mà phải xuất phát từ mục tiêu chung chương trình đào tạo Toàn diện: Việc đánh giá phải bao hàm đầy đủ yếu tố liên quan kiến thức, kỹ năng, tư tưởng trị, thái độ, tác phong,… Theo kế hoạch: Sự vật vận động không ngừng, hoạt động giáo dục – đào tạo không nằm quy luật khách quan làm cho kết kiểm tra, đánh giá thực có giá trị thời điểm đánh giá Vì việc kiểm tra đánh giá cần phải 10 3) Function Design 3.1) Liquidate asset Description: In order to liquidate asset, firstly, an employee has to make an asset liquidation request After creating an asset liquidation request, a liquidation request ID is created in the system If a liquidation request is approved, the asset will be liquidated and a liquidation ID is generated in the AMS That asset will also disappear from the system Related data tables: ASSET, ASSET_LIQUIDATION, ASSET_LIQUIDATION_REQUEST, LIQUIDATION_REQUEST, WEB_LOGGING 3.2) Report asset loss Description: After reporting an asset to be lost, that asset will disappear from the system and an Asset loss ID is created Related data WEB_LOGGING tables: ASSET, ASSET_LOSS, ASSET_LOSS_REPORT, 3.3) Report asset damage Description: After reporting an asset to be damaged, that asset’s value will decrease and an Asset Damage ID is generated Related data WEB_LOGGING tables: ASSET, ASSET_DAMAGE_REPORT, STATUS, 3.4) Report asset repair Description: After reporting an asset to be repaired, that asset’s value will increase and an Asset Repair Bill ID is generated Related data tables: ASSET, ASSET_REPAIR_BILL, REPAIR_BILL, STATUS, WEB_LOGGING 3.5) Report asset transfer Description: After an employee makes a transfer order, an Asset Transfer Order ID is generated If an Asset Transfer Request is approved, the asset will be handover and an Asset Transfer Report ID is generated Related data tables: ASSET, ASSET_TRANSFER_ORDER, TRANSFER_ORDER, ASSET_HANDOVER_REPORT, STATUS, ASSET_TRANSFER_REPORT, WEB_DEPARTMENT, WEB_ORGANIZATION, WEB_LOGGING III ASSET REPORT MANAGEMENT MODULE A Requirements Analysis 97 1) General Requirements of Asset Report Management Module This module enables users to automatically create request forms on assets (bases on asset ID), reports on assets (which means automatically fill in the template to export as a text file) based on an operation ID or print an asset report template for the users to manually enter data Some template samples are listed in Appendix IV 2) Detailed Requirements of Asset Report Management Module a) Create asset request form b) Create asset reports c) Create asset template d) Create asset log 3) MoSCoW Prioritization Must have Create asset request forms (asset transfer request, asset liquidation request, asset, Create asset reports Should have Create asset log Could have Create inventory import/export request form Won’t have this time Create land property request form Create inventory import/export reports Create land property report Create/Print template B Function Design 1) Create asset liquidation request form Description: An asset liquidation request form will be generated based on an asset ID 2) Create asset liquidation report Description: An asset liquidation report will be generated based on liquidation ID 3) Create asset loss report Description: An asset liquidation report will be generated based on an asset loss ID 4) Create asset damage report Description: An asset damage report will be generated based on an asset damage report ID 5) Create asset repair request form Description: An asset repair request form will be generated based on an asset damage report ID 98 6) Create asset repair report Description: An asset damage report will be generated based on an asset repair report ID 7) Create asset transfer request form Description: An asset transfer request form will be generated based on an asset ID 8) Create asset transfer order form Description: An asset transfer form will be generated based on an asset transfer request ID 9) Create asset transfer report Description: An asset transfer report will be generated based on an asset transfer order ID 10) Create asset handover report Description: An asset handover report will be created based on an asset transfer order ID 11) Create asset log report Description: A history of use of an asset will be created based on that asset ID 12) Print asset report / request form templates Description: A template of an asset report or asset request form is created for the users to write to that template manually III CONCLUSTION The HANU AMS Development Project has completed the Asset Management module, User Management Module, Asset Operation Management Module, Asset Report Management Module But the Inventory Management and the Land Property Management features of the HANU AMS are still very weak and can only be fully upgraded and completed in the Future Work because of the lack of time 99 GIỚI THIỆU VỀ HỌC MÁY, PHÂN LOẠI VÀ CÁC BƯỚC XÂY DỰNG MODEL Đỗ Thùy Dương Bài báo cáo đưa nhìn tổng quan Học máy, phân loại Học máy cách xây dựng model áp dụng thuật tốn Học máy Từ khóa: Học máy, Học có giám sát, Học khơng giám sát, Học bán giám sát, Học củng cố, Hồi quy tuyến tính I ĐỊNH NGHĨA HỌC MÁY Những năm gần đây, AI - Artificial Intelligence (Trí Tuệ Nhân Tạo), cụ thể Machine Learning (Học Máy Máy Học) lên chứng cách mạng công nghiệp lần thứ tư (1 - động nước, - lượng điện, - công nghệ thơng tin) Trí Tuệ Nhân Tạo len lỏi vào lĩnh vực đời sống mà không nhận Xe tự hành Google Tesla, hệ thống tự tag khuôn mặt ảnh Facebook, trợ lý ảo Siri Apple, hệ thống gợi ý sản phẩm Amazon, hệ thống gợi ý phim Netflix, máy chơi cờ vây AlphaGo Google DeepMind, …chỉ vài ứng dụng AI/Machine Learning Học máy lĩnh vực nhỏ Khoa Học Máy Tính, có khả tự học hỏi dựa liệu đưa vào mà không cần phải lập trình cụ thể Hình minh họa khác Lập trình truyền thống Học máy Hình So sánh lập trình truyền thống học máy I PHÂN LOẠI HỌC MÁY Có hai cách phân loại Cách dựa phương thức học, cách hai dựa chức Trong viết tập trung cách phân loại thứ Với cách phân loại này, Học máy chia làm ba nhóm chính: Học có giám sát, học khơng giám sát học bán giám sát 100 Hình Phân loại Học máy A Học có giám sát (Supervised Learning) Học có giám sát thuật tốn dự đốn đầu liệu dựa cặp (input, outcome) biết từ trước Cặp liệu gọi (data, label), tức (dữ liệu, nhãn) Đây nhóm phổ biến thuật tốn Học máy Một cách tốn học, học có giám sát chúng có tập hợp biến đầu vào X={x1, x2,…,xN} tập hợp nhãn tương ứng Y={y1,y2,…,yN}, xi,yi vector Các cặp liệu biết trước (xi, yi) ∈X×Y gọi tập liệu huấn luyện Từ tập liệu huấn luyện này, cần tạo hàm số ánh xạ phần tử từ tập X sang phần tử (xấp xỉ) tương ứng tập Y: yi ≈ f(xi), ∀i=1,2,…,N Mục đích xấp xỉ hàm số f thật tốt để có liệu x mới, tính nhãn tương ứng y=f(x) Ví dụ 1: nhận dạng chữ viết tay, ta có ảnh hàng nghìn ví dụ chữ số viết nhiều người khác Chúng ta đưa ảnh vào thuật tốn cho biết ảnh tương ứng với chữ số Sau thuật toán tạo mơ hình, tức hàm số mà đầu vào ảnh đầu chữ số, nhận ảnh mà mơ hình chưa nhìn thấy bao giờ, dự đốn ảnh chứa chữ số 101 Hình Phân loại chữ số viết tay Ví dụ 2: Thuật tốn dị khn mặt ảnh phát triển từ lâu Thời gian đầu, facebook sử dụng thuật toán để khuôn mặt ảnh yêu cầu người dùng tag friends - tức gán nhãn cho khuôn mặt Số lượng cặp liệu (khuôn mặt, tên người) lớn, độ xác lần tự động tag lớn Thuật tốn học có giám sát tiếp tục chia nhỏ thành hai loại chính: i Classification (Phân loại) Một tốn gọi classification label input data chia thành số hữu hạn nhóm Ví dụ: Gmail xác định xem email có phải spam hay khơng; hãng tín dụng xác định xem khách hàng có khả tốn nợ hay khơng Ba ví dụ phía chia vào loại ii Regression (Hồi quy) Nếu label không chia thành nhóm mà giá trị thực cụ thể Ví dụ: nhà rộng x m2, có y phòng ngủ cách trung tâm thành phố z km có giá bao nhiêu? B Học khơng giám sát (Unsupervised Learning) Trong thuật tốn này, khơng biết outcome hay nhãn mà có liệu đầu vào Thuật tốn học khơng giám sát dựa vào cấu trúc liệu để thực cơng việc đó, ví dụ phân nhóm (clustering) giảm số chiều liệu (dimension reduction) để thuận tiện việc lưu trữ tính tốn Một cách tốn học, học khơng giám sát có liệu vào X mà khơng biết nhãn Y tương ứng Những thuật toán loại gọi học khơng giám sát khơng giống học có giám sát, khơng biết câu trả lời xác cho liệu đầu vào Các tốn Học khơng giám sát tiếp tục chia nhỏ thành hai loại: 102 i Phân nhóm (Clustering) Một tốn phân nhóm tồn liệu X thành nhóm nhỏ dựa liên quan liệu nhóm Ví dụ: phân nhóm khách hàng dựa hành vi mua hàng Điều giống việc ta đưa cho đứa trẻ nhiều mảnh ghép với hình thù màu sắc khác nhau, ví dụ tam giác, vng, trịn với màu xanh đỏ, sau yêu cầu trẻ phân chúng thành nhóm Mặc dù khơng cho trẻ biết mảnh tương ứng với hình màu nào, nhiều khả chúng phân loại mảnh ghép theo màu hình dạng ii Association Là toán muốn khám phá quy luật dựa nhiều liệu cho trước Ví dụ: khách hàng nam mua quần áo thường có xu hướng mua thêm đồng hồ thắt lưng; khán giả xem phim Spider Man thường có xu hướng xem thêm phim Bat Man, dựa vào tạo hệ thống gợi ý khách hàng (Recommendation System), thúc đẩy nhu cầu mua sắm C Học bán giám sát (Semi-Supervised Learning) Các tốn có lượng lớn liệu X phần chúng gán nhãn gọi Học bán giám sát Những tốn thuộc nhóm nằm hai nhóm nêu bên Một ví dụ điển hình nhóm có phần ảnh văn gán nhãn (ví dụ ảnh người, động vật văn khoa học, trị) phần lớn ảnh/văn khác chưa gán nhãn thu thập từ internet Thực tế cho thấy nhiều toán Machine Learning thuộc vào nhóm việc thu thập liệu có nhãn tốn nhiều thời gian có chi phí cao Rất nhiều loại liệu chí cần phải có chuyên gia gán nhãn (ảnh y học chẳng hạn) Ngược lại, liệu chưa có nhãn thu thập với chi phí thấp từ internet D Học củng cố (reinforcement learning) Học củng cố toán giúp cho hệ thống tự động xác định hành vi dựa hoàn cảnh để đạt lợi ích cao Hiện tại, học củng cố chủ yếu áp dụng vào Lý Thuyết Trò Chơi (Game Theory), thuật toán cần xác định nước để đạt điểm số cao Ví dụ 1: AlphaGo gần tiếng với việc chơi cờ vây thắng người Cờ vây xem có độ phức tạp cao với tổng số nước xấp xỉ 10761, so với cờ vua 10120 tổng số nguyên tử toàn vũ trụ khoảng 1080! Vì vậy, thuật tốn phải chọn nước tối ưu số hàng nhiều tỉ tỉ lựa chọn Về bản, AlphaGo bao gồm thuật tốn thuộc học có giám sát Học củng cố Trong phần học có giám sát, liệu từ ván cờ người chơi với đưa vào để huấn luyện Tuy nhiên, mục đích cuối AlphaGo khơng phải chơi 103 người mà phải chí thắng người Vì vậy, sau học xong ván cờ người, AlphaGo tự chơi với với hàng triệu ván chơi để tìm nước tối ưu Thuật toán phần tự chơi xếp vào loại Học củng cố Ví dụ 2: Huấn luyện cho máy tính chơi game Mario Đây chương trình thú vị dạy máy tính chơi game Mario Game đơn giản cờ vây thời điểm, người chơi phải bấm số lượng nhỏ nút (di chuyển, nhảy, bắn đạn) không cần bấm nút Đồng thời, phản ứng máy đơn giản lặp lại lần chơi (tại thời điểm cụ thể xuất chướng ngại vật cố định vị trí cố định) Đầu vào thuật tốn sơ đồ hình thời điểm tại, nhiệm vụ thuật tốn với đầu vào đó, tổ hợp phím nên bấm Việc huấn luyện dựa điểm số cho việc di chuyển bao xa thời gian game, xa nhanh điểm thưởng cao (điểm thưởng khơng phải điểm trị chơi mà điểm người lập trình tạo ra) Thơng qua huấn luyện, thuật tốn tìm cách tối ưu để tối đa số điểm trên, qua đạt mục đích cuối cứu cơng chúa II CÁC BƯỚC CHÍNH XÂY DỰNG MỘT MODEL SỬ DỤNG CÁC THUẬT TOÁN ML Bước 1: Gom chuẩn hóa liệu Bước 2: Xây dựng model 2.1 Chọn model để huấn luyện 2.2 Huấn luyện dựa vào tập liệu huấn luyến Bước 3: Đánh giá dựa vào tập liệu đánh giá Bước 4: Tùy chỉnh tham số để có Model tốt Bước 5: Dự đoán kết với đầu vào liệu Hình minh họa bước này: Hình Các bước xây dựng mơ hình học máy 104 Bài tốn cụ thể đưa ra: Xây dựng mơ hình Học máy dự đốn giá trị hộ dựa vào số phịng ngủ, diện tích, khoảng cách tới trung tâm thành phố Bước 1: Gom chuẩn hóa liệu Đây bước quan trọng xây dựng hệ thống học máy Mục đích việc xử lý liệu làm liệu (cleaning data), biến đổi (transform) chúng thành kiểu mà thuật tốn hiểu thực thi Trong toán này, liệu cần thu thập Số phịng ngủ, diện tích, khoảng cách tới trung tâm thành phố Bảng minh họa cho thấy cách gom chuẩn hóa liệu Diện tích Khoảng cách tới TT Giá bán Số phịng ngủ (m2) (km) (nghìn $) 130 05 250 50 02 300 55 08 150 40 05 78 130 10 150 Bảng Xử lý liệu huấn luyện đầu vào Sau thu thập bảng liệu, liệu xáo trộn để đảm bảo thứ tự liệu không làm ảnh hưởng tới cách học model Chia liệu làm hai phần: Dữ liệu để huấn luyện model (Training dataset) liệu đánh giá để đánh giá độ tốt model (Test dataset) Tỉ lệ liệu huấn luyện – liệu đánh giá khoảng 80%-20% 70%-30% Bước 2: Xây dựng Model 2.1 Chọn model để huấn luyện: Trong toán này, sử dụng linear model (Model tuyến tính) y = θ3*x3 + θ2*x2+θ1*x1+θ0 Trong đó: y giá trị hộ x1, x2, x3 biến tương ứng với số phịng ngủ, diện tích, khoảng cách tới trung tâm θ0, θ1, θ2, θ3 trọng số (cần tùy chỉnh để tìm giá trị y khớp với liệu huấn luyện) 105 2.2 Huấn luyện Model dựa vào tập liệu huấn luyện Bước huấn luyện sau: 2.2.1 Khởi tạo Model: Tại bước này, trọng số θ0, θ1, θ2, θ3 khởi tạo ngẫu nhiên Giả sử trọng số khởi tạo 1.0 Ta có: y = 1*x3 + 1*x2+1*x1+1 2.2.2 Dùng model để dự đoán kết đầu ra: (Prediction) Số Giá bán Model dự đoán Diện tích Khoảng cách tới TT phịng (Nghìn $) (m2) (km) ngủ Giá bán (Nghìn $) 130 05 134 250 50 02 53 300 55 08 58 150 40 05 42 78 130 10 135 150 Bảng 2: Mơ hình dự đốn giá sau khởi tạo trọng số Ban đầu, giá bán mà mơ hình dự đốn khơng liên quan tới gián bán thực tế trọng số θ khởi tạo hoàn toàn ngẫu nhiên 2.2.3 Kiểm tra độ sai lệch kết dự đoán với kết thực tế Để đánh giá độ sai lệch, có hàm mát (Cost function): Đây trung bình sai số kết dự đoán kết thực Trong đó: MyGuess(i) Giá bán mà Model dự đoán cho hộ i RealAnswer(i) Giá bán thực tế hộ i M số lượng hộ tập liệu huấn luyện Viết lại phương trình kí hiệu tốn học sau: 106 Trong đó, θ đại diện cho trọng số tại, J(θ) "mất mát trọng số tại" Phương trình thể sai lệch hàm dự đoán giá cho trọng số Nếu đồ thị hàm mát cho giá trị trọng số số phòng ngủ hay diện tích, có đồ thị Hình Đồ thị hàm mát cho tốn tìm giá hộ Trong đồ thị này, điểm thấp màu xanh điểm mà hàm mát đạt cực tiểu đó, hàm mát sai Vị trí trọng số để hàm mát đạt cực tiểu lời giải tốn Như vậy, nhiệm vụ Học máy tìm trọng số θ tốt để giá trị hàm mát gần với (giảm mát) 2.2.4 Phương pháp lao dốc tìm điểm cực tiểu (Gradient Descent) Để tìm điểm cực tiểu hàm số cách tiếp cận giải phương trình đạo hàm hàm số Tuy nhiên, hầu hết trường hợp, việc giải phương trình đạo hàm bất khả thi Nguyên nhân đến từ phức tạp dạng đạo hàm, từ việc điểm liệu có số chiều lớn, từ việc có nhiều điểm liệu Hướng tiếp cận phổ biến xuất phát từ điểm mà coi gần với nghiệm toán, sau dùng phép tốn lặp để tiến dần đến điểm cần tìm, tức đến đạo hàm gần với Một phương pháp để cập nhật tìm trọng số w tốt phương pháp lao dốc (Gradient Descent) Ta tìm đạo hàm hàm đa biến cách tìm đạo hàm phần cho biến Nếu đạo hàm hàm số θt: f′( θt)>0 xt nằm bên phải so với điểm cực tiểu θ∗ (và ngược lại) Để điểm θt+1 gần với θ∗ hơn, cần di chuyển θt phía bên trái, tức phía âm Nói khác, cần di chuyển ngược dấu với đạo hàm: 107 θt+1= θt+Δ Δ đại lượng ngược dấu với đạo hàm f′(θt) θt xa θ∗ phía bên phải f′(θt) lớn (và ngược lại) Vậy, lượng di chuyển Δ, cách trực quan nhất, tỉ lệ thuận với −f′(θt) Hai nhận xét phía cho cách cập nhật đơn giản là: θt+1=θt−αf′(θt) Trong α số dương gọi tốc độ học Dấu trừ thể việc phải ngược với đạo hàm Các quan sát đơn giản phía trên, cho tất toán, tảng cho nhiều phương pháp tối ưu nói chung thuật tốn Học máy nói riêng Trong tốn tìm giá hộ ta tìm đạo hàm cho hàm đa biến cách tìm đạo hàm phần biến Sau cập nhật trọng số theo cơng thức sau: Ta lặp lại việc tính θ bất biến (lúc đạo hàm sấp xỉ 0) Sau có trọng số tốt nhất, ta có Model tốt Bước 3: Đánh giá dựa vào tập liệu đánh giá Sau hoàn thành việc huấn luyện, Model đánh giá xem dự đốn đủ tốt khơng cách sử dụng liệu đánh giá Bước cho phép kiểm tra xem khả dự đoán kết Model với liệu chưa gặp bước Huấn luyện Phương pháp đánh giá: Dựa vào đại lượng đo độ sai như: MAE, (R)MSE, Trong đó: Sai số tuyệt đối trung bình (MAE): 108 Vì MAE lấy giá trị tuyệt đối độ sai lệch kết dự đốn kết thực tế nên MAE khơng thể việc Model dự đoán cao hay thấp so với thực tế Các độ sai lệch (lớn hay nhỏ) đánh trọng số Hình Biểu diễn giá trị MAE Sai số bình phương trung bình (MSE): Trong MSE điểm liệu có độ sai lệch lớn đánh trọng số cao nhiều so với liệu có độ sai lệch nhỏ Như đồng nghĩa với việc Model bị đánh giá thấp (MSE cao) Model dự đốn liệu có độ sai lệch cao so với thực tế Hình Biểu diễn giá trị MSE R Bình phương: 109 Trong đó: Giá trị nằm khoảng [0,1] Bước 4: Tùy chỉnh tham số để có Model tốt Sau đánh giá Model dựa vào tập liệu đánh giá, Model đủ tốt bỏ qua bước Ngược lại, Model chưa tốt tiến hành điều chỉnh lại tham số (tốc độ học, chọn lựa lại feature hay sử dụng model khác) Vì thế, thử liệu nhiều loại model việc bình thường nên làm Sau đó, kiểm tra, đánh giá lại Model Bước 5: Dự đoán kết Model đưa vào hoạt động dự đoán kết đầu cho liệu đầu vào IV KẾT LUẬN Bài tốn Học máy tốn khơng đơn giản Ở đó, máy cho học từ liệu huấn luyện, trích rút logic cụ thể, từ dự đốn kết đầu có liệu đầu vào Trong khuôn khổ báo này, tơi tập trung vào mơ hình Học máy đơn giản, mơ hình hồi quy tuyến tính Mơ hình đơn giản nên khơng thể áp dụng với toán phức tạp liệu phải xử lý nhiễu trước huấn luyện nhiễu làm cho mơ hình sinh bị sai lệch nhiều Trong nghiên cứu tiếp theo, vào chi tiết vấn đề phát sinh bước xây dựng model Ví dụ như, bước gom liệu, nên chọn lựa thuộc tính để huấn luyện, nên lấy mẫu liệu, tỉ lệ liệu nào, số lỗi xây dựng model… TÀI LIỆU THAM KHẢO [1] Andrew Ng, CS229 Lecture notes, http://cs229.stanford.edu/notes/cs229notes1.pdf [2] Vũ Hữu Tiệp, Machine Learning bản, 02/2018 [3] Vũ Hữu Tiệp, Giới thiệu Machine Learning https://machinelearningcoban.com/2016/12/26/introduce/, 03/2016 [Online] [4] Rohith Gandhi, Introduction to machine learning algorithms, linear regression 110 [Online], https://towardsdatascience.com/introduction-to-machine-learning-algorithmslinear-regression-14c4e325882a, 05/2018 [5] Expert System Team, What is Machine Learning? A definition [Online], https://www.expertsystem.com/machine-learning-definition/ [6] Google DeepMind’s AlphaGo, How it works [Online], https://www.tastehit.com/blog/google-deepmind-alphago-how-it-works/, 03/2016 [7] Gwendolyn Faraday, The best resources I used to teach myself Machine Learning [Online], https://medium.freecodecamp.org/the-best-resources-i-used-toteach-myself-machine-learning-part-1-292232d167, 10/2018 [8] NguyenDuong, Linear Regression – Hồi quy tuyến tính Machine Learning, https://viblo.asia/p/linear-regression-hoi-quy-tuyen-tinh-trong-machinelearning-4P856akRlY3, 05/2017 [9] Nguyen Dinh Tung, Machine Learning thật thú vị (1): Dự đoán giá nhà đất, [Online] https://viblo.asia/p/machine-learning-that-thu-vi-1-du-doan-gia-nha-datgAm5y91w5db, 12/2017 [10] Adam Geitgey, Machine Learning is fun The world’s easiest introduction to Machine Learning, [Online] https://medium.com/@ageitgey/machine-learning-is-fun80ea3ec3c471 [11] Nguyễn Phúc Lương, Machine Learning – Linear Regression with one variable, [Online] https://viblo.asia/p/machine-learning-linear-regression-with-onevariable-yMnKMqdgK7P, 05/2017 [12] Nguyen Giap Hong, Quy trình tổng quát xây dựng hệ thống Machine Learning, [Online] https://giaphong.me/quy-trinh-xay-dung-he-thong-machinelearning/, 05/2018 [13] Nguyễn Thành Nam, Giới thiệu kỹ thuật xuống dốc, [Online], https://www.vithon.org/2018/04/may-hoc-pho-thong-2.html, 04/2018 [14] Christian Pascual, Understanding regression error metrics, [Online], https://www.dataquest.io/blog/understanding-regression-error-metrics, 09/2018 [15] Jeremy Jordan, Evaluating a machine learning model, [Online], https://www.jeremyjordan.me/evaluating-a-machine-learning-model/, 07/2017 [16] Alvira Swalin, Choosing the right metric for evaluation Machine Learning Models – Part 1, [Online], https://medium.com/usf-msds/choosing-the-right-metric-formachine-learning-models-part-1-a99d7d7414e4, 07/2018 [17] Jason Brownlee, Metrics to evaluate machine learning algoriths in Python, [Online], https://machinelearningmastery.com/metrics-evaluate-machine-learningalgorithms-python/, 05/2016 111