Các thuật toán học máy Machine Learning sử dụng phát hiện xâm nhập mạng

nktung · 10/04/2022

Phát hiện xâm nhập mạng (Network Intrustion Detection) luôn là một vấn đề được quan tâm từ trước đến nay bởi có phát hiện được thì mới có thể ngăn chặn. Do vậy các công ty luôn chú trọng đầu tư hệ thống phát hiện xâm nhập mạng (IDS) để bảo vệ cho mạng của mình. Bài viết này đề cập đến các kỹ thuật phát hiện xâm nhập mạng dựa trên kỹ thuật học máy.

Khác với hệ thống dựa trên chữ ký, hệ thống IDS sử dụng kỹ thuật học máy sẽ thực hiện dự đoán một truy cập bất kỳ là bình thường hay đó là dấu hiệu một vụ tấn công mạng. Vậy làm thế nào để dự đoán được điều này? Các hệ thống IDS sẽ được huấn luyện từ dữ liệu về các hoạt động mạng, được thu thập trong quá khứ. Các dữ liệu này được tiền xử lý, gán nhãn để phân biệt đâu là dữ liệu truy cập thông thường và đâu là dữ liệu của các vụ tấn công. Tiếp đó bộ dữ liệu này được chia ra thành 2 tập con: dữ liệu huấn luyện (DLHL) và dữ liệu test (DLT). DLHL để sử dụng trong pha huấn luyện nhằm training cho các thuật toán học máy. DLT được sử dụng trong pha kiểm tra để đánh giá tính hiệu quả của mô hình trong việc dự đoán.

Hình 1. Phương pháp phát hiện xâm nhập mạng dựa trên học máy

Các thuật toán học máy thường được sử dụng ở pha huấn luyện là:

Hình 2. Các thuật toán học máy được sử dụng trong hệ thống IDS

Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật. Đầu vào là dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes) của nó, cây quyết định sẽ cho đầu ra là các luật để dự đoán lớp của các dữ liệu chưa biết.
K láng giềng gần nhất (K-Nearest Neighbor - KNN) là một kĩ thuật học máy có giám sát dùng để phân loại một quan sát mới, bằng cách tìm sự tương đồng giữa quan sát mới này với dữ liệu sẵn có.
Máy vectơ hỗ trợ (Support Vector Machine - SVM) là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy. SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau.
Thuật toán phân cụm K-Means: sử dụng phương pháp tạo và cập nhật trung tâm để phân nhóm các quan sát cho trước vào các nhóm khác nhau.
Mạng Nơron nhân tạo (ANN): là một chuỗi những thuật toán được đưa ra để tìm kiếm các mối quan hệ cơ bản trong tập hợp các dữ liệu, thông qua việc bắt bước cách thức hoạt động từ não bộ con người.

CỘNG ĐỒNG AN NINH MẠNG VIỆT NAM

Các thuật toán học máy Machine Learning sử dụng phát hiện xâm nhập mạng

nktung

Super Moderator

Các thuật toán học máy Machine Learning sử dụng phát hiện xâm nhập mạng

nktung

Super Moderator

Số người đang xem

Thống kê diễn đàn