Phát hiện URL độc hại dựa trên học máy

nktung · 07/04/2023

URL hay còn gọi là Uniform Resource Locator được dùng như một đường dẫn tới một tài nguyên trên mạng. Những kẻ tấn công thường thay đổi một hoặc nhiều thành phần cấu trúc của URL để đánh lừa người dùng và phân tán URL độc hại. Bài viết này trình bày cách phát hiện URL độc hại dựa trên kỹ thuật học máy.

Một số hệ thống phát hiện URL độc hại dựa trên thuật toán học máy đã được nghiên cứu bao gồm SVM, Logistic Regression, Naive Bayes, Decision Trees, Ensembles, Online Learning,... Các hành vi và các kí tự của URLs có thể được chia thành hai nhóm chính, tĩnh và động.

Bộ dữ liệu sử dụng có tên là Malicious URLs dataset bao gồm hơn 650.000+ URLs được các nhà nghiên cứu thu thập từ nhiều nguồn khác nhau bao gồm hơn 400.000 URLs an toàn được đánh nhãn benign, còn lại là những URL độc hại bao gồm 96.000+ URLs defacement, 94.000+ URLs phishing và 32.000+ URLs malware.

H1. Quá trình học máy phát hiện URL

Từ tập dữ liệu URL nêu trên, đầu tiên ta sẽ trích xuất các đặc trưng của dữ liệu + gán nhãn.

H2. Ví dụ một vài thuộc tính được trích xuất

Bộ dữ liệu được chia thành 2 tập, một tập để cho quá trình huấn luyện (training stage) các thuật toán học máy. Một tập để sử dụng để test. Nếu hiệu suất của mô hình học máy tốt (có độ chính xác cao) mô hình sẽ được sử dụng để phát hiện URL độc hại (trong pha phát hiện - Detection stage). Pha phát hiện là để phân loại (classification) một URL là an toàn hay độc hại.
Sau quá trình huấn luyện + test, có thể thấy được thuật toán Gradient Boosting Classifier cho kết quả là các độ đo hiệu năng (Accuracy, F1, Recall, Pricision) tốt nhất, như trong bảng dưới.

H3. Kết quả chạy các mô hình

Kết luận: đối với bộ dữ liệu Malicious URLs dataset thì mô hình học máy sử dụng thuật toán Gradient Boosting hiệu quả để phát hiện các URL độc hại.

CỘNG ĐỒNG AN NINH MẠNG VIỆT NAM

Phát hiện URL độc hại dựa trên học máy

nktung

Nguyễn Khánh Tùng