SoReL-20M: 20 triệu mẫu mã độc được công bố

WhiteHat News #ID:3333 · 15/12/2020

Đầu tuần qua, Sophos và ReversingLabs đã cùng phát hành bộ dữ liệu nghiên cứu malware lớn nhất từ trước đến nay với mục tiêu xây dựng hệ thống phòng thủ hiệu quả và thúc đẩy các cải tiến trong toàn ngành an toàn thông tin trong việc phát hiện và ứng phó an ninh mạng.
"SoReL-20M" (viết tắt của Sophos-ReversingLabs - 20 Million) là một tập siêu dữ liệu, chứa 20 triệu tệp Windows Portable Executable (.PE), bao gồm 10 triệu mẫu phần mềm độc hại đã được xử lý, với mục tiêu là đưa ra các phương pháp tiếp cận học máy để có khả năng phát hiện phần mềm độc hại tốt hơn.

Nhóm Sophos AI cho biết: “Sự hiểu biết và kiến thức về nguy cơ trên không gian mạng sẽ giúp bảo đảm an toàn an ninh mạng tốt hơn. Việc bảo vệ bao gồm cả việc đoán trước hacker định làm gì để chuẩn bị đối phó với những hành động tiếp theo của chúng”.
Cùng với bản phát hành là một tập hợp các mô hình học máy PyTorch và LightGBM dựa trên dữ liệu này.
Không giống như các lĩnh vực khác như ngôn ngữ tự nhiên và xử lý hình ảnh, vốn đã có các bộ dữ liệu công khai rộng lớn như MNIST, ImageNet, CIFAR-10, IMDB Reviews, Sentiment140 và WordNet, việc có được các bộ dữ liệu được gắn nhãn tiêu chuẩn dành cho an ninh mạng lại là một thách thức bởi có các thông tin nhận dạng cá nhân, dữ liệu cơ sở hạ tầng mạng nhạy cảm và sở hữu trí tuệ, chưa kể đến nguy cơ cung cấp phần mềm độc hại cho các bên thứ ba không xác định.
Mặc dù trước đó đã có công cụ phân loại phần mềm độc hại EMBER (hay còn gọi là Endgame Malware BEnchmark for Research) được phát hành vào năm 2018, nhưng kích thước mẫu nhỏ hơn (1,1 triệu mẫu) và chức năng hạn chế của EMBER khiến cho các thử nghiệm bị giới hạn.
SoReL-20M đặt mục tiêu giải quyết những vấn đề này với 20 triệu mẫu PE. Hơn nữa, cách tiếp cận này thúc đẩy mô hình học máy tạo ra các mô tả ngữ nghĩa và xác định thuộc tính quan trọng của các mẫu liên quan.
Việc phát hành SoReL-20M nằm trong chuỗi các sáng kiến của ngành an toàn thông tin trong những tháng gần đây, bao gồm cả sáng kiến của liên minh do Microsoft dẫn đầu và phát hành Adversarial ML Threat Matrix vào tháng 10 để giúp các nhà phân tích phát hiện, phản ứng và khắc phục các cuộc tấn công hệ thống học máy.

Theo: The Hacker News

CỘNG ĐỒNG AN NINH MẠNG VIỆT NAM

SoReL-20M: 20 triệu mẫu mã độc được công bố

WhiteHat News #ID:3333

VIP Members

SoReL-20M: 20 triệu mẫu mã độc được công bố

WhiteHat News #ID:3333

VIP Members

Số người đang xem

Thống kê diễn đàn