文档名:面向不平衡数据集的网络入侵检测算法
摘要:针对入侵检测数据集存在类别不平衡问题,提出了系统化数据预处理与混合采样相结合的网络入侵检测算法.根据入侵检测数据集的特征分布,对特征值进行系统化处理.首先对Proto、Service和State3个类别特征,合并每类特征中样本数较少的取值,以降低独热编码的维度;然后依据数值分布将其中18个极端分布的数值特征进行对数处理后再执行Z-score标准化.设计了Nearmiss-1欠采样与SMOTE(SyntheticMinorityOver-samplingTechnique)过采样相结合的类别不平衡处理技术,将训练集中每类样本按照Proto、Service和State类别特征分成子类,对每个子类进行等比例欠采样或过采样.建立了入侵检测模型PSSNS-RF(NearmissandSMOTEbasedonProto,Service,State-RandomForest),在UNSW-NB15数据集上的多分类检出率达到97.02%,解决了数据不平衡问题,显著提高了少数类的检出率.
Abstract:Anetworkintrusiondetectionalgorithmthatcombinessystematicdatapre-processingandhybridsamplingisproposedfortheproblemofclassimbalanceinintrusiondetectiondatasets.Basedonthefeaturedistributionoftheintrusiondetectiondataset,thefeaturevaluesaresystematicallyprocessedasfollows:forthethreecategoricalfeatures,"Proto","Service"and"State",minorcategorieswithineachfeaturearecombinedtoreducethetotaldimensionofone-hotencoding;the18extremelydistributednumericalfeaturesareprocessedwithlogarithmandthenstandardizedaccordingtothenumericaldistribution.Theclassimbalanceprocessingtechnology,whichcombinesNearmiss-1under-samplingandSMOTE(SyntheticMinorityOver-samplingTechnique)isdesigned.Eachclassofsamplesinthetrainingdatasetisdividedintosub-classesbasedonthe"Proto","Service"and"State"categoricalfeatures,andeachsub-classisunder-sampledoroversampledinequalproportion.TheintrusiondetectionmodelPSSNS-RF(NearmissandSMOTEbasedonProto,Service,State-RandomForest)isbuilt,whichachievesa97.02%multiclassdetectionrateintheUNSW-NB15dataset,resolvingthedataimbalanceproblemandsignificantlyimprovingthedetectionrateofminorityclasses.
作者:徐忠原 杨秀华 王业 李玲 Author:XUZhongyuan YANGXiuhua WANGYe LILing
作者单位:长春建筑学院电气信息学院,长春130604吉林大学大数据和网络管理中心,长春130012吉林大学通信工程学院,长春130012
刊名:吉林大学学报(信息科学版) ISTIC
Journal:JournalofJilinUniversity(InformationScienceEdition)
年,卷(期):2023, 41(6)
分类号:TP393.08
关键词:网络入侵检测 不平衡数据集 特征选择 网络安全
Keywords:networkintrusiondetection imbalanceddataset featureselection networksecurity
机标分类号:TP391TP181F224
在线出版日期:2024年1月24日
基金项目:吉林省科技发展计划基金资助项目面向不平衡数据集的网络入侵检测算法[
期刊论文] 吉林大学学报(信息科学版)--2023, 41(6)徐忠原 杨秀华 王业 李玲针对入侵检测数据集存在类别不平衡问题,提出了系统化数据预处理与混合采样相结合的网络入侵检测算法.根据入侵检测数据集的特征分布,对特征值进行系统化处理.首先对Proto、Service和State3个类别特征,合并每类特征中样...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
面向不平衡数据集的网络入侵检测算法 Network Intrusion Detection Algorithm for Imbalanced Datasets
面向不平衡数据集的网络入侵检测算法.pdf
- 文件大小:
- 5.94 MB
- 下载次数:
- 60
-
高速下载
|
|