日志分析是云计算业务平台管理中一项非常重要的工作。日志分析旨在保证云平台的高效性与可用性,传统的人工分析方式存在日志复杂、日志量大等问题。本文提出了一种日志异常检测方法,首先基于编辑距离进行文本聚类形成日志模板,在此基础上构建特征向量,利用弱分类器训练形成得分特征向量,利用得分特征向量与随机森林构建强分类器人工在原始数据集上筛选出184条日志模板,将聚类后形成的模板与人工筛选的184条模板提送至比对处理环节,由此可得互信息值为0.91(值为1代表几乎完全一样)。日志模板形成后基于所有日志模板来集结组建词库,计算每个日志单词的TF-IDF值,将日志模板数值化代入弱分类器(逻辑线性回归、贝叶斯、支持向量机),继而得到每个日志模板的概率得分。最后,利用每个日志模板的概率得分构建得分特征向量,利用随机森林进行最终分类(子树个数为100)。至此,可得分类效果则如图1所示。其中本文有公司网站全自动滚圆机采集转载中国知网整理 http://www.gunyuanji.com ,precision表示查准率,recall表示查全率,异常检测技术-电动折弯机数控滚圆机滚弧机张家港钢管滚圆机滚弧机折弯机f-measure是2个指标的折中。本次研究中,可分别给出其数学定义如下所示:precision=被检测为异常、本身也为异常的个数被检测为异常的个数(13)recall=被检测为异常、本身也为异常的个数本身为异常的个数(14图1可以看出,在训练集上,3种弱分类器的效果相当,随机森林构建的强分类器表现效果较好。同理,研究得到在测试集上的最终分类效果如图2所示。从图2可以看出,在测试集上,随机森林构建的强分类器的性能评价仍然是最好的,这就表明强分类器有着较好的分类准确性与泛化性。4结束语本次设计开发得到的重点研究成果可阐释如下。(1)本文基于编辑距离进行聚类形成日志模板,在模板的基础上构建TF-IDF特征向量,从而在弱分类器的基础上构建强分类器。实验表明,在训练集与测试集上利用弱分类器构建的强分类器,无论是查全率、或是查准率均有可观的提升。(2)在提取日志模板的提取过程中,阈值设定采取了人工方式,灵活性较差;分类器也存在阈值人工设定,灵活性差的问题。?。实验表明,日志模板与真实模板之间的互信息为0.91,较为接近,利用随机森林构建的强分类器在本文的数据集上表现最好,分类精度达0.94。异常检测技术-电动折弯机数控滚圆机滚弧机张家港钢管滚圆机滚弧机折弯机本文有公司网站全自动滚圆机采集转载中国知网整理 http://www.gunyuanji.com
- [2019-08-06]自适应补偿控制-电动液压弯管机
- [2019-08-06]与能效优化策略-数控滚圆机滚弧
- [2019-08-05]动力响应数值研究-数控滚圆机滚
- [2019-08-05]电抗器的振动研究-数控滚圆机滚
- [2019-08-04]结构温度场解析解-数控滚圆机滚
- [2019-08-04]发电功率平滑控制-数控滚圆机滚
- [2019-08-03]功率控制方法研究-数控滚圆机滚
- [2019-08-03]体积测量方法研究-数控滚圆机滚
- [2019-08-02]沉降控制应用研究-数控滚圆机滚
- [2019-08-02]必要性的初步探究-数控滚圆机滚