52phm简介


专注于工业智能预警系统研发, 通过机理算法和数据驱动算法分析振动信号、音频、DCS、PLC信号、SCADA信号等设备运行状态数据对机器设备进行看病预诊,为机器设备健康运行保驾护航。 网站正在不断建设和完善过程中,欢迎大家给予建议和参与社区建设

联系我们


投稿说明


52phm,专注于预测性维护知识学习和交流,欢迎广大从事预测性维护行业人员投稿,投稿请联系管理员(wx: www52phmcn),投稿内容可以是:

  • 学习笔记
  • 技术理论
  • 工程案例
  • 行业资讯

加入我们


官方公众号:52phm,专注预测性维护的学习平台

2021-12-19 15:00:11    互联网    445    当前专栏:工业异常检测    分类:算法开发    本站官网:www.52phm.cn   

公众号 ...

异常检测——孤立森林

1、基础


1)异常数据只占少量;(2)异常数据特征值和正常数据差别很大。

2、思想


基于随机森林思想,但是更为简单
假设数据集有N条数据,构建一颗iTree时,从N条数据中均匀抽样(一般是无放回抽样)出ψ个样本出来,作为这颗树的训练样本。在样本中,随机选一个特征,并在这个特征的所有值范围内(最小值与最大值之间)随机选一个值,对样本进行二叉划分,将样本中小于该值的划分到节点的左边,大于等于该值的划分到节点的右边。由此得到一个分裂条件和左、右两边的数据集,然后分别在左右两边的数据集上重复上面的过程,直到数据集只有一条记录或者达到了树的限定高度。

图1 iForest构建iTree示例,异常数据点(17,17)通常离根节点很近

图1 iForest构建iTree示例,异常数据点(17,17)通常离根节点很近

由于异常数据较小且特征值和正常数据差别很大。因此,构建iTree的时候,异常数据离根更近,而正常数据离根更远。一棵iTree的结果往往不可信,iForest算法通过多次抽取样本,构建多棵二叉树。最后整合所有树的结果,并取平均深度作为最终的输出深度,由此计算数据点的异常分值。

3、算法

3.1、训练阶段


在训练阶段,iTree的建立是通过对训练集的递归分隔来建立的,直到所有的样本被孤立,或者树达到了指定的高度。树的高度限制ll与子样本数量ψψ的关系为l=ceiling(log2(ψ))l=ceiling(log2⁡(ψ)),它近似等于树的平均高度。树只生长到平均高度,而不继续生长的原因是,我们只关心路径长度较小的那些点,它们更有可能是异常点,而并不关系路径很长的正常点。详细的训练过程如算法1和算法2所示。

在这里插入图片描述
在这里插入图片描述

3.2、评估阶段



在这里插入图片描述
在这里插入图片描述

4参考

Isolation Forest原理总结:https://www.cnblogs.com/bonelee/p/9368017.html
孤立森林(Isolation Forest):https://blog.csdn.net/extremebingo/article/details/80108247
孤立森林(Isolation Forest)算法简介:https://www.jianshu.com/p/d9fb673301a3



版权声明:遵循 CC 4.0 BY-SA 版权协议
原文链接:https://blog.csdn.net/shaoyue1234/article/details/102772883

免责声明


[推荐] 异常检测模型整理

2021-12-13 23:52:54    互联网    1550    分类:算法开发    专栏:工业异常检测   


[推荐] 异常检测方法综述

2021-12-19 14:20:42    互联网    526    分类:算法开发    专栏:工业异常检测   


[推荐] 异常检测——常见方法分类

2021-12-19 14:43:14    互联网    1577    分类:算法开发    专栏:工业异常检测   



转发此文章到社区


关注公众号进群

让志同道合读者学习交流



阅读论文:电网的故障检测

摘要存在的基于模型的方法无法涵盖时间序列的所有方面先进测量技术的出现带动着新一轮的数据爆炸,推动着数据导向形方法的发展方法包含:运用注意机制的长短期记忆架构,来提取时间序列特征 一维卷积神经网络获取频率信息基于频率的非监督分类信号方法,对于不同的分类,使用多任务学习方法本文提出的技术特别先进,甚至胜过数据网站的冠军术语索引:异常检测,故障检测,卷积神经网络,长短期记忆,多任务学习,高维时间序列1.介绍电网系统升级,把网络和传感技术相...

2021-12-13 13:36:07    互联网    1695    分类:论文速递    专栏:未分组   


光谱信息在癌症检测上的应用

拉曼光谱(Raman) 与傅里叶变换红外光谱(FTIR) 在癌症的检测上具有一定的应用价值。由于检测组织中水的存在常使结果变得复杂,FTIR常用于皮肤层面的检测。在材料的制备与探针选择上,拉曼方法也更适用于组织活检,甚至实时检测。1.拉曼光谱在乳腺癌检测上的应用文章:Application of Raman Spectroscopy and Infrared Spectroscopy in the Identification of Breast Cancer(2016)期刊 Applied

2021-12-14 15:50:53    互联网    845    分类:算法开发    专栏:数字信号处理   


频谱分析幅值单位_知否知否?常用振动诊断方法——包络分析和阶次分析

包络分析对于各个行业,尤其是水泥行业,存在很多低转速设备。低转速部件引起的振动集中在低频部分,且往往较为微弱,容易淹没在其他信号中,在频谱中不容易分辨出故障信号与噪声信号。但这种故障引起的冲击信号往往会激起高频固有频率,在频谱上表现为出现共振带,即低频故障信号作为某高频载波的边频出现。因此,对于这种出现调制现象的故障信号,往往需要通过包络进行分析诊断。图1 包络解调机理解调前需要对信号进行滤波处理...

2021-12-14 23:01:12    互联网    1229    分类:算法开发    专栏:振动信号预处理   


数据挖掘--风电机组异常数据识别与清洗

一、赛题背景(一)背景风能是一种环境友好且经济实用的可再生能源。中国是世界排名第一的风力发电国家、新装风力发电设备装机容量最大的国家,并且保持快速增长。由于风力发电正处于飞速发展阶段,风电场数量和规模不断扩大,然而受地理条件和环境因素限制,风电场多位于偏僻遥远的平原、山区或海上,因此为风电公司引入SCADA系统(数据采集与监视控制系统)对风电场群的日常运行进行集中监控、调度和管理,但风电机组受设备、环境、运行状态等因素影响,SCADA系统实时采集的风机运行数据会存在有大量异常值和缺失值,这些“脏数据”的

2021-12-19 01:00:15    互联网    2186    分类:算法开发    专栏:风电机组   


异常检测——拓扑异常检测(TAD)

分类是一种基于密度的outlier detection思想它不使用局部密度,而是利用近邻将数据构造成图。与其他KNN方法不同的是,它不用设定K作为参数,而是设定一个maximal inter-observation distance(被称为图resolution)的参数。在算法中,如果两个点之间的距离小与图resolution,就在他们之间加一个边。当整张图构建完成以后,通过设定一个阈值P...

2021-12-19 14:40:05    互联网    458    分类:算法开发    专栏:工业异常检测   


异常检测——ABOD(angle-based outlier detection)

论文:Angle-Based Outlier Detection in High-dimensional Data,kdd2008问题高维度情况下,距离同质化。基础:1、在高维空间中角度比距离更稳定[1]2、如果其他大部分的点都在相似的方向上,那么点O是个离群点3、如果许多其他的点在不同的方向上,那么点O不是离群点。方法对于一个给定的点P,它与任意其他点x,y之间的角度构成一个...

2021-12-19 14:55:27    互联网    1050    分类:论文速递    专栏:工业异常检测   


时间序列预测的8种常用方法简介

时间序列预测8种常用方法简介,包括朴素预测法、简单平均法、移动平均法、简单指数平滑法、霍尔特(Holt)线性趋势法、Holt-Winter方法、AMRIA。

2021-12-25 19:46:21    互联网    947    分类:算法开发    专栏:时间序列预测   


统计学——时间序列预测

统计学(第6版) 贾俊平 读书笔记第13章 时间序列分析和预测时间序列是同一现象在不同时间上的相继观测值排列而成的序列。本书中用t表示所观察的时间,Y表示观察值,则Yi( i =1, 2, …, n)为时间ti上的观察值。时间序列可以分为平稳序列和非平稳序列两大类。非平稳序列是包含趋势、季节性或周期性的序列,又可以分为有趋势的序列、有趋势和季节性的序列、几种成分混合而成的复合型序列。趋势是...

2021-12-25 19:49:30    互联网    555    分类:算法开发    专栏:时间序列预测   


keras实现LSTM单变量时间序列预测——国际航班乘客预测

https://blog.csdn.net/zyxhangiian123456789/article/details/87458140对于较为简单的时间序列预测问题,可以使用Exponential Smoothing和ARIMA等传统模型非常方便地求解。然而,对于复杂的时间序列预测问题,LSTM不失为一种很好的选择。因此,本文旨在探讨如何利用LSTM神经网络求解时间序列预测问题。首先,需要明白时...

2021-12-25 19:50:56    互联网    490    分类:算法开发    专栏:时间序列预测   


python 时间序列预测 —— XGBoost

XGBoost Regression

2021-12-25 19:52:19    互联网    509    分类:算法开发    专栏:时间序列预测   


  • 52phm公告

  • 在这里,可以学习接触到工业互联网技术知识以及落地案例,其中涵盖工业数据集、工业标准库、机理模型、设备知识、机器学习、 深度学习、特征工程、振动分析、工业视觉、边缘硬件及传感器等技术知识!


工业异常检测   
  • 关于站长


  •         从事设备故障预测与健康管理行业多年的PHM算法工程师(机器医生)、国际振动分析师, 实践、研发和交付的项目涉及“化工、工业机器人、风电机组、钢铁、核电、机床、机器视觉”等领域。专注于工业智能预警系统研发, 通过机理算法和数据驱动算法分析振动信号、音频、DCS、PLC信号、SCADA信号等设备运行状态数据对机器设备进行看病预诊,为机器设备健康运行保驾护航。


当前文章目录


52phm社区

52phm社区,专注预测性维护的学习平台!

Saas体验

+ 工业demo学习系统

技术博客

+ 博客首页    + 算法开发    + 边缘感知   

+ 设备机理    + 开发环境

+ 论文速递   

友情链接

+ 在码圈

联系我

Copyright© 2021 52phm社区

京ICP备2021029973号-1