一种基于大数据技术的维度约简方法及装置
摘要文本
本发明涉及一种基于大数据技术的维度约简方法及装置,包括:将负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据;根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定所述待支持聚集簇中负荷数据支持数;根据所述待支持聚集簇中负荷数据支持数确定待支持数据簇中负荷数据的支持率;根据待支持数据簇中负荷数据的支持率将所述待支持数据簇中负荷数据加入至所述输入样本数据;对所述输入样本数据进行降维,获取降维后的输入样本数据;本发明提供的技术方案,对高维数据进行有效的维数约简,提高对负荷数据的分类处理性能,实现数据降维的同时剔除噪声点和异常数据点,为解决输电线路负荷数据的问题提供了重要依据。
申请人信息
- 申请人:中国电力科学研究院有限公司; 国家电网公司; 南京邮电大学
- 申请人地址:100192 北京市海淀区清河小营东路15号
- 发明人: 中国电力科学研究院有限公司; 国家电网公司; 南京邮电大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于大数据技术的维度约简方法及装置 |
| 专利类型 | 发明授权 |
| 申请号 | CN201711202117.8 |
| 申请日 | 2017年11月27日 |
| 公告号 | CN108021935B |
| 公开日 | 2024年1月23日 |
| IPC主分类号 | G06F18/2135 |
| 权利人 | 中国电力科学研究院有限公司; 国家电网公司; 南京邮电大学 |
| 发明人 | 秦昊; 谢凌登; 张利平; 纪飞; 奚培琳; 邓松; 解鸿斌; 桑海霞; 朱想; 丁煌; 王知嘉; 陈卫东 |
| 地址 | 江苏省南京市鼓楼区南瑞路8号; 北京市西城区西长安街86号; 江苏省南京市鼓楼区新模范马路66号 |
专利主权项内容
1.一种基于大数据技术的维度约简方法,其特征在于,所述方法包括:对配电网中负荷数据进行聚类,获取负荷数据聚类簇;根据所述负荷数据聚类簇的密度将所述负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据;根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定待支持数据簇中负荷数据的支持率;根据待支持数据簇中负荷数据的支持率将所述待支持数据簇中负荷数据加入至所述输入样本数据;对所述输入样本数据进行降维,获取降维后的输入样本数据;所述根据所述负荷数据聚类簇的密度将所述负荷数据聚类簇分为待支持聚集簇、支持聚集簇和输入样本数据,包括:当ρ<0.4时,则将该负荷数据聚类簇作为待支持聚集簇;当ρ>2时,则将该负荷数据聚类簇作为支持聚集簇;当ρ∈[0.4, 2]时,则将该负荷数据聚类簇作为输入样本数据;所述ρ为负荷数据聚类簇的密度;所述根据所述待支持聚集簇中负荷数据与所述支持聚集簇间支持率函数值确定待支持数据簇中负荷数据的支持率,包括:a.判断第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值是否大于0.6;b.若是,则该第s个待支持聚集簇中第i个负荷数据的支持数加1;c.若否,则判断h是否等于H,若否,则令h=h+1,返回步骤a,若是,则输出所述第s个待支持聚集簇中第i个负荷数据的支持数;d.根据所述第s个待支持聚集簇中第i个负荷数据的支持数确定第s个待支持数据簇中第i个负荷数据的支持率;其中,S为待支持聚集簇的个数,H为支持聚集簇的个数,s∈[1, S],h∈[1, H],初始化h=1;按下式确定第s个待支持聚集簇中第i个负荷数据与第h个支持聚集簇间支持率函数值u(y):sih上式中,M为所述负荷数据聚类簇的负荷数据个数,j∈[1, M],y为第s个待支持聚集簇中第i个负荷数据,z为第h个支持聚集簇中第j个负荷数据。sihj