个人对粗糙集的一些理解和简单举例

news/2023/6/8 0:40:47

文章目录

  • 1、 数据价值密度低的解决方案
    • 1.1 粗糙集中对应的概念:属性约简
    • 1.2 属性约简的好处
    • 1.3 粗糙集的应用
  • 2、粗糙集的简介--->原理
    • 2.1 粗糙集的概念
    • 2.2 从例子看粗糙集
    • 2.3 粗糙集模型的分类及其评估标准
  • 3、粗糙集的主要研究方向
    • 3.1 模型创新
    • 3.2 属性约简
    • 3.3 提高计算效率

大数据很重要,但是存在体量大、价值密度低的问题,我们该怎么解决

1、 数据价值密度低的解决方案

​ 在所有这些场景中,我们需要将信息缩减到可管理的大小。特征选择是一个过程,可用于选择一组精简的特征,这些特征仍能提供足够的有用信息。这个过程通常是通过删除冗余和不必要的功能来完成的。如果一个特征提供的信息与同一数据集中另一个特征提供的信息相同,则该特征将是冗余的。如果一个特性不能给所需的信息增加任何价值,那么它就是不必要的。

​ 然后,所选择的特征集可以用于进一步的处理,例如,聚类、分类、规则提取,特征的减少可以显著提高这些处理系统的整体性能,例如,考虑具有一千个特征的分类场景,并将其与只有一百个特征的情况进行比较。显然,在考虑所有其他条件相同的情况下,后一种情况花费的时间要少得多。

1.1 粗糙集中对应的概念:属性约简

​ 由于粗糙集概念有些抽象,我们先来看下粗糙集能够达成什么样的效果,让大家能够直观感受粗糙集。

​ 属性约减又叫降维,指在保留知识分类或决策效果几乎不发生变化的前提下,从中删掉冗余信息,它可以有效删除不必要属性,提高决策效率。

1、线性降维方法:主成分分析(PCA)、独立成分分析(ICA)

​ 和线性判别分析(LDA)

2、非线性降维方法:

​ (1)基于核函数的非线性降维方法:KPCA 、KICA

​ (2)基于特征值的非线性降维方法

在这里插入图片描述
约简前聚类效果和约简后的聚类效果对比,可以检验约简的效果如何。假如约简前是上图,约简后三种形状和颜色的点混合在一起,则说明约简效果很差。

1.2 属性约简的好处

  • 去除冗余特征,减少所需的存储空间
  • 加快计算速度,更少的维数意味着更少的计算,更少的维数可以允许使用不适合大量维数的算法
  • 太多的特征或太复杂的模型可能导致过拟合

1.3 粗糙集的应用

数据预处理阶段:保证后续效率。神经网络训练模型是一个迭代过程,期间会消耗大量的时间。因此,在进入网络前对数据进行约简是非常有意义的,可以大大提升其效率,训练出的模型也会更好。

以阿尔法狗围棋为例对过拟合的再解释:假设AlphaGo和10位选手的10000场下棋结果进行训练,最后得到一个模型。AlphaGo和这10位围棋大师下棋,总能胜利。但是,此时有一位新的围棋高手,AlphaGo没有与之交过手,然后输了。这种情况不是偶然,经常出现,则说明模型过拟合了。真正拟合的模型对新到达的数据依然能够给出正确的决策。

2、粗糙集的简介—>原理

2.1 粗糙集的概念

1982年,波兰数学家Z.Pawlak发表了经典论文Rough Sets, 它是一种刻画不完整性和不确定性的数学工具,能有效地分析不精确,不一致(inconsistent)、不完整(incomplete) 等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。

已被广泛应用于知识发现、机器学习、决策支持、工业控制故障检测、专家系统、推荐系统、图像处理及归纳推理等领域。
在这里插入图片描述

在这里插入图片描述

2.2 从例子看粗糙集

在这里插入图片描述

U={e1,e2,e3,e4,e5,e6,e7}U=\{e_1,e_2,e_3,e_4,e_5,e_6,e_7\}U={e1,e2,e3,e4,e5,e6,e7}

令P={“肌肉疼”,“体温”}

等价类

U/PU/PU/P={e1e_1e1,e4e_4e4,e7e_7e7}{e2e_2e2},{e3e_3e3,e6e_6e6},{e5e_5e5}

是,正常: X1X_1X1={e1e_1e1,e4e_4e4,e7e_7e7}

是,高: X2X_2X2={e2e_2e2}

是,很高: X3X_3X3={e3e_3e3,e6e_6e6}

否,高: X4X_4X4={e5e_5e5}

决策

D1={e1,e4,e5}D_1=\{e_1,e_4,e_5\}D1={e1,e4,e5}

D2={e2,e3,e6,e7}D_2=\{e_2,e_3,e_6,e_7\}D2={e2,e3,e6,e7}

求各个集合分别与各个决策集合的关系。

X1∩D1≠∅X_1\cap D_1 \neq \emptysetX1D1=

X4⊆D1X_4\subseteq D_1X4D1

X1∩D2≠∅X_1\cap D_2 \neq \emptysetX1D2=

X2⊆D2X_2\subseteq D_2X2D2

X3⊆D2X_3\subseteq D_2X3D2

等价类包含于某个决策类-------------->意味着等价类肯定能推出指定决策(确定)。

等价类相交于某几个决策类----------->意味着等价类可能推出指定某几个决策(不确定)。

循环每一种属性组成的可能性,找出最优的属性子集即为属性约简。

最优属性子集:正域尽可能大,属性尽可能少。

2.3 粗糙集模型的分类及其评估标准

依赖度(近似质量)是衡量一个模型优劣的指标。

在这里插入图片描述

​ 在保证近似质量的前提下去缩短时间才是有意义的。

3、粗糙集的主要研究方向

3.1 模型创新

3.2 属性约简

遗传算法、优化算法、并行计算

3.3 提高计算效率

  • 并行计算
  • 增量学习(流计算)
  • GPU加速

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.exyb.cn/news/show-4554976.html

如若内容造成侵权/违法违规/事实不符,请联系郑州代理记账网进行投诉反馈,一经查实,立即删除!

相关文章

Linux 父进程需要创建3个子进程,但不创建孙子进程

Linux 进程家族树 生成三个子进程不生成孙子进程1. 要求2. 分析2.1 getpid、getppid2.2 不让子进程再生成进程3. 代码4. 运行截图5. 绘制进程家族树1. 要求 如果父进程需要创建3 子进程,但不创建孙子进程。请编写程序,并画出进程家族树。 (进…

linux系统编程 父进程和子进程fork

stack区和heap区分析 #include <stdio.h> #include <stdlib.h> int main(int argc, char * argv[]) {printf("stack 区\n");int p 7;printf("p %X\n", &p);int x 34;printf("x %X\n", &x);printf("heap 区\n"…

思考:对一亿个int型整数排序,哪种排序算法效率最高?

下图是常见排序算法的最好&#xff0c;最坏&#xff0c;平均时间复杂度、空间复杂度&#xff0c;稳定性总结表。 直接看表格&#xff0c;综合时间复杂度、空间复杂度等各种因素&#xff0c;目测堆排序是最优选择。不管最好、最坏还是平均情况&#xff0c;时间复杂度都是O(nlogn…

3.并查找

并查找并查集由一个整数型的数组和两个函数构成&#xff0c;数组pre[]记录了每个点的前导点是什么&#xff0c;函数find是查找&#xff0c;join是合并; int pre[1010]; //存放第i个元素的父节点int unionsearch(int root) //查找根结点 {int son, tmp;son root;while(root ! p…

# C++用一个函数解决二叉树节点查找、求高度、求父节点

C用一个函数解决二叉树节点查找、求高度、求父节点 写代码的原因和思路&#xff1a; 原因&#xff1a;网上好多关于二叉树的节点查找、求高度、求父节点都是分开的&#xff0c;在求父节点的时候&#xff0c;甚至用到了栈&#xff0c;这样很麻烦。这里推荐一种合体式的解决方法…

Android 子布局不超过父布局 圆角

转载自&#xff1a;http://www.gcssloop.com/gebug/rclayout 1.前言 之前&#xff0c;我在GitHub分享了一个开源库&#xff1a;rclayout&#xff0c;这个库的主要目的是快速实现Android中的圆角需求&#xff0c;例如这样的效果。分享这个库的时候只是觉得可能有用而已&#xff…

Linux进程3:父进程等待(wait,waitpid)子进程退出并收集子进程退出状态,僵尸进程

父进程等待&#xff08;wait&#xff0c;waitpid&#xff09;子进程退出并收集子进程退出状态 1.父进程为什么要等待子进程退出&#xff1f; 创建子进程目的&#xff1a;------干活 我们要知道干活结束没。 子进程退出状态不被收集&#xff0c;变成僵尸进程 等待&#xff1a;w…

实现3D层叠式卡片图片展示

先看效果 另一种效果 好了效果看了&#xff0c;感兴趣的往下看哦&#xff01; 整体实现思路 重写RelativeLayout 实现 锁定宽高比例的 RelativeLayout自定义一个支持滑动的面板 继承 ViewGroup卡片View绘制页面中使用布局 首先为了更好的展示图片我们重写一下 RelativeLayout…