机器学习-Basic Concept

chatgpt/2023/9/26 12:54:26

机器学习(Basic Concept)

videopptblog

Where does the error come from?

在前面我们讨论误差的时候,我们提到了Average Error On Testing Data是最重要的
A more complex model does not lead to better performance on test data

Bias And Variance

Bias And Variance

Bias(偏差)

偏差指的是模型在训练过程中对于真实关系的错误假设或简化程度。当模型具有较高的偏差时,它倾向于对问题进行过于简单的建模,从而忽略数据中的一些复杂特征或模式。这可能导致模型在训练数据上表现较差,并且很可能在测试数据上也表现不佳,即出现欠拟合的现象。通常,高偏差的模型过于刚硬,难以适应数据的变化和复杂性.
偏差:整体预测值与真实值之间的误差,具体表现为预测的整体与正确预测的偏离程度。

Variance(方差)

方差指的是模型在不同训练集上预测结果的变化程度。当模型具有较高的方差时,它对于训练数据中的噪声和随机性非常敏感,从而导致在不同的训练集上表现差异较大。这可能表现为在训练数据上表现很好,但在测试数据上表现较差的现象,即出现过拟合。过拟合意味着模型过于复杂,过于适应训练数据的细节,而无法很好地泛化到新数据。
方差:预测值离期望值的距离,具体表现为数据的分散程度。

Bias And Variance
简介
来源

多项式拟合次数模型复杂度方差偏差过/欠拟合
欠拟合
适度
过拟合

在这里插入图片描述

区别:

  • 偏差关注的是模型对问题的刻画能力,即是否能够捕捉到数据的真实规律,过高的偏差导致欠拟合。
  • 方差关注的是模型对训练数据的敏感性,即是否过度适应了训练数据,导致在新数据上泛化能力差,过高的方差导致过拟合。
  • 偏差和方差都是希望降低的,因为它们都可能导致模型在不同情况下表现不佳。优化模型的目标是在偏差和方差之间找到一个平衡点,从而提高模型的泛化能力。

Picture

Noise(噪声)

噪声指的是数据中的随机性和不可预测性,它来源于许多现实世界的因素,比如测量误差、数据收集的不完美等。噪声是不可避免的,并且可能会对模型的性能产生影响。机器学习的目标是找到真实关系,并尽可能减少噪声的影响。模型的偏差和方差会影响其对噪声的敏感性。

在模型优化过程中,通常通过调整模型的复杂度(例如,增加或减少特征、调整模型的深度和宽度等)来平衡偏差和方差。较复杂的模型可能会降低偏差但增加方差,而简单的模型则相反。同时,采用交叉验证等技术来评估模型的性能,以便更好地理解模型的泛化能力。

在这里插入图片描述

The Balence Between Bia And Variance

Balence

Underfitting

Due To Large Bias
欠拟合是指模型在训练数据上表现不佳,无法很好地捕捉数据中的模式和关系。
一般原因:模型过于简单,数据集中,与真实值误差较大

  • redesign your model:
  • Add more features as input
  • A more complex model

Overfitting

Due To Large Variance
过拟合是指模型在训练数据上表现优秀,但在未见过的新数据上表现不佳。
一般原因:模型过于复杂,整体数据偏差较小,预测值较为分散

  • More data(Very effective,but not always practical)
  • Regularization(Make your function more smooth)

Cross Validation

交叉验证(Cross-validation)是机器学习中一种常用的技术,用于评估模型的性能和泛化能力。它帮助我们检验模型在未见过的数据上的表现,并提供比单一训练集和测试集划分更可靠的性能评估。
基本思想:将数据集进行划分,如何使用这些数据集多次进行模型训练和测试。
步骤:

  1. 数据划分:将整个数据集随机分成K个子集(折叠),每个子集的大小大致相等。
  2. 训练与验证:对于每个折叠,使用K-1个子集作为训练集,剩余的一个子集作为验证集。
  3. 性能指标:用选定的评估指标(如准确率、均方误差等)在验证集上评估模型的性能。
  4. 平均性能:将K次验证得到的性能指标取平均,得到模型的整体性能评估结果。
N-fold Cross Validation

在N折交叉验证中,将数据集划分为N个子集,每个子集只包含一个样本。然后,依次将每个子集作为验证集,其他N-1个子集作为训练集进行模型训练和验证。这样,每个样本都将作为单独的验证集,并且模型将在所有样本上进行N次训练和验证。
步骤:

  1. 将数据集划分为N个子集,每个子集只包含一个样本。
  2. 对于每个子集,将其作为验证集,其他N-1个子集作为训练集。
  3. 在训练集上训练模型,并在验证集上进行性能评估。
  4. 重复步骤2和3,直到所有子集都被用作验证集。
  5. 计算N次验证的性能指标的平均值,得到模型的性能评估结果。

Cross Validation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.exyb.cn/news/show-5313535.html

如若内容造成侵权/违法违规/事实不符,请联系郑州代理记账网进行投诉反馈,一经查实,立即删除!

相关文章

网络控价与品牌维权的关系

线上平台存在低价链接,品牌要去治理,那就是控价,控价的目的不仅仅是打击低价,其实是为了稳定渠道,只有渠道中的价格可控了,品牌的销量、价值才能最大化,品牌也有更多的精力去拓展渠道&#xff0…

动态sql以及常用的标签

什么是动态sql: 指根据不同的条件生成不同的sql 搭建环境: 建表: create table blog( id varchar(50) not null comment 博客id, title varchar(100) not null comment 博客标题, author varchar(30) not null comment 博客作者, create_ti…

JVM总结笔记

JVM JVM是什么?JVM 的主要组成部分JVM工作流程JVM内存模型直接内存与堆内存的区别:堆栈的区别Java会存在内存泄漏吗?简述Java垃圾回收机制垃圾收集算法轻GC(Minor GC)和重GC(Full GC)新生代gc流程JVM优化与JVM调优 JVM是什么? JVM是Java Virtual Mach…

为公网SSH远程Ubuntu配置固定的公网TCP端口地址主图

文章目录 为公网SSH远程Ubuntu配置固定的公网TCP端口地址 为公网SSH远程Ubuntu配置固定的公网TCP端口地址 在上篇文章中,我们通过cpolar建立的临时TCP数据隧道,成功连接了位于其他局域网下的Ubuntu系统,实现了不同操作系统、不同网络下的系统…

【MySQL】基本查询(表的增删查改)

目录 一、插入操作 --- insert1.1 单行指定列插入&&单行全列插入1.2 多行指定列插入&&多行全列插入1.3 插入否则更新 duplicate key update1.4 删除并替换 replace 二、查询操作 --- select2.1 基本查询2.2 where条件2.3 案例演示2.4 排序(order by…

新版塔罗占卜网站源码八字合婚风水起名附带搭建视频

新版塔罗占卜网站源码八字合婚风水起名PHP源码附带搭建视频,附带文本教学及视频教程安装方法以linux为例: 1、建议在服务器上面安装宝塔面板,以便操作,高逼格技术员可以忽略这步操作。 2、把安装包文件解压到根目录,同时建立数据库,把数据文件导入数据库 3、修改核心文件…

【数据挖掘竞赛】——科大讯飞:锂离子电池生产参数调控及生产温度预测挑战赛

🤵‍♂️ 个人主页:@Lingxw_w的个人主页 ✍🏻作者简介:计算机科学与技术研究生在读 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ ​ 【科大讯飞】报名链接:https://challenge.xfyun.cn?invitaC…

Linux标准库API

目录 1.字符串函数 2.数据转换函数 3.格式化输入输出函数 4.权限控制函数 5.IO函数 6.进程控制函数 7.文件和目录函数 1.字符串函数 2.数据转换函数 3.格式化输入输出函数 #include<stdarg.h>void test(const char * format , ...){va_list ap;va_start(ap,format…
推荐文章