模型评价标准

news/2023/5/28 8:42:40

机器学习

机器学习是通过一些让计算机可以自动学习的算法,从数据中分析获得规律,然后利用规律对新样本进行预测。

评价标准

为了了解模型的泛化能力,即判断模型的好坏,我们需要用某个指标来衡量,有了评价指标,就可以对比不同模型的优劣,对模型进行针对性地调参优化。

随着机器学习在不同领域中的应用,其评价方式需要和实际业务相结合,通过确定目标来定量设计评价标准。以下总结出不同类别模型的通用评价指标。

分类模型

用于分类的模型评价以准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分值(F1 Score)为主,辅以ROC、AUC并结合实际应用场景进行结果评价。

准确率
预测正确的结果占总样本的百分比
公式如下:准确率 = ( TP + TN ) / ( TP + TN + FP + FN )
TP: 真正例,即将正类预测为正类数
TN:真负例, 即将负类预测为负类数
FP:假正例,即将负类预测为正类数,也称误报
FN:假负例,即将正类预测为负类数,也称漏报

虽然准确率可以判断总的正确率,但当样本不平衡的情况下,并不能作为很好的指标来衡量模型效果。

精确率
精确率又叫查准率,代表对正样本结果中的预测准确程度。精确率描述模型有多准,即在预测为正例的结果中,有多少是真正例。
公式如下:查准率P = TP / ( TP + FP )

精确率高意味着误报率低。

召回率
召回率又叫查全率,描述模型有多全,即在所有正例样本中,有多少被模型预测为正例。
公式如下: 查全率R = TP / ( TP + FN )

召回率高意味着漏报率低。

F1分值

精确率和召回率是矛盾的,无法做到双高。想要在P和R直接找到一个平衡点,就需要一个新的指标,F1 Score。

F1 Score同时考虑精确率和召回率,使二者取个平衡,同时达到最高。
公式如下: F1 = 2PR / ( P + R)

检测模型

IoU
mAP

mAP 这个术语有不同的定义。此度量指标通常用于信息检索、图像分类和目标检测领域。然而这两个领域计算 mAP 的方式却不相同。这里我们只谈论目标检测中的 mAP 计算方法。

将P-R曲线下的面积定义为AP,AP衡量的是训练好的模型在某个类别上的好坏,而mAP描述的模型在所有类别上的好坏。mAP是对AP求平均值,所有求出AP后即可很容易得到mAP。

mAP 常作为目标检测算法的评价指标,具体来说就是,对于每张图片检测模型会输出多个预测框(远超真实框的个数),我们使用 IoU (Intersection Over Union,交并比)来标记预测框是否预测准确。标记完成后,随着预测框的增多,查全率 R 总会上升,在不同查全率 R 水平下对准确率 P 做平均,即得到AP,最后再对所有类别按其所占比例做平均,即得到 mAP 指标。

参考 https://zhuanlan.zhihu.com/p/360539304

聚类模型

聚类的神经网络数据源没有进行标记,评价按照聚类算法的标准来操作,如RMSSTD、R Square、SRP等。待补充。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.exyb.cn/news/show-4557152.html

如若内容造成侵权/违法违规/事实不符,请联系郑州代理记账网进行投诉反馈,一经查实,立即删除!

相关文章

python爬取链家租房信息

本人是上海某211高校研二在读理工男一枚 临近工作,最近爬取了链家上海的二手房,新房,租房以及小区信息 完整代码与csv文件可以从我的GitHub地址获取 PS:欢迎starforkfollow一箭三连 GitHub地址 具体流程就不多说了 爬虫就是那样&a…

数据挖掘与数据分析项目链家租房数据(二)从性价比看链家推荐是否存在套路。

今天看到之前没传完整,这次把它全部上传了。 未进行再次加工,代码见资源中的exploration 1、目标问题 链家网租房信息页面所展示的信息大部分为硬性的统计指标,如地区、户型、朝向、面积、租金等,以及“近地铁”、“新上”等一些…

50 行代码爬取链家租房信息

最近自己开始学习数据分析的技术,但数据分析最重要的就是数据。没有数据怎么办?那就自己爬一些数据。大家一定要记得爬虫只是获取数据的一种手段,但如果不用一系列科学的方式去分析这些数据,那么爬去下来的数据是毫无用处的。所以…

利用神经网络预测链家网上海租房价格(Python)

代码详见:Predict-house-rent-with-neutral-network 简介 本项目利用Python的scrapy框架爬取链家网的上海市租房信息,利用pandas、numpy、matplotlib、seaborn、folium 、wordcloud 等库进行数据分析和可视化,通过one-hot编码和文本特征提取…

python3爬虫抓取链家上海租房信息

环境:win10,anaconda3(python3.5) 爬取对象网站:链家上海租房 方法一:利用requests获取网页信息,再利用正则提取数据,并将结果保存到csv文件。 代码地址:代码 抓取到…

驱动程序那点事儿

是什么 驱动程序是一个软件组件,(添加到操作系统中的一小块代码),是操作系统和设备通信的桥梁。应用程序需要从设备中读取某些数据,操作系统会调用由驱动程序实现的函数。驱动程序了解如何与设备硬件通信以获取数据。当…

二分法、三分法 --算法竞赛专题解析(1)

本系列文章将于2021年整理出版,书名《算法竞赛专题解析》。 前驱教材:《算法竞赛入门到进阶》 清华大学出版社 2019.8 网购:京东 当当      作者签名书 如有建议,请加QQ 群:567554289,或联系作者QQ&am…

Java语言基础--打印倒等腰三角形(for循环嵌套法)

需求:打印一个倒立等腰三角形 分析:联想到for循环嵌套法 简单来说分三步来实现:一个for循环实现换行,一个for循环实现打印空格,一个for循环控制,一个for循环实现输出*号 代码块 public static void main(…

三等分点

【题目】 等边三角形 ABCABCABC 中,点 D,ED,ED,E 分别在边 BC,ACBC,ACBC,AC 上,且 ∣BD∣13∣BC∣,∣CE∣13∣CA∣,AD,BE|BD|\dfrac{1}{3}|BC|,|CE|\dfrac{1}{3}|CA|,AD,BE∣BD∣31​∣BC∣,∣CE∣31​∣CA∣,AD,BE 相交于点 PPP .求证: AP⊥…

VS2019怎么没有C++的窗体应用模板_简历中常被忽视的「自我评价」,怎么写?

在写简历的过程中,自我评价往往会被我们忽视掉,然而自我评价也是简历中很重要的一部分。那么写自我评价的时候常见的问题有哪些呢?怎样才能写出一份精彩的自我评价呢?本文作者就为你解答这些疑问。作者:伍德安思壮微信…

你应该知道的机器学习模型部署细节和实施步骤

机器学习操作 (MLOps,Machine Learning Operations ) 是“机器学习”和“工程”的组合,涵盖了与生产 ML 生命周期管理有关的所有内容。 ML模型生命周期可大致分为三个阶段 文章目录技术交流设计模型开发操作步骤1:确定部署环境命令行终端Cond…

Exome ?加两个字百度云满速?

Pandownload 这个下载工具对于有在使用百度网盘的人来说应该不陌生,现在作者已经推出网页版,你只需贴上链接就能轻松的获取百度网盘的文件下载链接。 网站名称: Pandownload 网页版 网站链接: https://www.baiduwp.com/ 使用教学 进入网站后贴上要下载的…

R语言使用 multicore 包进行并行计算

R语言是单线程的,如果数据量比较大的情况下最好用并行计算来处理数据,这样会获得运行速度倍数的提升。这里介绍一个基于Unix系统的并行程序包:multicore. 我们用三种不同的方式来进行一个简单的数据处理: 我们从 1000 genome proj…

阿尔茨海默最新研究进展(2022年12月)

阿尔茨海默病(Alzheimers disease, AD),俗称“老年痴呆症”,是一种严重的神经退行性疾病,患者通常会出现以记忆力衰退、学习能力减弱为主的症状,并伴有情绪调节障碍以及运动能力丧失,极大地影响…

De novo 测序基础知识

名词解释 De novo:拉丁文,从头开始的意思,de nove测序则是指在不需要任何参考序列的情况下对某一物种进行基因组测序,然后将测得的序列进行拼接、组装,从而绘制该物种的全基因组序列图谱。 重测序概念:重测…

01读文献并下载数据

01读文献并下载数据 阅读文献 本 文分析的数据来自于文章:Reliability of Whole-Exome Sequencing for Assessing Intratumor Genetic Heterogeneity, Shi et al., 2018, Cell Reports https://doi.org/10.1016/j.celrep.2018.10.046 ​ 原文作者主要是为了对比不同数据处…

一文详解VarScan肿瘤体细胞突变检测的的安装和实践

​目录 VarScan 简介 VarScan 安装和使用说明:安装、说明、配置、运行 VarScan 案例实战:数据下载、配置、运行、输出 使用sixbox快速运行 hello,大家好,今天为大家带来关于肿瘤体细胞突变检测工具VarScan的超详细安装及应用教…

excel函数技巧:两个查询函数的用法比较 下篇

VLOOKUP和LOOKUP这对高频函数的较量注定是场持久战。在前两个回合的较量中,VLOOKUP占据上风,此番更要乘胜追击。新一轮较量,即刻开战!***ROUND 03 交叉查询什么是交叉查询?我们可以通过一个查找值查找多个字段。如果被…

PLINK/SEQ association test

PLINK/seq可以检测表型-表型之间的相关性,用permutation或者asymptotic statistics。可以基于单变异,基因,也可以基于gene sets。 single variant association 检测一个变异和疾病(dichotomous outcome)的相关性&…

gnomAD 数据库简介

欢迎关注"生信修炼手册"!gnomAD 是一个学术联盟组织,这个组织收集和整理了各种大规模的外显子和全基因组测序数据,并面向全世界免费开放。在它的第一个版本中,只包含了外显子测序的数据,称为Exome Aggregati…