数据模型需要多少训练数据吗

上传人:z****2 文档编号:194298782 上传时间:2023-03-13 格式:DOCX 页数:2 大小:35.97KB
收藏 版权申诉 举报 下载
数据模型需要多少训练数据吗_第1页
第1页 / 共2页
数据模型需要多少训练数据吗_第2页
第2页 / 共2页
资源描述:

《数据模型需要多少训练数据吗》由会员分享,可在线阅读,更多相关《数据模型需要多少训练数据吗(2页珍藏版)》请在装配图网上搜索。

1、数据模型需要多少训练数据吗? 毫无疑问机器学习是大数据分析不可或缺的一部分,在使用机器学习技术的时候工程师除了 要选择合适的算法之外还需要选择合适的样本数据。那么工程师到底应该选择哪些样本数据 选择多少样本数据才最合适呢?来自于Google的软件工程师Malay Haidar最近发表了一篇题 为数据模型需要多少训练数据的文章对此进行了介绍。训练数据的质量和数量通常是决定一个模型性能的最关键因素。一旦训练数据准备好,其他 的事情就顺理成章了。但是到底应该准备多少训练数据呢?答案是 这取决于要执行的任务, 要满足的性能,所拥有的输入特征、训练数据中的噪音、提取特征中的噪音以及模型的复杂 程度等因素

2、。而找出这些变量之间相互关系的方 法就是在不同数据量的训练数据上训练模 型并绘制学习曲线。但是这仅仅适合于已经有一定数量的训练数据的情况,如果是最开始的 时候,或者说只有很少一点训练 数据的情况,那应该怎么办呢?与死板地给出所谓精确的“正确”答案相比,更靠谱的方法是通过估算和具体的经验法则。 例如本文将要介绍的实证方法:首先自动生成很多逻辑回归问题。 然后对生成的每一个问 题,研究训练数据的数量与训练模型的性能之间的关系。最后通过观察这两者在这一系列问 题上的关系总结出一个简单的规则。生成一系列逻辑回归问题并研究不同数据量的训练数据所造成的影响的代码可以从 GitHub 上获取。相关代码是基于

3、 Tensorflow 实现的,运行这些代码不需要任何特殊的软件或者硬 件,用户可以在自己的笔记本上运行整个实验。代码运行之后生成的图表如下:&42560.S50.70246Q1012n um-trai/ num- model- aarannede rs其中,X轴是训练样本的数量与模型参数数量的比率。Y轴是训练模型的得分(f-score)。不 同颜色的曲线表示不同参数数量的模型。例如,红色曲线代表模 型有 128 个参数,曲线的 轨迹表明了随着训练样本从128 x 1到 128 x 2并不断增长的过程中该模型的得分变化。 通过该图表,我们能够发现模型得分并不会随着参数规模的变化而变化。但是这是

4、针对线性 模型而言,对于一些隐藏的非线性模型并不适合。当然,更大的模 型需要更多的训练数据, 但是对于一个给定的训练模型数量与模型参数数量比率其性能是一样的。该图表还显示,当 训练样本的数量与模型参数数量的比率达到 10:1之后,模型得分基本稳定在0.85,该比率 便可以作为良好性能模型的一种定义。根据该图表我们可以总结出10X规则,也就是说一个 优秀的性能模型 需要训练数据的数量10倍于该模型中参数的数量。10X规则将估计训练数据数量的问题转换成了需要知道模型参数数量的问题。对于逻辑回归 这样的线性模型,参数的数量与输入特征的数量相等,因为模型会为每一个特征分派一个相 关的参数。但是这样做可

5、能会有一些问题: 特征可能是稀疏的,因而可能会无法直接计算出特征的数量。由于正则化和特征选择技术,很多特征可能会被抛弃,因而与原始的特征数相比,真正输 入到模型中的特征数会非常少。避免这些问题的一种方法是:必须认识到估算特征的数量时并不是必须使用标记的数据,通 过未标记的样本数据也能够实现目标。例如,对于一个给定的大文 本语料库,可以在标记 数据进行训练之前通过生成单词频率的历史图表来理解特征空间,通过历史图表废弃长尾单 词进而估计真正的特征数,然后应用10X规则来估算模型需要的训练数据的数据量。需要注意的是,神经网络构成的问题集与逻辑回归这样的线性模型并不相同。为了估算神经 网络所需要的参数

6、数量,你需要:如果输入是稀疏的,那么需要计算嵌套层使用的参数的数量。参照word2vec的Tensorflow 教程示例。计算神经网络中边的数量 由于神经网络中参数之间的关系并不是线性的,所以本文基于逻辑回归所做的实证研究并不 适合神经网络。但是在这种情况下,可以将10X规则作为训练数据所需数据量的下限。尽管有上面的问题,根据Malay Haidar的经验,10X规则对于大部分问题还是适用的,包括 浅神经网络。如果有疑问,可以在 Tensorflow 的代码中插入自己的模型和假设,然后运行 代码进行验证研究。【编辑推荐】详解 Visual Studio DSL 创建状态机元数据模型 数据库设计师设计高质量数据模型的必备工具 深入学习 FlexJava 数据模型深入ADO.NET实体数据模型 增强互通能力宅男程序员给老婆的计算机课程之 9:数据模型基于 Dojo 实现与 REST 交互的面向对象数据模型

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!