区块链分析中的过度挑战

 空投币   2020-02-01  来源:互联网  0 条评论
优质活动 币圈快讯 平台公告 行情分析
最新羊毛 最新空投 链圈挖矿 活动线报
新币上市 币圈空投 国外项目 币链屋
提醒:本站内容均转自网络,仅用于开发者下载测试,请明辨风险,若涉资金安全及隐私,请谨慎!谨慎!再谨慎!一切风险自担,涉及资金交易及个人隐私务必小心并远离,切记千万别投资,勿上当受骗。《本站免责申明》


使用机器学习来分析区块链数据集的想法乍一看似乎非常吸引人,但这是一条充满挑战的道路。在这些挑战中,缺少标记数据集仍然是将机器学习方法应用于区块链数据集时要克服的最大难题。



这些局限性导致许多机器学习模型使用非常小的数据样本进行训练,并对那些导致过度拟合现象的模型进行过度优化。今天,我想深入探讨区块链分析中的过度挑战,并提出一些解决问题的想法。


过度拟合被认为是现代深度学习应用中最大的挑战之一。从概念上讲,当模型生成的假设太适合特定的数据集而无法适应新的数据集时,就会发生过度拟合。



理解过度拟合的一个有用的类比是将其视为模型中的幻觉。本质上,当模型从一个数据集中推断出错误的假设时,它会产生幻觉/过度拟合。

自从机器学习的早期以来,有很多关于过度适应的文章,所以我不想用任何聪明的方法来解释它。对于区块链数据集,过度拟合是缺少标记数据的直接结果。



区块链是一种大的、半匿名的数据结构,在这种结构中,所有内容都使用一组公共的结构来表示,如事务、地址和块。



从这个角度来看,有最低限度的信息来限定区块链记录。是转账还是付款?是个人投资者的钱包还是交易所的冷钱包?这些限定符对于机器学习模型是必不可少的。



假设我们正在创建一个模型来检测一组区块链中的交换地址。这个过程要求我们用一个现有的块链地址的数据集来训练模型,我们都知道那些不是很常见。如果我们使用来自其他来源的小数据集,模型可能会过拟合,并进行错误的分类。



使过度拟合变得如此具有挑战性的一个方面是,很难在不同的深度学习技术之间进行概括。卷积神经网络倾向于发展出不同于观察到的递归神经网络的过度拟合模式,而递归神经网络又不同于生成模型,并且这种模式可以外推到任何一类深层学习模型。

具有讽刺意味的是,过度拟合的倾向随着深度学习模型的计算能力线性增加。由于深度学习代理可以在几乎没有成本的情况下生成复杂的假设,因此过度拟合的倾向增加。



在机器学习模型中,过度拟合是一个持续的挑战,但在处理区块链数据集时,这几乎是一个给定的挑战。对抗过度拟合的显而易见的答案是使用更大的训练数据集,但这并不总是一个选择。我们经常会遇到过多的挑战,我们依靠一系列的基本食谱来解决is。


对抗区块链数据集过度拟合的三种简单策略

反对过度装修的第一条规则就是要认识到这一点。虽然目前还没有防止过度拟合的灵丹妙药,但实际经验表明,一些简单的、几乎是常识性的规则有助于在深度学习应用程序中防止这种现象。


从已经公布的几十个防止过度拟合的最佳实践来看,有三个基本思想涵盖了其中的大部分。

数据/假设比率

当模型产生太多假设而没有相应的数据来验证它们时,通常会发生过度拟合。因此,深度学习应用程序应该在测试数据集和应该评估的假设之间保持适当的比率。然而,这并不总是一个选择。



有许多深度学习算法,如归纳学习,依赖于不断产生新的,有时更复杂的假设。在这些场景中,有一些统计技术可以帮助估计正确的假设数量,从而优化找到接近正确的假设的机会。


虽然这种方法不能提供确切的答案,但它有助于在假设的数量和数据集的组成之间保持统计上的平衡。哈佛大学的莱斯利·瓦利安特教授在他的书中很好地解释了这个概念,大概是正确的。

在进行区块链分析时,数据/假设比率非常明显。假设我们正在构建一个基于一年区块链交易的预测算法。

因为我们不确定要测试哪个机器学习模型,所以我们使用神经架构搜索(NAS)方法,针对区块链数据集测试数百个模型。



考虑到数据集只包含一年的事务,NAS方法很可能会生成一个完全适合训练数据集的模型。



支持更简单的假设

防止深度学习模型过度拟合的一个概念上微不足道但技术上困难的想法是不断生成更简单的假设。当然!简单总是更好的,不是吗?


但是,在深度学习算法的背景下,什么是更简单的假设呢?如果我们需要把它减少到一个定量的因素,我会说,在深度学习假设中的属性数量与它的复杂性成正比。



较简单的假设往往比其他具有大量计算和认知属性的假设更容易评估。



因此,简单的模型通常比复杂的模型更不容易过度拟合。伟大的!现在,下一个明显的难题是如何在深度学习模型中生成更简单的假设。



一种非显而易见的技术是将某种形式的惩罚附加到基于其估计复杂度的算法上。该机制倾向于更简单、近似准确的假设,而在更复杂和有时更准确的假设下,当新的数据集出现时,该机制可能会崩溃。

为了在区块链分析的背景下解释这一想法,让我们设想一下,我们正在构建一个用于对区块链中的支付交易进行分类的模型。



该模型使用一个复杂的深层神经网络,生成1000个特征来执行分类。如果应用于较小的区块链,如Dash或Litecoin,则该模型很可能会过拟合。


偏差/方差平衡

偏差和方差是深度学习模型中的两个关键估计量。概念上,偏差是我们模型的平均预测值和我们试图预测的正确值之间的差异。一个高偏差的模型很少关注训练数据,并且过于简单化了模型。训练和测试数据的误差很大。



或者,方差是指给定数据点的模型预测的可变性或告诉我们数据传播的值。高方差模型对训练数据的重视程度很高,对以前没有见过的数据没有泛化。结果表明,该模型在训练数据上表现良好,但在测试数据上有较高的错误率。



偏差和方差如何与过度拟合相关?用超简单的术语来说,泛化的艺术可以通过减少模型的偏差而不增加其方差来总结。


在深度学习模型中的一个很好的实践-定期将产生的假设与测试数据集进行比较并评估结果。如果假设继续输出相同的错误,那么我们有一个很大的偏差问题,我们需要调整或替换算法。如果错误没有明确的模式,问题是方差,我们需要更多的数据。

在区块链分析的背景下,偏差-方差摩擦无处不在。让我们回到我们的算法,试图预测价格与一些区块链因素。如果我们使用一个简单的线性回归方法,模型可能会拟合不足。然而,如果我们使用一个超复杂的神经网络和一个小的数据集,模型可能会过拟合。


使用机器学习来分析区块链数据是一个非常新兴的领域。因此,大多数模型都面临着机器学习应用的传统挑战。


过度拟合是区块链分析中普遍存在的挑战之一,其根本原因在于缺乏标记数据和经过训练的模型。


https://hackernon.com/the-overfitting-challenge-in-blockchain-analysis-4ho33y4

本文地址:http://bilianwu.com/7850.html
版权声明:项目均采集于互联网, 空投币 无法审核全面,且希望大家能赚钱,请谨慎切勿上当受骗!
温馨提示:★★★天上真会掉馅饼!天道酬勤,都是机会!不错过每个空投糖果!真假难以辨认,尽量0撸!
重要提醒:本站内容均转自互联网,请明辨各个项目风险,不构成投资建议,如涉及资金交易,请谨慎操作与自担风险!
《新人必看》 《本站免责申明》

评论已关闭!