数据观读

in #incerto5 years ago

本文首发于我的公众号【安皮瑞卡】

我看数据,焦点有四:属性、状态、置信和维度。

属性:原始大于演绎

原始(Raw)区别于演绎。

举个例子,加密货币交易市场有很多指标, 比如 GBI(全球区块链指数)、ROI(场外指数)、BMLS(比特币保证金多空比率)等等,它们是在单个货币的价格、交易量、换手率、订单比等基础数据上演绎而来。如此,不同的演绎方法会导致不同的结果,其间的错位、误差更无法保证。

更关键的是,演绎数据或多或少已经嫁接了一些分析逻辑。而数据分析的关键工作就是逻辑处理。因此,在分析工作中更多地使用演绎数据是没有道理的。最一无是处是 Crypto Fear & Greed Index —— 市场恐慌和贪婪指数,却偏偏是媒体所热衷引用的。

从演绎到原始,其实是数据降维,也就是尽可能将多维数据降低到低维来处理。这不仅仅能够提高分析精度,还能减少工作量,得到自己真正想要的分析结果。

状态:动态好过静态

动态数据(Dynamic)是趋势的数学表达。

运动上,加速度影响速度,速度影响距离。相对于速度,加速度是动态的;相对于距离,速度是动态的。距离相对于一切都是静态的。

寻找动态数据的本质是使用动态思维,意识到一切皆在变化之中。极端的做法有,每查阅一份报告时都去考察其中数据的时效性。对于交易员来说,要把每一天都当作一张白纸。

动态思维可以在极大程度上避免因路径依赖和思维定式带来的短视。对于集体,实现动态平衡是必须考虑的事情,这也是一家健康公司应该实现人员流动的原因。

遍历的本质就是动态观察。

置信:来源先于内容

数据置信首先看数据来源(Origin),其次还要看其与现实拟合度。也就是,需要反过来检验数据本身。即使数据本身是客观的,也未必就是现实世界的客观表达,这个世界还有一个容错机能。

这里只谈来源。标明引用数据的来源本是工作的基本要求,不是在虑之事。但是,各种分析报告大有避之而后快的嫌疑,故而提出一示。

在我看来,没有出处的智慧不值得效法,没有来源的数据不值得信任。烂源是信息爆炸后,时代强加给我们的隐伤。

维度:多维胜过单维

值得一提还有多维(Multi-dimension),这和 Raw 并不矛盾。Raw 针对单个数据,Multi-dimension 针对系统整体。

多维参考的核心作用是避免因单一维度而陷入狭隘的区域。这本身是提高数据分析精度的一种方法。机器学习之所以厉害,一方面因为它可以无限次练习下去,另一方面,它天然具备多维处理能力。

小结

原始的、动态的、有源的、多维的,说是看数据,用在文字观点上,也未不可。

推荐阅读

INCERTO TIME

重要声明:《从遍历性看追涨杀跌的合理性》中“追涨杀跌”一作,说的不是盘面操作。此文的核心作用是引起你对遍历性的思考,并努力在自己的投资组合中将之实现。