反正林灰觉得从暗数据入手这倒是符合很多科技巨头的行事风格。
类比林灰以前估量的价格。
如果说几千万美元就能买上千万条双语标注数据。
至于果子为什么对这类东西感兴趣。
因为收集这类一贯不被视为数据的数据。
实际上通过深耕是能得到跟传统数据差不多的功效的。
它包括由学者、政府机构和当地社区策划的数据、医疗记录、法律记录、财务信息和组织特定数据库。
以上这些数据都可以称之为暗数据。
暗数据这类数据虽然相比传统意义上数据虽然要更隐晦一些。
第一种是传统的基于文本的数据。这可能包括电子邮件,日志和文档。
第二种类型是非传统数据。
这包括未标记的音频和视频文件、静止图像和声音文件。
同样的道理抛开数据规模谈咋挖掘数据同样是耍流氓。猪熊的穿越:2014
因为暗数据包括用户活动日志、客户对话或电子邮件记录、服务器监控日志、视频文件、物联网产生的机器和传感器信息。
暗数据还可能包括由于存储在过时设备上而无法再访问的数据。
这种情况下很多时候清理活动日志或者说收集存储碎片的时候都有可能顺手牵羊搞到一些暗数据。
但也绝不可能有满足蘋淉胃口的暗数据。
不要说是林灰前世那点信息了。
就是像國内有的忝居互联网巨头之列外强中干的互联网公司所拥有的暗数据规模也未必能满足蘋淉的胃口。
此二者的价值是不可同日而语的。
单位标注数据的价值往往几十倍甚至于几百倍于单位暗数据。
两三亿美元就算是换取较为昂贵的跨语种语言类标注数据都能换上几亿条。
暗数据有时候也被称为尘埃数据。
暗数据或者说“尘埃数据”是由所有冗余的、经常被遗忘的数据组成的。
这些数据是公司和组织在其活动过程中收集的,但随后又不使用。
可想而知像蘋淉所谋求的价值两三个亿美元的暗数据肯定是一笔相当庞大的数据。
涉及到标注数据跟暗数据一大区别在于标注数据是结构化进行过一定处理的数据。
而暗数据很大程度上是未被结构化处理甚至很是“乱糟糟”的数据。
而且使用这类数据的话,通过一些概念性的教育消费者甚至可以形成一种企业从来不涉足一般数据的印象。
这对于树立企业形象岂不是很有妙用??
总之,对于既当又立的企业不能说是没有诱惑力。
暗数据这种未标注过的数据虽然不能拿来直接用吧。
但却不能否定这种东西的潜力。
反正绝对不能说这些信息不重要。
第三种类型是深度数据。
这包括深层网络中搜索引擎无法触及的信息。
这些深度数据大多是私有的,由政府或私人机构控制。
除此之外还有很多种收集暗数据的方式。
说起来虽然很容易。
但正所谓抛开剂量谈毒性都是耍流氓。
这种情况下如果林灰对蘋淉的这笔巨额收购感兴趣的话似乎只能去收集暗数据了。
至于如何去收集呢?
暗数据的收集方式多种多样。
更何况说拿几亿美元去换暗数据呢?
可想而知,两三亿美元涉及到的暗数据是一笔相当可观的暗数据。
林灰那有很多前世的信息。
这些信息往往是无结构、无标记、无分析的信息。
通常这类数据几乎是被无视的,毕竟这类数据存在于网络和服务器中,只会占据了宝贵的空间。
一般来说,暗数据主要有三种类型:

