对于这类知识往往要通过规则化或者是词典化将这些知识整理成让机器理解的形式。
这类知识往往通过知识图谱的形式加以描述和存储。
常识往往是不言自明的,并没有记录为文字,所以很难从文本中挖掘到。
世界知识包括实体、实体属性、实体之间的关系等。
或许有人不理解?
为什么这类知识能换钱呢?
狭义知识一般指通过规则或词典等形式由人工定义的显性知识。
狭义知识主要包括三种:
——即语言知识、常识知识和世界知识。
对于大规模数据标记和超大规模数据的标记任务想要依靠专家标记很多时候只能是力不从心。
对于大规模数据标记和超大规模数据标记往往只能寻求众包了。
众包模式是将零散的个人(包括兼职)、小标注团队,整合到平台上,完成一个完整项目的服务模式。
往往还需要根据标注的数据进一步评估算法模型。
如此一来很多时候对书记标注员的要求是这些人不光要进行数据标注。
还得懂相应的算法。
而且是依赖于大量有标注的数据。
标注数据量较小的情况下,很多时候是不足以训练一个性能优异的机器学习算法的。
从这个角度出发,就不难理解数据为什么可以换钱。
其次,对标注完以后的结果进行合并。
而算法数据标注员稍稍有别于一般的数据标注员。
相比于一般的数据标注猿,算法数据标注猿往往在完成以上的步骤之后。
前世,随着大数据以及人工智能时代的到来,为了应对数据标注的工作在互联网上出现了一种新型职业——数据标注员。
数据标注员的工作是使用相应的工具从互联网上抓取、收集数据,包括文本、图片、语音等等。
然后对抓取的数据进行整理与标注。
“数据标注”听起来似乎蛮高大上的,但实际上呢?
进行数据标注过程往往非常复杂,涉及到数据量特别多的时候,对人工劳动力会有很高的要求。
虽然不能说低端吧,但这种机械而繁复的工作至少跟高端是没啥关系的,砖家教授肯定是不会去干这活的。
仅仅是涉及到文本摘要有关的一些普通标注数据林灰估计在这个时空换取几千万美元的话完全没问题。
如果对这些标注数据加以一定包装并且足够幸运能够遇到一些识(yuan)货(da)人(tou)的话。
林灰估计忽悠个上亿美刀也是完全没问题的。
也不是侧重于算法本身。
而是依赖于这些专家知识去训练。
这种情况下狭义知识是相当有市场的。
能够直接影响效率的算法自然是能够很容易换取丰厚报酬的。
理解了算法能换钱。
其实也就不难理解数据为什么能换钱。
著名的cyc项目试图将上百万条知识编码成机器可用的形式,用以表示人类常识。
狭义知识也被称为专家知识。
最早涉及到自然语言处理方面的模型数据的时候人们往往想到的不是依靠数据去训练。
这些东西不都是显而易见吗?
这些知识虽然本质上依旧是人们所能理解的显性知识。
但对人们来说显而易见的显性知识,不等于对机器是显而易见的。
其中,语言知识是指对语言的词法、句法或语义进行的定义或描述。
其主要特色是定义了同义词集合。每个同义词集合由具有相同意义的词组成。
常识知识是指人们基于共同经验而获得的基本知识。
很多时候甚至可以完全可以把数据理解为是一种隐性的知识。
而数据标注的过程实际上就是将散漫自有的离散数据结构化、标签化的过程。
在算法和数据之外,所谓的狭义知识是什么呢?
这种模式的主要优势成本很低,且比较灵活。
通常情况下,这两种模式的区分并不大。猪熊的穿越:2014
而这样的人很多时候可以说是凤毛麟角。
而且因为这种专业标注的人员很少。
往往专家级标注只能够胜任千量级的数据。
还要通过标注的数据喂模型进而调试模型。
尽管工作流程只是多了这一步,但专业的算法数据标注员依旧是凤毛麟角。
从先前罗列的任务也可以看出算法数据标注员的任务不仅仅是数据标注。
这些数据标注员工具体的工作流程一般很明确:
首先,标注人员经过培训,确定需要标注的样本数据以及标注规则;
而后,根据事先安排好的规则对样本数据进行打标;
所谓的专家标注一般都是由苦逼的算法工程师进行兼职。
或者由专门的算法数据标注员进行标注。
所谓的数据标注员是一种新兴职业。
对这些标注数据加以一定的包装是什么意思呢?
严格来讲的话,同样是标注数据也是可以区分为专家标注和众包的。
所谓的“专家标注”也不是真的专家去进行标注。
虽然一般的文本数据标注相比于双语互译文本标注(标注起来门槛更高)的数据其价值肯定是要打折扣的。
但在形成规模的情况下纵然是一般的标注数据一样是一笔不容小视的财富。
这种情况下似乎还是只能用技术去换钱。
毕竟数据是很多机器学习算法构建的基石。
机器学习算法的出现往往要依赖于有标注的数据。
而且在相当长的一段时期内机器学习算法不仅是依赖于有标注的数据。

