好好睡觉
熬夜的不要

机器学习

序列标注中的BIO标注介绍-数据谷

序列标注中的BIO标注介绍

selfcs阅读(14)评论(0)赞(0)

序列标注一般可以分为两类: – 原始标注(Raw labeling):每个元素都需要被标注为一个标签。 – 联合标注(Joint segmentation and labeling):所有的分段被标注为同样的标签。 ...

语言模型困惑度-数据谷

语言模型困惑度

selfcs阅读(11)评论(0)赞(0)

PP(S)=2^{-\frac{1}{N}\sum log(P(w_i))} 上面式子中S就是一句话,N 是这句话的长度,如果是中文,那就是分词后词的个数,N的作用实际上也相当于标准化,使得不同长度的句子困惑度可以在一个量级下比较。 Pyt...

自动文档摘要评价方法-数据谷

自动文档摘要评价方法

selfcs阅读(9)评论(0)赞(0)

自动文档摘要评价方法大致分为两类: (1)内部评价方法(Intrinsic Methods):提供参考摘要,以参考摘要为基准评价系统摘要的质量。系统摘要与参考摘要越吻合, 质量越高。 (2)外部评价方法(Extrinsic Methods)...

经典决策树模型-数据谷

经典决策树模型

selfcs阅读(26)评论(0)赞(0)

常用的决策树算法有ID3、C4.5、CART,它们构建树所使用的启发式函数各是什么?除了构建准则之外,它们之间的区别与联系是什么?首先,我们回顾一下这几种决策树构造时使用的准则。 人 年龄 长相 工资 写代码 类别 小A 老 帅 高 不会 ...

代理损失函数(surrogate loss function)-数据谷

代理损失函数(surrogate loss function)

selfcs阅读(21)评论(0)赞(0)

Surrogate loss function,中文可以译为代理损失函数。当原本的loss function不便计算的时候,我们就会考虑使用surrogate loss function。 在二元分类问题中,假如我们有n个训练样本{(X_1...