好好睡觉
熬夜的不要

自然语言处理

序列标注中的BIO标注介绍-数据谷

序列标注中的BIO标注介绍

selfcs阅读(14)评论(0)赞(0)

序列标注一般可以分为两类: – 原始标注(Raw labeling):每个元素都需要被标注为一个标签。 – 联合标注(Joint segmentation and labeling):所有的分段被标注为同样的标签。 ...

语言模型困惑度-数据谷

语言模型困惑度

selfcs阅读(11)评论(0)赞(0)

PP(S)=2^{-\frac{1}{N}\sum log(P(w_i))} 上面式子中S就是一句话,N 是这句话的长度,如果是中文,那就是分词后词的个数,N的作用实际上也相当于标准化,使得不同长度的句子困惑度可以在一个量级下比较。 Pyt...

自动文档摘要评价方法-数据谷

自动文档摘要评价方法

selfcs阅读(9)评论(0)赞(0)

自动文档摘要评价方法大致分为两类: (1)内部评价方法(Intrinsic Methods):提供参考摘要,以参考摘要为基准评价系统摘要的质量。系统摘要与参考摘要越吻合, 质量越高。 (2)外部评价方法(Extrinsic Methods)...