日常笔记-1
pickle序列化与反序列化
import pickle as plk
plk.dump(obj,file) # 将序列化后的二进制写入文件
plk.dumps(obj) # 返回一个二进制序列
plk.load(file) # 读文件对象中的二进制,转化成对象返回
plk.loads(bytes_object) # 将二进制序列转化成对象
obj1=dict(),obj2=dict()
plk.dump(obj1,file)
plk.dump(obj2,file)
obj1=plk.load(file)
obj2=plk.load(file)
plk.load(file) # EOFError: Ran out of input
文本分类与关键词排名
文本分类(Text Categorization, TC)
特征-倒文本频率(Term-Inverse Document Frequency, TF-IDF)
信息增益(Information Gain, IG)
互信息(Multi-Information, MI)
卡方统计 (Chi-square, CHI)
期 望 交 叉 熵(Expected Cross Entropy, ECE )
文本证据权( Weight of Evidence for Text, WET)
TextRank(与PageRank的原理相同)
HITS(Hyperlink-Induced Topic Search)
卡方统计模型(CHI)
卡方分布
其中$Z_i \sim N(0,1)$(标准正太分布)
则$X$被称为服从自由度为$k$的卡方分布,记作:
卡方分布的概率密度函数:
期望和方差:
模型通过观察值和理论值的偏差来确定理论是否正确
基于词袋模型(文档由词组成,不考虑词的顺序)
通过考虑词语与类别的相关度把由词语组成的文档归为某一类别
HITS
- 一个高质量的权威页面会被很多高质量的枢纽页面所指向。
- 一个高质量的枢纽页面会指向很多高质量的权威页面。
由PageRank算法演变而来,将当前页面出链也做为考虑当前页面的重要性的一个因素
参考