基于统计的分词方法

n元语言模型(n-gram) 假设$ S $表示长度为$ i $,由$ (w_1,w_2,\dots,w_m)$字序列组成的句子,则代表$ S $的概率为: $$ P(S) = P(w_1,w_2,\dots,w_m)=P(w_1)P(w_2|w_1)P(w_3|w_2,w_1)\cdots P(w… ...more

vim及插件编译

VIM编译 编译选项 --with-features=huge --enable-multibyte --enable-rubyiniterp --enable-pythoninterp --with-python-config-dir=/usr/lib/python2.7/config-x86_6… ...more

命名实体识别

命名实体识别(英语:Named Entity Recognition,简称NER),又称作专名识别、命名实体,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。指的是可以用专有名词(名称)标识的事物,一个命名实体一般代表唯一一个具体事物… ...more

confluent系列软件介绍

zookeeper 主要功能:配置管理、名字服务、分布式同步、集群管理 集群配置:每台机器的配置都相同,主要通过myid文件区分ip端口 kafka Broker:Kafka的broker是无状态的,broker使用Zookeeper维护集群的状态。Leader的选举也由Zookeeper负责。… ...more

初步了解kafka

kafka简介 kafka下载地址 kafka官网 kafka是一个分布式消息发布订阅系统,主要特点:易于扩展,高吞吐量 主要术语: Topic Kafka将消息种子(Feed)分门别类, 每一类的消息称之为话题(Topic). Producer 发布消息的对象称之为话题生产者(Kafka top… ...more

一些有用的python函数

基础函数 map map(function, iterable, ...) 对迭代器每一给元素进行计算 返回新的迭代器 filter filter(function, iterable) 过滤掉不满足function的函数 返回过滤后的迭代器 heapq模块 参考python中文文档https:… ...more

集合合并问题

题目: 小明有n只袜子,需要穿m天 第i只袜子的颜色为c_i 给出每天要穿的两只袜子的编号(i1,i2) 保证每天穿的袜子颜色一样,最少要对多少只袜子进行染色 思路: 根据这m天每天穿的两只袜子,可以将所有袜子分成几个集合,每个集合的颜色都要一样,把集合中所有袜子染成颜色最多的袜子即可 将每天穿… ...more