基于统计的分词方法

n元语言模型(n-gram) 假设$ S $表示长度为$ i $，由$ (w_1,w_2,\dots,w_m)$字序列组成的句子，则代表$ S $的概率为： $$ P(S) = P(w_1,w_2,\dots,w_m)=P(w_1)P(w_2|w_1)P(w_3|w_2,w_1)\cdots P(w… ...more

vim及插件编译

VIM编译编译选项 --with-features=huge --enable-multibyte --enable-rubyiniterp --enable-pythoninterp --with-python-config-dir=/usr/lib/python2.7/config-x86_6… ...more

命名实体识别

命名实体识别（英语：Named Entity Recognition，简称NER），又称作专名识别、命名实体，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等，以及时间、数量、货币、比例数值等文字。指的是可以用专有名词（名称）标识的事物，一个命名实体一般代表唯一一个具体事物… ...more

confluent系列软件介绍

zookeeper 主要功能：配置管理、名字服务、分布式同步、集群管理集群配置：每台机器的配置都相同，主要通过myid文件区分ip端口 kafka Broker：Kafka的broker是无状态的，broker使用Zookeeper维护集群的状态。Leader的选举也由Zookeeper负责。… ...more

初步了解kafka

kafka简介 kafka下载地址 kafka官网 kafka是一个分布式消息发布订阅系统，主要特点：易于扩展，高吞吐量主要术语: Topic Kafka将消息种子(Feed)分门别类，每一类的消息称之为话题(Topic). Producer 发布消息的对象称之为话题生产者(Kafka top… ...more

一些有用的python函数

基础函数 map map(function, iterable, ...) 对迭代器每一给元素进行计算返回新的迭代器 filter filter(function, iterable) 过滤掉不满足function的函数返回过滤后的迭代器 heapq模块参考python中文文档https:… ...more

集合合并问题

题目：小明有n只袜子，需要穿m天第i只袜子的颜色为c_i 给出每天要穿的两只袜子的编号（i1,i2) 保证每天穿的袜子颜色一样，最少要对多少只袜子进行染色思路：根据这m天每天穿的两只袜子，可以将所有袜子分成几个集合，每个集合的颜色都要一样，把集合中所有袜子染成颜色最多的袜子即可将每天穿… ...more

Recent Posts