文档章节

基于特定语料库的TF-IDF关键词提取实现

Gaussic
 Gaussic
发布于 2017/08/08 17:17
字数 944
阅读 334
收藏 0

本文旨在对特定的语料库生成各词的逆文档频率。然后根据TF-IDF算法进行关键词提取。

转载请注明出处:Gaussic(自然语言处理)

GitHub代码:https://github.com/gaussic/tf-idf-keyword

分词

对于中文文本的关键词提取,需要先进行分词操作,本文采用全模式的结巴分词器进行分词。使用全模式的一个优势是可以对原始数据进行增益。如果不需要可以将cut_all修改为默认False。

去除其中的一些英文和数字,只保留中文:

import jieba
import re

def segment(sentence, cut_all=True):
    sentence = re.sub('[a-zA-Z0-9]', '', sentence.replace('\n', '')) # 过滤
    return jieba.cut(sentence, cut_all=cut_all) # 分词

语料库逆文档频率统计

高效文件读取

读取指定目录下的所有文本文件,使用结巴分词器进行分词。本文的IDF提取基于THUCNews(清华新闻语料库)的大约80万篇文本。

基于python生成器的实现,以下代码可以实现高效地读取文本并分词:

class MyDocuments(object):    # memory efficient data streaming
    def __init__(self, dirname):
        self.dirname = dirname
        if not os.path.isdir(dirname):
            print(dirname, '- not a directory!')
            sys.exit()

    def __iter__(self):
        for dirfile in os.walk(self.dirname):
            for fname in dirfile[2]:
                text = open(os.path.join(dirfile[0], fname), 
                            'r', encoding='utf-8').read()
                yield segment(text)  

词的逆文档频数统计

统计每一个词出现在多少篇文档中:

    documents = MyDocuments(inputdir)

    # 排除中文标点符号
    ignored = {'', ' ', '', '。', ':', ',', ')', '(', '!', '?', '”', '“'}
    id_freq = {}    # 频数
    i = 0   # 总文档数
    for doc in documents:
        doc = (x for x in doc if x not in ignored)
        for x in doc:
            id_freq[x] = id_freq.get(x, 0) + 1
        if i % 1000 == 0:   # 每隔1000篇输出状态
            print('Documents processed: ', i, ', time: ', 
                datetime.datetime.now())
        i += 1

计算逆文档频率并存储

    with open(outputfile, 'w', encoding='utf-8') as f:
        for key, value in id_freq.items():
            f.write(key + ' ' + str(math.log(i / value, 2)) + '\n')

逆文档频率(IDF)计算公式

输入图片说明

其中,D表示总文档数,Dw表示词w出现在多少篇文档中。

运行示例:

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/65/1sj9q72d15gg80vt9c70v9d80000gn/T/jieba.cache
Loading model cost 0.943 seconds.
Prefix dict has been built succesfully.
Documents processed:  0 , time:  2017-08-08 17:11:15.906739
Documents processed:  1000 , time:  2017-08-08 17:11:18.857246
Documents processed:  2000 , time:  2017-08-08 17:11:21.762615
Documents processed:  3000 , time:  2017-08-08 17:11:24.534753
Documents processed:  4000 , time:  2017-08-08 17:11:27.235600
Documents processed:  5000 , time:  2017-08-08 17:11:29.974688
Documents processed:  6000 , time:  2017-08-08 17:11:32.818768
Documents processed:  7000 , time:  2017-08-08 17:11:35.797916
Documents processed:  8000 , time:  2017-08-08 17:11:39.232018

可见,处理1000篇文档用时大约3秒,80万篇大约用时40分钟。

TF-IDF关键词提取

借鉴了结巴分词的处理思路,使用IDFLoader载入IDF文件:

class IDFLoader(object): 
    def __init__(self, idf_path):
        self.idf_path = idf_path
        self.idf_freq = {}     # idf
        self.mean_idf = 0.0    # 均值
        self.load_idf()

    def load_idf(self):       # 从文件中载入idf
        cnt = 0
        with open(self.idf_path, 'r', encoding='utf-8') as f:
            for line in f:
                try:
                    word, freq = line.strip().split(' ')
                    cnt += 1
                except Exception as e:
                    pass
                self.idf_freq[word] = float(freq)

        print('Vocabularies loaded: %d' % cnt)
        self.mean_idf = sum(self.idf_freq.values()) / cnt

使用TF-IDF抽取关键词:

TF-IDF计算公式:

输入图片说明

class TFIDF(object): 
    def __init__(self, idf_path):
        self.idf_loader = IDFLoader(idf_path)
        self.idf_freq = self.idf_loader.idf_freq
        self.mean_idf = self.idf_loader.mean_idf

    def extract_keywords(self, sentence, topK=20):    # 提取关键词
        # 分词
        seg_list = segment(sentence)
        
        freq = {}
        for w in seg_list:
            freq[w] = freq.get(w, 0.0) + 1.0  # 统计词频
        if '' in freq:
            del freq['']
        total = sum(freq.values())    # 总词数

        for k in freq:   # 计算 TF-IDF
            freq[k] *= self.idf_freq.get(k, self.mean_idf) / total

        tags = sorted(freq, key=freq.__getitem__, reverse=True)  # 排序

        if topK:   # 返回topK
            return tags[:topK]
        else:
            return tags

使用:

    # idffile为idf文件路径, document为待处理文本路径
    tdidf = TFIDF(idffile)
    sentence = open(document, 'r', encoding='utf-8').read()
    tags = tdidf.extract_keywords(sentence, topK)

示例输出:

交通
翼
路况
中国电信
电信
国电
服务
天
武汉
信息
市民
出行
便民
武汉热线
通路
交通广播
实时
看
分公司
手机

© 著作权归作者所有

共有 人打赏支持
Gaussic
粉丝 399
博文 28
码字总数 66971
作品 0
宝山
私信 提问
加载中

评论(2)

Gaussic
Gaussic

引用来自“JasonLuo90”的评论

IDF是指出现单词的文档数量吧,用id_freq[x] = id_freq.get(x, 0) + 1,那么同一篇文章中的相同单词导致这个数量不对
好像是的,抱歉😥,在doc前面加个set就好了
JasonLuo90
JasonLuo90
IDF是指出现单词的文档数量吧,用id_freq[x] = id_freq.get(x, 0) + 1,那么同一篇文章中的相同单词导致这个数量不对
【NLP】【三】jieba源码分析之关键字提取(TF-IDF/TextRank)

【一】综述 利用jieba进行关键字提取时,有两种接口。一个基于TF-IDF算法,一个基于TextRank算法。TF-IDF算法,完全基于词频统计来计算词的权重,然后排序,在返回TopK个词作为关键字。TextR...

muqiusangyang
11/05
0
0
基于python中jieba包的中文分词中详细使用(二)

基于python中jieba包的中文分词中详细使用(二) 01.前言 在基于python中jieba包的中文分词中详细使用(一)已经介绍了jieba分词的一些基本内容,现在接着去介绍。 02.关键词提取 02.01基于T...

meiqi0538
05/07
0
0
空间向量模型和tf-idf

向量空间模型 向量空间模型是一个把文本文件表示为标识符(比如索引)向量的代数模型,它应用于信息过滤、信息检索、索引以及相关排序。 1 定义 文档和查询都用向量来表示: 每一维都对应于一...

致Great
2017/09/21
0
0
SparkML机器学习之特征工程(一)特征提取(TF-IDF、Word2Vec、CountVectorizer)

特征工程 我们都知道特征工程在机器学习中是很重要的,然而特征工程到底是什么?怎么样通俗的理解它呢?打个比方,即使你有再好的渔具,如果给你一片没有鱼的池塘,那也是白费力气的。而特征...

liuyanling41
04/08
0
0
[Paper Reading] 基于文档主题结构的关键词抽取方法研究

写在前面: 本文知乎大V清华大学刘知远博士的博士论文。因为最近有个短线项目涉及到这方面,向大牛学习一下。 简述: 针对文档主题结构在关键词抽取中的重要作用,从四个方面提出考虑文档主题...

见鹿
2017/09/27
0
0

没有更多内容

加载失败,请刷新页面

加载更多

聊聊flink的MemCheckpointStreamFactory

序 本文主要研究一下flink的MemCheckpointStreamFactory CheckpointStreamFactory flink-runtime_2.11-1.7.0-sources.jar!/org/apache/flink/runtime/state/CheckpointStreamFactory.java /*......

go4it
22分钟前
1
0
注册全局组件

注册全局组件的好处是,可以直接在html中直接调用组件而不用每次都要在vue文件中注册组件,坏处也是很明显的,因为每个vue都默认加载了全局组件,所以全局组件如果非常庞大,会拖慢所有页面的...

Carbenson
27分钟前
1
0
二十分钟教你如何将区块链应用与函数计算相结合

前言 本篇文章适合对区块链应用感兴趣或是想要通过函数计算服务进一步开发区块链应用的新人。本文将结合阿里云区块链服务、阿里云函数计算服务、阿里云日志服务 以及社区应用 Marbles,手把手...

阿里云官方博客
29分钟前
1
0
Double数相加后结果不准确

在我们进行两个double运算时,例如:2..0-1.1 不是想象的输出0.9,而是0.89999999999999999。其主要原因是浮点数值采用二进制系统表示,而在二进制系统中无法精确的表示分数1/10。这就好像十...

嘴角轻扬30
37分钟前
1
0
去除移动端点击效果

移动端点击时,会有一个类似active的短暂背景淡出效果,去除该效果可使用 -webkit-tap-highlight-color: rgba(255, 0, 0, 0);

originDu
38分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部