把代码分享作个整合:就是自动获取新闻正文,自动生成摘要简介

原创
2013/08/30 13:55
阅读数 456

之前代码里分享了获取网页正文,关键字提取,中文摘要等。前些天有空弄了一个新闻读取的网页,把分享的代码作个整合。功能如下:

1.google把最新的新闻或博客等内容自动发送到邮箱

2.用python读取邮箱得到新闻的链接

3.访问链接,自动读取新闻的内容,自动去掉广告等等其它信息,得到最简洁的信息。

4.用yaha分词库生成摘要,提取关键字

5.网站页面:每日新闻

目前新闻是与电影等关键字相关的,后续有时间会在GAE上部署一个与互联网相关的关键字的新闻站。

为了节约时间,网站页面非常简陋。新闻至少能看到了,哈哈。个人觉得还不错。

展开阅读全文
打赏
0
1 收藏
分享
加载中
余争博主

引用来自“猿代码”的评论

摘要部分代码开源了么?

补充:摘要的实现,现在是使用任何标点符号作为分句,若仅使用句号,问号,分号等符号作为分句得到的结果应该更好,更符号中文的习惯。最近没空试,有空你试试。
2013/10/17 11:49
回复
举报
余争博主

引用来自“猿代码”的评论

摘要部分代码开源了么?

恩。示例在:
http://yaha.sinaapp.com/sum/
代码在:
https://github.com/jannson/yaha/blob/master/yaha/analyse/__init__.py
2013/10/17 11:46
回复
举报
摘要部分代码开源了么?
2013/10/17 11:22
回复
举报
余争博主

引用来自“猿代码”的评论

发现你这个正文抽取把正文标签页抽下来了,我试了下源码,好像抽标签有问题

它的这种实现只能提取正文,如果提取标签需要再优化代码才能实现。我实现了,但是实现得不是很好,所以没有发出来。
2013/09/13 14:03
回复
举报
发现你这个正文抽取把正文标签页抽下来了,我试了下源码,好像抽标签有问题
2013/09/13 13:33
回复
举报
更多评论
打赏
5 评论
1 收藏
0
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部