文档章节

ITEYE博文抄袭检查

杨尚川
 杨尚川
发布于 2015/04/06 01:22
字数 4908
阅读 324
收藏 0

rank是一个seo工具,用于分析网站的搜索引擎收录排名。


比如我写了一篇文章:“使用Java8实现自己的个性化搜索引擎”,我想知道有哪些网站转载了我的文章,我该怎么办呢?请看这里,ITEYE博文抄袭检查的代码:https://github.com/ysc/rank/blob/master/src/main/java/org/seo/rank/impl/BaiduCopyChecker.java  ,该代码来自本人的rank项目


值得注意的是,这里我们只是比较了原文和其他文章的标题,如果其他文章标题包含了原文,我们就认为其他文章抄袭原文。这个简单的规则之所以生效,是因为我写的博文的标题基本上都是独一无二的,当然也有少许例外。更近一步,我们应该比较原文和其他文章的内容的相似度,以便精准判断是不是抄袭。本文仅仅利用了标题的包含这个简单的规则就取得了几乎是完美的结果。


下面我们分析ITEYE博客:http://yangshangchuan.iteye.com 被抄袭的情况。


检查博文数目:101

1、Nutch相关框架安装使用最佳指南  抄袭链接有(26)个

原文链接:http://yangshangchuan.iteye.com/blog/1832091
抄袭链接:

  1. http://blog.csdn.net/chabale/article/details/9091977

  2. http://blog.csdn.net/hu948162999/article/details/44244303

  3. http://blog.csdn.net/joeyon1985/article/details/41849367

  4. http://blog.csdn.net/linux_l/article/details/8699632

  5. http://blog.csdn.net/liushu_it/article/details/21014285

  6. http://blog.csdn.net/long_ping/article/details/9897483

  7. http://blog.csdn.net/okman1214/article/details/8831274

  8. http://blog.csdn.net/z_vv11/article/details/8647772

  9. http://itindex.net/detail/43176-nutch-%E7%9B%B8%E5%85%B3-%E6%A1%86%E6%9E%B6

  10. http://tech.ddvip.com/2013-12/1386261047206837_12.html

  11. http://tech.ddvip.com/2013-12/1386261047206837_2.html

  12. http://tech.ddvip.com/2013-12/1386261047206837_3.html

  13. http://tech.ddvip.com/2013-12/1386261047206837_5.html

  14. http://tech.ddvip.com/2013-12/1386261047206837_7.html

  15. http://tech.ddvip.com/2013-12/1386261047206837_8.html

  16. http://wenku.baidu.com/link?url=3t1hJlwxD3wrn003dqp2OhlSdfWGDfcw214zo9gZyPPbafk3nmbU6tkNhjSc0ibRNdZLAkYfIAYCexHZFri-vboVejxQvDEOd4DzEtTtAoi

  17. http://www.07net01.com/linux/Nutchxiangguankuangjiaanzhuangshiyongzuijiazhinan_213424_1366170698.html

  18. http://www.aliyun.com/zixun/content/1_1_470758.html

  19. http://www.bianceng.cn/a/2014/0628/42039_14.htm

  20. http://www.bianceng.cn/a/2014/0628/42039_2.htm

  21. http://www.doc88.com/p-9959003946558.html

  22. http://www.docin.com/p-744132253.html

  23. http://www.taodocs.com/p-2386166.html

  24. http://www.thebigdata.cn/Hadoop/1351.html

  25. http://www.tuicool.com/articles/ZRjiUr

  26. http://www.tuicool.com/articles/iMvIr2

2、Apache Nutch v1.8发布,Java实现的网络爬虫  抄袭链接有(12)个

原文链接:http://yangshangchuan.iteye.com/blog/2032672
抄袭链接:

  1. http://javaweb.org/?p=946

  2. http://www.hack6.com/wzle/wljq/20140320/42623.html

  3. http://www.kankanews.com/ICkengine/archives/122401.shtml

  4. http://www.kankanews.com/ICkengine/archives/208070.shtml

  5. http://www.kankanews.com/ICkengine/archives/208308.shtml

  6. http://www.oschina.net/news/59287/apache-nutch-2-3

  7. http://www.oschina.net/news/59287/apache-nutch-2-3?&from=androidqq

  8. http://www.oschina.net/news/59287/apache-nutch-2-3?from=20150201

  9. http://www.oschina.net/news/59287/apache-nutch-2-3?from=20150201&_wv=5

  10. http://www.oschina.net/news/59287/apache-nutch-2-3?utm_source=tuicool

  11. http://www.tuicool.com/articles/iieIr2

  12. http://www.tuicool.com/articles/uayMfuU

3、基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎  抄袭链接有(12)个

原文链接:http://yangshangchuan.iteye.com/blog/2103664
抄袭链接:

  1. http://blog.csdn.net/feelig/article/details/39889747

  2. http://blog.csdn.net/longshenlmj/article/details/39891333

  3. http://blog.csdn.net/u013334719/article/details/38824691

  4. http://m.blog.csdn.net/blog/skydxd/39889747

  5. http://m.oschina.net/blog/308396

  6. http://my.oschina.net/apdplat/blog/308396

  7. http://my.oschina.net/apdplat/blog/308396?p={{page}}

  8. http://www.aboutyun.com/thread-9240-1-1.html

  9. http://www.mamicode.com/info-detail-416249.html

  10. http://www.open-open.com/lib/view/open1409625381697.html

  11. http://www.sxt.cn/u/2540/blog/3589

  12. http://www.sxt.cn/u/756/blog/2962

4、APDPlat的系统启动和关闭流程剖析  抄袭链接有(8)个

原文链接:http://yangshangchuan.iteye.com/blog/2010808
抄袭链接:

  1. http://m.oschina.net/blog/197067

  2. http://my.oschina.net/apdplat/blog/197067

  3. http://my.oschina.net/apdplat/blog/197067?p=1

  4. http://www.07net01.com/linux/APDPlatdexitongqidongheguanbiliuchengpouxi_705847_1391368623.html

  5. http://www.fanli7.net/a/JAVAbiancheng/Spring/20140203/424600.html

  6. http://www.kankanews.com/ICkengine/archives/107712.shtml

  7. http://www.thinksaas.cn/group/topic/98379/

  8. http://www.tuicool.com/articles/yuIRra

5、给JAVA源代码文件统一地添加licence信息头  抄袭链接有(7)个

原文链接:http://yangshangchuan.iteye.com/blog/1841150
抄袭链接:

  1. http://itlab.idcquan.com/Java/server/943615.html

  2. http://www.douban.com/note/314229263/

  3. http://www.douban.com/note/314229263/?type=like

  4. http://www.douban.com/note/318267895/

  5. http://www.hzeduask.com/xytd/jishuyuandi/2013/1127/2325.html

  6. http://www.sctarena.com/Article/Article.asp?nid=4070

  7. http://www.softfz.com/jzx/7092/

6、Hadoop分布式文件系统HDFS和OpenStack对象存储系统Swift有何不同?  抄袭链接有(6)个

原文链接:http://yangshangchuan.iteye.com/blog/1969491
抄袭链接:

  1. http://itindex.net/detail/46319-hadoop-%E6%96%87%E4%BB%B6%E7%B3%BB%E7%BB%9F-hdfs

  2. http://www.68idc.cn/help/buildlang/python/20150302242330.html

  3. http://www.68idc.cn/help/buildlang/python/20150304246294.html

  4. http://www.chengxuyuans.com/Python/70551.html

  5. http://www.cxyclub.cn/n/31605/

  6. http://www.thinksaas.cn/group/topic/99648/

7、动态索引结构和索引更新机制  抄袭链接有(6)个

原文链接:http://yangshangchuan.iteye.com/blog/2103647
抄袭链接:

  1. http://m.blog.csdn.net/blog/zufpy68084/38544075

  2. http://my.oschina.net/apdplat/blog/308393

  3. http://www.haodaima.net/art/2782814

  4. http://www.kankanews.com/ICkengine/archives/172179.shtml

  5. http://www.sxt.cn/u/324/blog/2936

  6. http://xueshu.baidu.com/s?tn=SE_baiduxueshu_c1gjeupa&wd=%E5%8A%A8%E6%80%81%E7%B4%A2%E5%BC%95%E7%BB%93%E6%9E%84%E5%92%8C%E7%B4%A2%E5%BC%95%E6%9B%B4%E6%96%B0%E6%9C%BA%E5%88%B6&ie=utf-8

8、new一个Object对象占用多少内存?  抄袭链接有(6)个

原文链接:http://yangshangchuan.iteye.com/blog/2021423
抄袭链接:

  1. http://blog.csdn.net/ocean20/article/details/19913665

  2. http://m.blog.csdn.net/blog/ocean20/19913665

  3. http://m.oschina.net/blog/208456

  4. http://www.haodewap.net/visit.do?wapurl=http%3A%2F%2Fyangshangchuan.iteye.com%2Fblog%2F2021423

  5. http://www.imooo.com/kaifayuyan/program/402556.htm

  6. http://www.software8.co/wzjs/java/5339.html

9、英语单词音近形似转化规律研究  抄袭链接有(6)个

原文链接:http://yangshangchuan.iteye.com/blog/2186300
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/378569

  2. http://my.oschina.net/apdplat/blog/378570

  3. http://www.erpchn.com/diannao/36765.html

  4. http://www.kankanews.com/ICkengine/archives/212540.shtml

  5. http://www.tuicool.com/articles/yaquae

  6. http://xueshu.baidu.com/s?tn=SE_baiduxueshu_c1gjeupa&wd=%E8%8B%B1%E8%AF%AD%E5%8D%95%E8%AF%8D%E9%9F%B3%E8%BF%91%E5%BD%A2%E4%BC%BC%E8%BD%AC%E5%8C%96%E8%A7%84%E5%BE%8B%E7%A0%94%E7%A9%B6&ie=utf-8

10、Java开源项目cws_evaluation:中文分词器分词效果评估  抄袭链接有(5)个

原文链接:http://yangshangchuan.iteye.com/blog/2059040
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/308391

  2. http://www.csdn123.com/html/topnews201408/36/1336.htm

  3. http://www.cxyclub.cn/n/43031/

  4. http://www.sxt.cn/u/756/blog/2963

  5. http://www.tuicool.com/articles/zEZfie

11、Java实现的基于模板的网页结构化信息精准抽取组件:HtmlExtractor  抄袭链接有(5)个

原文链接:http://yangshangchuan.iteye.com/blog/2110604
抄袭链接:

  1. http://itindex.net/detail/50885-java-%E6%A8%A1%E6%9D%BF-%E7%BD%91%E9%A1%B5

  2. http://my.oschina.net/apdplat/blog/308400

  3. http://my.oschina.net/apdplat/blog/308400?p={{page}}

  4. http://my.oschina.net/apdplat/blog/308400?p={{totalPage}}

  5. http://www.mamicode.com/info-detail-187676.html

12、APDPlat的日志国际化实现方式  抄袭链接有(5)个

原文链接:http://yangshangchuan.iteye.com/blog/1974027
抄袭链接:

  1. http://doc.okbase.net/yangshangchuan/archive/36845.html

  2. http://my.oschina.net/apdplat/blog/196605

  3. http://www.haogongju.net/art/2358241

  4. http://www.kankanews.com/ICkengine/archives/107054.shtml

  5. http://www.tuicool.com/articles/BZbMRf

13、配置Nutch模拟浏览器以绕过反爬虫限制  抄袭链接有(4)个

原文链接:http://yangshangchuan.iteye.com/blog/2030741
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/208457

  2. http://my.oschina.net/apdplat/blog/208457?p=1

  3. http://www.kankanews.com/ickengine/archives/121503.shtml

  4. http://www.tuicool.com/articles/quYnAf

14、Java8全新打造,英语学习supertool  抄袭链接有(4)个

原文链接:http://yangshangchuan.iteye.com/blog/2196853
抄袭链接:

  1. http://cxyclub.cn/n/75607/

  2. http://my.oschina.net/apdplat/blog/393187

  3. http://www.drayge.com/pages/13707.html

  4. http://www.erpchn.com/diannao/44089.html

15、中文分词算法 之 基于词典的正向最大匹配算法  抄袭链接有(4)个

原文链接:http://yangshangchuan.iteye.com/blog/2031813
抄袭链接:

  1. http://wenku.baidu.com/link?url=-c1rYHzGqXMdrULyBYO1WnxUwic_xu1zjXQPOUfU_AqL7SCx3sStzo7nDFsthMSUQCT-DnutRLuGdCp9p5BvmR7yrAKVCImJcPxaLqfcDiy

  2. http://wenku.baidu.com/link?url=B3XxIbKZ11Z_Q_koNjTQeWMLoR2ktcu-w7UZWacXSvZVi_eQScacBFykyu4sf7TcPF1r0OKbznU2JGzy60rXPqeFW4hdxJsdvtvQvCXwjwy

  3. http://www.aboutyun.com/thread-9241-1-1.html

  4. http://www.docin.com/p-781474791.html

16、中文分词算法 之 基于词典的逆向最小匹配算法  抄袭链接有(3)个

原文链接:http://yangshangchuan.iteye.com/blog/2040431
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/217589

  2. http://my.oschina.net/apdplat/blog/217589?p={{currentPage+1}}

  3. http://my.oschina.net/apdplat/blog/217589?p={{currentPage-1}}

17、APDPlat中数据库备份恢复的设计与实现  抄袭链接有(3)个

原文链接:http://yangshangchuan.iteye.com/blog/2010680
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/196912

  2. http://www.blogjava.net/qileilove/archive/2014/02/12/409768.html

  3. http://www.kankanews.com/ICkengine/archives/107495.shtml

18、Nutch的发展历程  抄袭链接有(3)个

原文链接:http://yangshangchuan.iteye.com/blog/1949212
抄袭链接:

  1. http://www.baidu.com/s?tn=baidurt&rtt=1&bsst=1&wd=Nutch%B5%C4%B7%A2%D5%B9%C0%FA%B3%CC&origin=ps

  2. http://www.erpchn.com/diannao/45916.html

  3. http://www.linuxidc.com/Linux/2015-04/115946.htm

19、使用JSoup+CSSPath采集和讯网人物信息  抄袭链接有(3)个

原文链接:http://yangshangchuan.iteye.com/blog/1966497
抄袭链接:

  1. http://doc.okbase.net/yangshangchuan/archive/34560.html

  2. http://www.cxyclub.cn/n/30939/

  3. http://www.tuicool.com/articles/6NZZZ3

20、使用CountDownLatch来模拟马拉松比赛  抄袭链接有(3)个

原文链接:http://yangshangchuan.iteye.com/blog/2198572
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/385448

  2. http://my.oschina.net/apdplat/blog/385448?p={{currentPage-1}}

  3. http://www.tuicool.com/articles/JJzaMfJ

21、Java中文分词组件 - word分词  抄袭链接有(3)个

原文链接:http://yangshangchuan.iteye.com/blog/2056959
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/228619

  2. http://www.kankanews.com/ICkengine/archives/139197.shtml

  3. http://www.oschina.net/news/51335/word-1-0

22、自动更改IP地址反爬虫封锁,支持多线程  抄袭链接有(3)个

原文链接:http://yangshangchuan.iteye.com/blog/2195287
抄袭链接:

  1. http://www.cnblogs.com/softidea/p/4370302.html

  2. http://www.open-open.com/lib/view/open1427353292652.html

  3. http://www.tuicool.com/articles/quMfim

23、APDPlat中的用户密码安全策略  抄袭链接有(3)个

原文链接:http://yangshangchuan.iteye.com/blog/2029367
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/207124

  2. http://www.kaifajie.cn/spring/16825.html

  3. http://www.kankanews.com/ICkengine/archives/120020.shtml

24、软件熵:软件开发中推倒重来的过程就是软件熵不断增加的过程  抄袭链接有(3)个

原文链接:http://yangshangchuan.iteye.com/blog/2113923
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/311291

  2. http://my.oschina.net/apdplat/blog/311291?p=1

  3. http://dwz.cn/GgKxL

25、网络爬虫面临的挑战 之 链接构造  抄袭链接有(3)个

原文链接:http://yangshangchuan.iteye.com/blog/2031642
抄袭链接:

  1. http://www.52ml.net/9393.html

  2. http://www.csdn123.com/html/mycsdn20140110/d6/d6d6b84592aba995af4ba4f185b085a9.html

  3. http://www.tuicool.com/articles/UJrqqe

26、Nutch抓取需要登录的网站  抄袭链接有(3)个

原文链接:http://yangshangchuan.iteye.com/blog/2031742
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/208723

  2. http://my.oschina.net/apdplat/blog/208723?p={{currentPage-1}}

  3. http://my.oschina.net/apdplat/blog/208723?p={{totalPage}}

27、如何在你的应用中集成人机问答系统QuestionAnsweringSystem?  抄袭链接有(3)个

原文链接:http://yangshangchuan.iteye.com/blog/2108250
抄袭链接:

  1. http://m.blog.csdn.net/blog/bingdongguke/38866457

  2. http://my.oschina.net/apdplat/blog/308397

  3. http://my.oschina.net/apdplat/blog/308397?p=1

28、中文分词算法 之 基于词典的逆向最大匹配算法  抄袭链接有(3)个

原文链接:http://yangshangchuan.iteye.com/blog/2033843
抄袭链接:

  1. http://wenku.baidu.com/link?url=mUj4KW6Y9pQoRPr5w9fM6P49gkcbFMWue7h1jk80kBe2Vuef_iibdPspVdsRQiynqTKSmaS8xDGH7287OVneWZorD28vosb9hBV8XyfcAIu

  2. http://www.doc88.com/p-4744136729183.html

  3. http://www.tuicool.com/articles/UBjMJb

29、QuestionAnsweringSystem v1.1 发布,人机问答系统  抄袭链接有(3)个

原文链接:http://yangshangchuan.iteye.com/blog/2101533
抄袭链接:

  1. http://www.kankanews.com/ICkengine/archives/165833.shtml

  2. http://www.oschina.net/news/54234/questionansweringsystem-v1-1

  3. http://www.tuicool.com/articles/3M3Ibq2

30、APDPlat如何自动建库建表并初始化数据?  抄袭链接有(3)个

原文链接:http://yangshangchuan.iteye.com/blog/2012220
抄袭链接:

  1. http://www.aichengxu.com/article/Java/8530_2.html

  2. http://www.bihuman.com/bbs/forum.php?mod=viewthread&tid=9770

  3. http://www.csdn123.com/html/mycsdn20140110/26/2693fc2530f0e77efae315d9942626cf.html

31、Java应用系统中自动实时检测资源文件内容变化  抄袭链接有(2)个

原文链接:http://yangshangchuan.iteye.com/blog/2115461
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/312609

  2. http://my.oschina.net/apdplat/blog/312609?p={{totalPage}}

32、Cygwin运行nutch报错:Failed to set permissions of path  抄袭链接有(2)个

原文链接:http://yangshangchuan.iteye.com/blog/1839784
抄袭链接:

  1. http://tech.ddvip.com/2013-12/1386261411206840.html

  2. http://www.bianceng.cn/a/2014/0628/42028.htm

33、nutch2.1+mysql报错及解决  抄袭链接有(2)个

原文链接:http://yangshangchuan.iteye.com/blog/1839782
抄袭链接:

  1. http://tech.ddvip.com/2013-12/1386261296206839.html

  2. http://www.bianceng.cn/a/2014/0628/42038.htm

34、配置Cygwin支持无密码SSH登陆  抄袭链接有(2)个

原文链接:http://yangshangchuan.iteye.com/blog/1839812
抄袭链接:

  1. http://tech.ddvip.com/2013-12/1386261501206841.html

  2. http://www.bianceng.cn/a/2014/0628/42031.htm

35、APDPlat拓展搜索之集成Solr  抄袭链接有(2)个

原文链接:http://yangshangchuan.iteye.com/blog/2010760
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/197020

  2. http://www.thinksaas.cn/group/topic/98380/

36、Hadoop发行版的比较与选择  抄袭链接有(2)个

原文链接:http://yangshangchuan.iteye.com/blog/1972846
抄袭链接:

  1. http://blog.csdn.net/cqupt_augusting1/article/details/21026779

  2. http://www.csdn123.com/html/blogs/20131108/94269.htm

37、使用Java8实现自己的个性化搜索引擎  抄袭链接有(2)个

原文链接:http://yangshangchuan.iteye.com/blog/2199420
抄袭链接:

  1. http://www.th7.cn/Program/java/201504/425940.shtml

  2. http://www.tuicool.com/articles/qmaaquE

38、APDPlat中业务日志和监控日志的设计与实现  抄袭链接有(2)个

原文链接:http://yangshangchuan.iteye.com/blog/2010571
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/196604

  2. http://www.tuicool.com/articles/UJ3ABbY

39、对Nutch2.1抽象存储层的一些看法  抄袭链接有(2)个

原文链接:http://yangshangchuan.iteye.com/blog/1835074
抄袭链接:

  1. http://tech.ddvip.com/2013-12/1386261147206838.html

  2. http://www.aliyun.com/zixun/content/1_1_469609.html

40、APDPlat拓展搜索之集成ElasticSearch  抄袭链接有(2)个

原文链接:http://yangshangchuan.iteye.com/blog/2010755
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/197012?p=1

  2. http://www.656463.com/article/fymUZz.htm

41、大数据系列7:Storm – 流计算  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/1950165
抄袭链接:

  1. http://www.thinksaas.cn/group/topic/233803/

42、The Design of HDFS  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/2002898
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/397149

43、英语单词后缀规则总结  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/2186326
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/379330

44、30个JDK类库源代码中最频繁出现的词的深度分析  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/2194885
抄袭链接:

  1. http://www.tuicool.com/articles/EFZvym

45、NUTCH公开课:从搜索引擎到网络爬虫  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/1941498
抄袭链接:

  1. http://www.oschina.net/question/121944_125538

46、大数据系列11:Gora – 大数据持久化  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/1953733
抄袭链接:

  1. http://www.thinksaas.cn/group/topic/233793/

47、使用Java调用百度搜索  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/1961058
抄袭链接:

  1. http://www.thinksaas.cn/group/topic/99878/

48、Ubuntu上安装HADOOP多机完全分布式集群  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/1840481
抄袭链接:

  1. http://www.thinksaas.cn/group/topic/234041/

49、运行nutch提示:0 records selected for fetching, exiting  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/2033009
抄袭链接:

  1. http://www.erpchn.com/diannao/45656.html

50、中文分词算法 之 基于词典的正向最小匹配算法  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/2040423
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/217588

51、大数据系列6:HBase – 基于Hadoop的分布式数据库  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/1954018
抄袭链接:

  1. http://www.bkjia.com/yjs/730532.html

52、APDPlat中的机器码生成机制  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/2012401
抄袭链接:

  1. http://www.sjsjw.com/kf_jiagou/article/6_31254_8198.asp

53、英语单词前缀规则总结  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/2186327
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/378753

54、ITEYE博文抄袭检查  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/2199536
抄袭链接:

  1. http://www.tuicool.com/articles/q2ABZ3u

55、192本软件著作用词分析(五)用词最复杂99级  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/2194214
抄袭链接:

  1. http://www.tuicool.com/articles/yiEVji2

56、运行nutch报错:unzipBestEffort returned null  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/2030096
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/207653

57、搜索引擎的分片(shard)和副本(replica)机制  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/2103650
抄袭链接:

  1. http://www.tuicool.com/articles/ria2YjV

58、Windows上安装HADOOP单机伪分布式集群  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/1839814
抄袭链接:

  1. http://www.thinksaas.cn/group/topic/234049/

59、技术框架太多,多的眼花缭乱,如何在众多选择中找到自己的方向?  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/2197217
抄袭链接:

  1. http://www.tuicool.com/articles/iuaaErB

60、模拟浏览器的神器 - HtmlUnit  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/2036809
抄袭链接:

  1. http://www.kaifajie.cn/3g/19709.html

61、APDPlat中领域模型的自描述机制与事件通知机制  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/2010734
抄袭链接:

  1. http://www.07net01.com/linux/APDPlatzhonglingyumoxingdezimiaoshujizhiyushijiantongzhijizhi_704261_1391209945.html

62、APDPlat v2.5正式发布,开源的Java应用级产品开发平台  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/1972625
抄袭链接:

  1. http://itindex.net/detail/46378-apdplat-v2.5-%E5%BC%80%E6%BA%90

63、SOLR4.2+NUTCH1.6  抄袭链接有(1)个

原文链接:http://yangshangchuan.iteye.com/blog/2200131
抄袭链接:

  1. http://my.oschina.net/apdplat/blog/397150

64、大数据系列12:Hadoop2 – 全新的Hadoop
原文链接:http://yangshangchuan.iteye.com/blog/1967994    无抄袭链接
65、大数据系列4:Hive – 基于HADOOP的数据仓库
原文链接:http://yangshangchuan.iteye.com/blog/1950178    无抄袭链接
66、使用Java调用谷歌搜索
原文链接:http://yangshangchuan.iteye.com/blog/1961059    无抄袭链接
67、大数据系列3:用Python编写MapReduce
原文链接:http://yangshangchuan.iteye.com/blog/1950157    无抄袭链接
68、word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估
原文链接:http://yangshangchuan.iteye.com/blog/2056537    无抄袭链接
69、Java中的null引用,超乎你想象
原文链接:http://yangshangchuan.iteye.com/blog/2038163    无抄袭链接
70、2000个软件开发领域的高频特殊词及精选例句(一)
原文链接:http://yangshangchuan.iteye.com/blog/2195665    无抄袭链接
71、分析在各大考纲词汇中同时拥有前缀后缀和词根的词(一)
原文链接:http://yangshangchuan.iteye.com/blog/2198571    无抄袭链接
72、HBase on CAP
原文链接:http://yangshangchuan.iteye.com/blog/2002544    无抄袭链接
73、分析996个词根在各大考纲词汇中的作用(五)总结精选篇
原文链接:http://yangshangchuan.iteye.com/blog/2195991    无抄袭链接
74、分析113个前缀在各大考纲词汇中的作用(二)总结精选篇
原文链接:http://yangshangchuan.iteye.com/blog/2195996    无抄袭链接
75、大数据系列2:建立开发环境编写HDFS和Map Reduce程序
原文链接:http://yangshangchuan.iteye.com/blog/1950158    无抄袭链接
76、APDPlat旗下10大开源项目,欢迎大家一起来参与
原文链接:http://yangshangchuan.iteye.com/blog/2200130    无抄袭链接
77、中文分词算法 之 词典机制性能优化与测试
原文链接:http://yangshangchuan.iteye.com/blog/2035007    无抄袭链接
78、中文分词效果对比
原文链接:http://yangshangchuan.iteye.com/blog/2043184    无抄袭链接
79、二百多部软件著作中最重要的9224个英语单词
原文链接:http://yangshangchuan.iteye.com/blog/2195559    无抄袭链接
80、给LUKE增加word分词器
原文链接:http://yangshangchuan.iteye.com/blog/2200077    无抄袭链接
81、分析151个后缀在各大考纲词汇中的作用(三)总结精选篇
原文链接:http://yangshangchuan.iteye.com/blog/2196690    无抄袭链接
82、大数据系列5:Pig – 大数据分析平台
原文链接:http://yangshangchuan.iteye.com/blog/1950274    无抄袭链接
83、计算ITEYE博文在百度的收录与排名情况
原文链接:http://yangshangchuan.iteye.com/blog/2199419    无抄袭链接
84、大数据系列10:Spark – 内存计算
原文链接:http://yangshangchuan.iteye.com/blog/1950276    无抄袭链接
85、JAVA调用CSDN接口发博文
原文链接:http://yangshangchuan.iteye.com/blog/2017751    无抄袭链接
86、JDK源代码中最重要的4646个英语单词
原文链接:http://yangshangchuan.iteye.com/blog/2195664    无抄袭链接
87、一个月的时间让你的词汇量翻一翻
原文链接:http://yangshangchuan.iteye.com/blog/2186301    无抄袭链接
88、APDPlat中备份文件异地容灾机制之FTP上传
原文链接:http://yangshangchuan.iteye.com/blog/2010750    无抄袭链接
89、OSCHINA博文抄袭检查
原文链接:http://yangshangchuan.iteye.com/blog/2200451    无抄袭链接
90、JDK源代码以及200多部软件著作中出现的以连字符构造的1011个合成词
原文链接:http://yangshangchuan.iteye.com/blog/2199283    无抄袭链接
91、大数据系列9:Mahout – 机器学习
原文链接:http://yangshangchuan.iteye.com/blog/1950172    无抄袭链接
92、根据76大细分词性对单词进行归组(二)
原文链接:http://yangshangchuan.iteye.com/blog/2197877    无抄袭链接
93、大数据系列1:在win7上安装配置Hadoop伪分布式集群
原文链接:http://yangshangchuan.iteye.com/blog/1953929    无抄袭链接
94、分析在各大考纲词汇中既没有词根也没有前缀和后缀的独立单词
原文链接:http://yangshangchuan.iteye.com/blog/2196691    无抄袭链接
95、Ubuntu上安装HADOOP单机伪分布式集群
原文链接:http://yangshangchuan.iteye.com/blog/1839809    无抄袭链接
96、软件业的奥斯卡奖:JOLT奖 之 最好的书
原文链接:http://yangshangchuan.iteye.com/blog/1837328    无抄袭链接
97、根据76大细分词性对单词进行归组(一)
原文链接:http://yangshangchuan.iteye.com/blog/2197874    无抄袭链接
98、Amazon Dynamo的NWR模型
原文链接:http://yangshangchuan.iteye.com/blog/2010574    无抄袭链接
99、词组习语3054组
原文链接:http://yangshangchuan.iteye.com/blog/2197555    无抄袭链接
100、利用1189个精选句子彻底掌握2190个单词
原文链接:http://yangshangchuan.iteye.com/blog/2199287    无抄袭链接
101、大数据系列8:Sqoop – HADOOP和RDBMS数据交换
原文链接:http://yangshangchuan.iteye.com/blog/1950171    无抄袭链接

© 著作权归作者所有

杨尚川

杨尚川

粉丝 1103
博文 220
码字总数 1624053
作品 12
东城
架构师
私信 提问
基于word分词提供的文本相似度算法来实现通用的网页相似度检测

实现代码:基于word分词提供的文本相似度算法来实现通用的网页相似度检测 运行结果: 检查的博文数:128 1、检查博文:192本软件著作用词分析(五)用词最复杂99级,相似度分值:Simple=0.96...

杨尚川
2015/05/28
1K
0
ubuntu安装nvidia显卡驱动

安装完11.10后想更新一下nvidia显卡驱动,结果提示安装失败,在网上搜了一把,发现了两个方法,有手动安装和apt-get两种方式,推荐后者,怎么安装就不细说了,这篇博文写的不错: http://cry...

chungwoo.J
2012/08/29
340
0
云栖社区版权提示与说明【2018版】

云栖社区尊重版权,也致力于保护版权,感谢您对我们的关注! 以下内容为云栖社区版权相关事宜的提示,请您仔细阅读。 本版发布时间2018年6月28日。 1.关于版权 阿里云云栖社区是开放的技术社...

云栖小秘书
2018/06/28
0
0
我的六年CSDN博文写作感悟

2011年10月2日,我在CSDN博客上发表了自己的第一篇博文,从此之后,CSDN博客就成了我分享技术、观点和感悟的“前沿阵地”。时至今日,我已在CSDN博客上坚持写作了六年,发表了460多篇原创文章...

zhouzxi
2017/10/05
0
0
Java集合框架及并发包

对集合框架,参考‘lewis122’的博文:http://jianshi-dlw.iteye.com/blog/1179834 以下几个并发包下,也会常用到的: ConcurrentHashMap extends AbstractMap implements ConcurrentMap Cop...

林中漫步
2016/05/15
158
0

没有更多内容

加载失败,请刷新页面

加载更多

Redis缓存NoSQL

redis的应用场景有哪些 1、会话缓存(最常用) 2、消息队列,比如支付 3、活动排行榜或计数 4、发布、订阅消息(消息通知) 5、商品列表、评论列表等

BobwithB
10分钟前
2
0
「绘画技巧」一分钟画出动漫人物的喜怒哀乐中“喜”的各种表情

「绘画技巧」一分钟画出动漫人物的喜怒哀乐中“喜”的各种表情 表情拥有着可以凸显动漫人物情绪和主张的魔力,表情渲染整个环境。那么今天来和大家一起分享自己整理收集动漫人物喜怒哀乐中的...

知北
13分钟前
3
0
从流中的三种求和方式谈起

//使用reduce()方法int reduce = Arrays.asList(ins).stream().reduce(0, Integer::sum);//Collectors类的工厂方法,收集器int collect1 = Arrays.asList(ins).stream().collect(Colle......

我的眼里只有眼屎
14分钟前
2
0
File类的使用(文件与文件夹,获取,判断存在,删除,)

//File类的使用 public static void main(String[] args) throws IOException, ClassNotFoundException { //test3();// File f = new File("E:\\资料\\第二阶段\\d......

zhengzhixiang
18分钟前
2
0
58到家MySQL军规升级版

转载 2018-03-30 58到家DBA 架构师之路 一、基础规范 表存储引擎必须使用InnoDB 表字符集默认使用utf8,必要时候使用utf8mb4 解读: 通用,无乱码风险,汉字3字节,英文1字节 utf8...

xiaolyuh
25分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部