OSCHINA博文抄袭检查

原创
2015/04/06 02:28
阅读数 1.1W

rank是一个seo工具,用于分析网站的搜索引擎收录排名。


比如我写了一篇文章:“使用Java8实现自己的个性化搜索引擎”,我想知道有哪些网站转载了我的文章,我该怎么办呢?请看这里,OSCHINA博文抄袭检查的代码:https://github.com/ysc/rank/blob/master/src/main/java/org/seo/rank/impl/BaiduCopyChecker.java  ,该代码来自本人的rank项目。


值得注意的是,这里我们只是比较了原文和其他文章的标题,如果其他文章标题包含了原文,我们就认为其他文章抄袭原文。这个简单的规则之所以生效,是因为我写的博文的标题基本上都是独一无二的,当然也有少许例外。更近一步,我们应该比较原文和其他文章的内容的相似度,以便精准判断是不是抄袭。本文仅仅利用了标题的包含这个简单的规则就取得了几乎是完美的结果。


下面我们分析OSCHINA博客:http://my.oschina.net/apdplat/blog 被抄袭的情况。


检查博文数目:130

1、2000个软件开发领域的高频特殊词及精选例句(二)  抄袭链接有(29)个

原文链接:http://my.oschina.net/apdplat/blog/389215
抄袭链接:

  1. http://www.erpchn.com/diannao/42364.html

  2. http://www.erpchn.com/diannao/42364_10.html

  3. http://www.erpchn.com/diannao/42364_18.html

  4. http://www.erpchn.com/diannao/42364_19.html

  5. http://www.erpchn.com/diannao/42364_2.html

  6. http://www.erpchn.com/diannao/42364_22.html

  7. http://www.erpchn.com/diannao/42364_27.html

  8. http://www.erpchn.com/diannao/42364_3.html

  9. http://www.erpchn.com/diannao/42364_31.html

  10. http://www.erpchn.com/diannao/42364_34.html

  11. http://www.erpchn.com/diannao/42364_39.html

  12. http://www.erpchn.com/diannao/42364_42.html

  13. http://www.erpchn.com/diannao/42364_46.html

  14. http://www.erpchn.com/diannao/42364_48.html

  15. http://www.erpchn.com/diannao/42364_53.html

  16. http://www.erpchn.com/diannao/42364_54.html

  17. http://www.erpchn.com/diannao/42364_55.html

  18. http://www.erpchn.com/diannao/42364_57.html

  19. http://www.erpchn.com/diannao/42364_58.html

  20. http://www.erpchn.com/diannao/42364_59.html

  21. http://www.erpchn.com/diannao/42364_69.html

  22. http://www.erpchn.com/diannao/42364_71.html

  23. http://www.erpchn.com/diannao/42364_72.html

  24. http://www.erpchn.com/diannao/42364_73.html

  25. http://www.erpchn.com/diannao/42364_78.html

  26. http://www.erpchn.com/diannao/42364_81.html

  27. http://www.erpchn.com/diannao/42364_84.html

  28. http://www.erpchn.com/diannao/42364_91.html

  29. http://www.erpchn.com/diannao/42364_97.html

2、基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎  抄袭链接有(9)个

原文链接:http://my.oschina.net/apdplat/blog/308396
抄袭链接:

  1. http://blog.csdn.net/feelig/article/details/39889747

  2. http://blog.csdn.net/longshenlmj/article/details/39891333

  3. http://blog.csdn.net/u013334719/article/details/38824691

  4. http://m.blog.csdn.net/blog/skydxd/39889747

  5. http://www.aboutyun.com/thread-9240-1-1.html

  6. http://www.mamicode.com/info-detail-416249.html

  7. http://www.open-open.com/lib/view/open1409625381697.html

  8. http://www.sxt.cn/u/2540/blog/3589

  9. http://www.sxt.cn/u/756/blog/2962

3、给JAVA源代码文件统一地添加licence信息头  抄袭链接有(7)个

原文链接:http://my.oschina.net/apdplat/blog/396415
抄袭链接:

  1. http://itlab.idcquan.com/Java/server/943615.html

  2. http://www.douban.com/note/314229263/

  3. http://www.douban.com/note/314229263/?type=like

  4. http://www.douban.com/note/318267895/

  5. http://www.hzeduask.com/xytd/jishuyuandi/2013/1127/2325.html

  6. http://www.sctarena.com/Article/Article.asp?nid=4070

  7. http://www.softfz.com/jzx/7092/

4、APDPlat的系统启动和关闭流程剖析  抄袭链接有(6)个

原文链接:http://my.oschina.net/apdplat/blog/197067
抄袭链接:

  1. http://www.07net01.com/linux/APDPlatdexitongqidongheguanbiliuchengpouxi_705847_1391368623.html

  2. http://www.fanli7.net/a/JAVAbiancheng/Spring/20140203/424600.html

  3. http://www.kankanews.com/ICkengine/archives/107712.shtml

  4. http://www.thinksaas.cn/group/topic/98379/

  5. http://www.tuicool.com/articles/yuIRra

  6. http://yangshangchuan.iteye.com/blog/2010808

5、Hadoop分布式文件系统HDFS和OpenStack对象存储系统Swift有何不同?  抄袭链接有(6)个

原文链接:http://my.oschina.net/apdplat/blog/396126
抄袭链接:

  1. http://itindex.net/detail/46319-hadoop-%E6%96%87%E4%BB%B6%E7%B3%BB%E7%BB%9F-hdfs

  2. http://www.68idc.cn/help/buildlang/python/20150302242330.html

  3. http://www.68idc.cn/help/buildlang/python/20150304246294.html

  4. http://www.chengxuyuans.com/Python/70551.html

  5. http://www.cxyclub.cn/n/31605/

  6. http://www.thinksaas.cn/group/topic/99648/

6、英语单词音近形似转化规律研究  抄袭链接有(6)个

原文链接:http://my.oschina.net/apdplat/blog/378569
抄袭链接:

  1. http://www.erpchn.com/diannao/36765.html

  2. http://www.iteye.com/blog/2186300

  3. http://www.kankanews.com/ICkengine/archives/212540.shtml

  4. http://www.tuicool.com/articles/yaquae

  5. http://xueshu.baidu.com/s?tn=SE_baiduxueshu_c1gjeupa&wd=%E8%8B%B1%E8%AF%AD%E5%8D%95%E8%AF%8D%E9%9F%B3%E8%BF%91%E5%BD%A2%E4%BC%BC%E8%BD%AC%E5%8C%96%E8%A7%84%E5%BE%8B%E7%A0%94%E7%A9%B6&ie=utf-8

  6. http://yangshangchuan.iteye.com/blog/2186300

7、动态索引结构和索引更新机制  抄袭链接有(5)个

原文链接:http://my.oschina.net/apdplat/blog/308393
抄袭链接:

  1. http://m.blog.csdn.net/blog/zufpy68084/38544075

  2. http://www.haodaima.net/art/2782814

  3. http://www.kankanews.com/ICkengine/archives/172179.shtml

  4. http://www.sxt.cn/u/324/blog/2936

  5. http://xueshu.baidu.com/s?tn=SE_baiduxueshu_c1gjeupa&wd=%E5%8A%A8%E6%80%81%E7%B4%A2%E5%BC%95%E7%BB%93%E6%9E%84%E5%92%8C%E7%B4%A2%E5%BC%95%E6%9B%B4%E6%96%B0%E6%9C%BA%E5%88%B6&ie=utf-8

8、new一个Object对象占用多少内存?  抄袭链接有(5)个

原文链接:http://my.oschina.net/apdplat/blog/208456
抄袭链接:

  1. http://blog.csdn.net/ocean20/article/details/19913665

  2. http://m.blog.csdn.net/blog/ocean20/19913665

  3. http://www.haodewap.net/visit.do?wapurl=http%3A%2F%2Fyangshangchuan.iteye.com%2Fblog%2F2021423

  4. http://www.imooo.com/kaifayuyan/program/402556.htm

  5. http://www.software8.co/wzjs/java/5339.html

9、APDPlat的日志国际化实现方式  抄袭链接有(4)个

原文链接:http://my.oschina.net/apdplat/blog/196605
抄袭链接:

  1. http://doc.okbase.net/yangshangchuan/archive/36845.html

  2. http://www.haogongju.net/art/2358241

  3. http://www.kankanews.com/ICkengine/archives/107054.shtml

  4. http://www.tuicool.com/articles/BZbMRf

10、APDPlat如何自动建库建表并初始化数据?  抄袭链接有(4)个

原文链接:http://my.oschina.net/apdplat/blog/197703
抄袭链接:

  1. http://www.aichengxu.com/article/Java/8530_2.html

  2. http://www.bihuman.com/bbs/forum.php?mod=viewthread&tid=9770

  3. http://www.csdn123.com/html/mycsdn20140110/26/2693fc2530f0e77efae315d9942626cf.html

  4. http://yangshangchuan.iteye.com/blog/2012220

11、Java开源项目cws_evaluation:中文分词器分词效果评估  抄袭链接有(4)个

原文链接:http://my.oschina.net/apdplat/blog/308391
抄袭链接:

  1. http://www.csdn123.com/html/topnews201408/36/1336.htm

  2. http://www.cxyclub.cn/n/43031/

  3. http://www.sxt.cn/u/756/blog/2963

  4. http://www.tuicool.com/articles/zEZfie

12、Java8全新打造,英语学习supertool  抄袭链接有(4)个

原文链接:http://my.oschina.net/apdplat/blog/393187
抄袭链接:

  1. http://cxyclub.cn/n/75607/

  2. http://www.drayge.com/pages/13707.html

  3. http://www.erpchn.com/diannao/44089.html

  4. http://www.iteye.com/blog/2196853

13、中文分词算法 之 基于词典的正向最大匹配算法  抄袭链接有(4)个

原文链接:http://my.oschina.net/apdplat/blog/209211
抄袭链接:

  1. http://wenku.baidu.com/link?url=GoxRCpjxayNsrUNDEqK-3NdpTB7PVBFOsGsKwuERf9-ndThZE87pt6ubowt6j-wd2cjvB9_GC71oyPtXg2JkJ8mYPShKlNS8JPvGxbOxOsK

  2. http://wenku.baidu.com/link?url=MxNfYOilcsvOMZ4RJHfPDXWgQ6RTJIYfF2UUdY8ON70FMBC3u5gTwR8HTP5XynUHD5QM7U-FomFE64brEAWnsWZnonV175lKV4jeQKF6q-a

  3. http://www.aboutyun.com/thread-9241-1-1.html

  4. http://www.docin.com/p-781474791.html

14、中文分词算法 之 基于词典的逆向最大匹配算法  抄袭链接有(4)个

原文链接:http://my.oschina.net/apdplat/blog/210427
抄袭链接:

  1. http://wenku.baidu.com/link?url=ALnvBL89YS8u53VCBUFg-vTv9KNCJA7M0ZorUXom0WskG6lNYlfe2bDfgvviJyP60pGGECg5yw0-jajzSS9RkV6heB211K4Jo0_w3ANgklK

  2. http://www.doc88.com/p-4744136729183.html

  3. http://www.tuicool.com/articles/UBjMJb

  4. http://yangshangchuan.iteye.com/blog/2033843

15、自动更改IP地址反爬虫封锁,支持多线程  抄袭链接有(4)个

原文链接:http://my.oschina.net/apdplat/blog/391088
抄袭链接:

  1. http://www.cnblogs.com/softidea/p/4370302.html

  2. http://www.open-open.com/lib/view/open1427353292652.html

  3. http://www.tuicool.com/articles/quMfim

  4. http://yangshangchuan.iteye.com/blog/2195287

16、nutch2.1+mysql报错及解决  抄袭链接有(3)个

原文链接:http://my.oschina.net/apdplat/blog/397144
抄袭链接:

  1. http://tech.ddvip.com/2013-12/1386261296206839.html

  2. http://www.bianceng.cn/a/2014/0628/42038.htm

  3. http://www.iteye.com/blog/1839782

17、模拟浏览器的神器 - HtmlUnit  抄袭链接有(3)个

原文链接:http://my.oschina.net/apdplat/blog/217586
抄袭链接:

  1. http://mauersu.iteye.com/blog/2100829

  2. http://www.kaifajie.cn/3g/19709.html

  3. http://yangshangchuan.iteye.com/blog/2036809

18、配置Nutch模拟浏览器以绕过反爬虫限制  抄袭链接有(3)个

原文链接:http://my.oschina.net/apdplat/blog/208457
抄袭链接:

  1. http://www.kankanews.com/ickengine/archives/121503.shtml

  2. http://www.tuicool.com/articles/quYnAf

  3. http://yangshangchuan.iteye.com/blog/2030741

19、Nutch的发展历程  抄袭链接有(3)个

原文链接:http://my.oschina.net/apdplat/blog/397151
抄袭链接:

  1. http://www.baidu.com/s?tn=baidurt&rtt=1&bsst=1&wd=Nutch%B5%C4%B7%A2%D5%B9%C0%FA%B3%CC&origin=ps

  2. http://www.erpchn.com/diannao/45916.html

  3. http://www.linuxidc.com/Linux/2015-04/115946.htm

20、Hadoop发行版的比较与选择  抄袭链接有(3)个

原文链接:http://my.oschina.net/apdplat/blog/397625
抄袭链接:

  1. http://blog.csdn.net/cqupt_augusting1/article/details/21026779

  2. http://www.csdn123.com/html/blogs/20131108/94269.htm

  3. http://yangshangchuan.iteye.com/blog/1972846

21、网络爬虫面临的挑战 之 链接构造  抄袭链接有(3)个

原文链接:http://my.oschina.net/apdplat/blog/208716
抄袭链接:

  1. http://www.52ml.net/9393.html

  2. http://www.csdn123.com/html/mycsdn20140110/d6/d6d6b84592aba995af4ba4f185b085a9.html

  3. http://www.tuicool.com/articles/UJrqqe

22、Ubuntu上安装HADOOP多机完全分布式集群  抄袭链接有(3)个

原文链接:http://my.oschina.net/apdplat/blog/397146
抄袭链接:

  1. http://www.thinksaas.cn/group/topic/234041/

  2. http://yangshangchuan.iteye.com/blog/1840481

  3. http://zpball.iteye.com/blog/1840707

23、Cygwin运行nutch报错:Failed to set permissions of path  抄袭链接有(3)个

原文链接:http://my.oschina.net/apdplat/blog/396698
抄袭链接:

  1. http://tech.ddvip.com/2013-12/1386261411206840.html

  2. http://www.bianceng.cn/a/2014/0628/42028.htm

  3. http://yangshangchuan.iteye.com/blog/1839784

24、使用JSoup+CSSPath采集和讯网人物信息  抄袭链接有(3)个

原文链接:http://my.oschina.net/apdplat/blog/397143
抄袭链接:

  1. http://doc.okbase.net/yangshangchuan/archive/34560.html

  2. http://www.cxyclub.cn/n/30939/

  3. http://www.tuicool.com/articles/6NZZZ3

25、APDPlat中数据库备份恢复的设计与实现  抄袭链接有(3)个

原文链接:http://my.oschina.net/apdplat/blog/196912
抄袭链接:

  1. http://www.blogjava.net/qileilove/archive/2014/02/12/409768.html

  2. http://www.kankanews.com/ICkengine/archives/107495.shtml

  3. http://yangshangchuan.iteye.com/blog/2010680

26、192本软件著作用词分析(五)用词最复杂99级  抄袭链接有(2)个

原文链接:http://my.oschina.net/apdplat/blog/388816
抄袭链接:

  1. http://www.iteye.com/blog/2194214

  2. http://www.tuicool.com/articles/yiEVji2

27、Java实现的基于模板的网页结构化信息精准抽取组件:HtmlExtractor  抄袭链接有(2)个

原文链接:http://my.oschina.net/apdplat/blog/308400
抄袭链接:

  1. http://itindex.net/detail/50885-java-%E6%A8%A1%E6%9D%BF-%E7%BD%91%E9%A1%B5

  2. http://www.mamicode.com/info-detail-187676.html

28、QuestionAnsweringSystem v1.1 发布,人机问答系统  抄袭链接有(2)个

原文链接:http://my.oschina.net/apdplat/blog/308392
抄袭链接:

  1. http://www.kankanews.com/ICkengine/archives/165833.shtml

  2. http://www.tuicool.com/articles/3M3Ibq2

29、30个JDK类库源代码中最频繁出现的词的深度分析  抄袭链接有(2)个

原文链接:http://my.oschina.net/apdplat/blog/390615
抄袭链接:

  1. http://www.tuicool.com/articles/EFZvym

  2. http://yangshangchuan.iteye.com/blog/2194885

30、对Nutch2.1抽象存储层的一些看法  抄袭链接有(2)个

原文链接:http://my.oschina.net/apdplat/blog/396129
抄袭链接:

  1. http://tech.ddvip.com/2013-12/1386261147206838.html

  2. http://www.aliyun.com/zixun/content/1_1_469609.html

31、使用Java8实现自己的个性化搜索引擎  抄袭链接有(2)个

原文链接:http://my.oschina.net/apdplat/blog/396193
抄袭链接:

  1. http://www.th7.cn/Program/java/201504/425940.shtml

  2. http://www.tuicool.com/articles/qmaaquE

32、配置Cygwin支持无密码SSH登陆  抄袭链接有(2)个

原文链接:http://my.oschina.net/apdplat/blog/397057
抄袭链接:

  1. http://tech.ddvip.com/2013-12/1386261501206841.html

  2. http://www.bianceng.cn/a/2014/0628/42031.htm

33、技术框架太多,多的眼花缭乱,如何在众多选择中找到自己的方向?  抄袭链接有(2)个

原文链接:http://my.oschina.net/apdplat/blog/393810
抄袭链接:

  1. http://www.iteye.com/blog/2197217

  2. http://www.tuicool.com/articles/iuaaErB

34、CSDN博客飙升秘籍  抄袭链接有(2)个

原文链接:http://my.oschina.net/apdplat/blog/197605
抄袭链接:

  1. http://www.netfoucs.com/article/zzzxxxcccvvvbbbnnn/65143.html

  2. http://www.tuicool.com/articles/IjaERzI

35、SOLR4.2+NUTCH1.6  抄袭链接有(2)个

原文链接:http://my.oschina.net/apdplat/blog/397150
抄袭链接:

  1. http://www.iteye.com/blogs/tag/SOLR4.2+NUTCH1.6

  2. http://yangshangchuan.iteye.com/blog/1839803

36、APDPlat中的机器码生成机制  抄袭链接有(2)个

原文链接:http://my.oschina.net/apdplat/blog/197805
抄袭链接:

  1. http://www.sjsjw.com/kf_jiagou/article/6_31254_8198.asp

  2. http://yangshangchuan.iteye.com/blog/2012401

37、APDPlat中的用户密码安全策略  抄袭链接有(2)个

原文链接:http://my.oschina.net/apdplat/blog/207124
抄袭链接:

  1. http://www.kaifajie.cn/spring/16825.html

  2. http://www.kankanews.com/ICkengine/archives/120020.shtml

38、搜索引擎的分片(shard)和副本(replica)机制  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/308395
抄袭链接:

  1. http://www.tuicool.com/articles/ria2YjV

39、大数据系列9:Mahout – 机器学习  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/396682
抄袭链接:

  1. http://www.iteye.com/blog/1950172

40、APDPlat中领域模型的自描述机制与事件通知机制  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/196973
抄袭链接:

  1. http://www.07net01.com/linux/APDPlatzhonglingyumoxingdezimiaoshujizhiyushijiantongzhijizhi_704261_1391209945.html

41、APDPlat拓展搜索之集成ElasticSearch  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/197012
抄袭链接:

  1. http://www.656463.com/article/fymUZz.htm

42、利用1189个精选句子彻底掌握2190个单词  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/394941
抄袭链接:

  1. http://www.iteye.com/blog/2199287

43、英语单词后缀规则总结  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/379330
抄袭链接:

  1. http://yangshangchuan.iteye.com/blog/2186326

44、ITEYE博文抄袭检查  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/396411
抄袭链接:

  1. http://www.tuicool.com/articles/q2ABZ3u

45、Java中文分词组件 - word分词  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/228619
抄袭链接:

  1. http://www.kankanews.com/ICkengine/archives/139197.shtml

46、使用CountDownLatch来模拟马拉松比赛  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/385448
抄袭链接:

  1. http://www.tuicool.com/articles/JJzaMfJ

47、运行nutch提示:0 records selected for fetching, exiting  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/396699
抄袭链接:

  1. http://www.erpchn.com/diannao/45656.html

48、给LUKE增加word分词器  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/397069
抄袭链接:

  1. http://www.iteye.com/blog/2200077

49、Ubuntu上安装HADOOP单机伪分布式集群  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/397145
抄袭链接:

  1. http://www.iteye.com/blog/1839809

50、一个月的时间让你的词汇量翻一翻  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/379303
抄袭链接:

  1. http://yangshangchuan.iteye.com/blog/2186301

51、大数据系列12:Hadoop2 – 全新的Hadoop  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/396685
抄袭链接:

  1. http://yangshangchuan.iteye.com/blog/1967994

52、英语单词前缀规则总结  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/378753
抄袭链接:

  1. http://yangshangchuan.iteye.com/blog/2186327

53、JAVA调用CSDN接口发博文  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/200145
抄袭链接:

  1. http://www.iteye.com/blog/2017751

54、大数据系列5:Pig – 大数据分析平台  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/396584
抄袭链接:

  1. http://yangshangchuan.iteye.com/blog/1950274

55、APDPlat中业务日志和监控日志的设计与实现  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/196604
抄袭链接:

  1. http://www.tuicool.com/articles/UJ3ABbY

56、大数据系列8:Sqoop – HADOOP和RDBMS数据交换  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/396681
抄袭链接:

  1. http://yangshangchuan.iteye.com/blog/1950171

57、中文分词算法 之 基于词典的正向最小匹配算法  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/217588
抄袭链接:

  1. http://yangshangchuan.iteye.com/blog/2040423

58、根据76大细分词性对单词进行归组(二)  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/393774
抄袭链接:

  1. http://www.iteye.com/blog/2197877

59、软件熵:软件开发中推倒重来的过程就是软件熵不断增加的过程  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/311291
抄袭链接:

  1. http://dwz.cn/GgKxL

60、分析在各大考纲词汇中既没有词根也没有前缀和后缀的独立单词  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/392483
抄袭链接:

  1. http://www.iteye.com/blog/2196691

61、JDK源代码以及200多部软件著作中出现的以连字符构造的1011个合成词  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/394495
抄袭链接:

  1. http://www.iteye.com/blog/2199283

62、二百多部软件著作中最重要的9224个英语单词  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/391023
抄袭链接:

  1. http://yangshangchuan.iteye.com/blog/2195559

63、大数据系列6:HBase – 基于Hadoop的分布式数据库  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/396587
抄袭链接:

  1. http://www.bkjia.com/yjs/730532.html

64、如何在你的应用中集成人机问答系统QuestionAnsweringSystem?  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/308397
抄袭链接:

  1. http://m.blog.csdn.net/blog/bingdongguke/38866457

65、大数据系列7:Storm – 流计算  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/396589
抄袭链接:

  1. http://www.thinksaas.cn/group/topic/233803/

66、JDK源代码中最重要的4646个英语单词  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/390915
抄袭链接:

  1. http://yangshangchuan.iteye.com/blog/2195664

67、大数据系列1:在win7上安装配置Hadoop伪分布式集群  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/396579
抄袭链接:

  1. http://www.iteye.com/blog/1953929

68、APDPlat拓展搜索之集成Solr  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/197020
抄袭链接:

  1. http://www.thinksaas.cn/group/topic/98380/

69、使用Java调用百度搜索  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/397129
抄袭链接:

  1. http://www.thinksaas.cn/group/topic/99878/

70、大数据系列11:Gora – 大数据持久化  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/396684
抄袭链接:

  1. http://www.thinksaas.cn/group/topic/233793/

71、使用Java调用谷歌搜索  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/397127
抄袭链接:

  1. http://wbj0110.iteye.com/blog/1967641

72、Windows上安装HADOOP单机伪分布式集群  抄袭链接有(1)个

原文链接:http://my.oschina.net/apdplat/blog/397147
抄袭链接:

  1. http://www.thinksaas.cn/group/topic/234049/

73、分析151个后缀在各大考纲词汇中的作用(二)
原文链接:http://my.oschina.net/apdplat/blog/392465    无抄袭链接
74、分析996个词根在各大考纲词汇中的作用(二)
原文链接:http://my.oschina.net/apdplat/blog/391845    无抄袭链接
75、2000个软件开发领域的高频特殊词及精选例句(六)
原文链接:http://my.oschina.net/apdplat/blog/389632    无抄袭链接
76、192本软件著作用词分析(三)
原文链接:http://my.oschina.net/apdplat/blog/392498    无抄袭链接
77、word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估
原文链接:http://my.oschina.net/apdplat/blog/228615    无抄袭链接
78、计算ITEYE博文在百度的收录与排名情况
原文链接:http://my.oschina.net/apdplat/blog/395970    无抄袭链接
79、3211个词及其反义词(一)(精选考纲词)
原文链接:http://my.oschina.net/apdplat/blog/392954    无抄袭链接
80、192本软件著作用词分析(一)
原文链接:http://my.oschina.net/apdplat/blog/392496    无抄袭链接
81、2000个软件开发领域的高频特殊词及精选例句(五)
原文链接:http://my.oschina.net/apdplat/blog/389631    无抄袭链接
82、Amazon Dynamo的NWR模型
原文链接:http://my.oschina.net/apdplat/blog/393783    无抄袭链接
83、搜索引擎优化之语义标签 (microdata, microformats, RDFa)
原文链接:http://my.oschina.net/apdplat/blog/323243    无抄袭链接
84、OSCHINA博文抄袭检查
原文链接:http://my.oschina.net/apdplat/blog/396414    无抄袭链接
85、中文分词效果对比
原文链接:http://my.oschina.net/apdplat/blog/228614    无抄袭链接
86、分析在各大考纲词汇中同时拥有前缀后缀和词根的词(三)
原文链接:http://my.oschina.net/apdplat/blog/392492    无抄袭链接
87、192本软件著作用词分析(二)
原文链接:http://my.oschina.net/apdplat/blog/392497    无抄袭链接
88、分析996个词根在各大考纲词汇中的作用(四)
原文链接:http://my.oschina.net/apdplat/blog/391848    无抄袭链接
89、大数据系列10:Spark – 内存计算
原文链接:http://my.oschina.net/apdplat/blog/396683    无抄袭链接
90、HBase on CAP
原文链接:http://my.oschina.net/apdplat/blog/397628    无抄袭链接
91、软件业的奥斯卡奖:JOLT奖 之 最好的书
原文链接:http://my.oschina.net/apdplat/blog/395681    无抄袭链接
92、分析在各大考纲词汇中同时拥有前缀后缀和词根的词(五)
原文链接:http://my.oschina.net/apdplat/blog/392494    无抄袭链接
93、3211个词及其反义词(二)(精选考纲词)
原文链接:http://my.oschina.net/apdplat/blog/392955    无抄袭链接
94、986组同义词辨析
原文链接:http://my.oschina.net/apdplat/blog/392944    无抄袭链接
95、2000个软件开发领域的高频特殊词及精选例句(一)
原文链接:http://my.oschina.net/apdplat/blog/389200    无抄袭链接
96、计算OSCHINA博文在百度的收录与排名情况
原文链接:http://my.oschina.net/apdplat/blog/395810    无抄袭链接
97、中文分词算法 之 词典机制性能优化与测试
原文链接:http://my.oschina.net/apdplat/blog/213968    无抄袭链接
98、3211个词及其反义词(三)(精选考纲词)
原文链接:http://my.oschina.net/apdplat/blog/392956    无抄袭链接
99、分析151个后缀在各大考纲词汇中的作用(一)
原文链接:http://my.oschina.net/apdplat/blog/392464    无抄袭链接
100、分析113个前缀在各大考纲词汇中的作用(二)总结精选篇
原文链接:http://my.oschina.net/apdplat/blog/392456    无抄袭链接
101、13054个词及其词义数
原文链接:http://my.oschina.net/apdplat/blog/393278    无抄袭链接
102、APDPlat中备份文件异地容灾机制之FTP上传
原文链接:http://my.oschina.net/apdplat/blog/197005    无抄袭链接
103、The Design of HDFS
原文链接:http://my.oschina.net/apdplat/blog/397149    无抄袭链接
104、分析151个后缀在各大考纲词汇中的作用(三)总结精选篇
原文链接:http://my.oschina.net/apdplat/blog/392466    无抄袭链接
105、Java应用系统中自动实时检测资源文件内容变化
原文链接:http://my.oschina.net/apdplat/blog/312609    无抄袭链接
106、分析996个词根在各大考纲词汇中的作用(五)总结精选篇
原文链接:http://my.oschina.net/apdplat/blog/391865    无抄袭链接
107、中文分词算法 之 基于词典的逆向最小匹配算法
原文链接:http://my.oschina.net/apdplat/blog/217589    无抄袭链接
108、运行nutch报错:unzipBestEffort returned null
原文链接:http://my.oschina.net/apdplat/blog/207653    无抄袭链接
109、分析在各大考纲词汇中同时拥有前缀后缀和词根的词(二)
原文链接:http://my.oschina.net/apdplat/blog/392491    无抄袭链接
110、Nutch抓取需要登录的网站
原文链接:http://my.oschina.net/apdplat/blog/208723    无抄袭链接
111、分析996个词根在各大考纲词汇中的作用(一)
原文链接:http://my.oschina.net/apdplat/blog/391840    无抄袭链接
112、APDPlat旗下10大开源项目,欢迎大家一起来参与
原文链接:http://my.oschina.net/apdplat/blog/395498    无抄袭链接
113、分析113个前缀在各大考纲词汇中的作用(一)
原文链接:http://my.oschina.net/apdplat/blog/392448    无抄袭链接
114、根据76大细分词性对单词进行归组(一)
原文链接:http://my.oschina.net/apdplat/blog/393771    无抄袭链接
115、2000个软件开发领域的高频特殊词及精选例句(三)
原文链接:http://my.oschina.net/apdplat/blog/389621    无抄袭链接
116、在考纲词汇中利用复数规则找出的65个词
原文链接:http://my.oschina.net/apdplat/blog/393333    无抄袭链接
117、大数据系列4:Hive – 基于HADOOP的数据仓库
原文链接:http://my.oschina.net/apdplat/blog/396582    无抄袭链接
118、分析在各大考纲词汇中同时拥有前缀后缀和词根的词(六)
原文链接:http://my.oschina.net/apdplat/blog/392495    无抄袭链接
119、2000个软件开发领域的高频特殊词及精选例句(七)
原文链接:http://my.oschina.net/apdplat/blog/389633    无抄袭链接
120、2000个软件开发领域的高频特殊词及精选例句(四)
原文链接:http://my.oschina.net/apdplat/blog/389630    无抄袭链接
121、词组习语3054组
原文链接:http://my.oschina.net/apdplat/blog/393374    无抄袭链接
122、大数据系列2:建立开发环境编写HDFS和Map Reduce程序
原文链接:http://my.oschina.net/apdplat/blog/396580    无抄袭链接
123、大数据系列3:用Python编写MapReduce
原文链接:http://my.oschina.net/apdplat/blog/396581    无抄袭链接
124、Java中的null引用,超乎你想象
原文链接:http://my.oschina.net/apdplat/blog/217587    无抄袭链接
125、分析在各大考纲词汇中同时拥有前缀后缀和词根的词(四)
原文链接:http://my.oschina.net/apdplat/blog/392493    无抄袭链接
126、英语中有哪些前缀可以用来表示否定呢?
原文链接:http://my.oschina.net/apdplat/blog/389894    无抄袭链接
127、我的ITEYE和OSCHINA博客的异同(截止2015年4月8日)
原文链接:http://my.oschina.net/apdplat/blog/395494    无抄袭链接
128、803个词及其反义词(精选非考纲词)
原文链接:http://my.oschina.net/apdplat/blog/392957    无抄袭链接
129、分析在各大考纲词汇中同时拥有前缀后缀和词根的词(一)
原文链接:http://my.oschina.net/apdplat/blog/392490    无抄袭链接
130、分析996个词根在各大考纲词汇中的作用(三)
原文链接:http://my.oschina.net/apdplat/blog/391847    无抄袭链接

展开阅读全文
打赏
14
71 收藏
分享
加载中
有什么查重开源项目吗
2017/03/22 14:34
回复
举报
杨尚川博主

引用来自“小草”的评论

这个不准啊!给出的例子都对不上。1
哪个对不上啊?
2015/04/09 00:28
回复
举报
这个不准啊!给出的例子都对不上。1
2015/04/08 23:40
回复
举报
杨尚川博主

引用来自“lee_ypp”的评论

标题一样就算抄袭未免有点说不过去吧!
这个简单的规则之所以生效,是因为我写的博文的标题基本上都是独一无二的,当然也有少许例外。
2015/04/08 21:58
回复
举报
标题一样就算抄袭未免有点说不过去吧!
2015/04/08 21:53
回复
举报
不对呀!我经常抄文章到我博客 咋没检测出来...www.lanzp.cn请求入库!!
2015/04/08 17:27
回复
举报
杨尚川博主

引用来自“OSC首席键客”的评论

好多爬虫爬的,我发现我写在博客上的代码,被好多网站爬去了,搜索结果还是他们的在前面。
我应该在代码里面著名连接的。
搜索引擎的搜索结果排名由很多因素构成,最大的就是站点本身的排名,所以你如果在你自己搭建的网站上写博客,被如CSDN转载了,那么CSDN上面转载的文章的排名会在你的之前(假设你自己搭建的博客流量比较小),所以,你在代码里面著名连接对排名的贡献基本可以忽略了。不过在代码中注明你的姓名表名身份是可以的。
2015/04/08 13:16
回复
举报
杨尚川博主

引用来自“PynixWang”的评论

转载呢?
转载和抄袭是有区别的,不过在网络上,我暂且把二者等同。
2015/04/08 13:12
回复
举报
杨尚川博主

引用来自“javagoboy”的评论

只是查标题的话,可能不完全正确,你估算着,这种查标题的准确率会有多少?
值得注意的是,这里我们只是比较了原文和其他文章的标题,如果其他文章标题包含了原文,我们就认为其他文章抄袭原文。这个简单的规则之所以生效,是因为我写的博文的标题基本上都是独一无二的,当然也有少许例外。更近一步,我们应该比较原文和其他文章的内容的相似度,以便精准判断是不是抄袭,这个功能稍后加上,这里就不展示了。
2015/04/08 13:10
回复
举报
杨尚川博主

引用来自“chqsh”的评论

作者把抄袭概念太扩大化了吧!标题一样就算?况且现代社会信息快速复制和传播才带来我们生活的日新月异。
值得注意的是,这里我们只是比较了原文和其他文章的标题,如果其他文章标题包含了原文,我们就认为其他文章抄袭原文。这个简单的规则之所以生效,是因为我写的博文的标题基本上都是独一无二的,当然也有少许例外。更近一步,我们应该比较原文和其他文章的内容的相似度,以便精准判断是不是抄袭,这个功能稍后加上,这里就不展示了。
2015/04/08 13:10
回复
举报
更多评论
打赏
29 评论
71 收藏
14
分享
返回顶部
顶部