加载中
动态规划-编辑距离-两字符串集合重排序

动态规划-编辑距离-两字符串集合重排序 背景   近期遇到一个需求,想要对两个字符串集合进行重排序(对齐)操作,将两个字符串集合中尽可能相同的字符串存放到相同的位置上。 示例   假设...

08/25 16:37
32
[分词]基于Lucene8版本的混合分词器(分词合并)

介绍   近期在研究NLP相关技术,再次感受到中文领域分词算法的重要性,突然想到一年前在项目中使用到的Lucene技术中关于分词器的部分,对其再次进行对比分析,并混合多种现有分词方法,获得...

07/21 21:26
13
[杂谈] 从PDF文件中进行表格抽取(tabula || paddle-pp-structure)

介绍   近期遇到了需要从电子文档中进行内容提取的任务,具体来说就是期望从PDF文件中进行表格抽取,本文主要介绍 tabula-java 和 paddlepaddle 的 pp-structure 两种方案。 思路   本文...

07/05 14:43
130
[杂谈]大型JSON数据切分(Java Jackson)

介绍   最近遇到一个需求,期望将一个大型的json文件存储至Elasticsearch中,第一反应是期望将原始数据进行拆分,这样就可以在受限的内存空间中完成数据的导入。 思路   本文使用 JAVA 语...

05/10 17:51
40
ElasticSearch 自定义相似度插件-根据命中数排序

自定义相似度算法(只考虑词频/命中数)   在使用Elasticsearch的时候,针对排序结果,有些时候只关注对应的词出现的次数,相当于只考虑词频,这个时候就可以使用当前的插件。   当前插件继...

ElasticSearch 分组统计-逗号分割字符串-nested对象

逗号分割的字符串,如何进行分组统计   在使用Elasticsearch的时候,经常会遇到类似标签的需求,比如给学生信息打标签,并且使用逗号分割的字符串进行存储,后期如果遇到需要根据标签统计学...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部