加载中
动态规划-编辑距离-两字符串集合重排序

动态规划-编辑距离-两字符串集合重排序 背景   近期遇到一个需求,想要对两个字符串集合进行重排序(对齐)操作,将两个字符串集合中尽可能相同的字符串存放到相同的位置上。 示例   假设...

2023/08/25 16:37
38
[分词]基于Lucene8版本的混合分词器(分词合并)

介绍   近期在研究NLP相关技术,再次感受到中文领域分词算法的重要性,突然想到一年前在项目中使用到的Lucene技术中关于分词器的部分,对其再次进行对比分析,并混合多种现有分词方法,获得...

2023/07/21 21:26
60
[杂谈] 从PDF文件中进行表格抽取(tabula || paddle-pp-structure)

介绍   近期遇到了需要从电子文档中进行内容提取的任务,具体来说就是期望从PDF文件中进行表格抽取,本文主要介绍 tabula-java 和 paddlepaddle 的 pp-structure 两种方案。 思路   本文...

2023/07/05 14:43
199
[杂谈]大型JSON数据切分(Java Jackson)

介绍   最近遇到一个需求,期望将一个大型的json文件存储至Elasticsearch中,第一反应是期望将原始数据进行拆分,这样就可以在受限的内存空间中完成数据的导入。 思路   本文使用 JAVA 语...

2023/05/10 17:51
74
ElasticSearch 自定义相似度插件-根据命中数排序

自定义相似度算法(只考虑词频/命中数)   在使用Elasticsearch的时候,针对排序结果,有些时候只关注对应的词出现的次数,相当于只考虑词频,这个时候就可以使用当前的插件。   当前插件继...

2023/04/13 16:38
67

没有更多内容

加载失败,请刷新页面

返回顶部
顶部