动态规划-编辑距离-两字符串集合重排序 背景 近期遇到一个需求,想要对两个字符串集合进行重排序(对齐)操作,将两个字符串集合中尽可能相同的字符串存放到相同的位置上。 示例 假设...
介绍 近期在研究NLP相关技术,再次感受到中文领域分词算法的重要性,突然想到一年前在项目中使用到的Lucene技术中关于分词器的部分,对其再次进行对比分析,并混合多种现有分词方法,获得...
介绍 近期遇到了需要从电子文档中进行内容提取的任务,具体来说就是期望从PDF文件中进行表格抽取,本文主要介绍 tabula-java 和 paddlepaddle 的 pp-structure 两种方案。 思路 本文...
介绍 最近遇到一个需求,期望将一个大型的json文件存储至Elasticsearch中,第一反应是期望将原始数据进行拆分,这样就可以在受限的内存空间中完成数据的导入。 思路 本文使用 JAVA 语...
自定义相似度算法(只考虑词频/命中数) 在使用Elasticsearch的时候,针对排序结果,有些时候只关注对应的词出现的次数,相当于只考虑词频,这个时候就可以使用当前的插件。 当前插件继...
逗号分割的字符串,如何进行分组统计 在使用Elasticsearch的时候,经常会遇到类似标签的需求,比如给学生信息打标签,并且使用逗号分割的字符串进行存储,后期如果遇到需要根据标签统计学...
没有更多内容
加载失败,请刷新页面
文章删除后无法恢复,确定删除此文章吗?
动弹删除后,数据将无法恢复
评论删除后,数据将无法恢复