加载中
PAP-快速开发框架:整体模块说明

https://gitee.com/alexgaoyh/pap-all-project 针对参加工作以来遇到的业务问题,搭建一套自认为较独立的业务模块,命名为PAP。 技术栈: 技术栈为 Spring Boot 2.x 配套 Spring Cloud、 My...

[分组聚合]基于Lucene8进行多值字段分组聚合(多属性字段)

介绍   在使用搜索引擎的过程中,经常会出现针对属性进行分组聚合的场景,单属性分组聚合很简单,如何对多属性字段进行分组聚合是本文的重点。 背景   在真实世界中,任意一个物品的属性...

[文本提取]基于Apache Tika的文本内容提取

背景   近期再次遇到了关于知识库的需求,对照[langchain-ChatGLM 本地知识库],发现提取文本内容的功能在这个领域中必不可少,故对其进行了研究。 编码   使用Spring Maven 与 Apache T...

[PaddleGAN]人脸表情迁移-视频换脸

背景 最近和朋友聊天,突然聊到了视频编辑的换脸功能,对此功能进行了调研,通过分析,最终选择Paddle飞浆的PaddleGAN的 "First Order Motion" 进行视频换脸功能。 环境配置 废话不多说,直接...

动态规划-编辑距离-两字符串集合重排序

动态规划-编辑距离-两字符串集合重排序 背景   近期遇到一个需求,想要对两个字符串集合进行重排序(对齐)操作,将两个字符串集合中尽可能相同的字符串存放到相同的位置上。 示例   假设...

[国产化-银河麒麟v10桌面版]FTP适配(FtpClient)

介绍   作为一个码农,近期看到很多关于国产化的新闻,便使用虚拟机装了一台银河麒麟v10桌面版操作系统(V10-SP1-Release-2107),并计划对目前经常使用的基础组件(ftp redis db ……)进行适...

[分词]基于Lucene8版本的混合分词器(分词合并)

介绍   近期在研究NLP相关技术,再次感受到中文领域分词算法的重要性,突然想到一年前在项目中使用到的Lucene技术中关于分词器的部分,对其再次进行对比分析,并混合多种现有分词方法,获得...

[Huggingface]系列文章(1)-认识Transformers

背景   本文是[Huggingface]系列文章的第一篇,期望通过如下的介绍,向用户展示[Huggingface]可以做到哪些事情。 环境安装   分为三个代码段落,首先使用conda初始化python环境,其次安装...

基于JPA(国产数据库)的简易伪低代码模块

背景   一方面鉴于国内外环境的变化,另一方面鉴于软件开发的复杂性,期望构建一款兼容国产环境(特别是国产数据库)的简易低代码模块。 现状   1、各数据库厂商发布的数据库都有自己的特...

[杂谈] 从PDF文件中进行表格抽取(tabula || paddle-pp-structure)

介绍   近期遇到了需要从电子文档中进行内容提取的任务,具体来说就是期望从PDF文件中进行表格抽取,本文主要介绍 tabula-java 和 paddlepaddle 的 pp-structure 两种方案。 思路   本文...

[杂谈]基于pdfbox2.0.28版本对Acrobat/WPS的pdf文件编辑

介绍   近期在调研 OCR 相关的技术选型,在实际的应用场景中,发现如果传入 OCR 的图片信息包含水印的话,会对识别结果造成影响,故需要优先对数据进行预处理。 思路   源数据信息是 pd...

# [LLM]使用langchain-ChatGLM构建本地知识库

介绍   langchain-ChatGLM基于本地知识库的问答应用,建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。 背景   从2023年初,断断续续的在工作中试用了ChatGPT,...

[Paddle] ERNIE-UIE 通用信息抽取模型(含自定义细分领域模型训练)

介绍 ERNIE-UIE信息抽取模型可以进行关键信息抽取,可参照官网安装流程进行配置和使用。 但是在实际的细分领域中(细分的应用场景),信息抽取的效果并不好(中文书写习惯截然不同),本文按...

[Paddle] ERNIE-Layout 使用测试 - 文心多语言跨模态布局增强文档智能大模型

介绍   近期遇到需要从电子文档中进行内容提取的需求,突然想到 Paddle 的 ERNIE-Layout 模型,对其进行分析和测试。   采用此方法,避免了很笨的 OCR + 正则匹配 的思路。 应用场景 电子...

Hibernate5 dynamic model

Hibernate dynamic model 动态模型 介绍   Hibernate的动态模型为我们动态改动表结构带来了方便, 个人认为这一点非常有价值, 现在的企业级应用系统越来越强调用户可定制性, hibernate的这一...

[杂谈] 百度飞浆环境配置

安装 Anaconda 访问 https://repo.anaconda.com/archive/?C=M&O=A 下载符合版本的 Anaconda 本文在 Ubuntu18 下,下载的是: Anaconda3-5.3.1-Linux-x86_64.sh 执行 bash Anaconda3-5.3.1-L...

[杂谈]大型JSON数据切分(Java Jackson)

介绍   最近遇到一个需求,期望将一个大型的json文件存储至Elasticsearch中,第一反应是期望将原始数据进行拆分,这样就可以在受限的内存空间中完成数据的导入。 思路   本文使用 JAVA 语...

[杂谈]谷歌浏览器 XSwitch 插件 - 解决本地请求转发

介绍   软件行业从业者在日常工作过程中,经常会遇到请求转发的问题,本文介绍的 XSwitch 是一款应用于 Chrome 浏览器的请求转发插件。   对这款插件进行总结就是 : 将指定的特定 url ...

ElasticSearch 高级检索,按照顺序进行搜索

  在数据检索的应用场景中,经常出现高级检索的功能需求,指定不同的字段与不同的逻辑关系,对数据进行检索。在某些应用场景中,会要求按照检索条件的顺序进行数据查找。   为解决按照检...

ElasticSearch 自定义相似度插件-根据命中数排序

自定义相似度算法(只考虑词频/命中数)   在使用Elasticsearch的时候,针对排序结果,有些时候只关注对应的词出现的次数,相当于只考虑词频,这个时候就可以使用当前的插件。   当前插件继...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部