文档章节

一个从源代码里提取中文字符串的java类

jim19770812
 jim19770812
发布于 2015/06/17 01:30
字数 435
阅读 1234
收藏 11

工作中需要优化代码里的中文警示语和异常信息,实在比较多,所以就写了个程序专门从代码里提取中文字符串。

java做的,比较简单,放上来备忘

package com.extractstr.app;

import java.io.*;
import java.util.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 搜索字符串并输出到控制台
 */
public class ExtractStr {
    public static String getHelpString(String[] args){
        String result = String.format("%s [path]", new Object[]{"a"});
        return result;
    }

    private void getFiles(String rootPath, final String fileExt, List<File> fileList){
        File f =new File(rootPath);
        File[] list=f.listFiles(new FileFilter() {
            @Override
            public boolean accept(File f) {
                boolean ret = f.isDirectory() || (f.isFile() && f.getName().endsWith(fileExt));
                return ret;
            }
        });
        for(File fn : list){
            if (fn.isDirectory()){
                this.getFiles(fn.getAbsolutePath(), fileExt, fileList);
            }else{
                fileList.add(fn);
            }
        }
    }

    public List<File> run(String rootPath, String fileExt){
        List<File> result = new LinkedList<File>();
        this.getFiles(rootPath, fileExt, result);
        return result;
    }

    public List<String> parserSourceFile(List<String> patternList, File file, int miniCharCount) throws Exception {
        List<String> result = new LinkedList<String>();
        BufferedReader r = new BufferedReader(new FileReader(file));
        char[] buffer = new char[(int)file.length()];
        r.read(buffer, 0, (int)file.length());
        String text=new String(buffer, 0, buffer.length);

        for(String patternStr : patternList){
            //Pattern pattern = Pattern.compile("\"(.*?)\"");
            Pattern pattern = Pattern.compile(patternStr);
            Matcher matchers= pattern.matcher(text);
            while(matchers.find()){
                String t=matchers.group();
                if (t.length()>=miniCharCount)
                    result.add(t);
            }
        }
        return result;
    }

    public static void main(String []args){
        if (args.length==0){
            StringBuilder sb = new StringBuilder()
                    .append("未传入需要搜索的有效的源代码路径")
                    .append("\n")
                    .append(ExtractStr.getHelpString(args));
            System.out.println(sb.toString());
            System.exit(1);
        }
        List<String> searchFolders=new ArrayList<String>(100);
        for(int i=0; i<=args.length-1;i++){
            File f=new File(args[i]);
            if (!f.isDirectory() || !f.exists())
                continue;
            searchFolders.add(f.getAbsolutePath());
        }

        List<String> patternList = new LinkedList<String>();
        patternList.add("'([\\u4E00-\\u9FA5]+)'");
        patternList.add("\"([\\u4E00-\\u9FA5]+)\"");

        ExtractStr es = new ExtractStr();
        List<File> fileList = new ArrayList<File>(1000);
        for(String sarchFolder : searchFolders){
            List<File> t=es.run(sarchFolder, ".php");
            fileList.addAll(t);
        }

        Set<String> outList=new HashSet<String>();
        for(File f : fileList){
            try{
                List<String> items=es.parserSourceFile(patternList, f, 12);
                outList.addAll(items);
            }catch(Exception e){
                e.printStackTrace();
            }
        }
        for(String str : outList){
            System.out.println(str);
        }
    }
}

对于拼接字符串的中文输出支持的不算好,而且也对中文的长度有限制(最少12个字符)

© 著作权归作者所有

共有 人打赏支持
jim19770812
粉丝 21
博文 46
码字总数 27704
作品 0
济南
私信 提问
细说 Java 中的字符和字符串( 二 )

原文出处:BuquTianya 我们上次在《细说Java中的字符和字符串(一)》说了Java中char和中文字符之间的关系,说明了char能不能存储一个中文字符,以及如何判断Java的字符串是否包含中文字符。...

BuquTianya
2018/06/30
0
0
图说 Java:理解 Java 机制最受欢迎的 8 幅图

世间总是一图胜过千万言,下面的8幅图来自于 Program Creek 的 Java教程 ,目前这是该网站最受欢迎的文章. 希望本文能帮你回顾你已经知道的那些知识。如果图片讲解的不够清晰,你可能需要阅读详...

大数据之路
2013/10/30
0
3
有一行加密后的字符串,用utf-8编码格式的java类解密后中文乱码,而用GBK编码格式的java类解密后中文正常,为什么啊?

有一行加密后的字符串,用utf-8编码格式的java类解密后中文乱码,而用GBK编码格式的java类解密后中文正常,为什么啊?

oldfeel
2013/09/26
1K
1
细说 Java 中的字符和字符串( 一 )

原文出处:BuquTianya 一道经典问题 Java里的char类型能不能存储一个中文字符? 对于这道题,绝大多数的答案都是“可以存储”。给出的原因包括: 1. java中的char是unicode存储,unicode编码...

BuquTianya
2018/06/30
0
0
Discuz! Ucenter API for JAVA

Discuz! Ucenter API for JAVA 使用自己的项目于discuz联合登陆注册。 https://pan.baidu.com/s/1Wny6jNvvzCNvOPR0Oxe39Q 测试代码和源码都在这里。 源码和jar文件都在http://code.google.co...

小帅帅丶
2014/06/16
0
9

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周四乱弹 —— Im fine

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @LuckyXu:分享戴荃的单曲《小荃拳之歌》: 手机党少年们想听歌,请使劲儿戳(这里) 今天遇到倒霉事了, @ FalconChen :电梯宕机了我靠 但是...

小小编辑
30分钟前
32
4
【转载】uclibc和glibc的差别

转载自:http://blog.163.com/huangnan0727@126/blog/static/30626184201042022011225/ CC的标准库,就是glibc这个库,里面有GCC各种标准函数的实现,还有各种unix系的函数在里面。 当初创建...

shzwork
39分钟前
2
0
关于360插件化Replugin Activity动态修改父类的字节码操作

近期在接入360插件化方案Replugin时,发现出现崩溃情况。 大概崩溃内容如下: aused by: java.lang.ClassNotFoundException: Didn't find class "x.x.x.xActivity" on path: 我自己在插件代码......

Gemini-Lin
今天
1
0
mybatis缓存的装饰器模式

一般在开发生产中,对于新需求的实现,我们一般会有两种方式来处理,一种是直接修改已有组件的代码,另一种是使用继承方式。第一种显然会破坏已有组件的稳定性。第二种,会导致大量子类的出现...

算法之名
昨天
22
0
单元测试

右键方法 Go To --> Test,简便快速生成测试方法。 相关注解 @RunWith(SpringRunner.class) 表示要在测试环境中跑,底层实现是 jUnit测试工具。 @SpringBootTest 表示启动整个 Spring工程 @A...

imbiao
昨天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部