文档章节

机学走起第一式:各就各位

厉力文武
 厉力文武
发布于 2017/08/03 14:13
字数 536
阅读 35
收藏 1

    机器学习从数据样本入手,大而全是一方面,样本的质量和规范尤其重要,互联网语言太辜负语文老师的良苦用心了,造字造词错字别字缩略语,输入法说了这锅我不背。好的开始是成功的一半,语料库采用搜狐全网新闻数据,理由是基本覆盖各行各业、新闻稿语法标准而规范、充分具备自然语言的代表性。

    第一步下载,http://www.sogou.com/labs/resource/chkreg.php下载,news_tensite_xml.full.tar.gz压缩包711MB,解压缩后1.75GB;

    第二步转码,执行iconv news_tensite_xml.GB18030 -f GB18030 -t UTF-8 -o news_tensite_xml.UTF-8转码备用;

    第三步提取,<doc><url>页面URL</url><docno>页面ID</docno><contenttitle>页面标题</contenttitle><content>页面内容</content></doc>,从XML块中grep出content行掐头去尾留中段,最终有效样本共计1143529条;

<doc>
  <url>页面URL</url>
  <docno>页面ID</docno>
  <contenttitle>页面标题</contenttitle>
  <content>页面内容</content>
</doc>

    第四步分词,调用分词器对有效样本数据处理后生成词向量可识别输入源文件;

package com.xxx.wdvec;

import java.io.FileReader;
import java.io.FileWriter;
import java.io.BufferedReader;
import java.io.BufferedWriter;

import org.ansj.domain.Term;
import org.ansj.splitWord.analysis.ToAnalysis;
import org.ansj.recognition.impl.FilterRecognition;

public class XxDocs {
	private static final String XX_FSRC = "./dat/sougou.src";
	private static final String XX_FDST = "./dat/sougou.dst";
	private static final String XX_FLTS = "w,wkz,wky,wyz,wyy,wj,ww,wt,wd,wf,wn,wm,ws,wp,wb,wh,null";
	
	public static void main(String[] args) {
		try {
			FilterRecognition flt = new FilterRecognition();
			BufferedReader br = new BufferedReader(new FileReader(XX_FSRC));
			BufferedWriter bw = new BufferedWriter(new FileWriter(XX_FDST));
			
			for (String v : XX_FLTS.split(",")) flt.insertStopNatures(v);
			
			String buf = "";
			while (null != (buf = br.readLine())) {
				String tmp = "";
				for (Term t : ToAnalysis.parse(new String(buf)).recognition(flt)) {
					tmp += t.getName() + " ";
				}
				bw.write(tmp + "\n");
			}
			
			br.close();
			bw.close();
		} catch (Exception e) {
			e.printStackTrace();
		}
	}
}

    第五部学习,启动机器学习沏壶艳茶耐心等待明天见分晓~~~

./word2vec -train sougou.dst -output sougou.vec -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -thread 24 -binary 1
Starting training using file sougou.dst
Vocab size: 332649
Words in train file: 324479936
Alpha: 0.024978  Progress: 0.09%  Words/thread/sec: 16.58k


./word2vec -train sougou.dst -output sougou.cls -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -thread 24 -classes 500
Starting training using file sougou.dst
Vocab size: 332649
Words in train file: 324479936
Alpha: 0.038657  Progress: 1.68%  Words/thread/sec: 17.09k

    预告:《机学走起第二式:预备》之IDF算法与实现, 请勿期待!

© 著作权归作者所有

共有 人打赏支持
厉力文武
粉丝 30
博文 86
码字总数 81619
作品 0
朝阳
程序员
tale/MoveCryptica

#MoveCryptica 最近玩了一个android游戏叫复古拼图,英文名是Cryptica。有点像华容道,要用最短的移动次数,将砖块各就各位,还是非常有挑战的。 于是乎,在初学php的前提下,本人试着去写出...

tale
2015/02/15
0
0
php+mysql几个小问题,希望大家帮忙

我现在在做网页,有几个问题希望大家帮忙解决一下: 1、我有好几个页面需要提取数据库中的内容,此时创建数据库链接是每个页面创建、关上,还是只创建、关闭一次? 2、如何用php动态修改表单...

xuli2013
2013/08/16
86
1
1年多没接触IOS开发,发现变化好大,要怎么重新开始学习

以前是做Web开发的,前端和后端都做。 13年在之前的公司边学边做IOS项目,当时最新是IOS6.0,项目是用XIB开发的, 用了大概2个月的时间做了一个商城的APP,可以下订单,但没有支付功能。真机...

_Lex
2015/03/02
351
2
数学推导+纯Python实现机器学习算法:逻辑回归

自本系列第一讲推出以来,得到了不少同学的反响和赞成,也有同学留言说最好能把数学推导部分写的详细点,笔者只能说尽力,因为打公式实在是太浪费时间了。。本节要和大家一起学习的是逻辑(l...

酒逢知己千杯少
10/13
0
0
嵌入式系统定制开发的分层与专业的分类

嵌入式系统这个名词还是比较难以准确定义的,一般把“用于控制、监视或者辅助操作机器和设备的装置”称为嵌入式系统,系统包括一系列软硬件设施等,比如:手机的系统开发(Android、IOS等),...

gunser
05/31
0
0

没有更多内容

加载失败,请刷新页面

加载更多

创建第一个react项目

sudo npm i -g create-react-app@1.5.2 create-react-app react-app cd react-apprm -rf package-lock.jsonrm -rf node_modules #主要是为了避免报错npm installnpm start......

lilugirl
今天
1
0
在浏览器中进行深度学习:TensorFlow.js (八)生成对抗网络 (GAN)

Generative Adversarial Network 是深度学习中非常有趣的一种方法。GAN最早源自Ian Goodfellow的这篇论文。LeCun对GAN给出了极高的评价: “There are many interesting recent development...

naughty
今天
0
0
搬瓦工镜像站bwh1.net被DNS污染,国内打不开搬瓦工官网

今天下午(2018年10月17日),继搬瓦工主域名bandwagonhost.com被污染后,这个国内的镜像地址bwh1.net也被墙了。那么目前应该怎么访问搬瓦工官网呢? 消息来源:搬瓦工优惠网->搬瓦工镜像站b...

flyzy2005
今天
3
0
SpringBoot自动配置

本篇介绍下,如何通过springboot的自动配置,将公司项目内的依赖jar,不需要扫描路径,依赖jar的情况下,就能将jar内配置了@configuration注解的类,创建到IOC里面 介绍下开发环境 JDK版本1.8 spr...

贺小五
今天
5
0
命令行新建Maven多项目

参考地址 # DgroupId 可以理解为包名# DartifactId 可以理解为项目名mvn archetype:generate -DgroupId=cn.modfun -DartifactId=scaffold -DarchetypeArtifactId=maven-archetype-quickst......

阿白
今天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部