文档章节

机学走起第一式:各就各位

厉力文武
 厉力文武
发布于 2017/08/03 14:13
字数 536
阅读 34
收藏 1
点赞 0
评论 0

    机器学习从数据样本入手,大而全是一方面,样本的质量和规范尤其重要,互联网语言太辜负语文老师的良苦用心了,造字造词错字别字缩略语,输入法说了这锅我不背。好的开始是成功的一半,语料库采用搜狐全网新闻数据,理由是基本覆盖各行各业、新闻稿语法标准而规范、充分具备自然语言的代表性。

    第一步下载,http://www.sogou.com/labs/resource/chkreg.php下载,news_tensite_xml.full.tar.gz压缩包711MB,解压缩后1.75GB;

    第二步转码,执行iconv news_tensite_xml.GB18030 -f GB18030 -t UTF-8 -o news_tensite_xml.UTF-8转码备用;

    第三步提取,<doc><url>页面URL</url><docno>页面ID</docno><contenttitle>页面标题</contenttitle><content>页面内容</content></doc>,从XML块中grep出content行掐头去尾留中段,最终有效样本共计1143529条;

<doc>
  <url>页面URL</url>
  <docno>页面ID</docno>
  <contenttitle>页面标题</contenttitle>
  <content>页面内容</content>
</doc>

    第四步分词,调用分词器对有效样本数据处理后生成词向量可识别输入源文件;

package com.xxx.wdvec;

import java.io.FileReader;
import java.io.FileWriter;
import java.io.BufferedReader;
import java.io.BufferedWriter;

import org.ansj.domain.Term;
import org.ansj.splitWord.analysis.ToAnalysis;
import org.ansj.recognition.impl.FilterRecognition;

public class XxDocs {
	private static final String XX_FSRC = "./dat/sougou.src";
	private static final String XX_FDST = "./dat/sougou.dst";
	private static final String XX_FLTS = "w,wkz,wky,wyz,wyy,wj,ww,wt,wd,wf,wn,wm,ws,wp,wb,wh,null";
	
	public static void main(String[] args) {
		try {
			FilterRecognition flt = new FilterRecognition();
			BufferedReader br = new BufferedReader(new FileReader(XX_FSRC));
			BufferedWriter bw = new BufferedWriter(new FileWriter(XX_FDST));
			
			for (String v : XX_FLTS.split(",")) flt.insertStopNatures(v);
			
			String buf = "";
			while (null != (buf = br.readLine())) {
				String tmp = "";
				for (Term t : ToAnalysis.parse(new String(buf)).recognition(flt)) {
					tmp += t.getName() + " ";
				}
				bw.write(tmp + "\n");
			}
			
			br.close();
			bw.close();
		} catch (Exception e) {
			e.printStackTrace();
		}
	}
}

    第五部学习,启动机器学习沏壶艳茶耐心等待明天见分晓~~~

./word2vec -train sougou.dst -output sougou.vec -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -thread 24 -binary 1
Starting training using file sougou.dst
Vocab size: 332649
Words in train file: 324479936
Alpha: 0.024978  Progress: 0.09%  Words/thread/sec: 16.58k


./word2vec -train sougou.dst -output sougou.cls -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -thread 24 -classes 500
Starting training using file sougou.dst
Vocab size: 332649
Words in train file: 324479936
Alpha: 0.038657  Progress: 1.68%  Words/thread/sec: 17.09k

    预告:《机学走起第二式:预备》之IDF算法与实现, 请勿期待!

© 著作权归作者所有

共有 人打赏支持
厉力文武
粉丝 27
博文 80
码字总数 73556
作品 0
朝阳
程序员
tale/MoveCryptica

#MoveCryptica 最近玩了一个android游戏叫复古拼图,英文名是Cryptica。有点像华容道,要用最短的移动次数,将砖块各就各位,还是非常有挑战的。 于是乎,在初学php的前提下,本人试着去写出...

tale
2015/02/15
0
0
php+mysql几个小问题,希望大家帮忙

我现在在做网页,有几个问题希望大家帮忙解决一下: 1、我有好几个页面需要提取数据库中的内容,此时创建数据库链接是每个页面创建、关上,还是只创建、关闭一次? 2、如何用php动态修改表单...

xuli2013
2013/08/16
86
1
1年多没接触IOS开发,发现变化好大,要怎么重新开始学习

以前是做Web开发的,前端和后端都做。 13年在之前的公司边学边做IOS项目,当时最新是IOS6.0,项目是用XIB开发的, 用了大概2个月的时间做了一个商城的APP,可以下订单,但没有支付功能。真机...

_Lex
2015/03/02
351
2
3dmax2013-2019【3dsmax破解版】破解中文版(付破解教程)

界面语言:中文版/英文版 软件大小:5.32GB 运行环境:Win2003,WinXP,Win2000,Win9X,Win7 运行支持:64位 下载链接: 3DMAX全系列 (百度网盘)密码: 5y7k 3dmax2019【3dsmax2019破解版】破解...

炎黄V之怒
04/16
0
0
嵌入式系统定制开发的分层与专业的分类

嵌入式系统这个名词还是比较难以准确定义的,一般把“用于控制、监视或者辅助操作机器和设备的装置”称为嵌入式系统,系统包括一系列软硬件设施等,比如:手机的系统开发(Android、IOS等),...

gunser
05/31
0
0
大三了,我得加把劲儿了

去年这时候大二吧,快暑假的时候才想起来学点东西,说要组队参加个什么比赛,电子信息专业,软硬件都有,可是我什么也不会,专业课勉强学了个单片机学的也不怎么样,一直不清楚自己喜欢什么东...

贰比小青年
2017/05/13
0
0
新人求助,本人小菜一个,想学嵌入式,请各位前辈给点建议!拜谢

本人现在大三,想学嵌入式,不知道需要哪些知道,请各位前辈指点; 本人现在会熟悉c语言,以及c++面向对象和继承一部分知识,还学习了gcc,g++,gdb,makefile。其他就不会了,我还有学习什么...

一两茶叶
2011/08/22
256
1
Kotlin 快速创建您的第一个应用(二)

Kotlin 快速创建您的第一个应用(二) 上一次对Kotlin进行的大致的介绍kotlin 新的征程(一) 那么今天呢,我们要干什么? 今天,我们就要开始学习Kotlin 的一些语法了,不管你是编程大神,还是刚入...

Diosamolee
2017/12/27
0
0
android框架开发是什么?

我刚刚学习了嵌入式,现在想学下Android开发,比较靠近底层的东西,请各位高手指点下,谢谢。。。。

没名
2011/02/19
2.3K
9
开源中国祝各位朋友马年吉祥、马到成功

今天是除夕,2014马年即将到来,值此辞旧迎新之际,给所有 OSCers 们拜年了,祝大家在新的一年里龙马精神、马到成功、马上发财、千军万马、青梅竹马、金戈铁马、指鹿为马、天马行空、厉兵秣马...

oschina
2014/01/30
1K
101

没有更多内容

加载失败,请刷新页面

加载更多

下一页

SpringBoot | 第十章:Swagger2的集成和使用

前言 前一章节介绍了mybatisPlus的集成和简单使用,本章节开始接着上一章节的用户表,进行Swagger2的集成。现在都奉行前后端分离开发和微服务大行其道,分微服务及前后端分离后,前后端开发的...

oKong
今天
2
0
Python 最小二乘法 拟合 二次曲线

Python 二次拟合 随机生成数据,并且加上噪声干扰 构造需要拟合的函数形式,使用最小二乘法进行拟合 输出拟合后的参数 将拟合后的函数与原始数据绘图后进行对比 import numpy as npimport...

阿豪boy
今天
1
0
云拿 无人便利店

附近(上海市-航南路)开了家无人便利店.特意进去体验了一下.下面把自己看到的跟大家分享下. 经得现场工作人员同意后拍了几张照片.从外面看是这样.店门口的指导里强调:不要一次扫码多个人进入....

周翔
昨天
1
0
Java设计模式学习之工厂模式

在Java(或者叫做面向对象语言)的世界中,工厂模式被广泛应用于项目中,也许你并没有听说过,不过也许你已经在使用了。 简单来说,工厂模式的出现源于增加程序序的可扩展性,降低耦合度。之...

路小磊
昨天
158
1
npm profile 新功能介绍

转载地址 npm profile 新功能介绍 npm新版本新推来一个功能,npm profile,这个可以更改自己简介信息的命令,以后可以不用去登录网站来修改自己的简介了 具体的这个功能的支持大概是在6这个版...

durban
昨天
1
0
Serial2Ethernet Bi-redirection

Serial Tool Serial Tool is a utility for developing serial communications, custom protocols or device testing. You can set up bytes to send accordingly to your protocol and save......

zungyiu
昨天
1
0
python里求解物理学上的双弹簧质能系统

物理的模型如下: 在这个系统里有两个物体,它们的质量分别是m1和m2,被两个弹簧连接在一起,伸缩系统为k1和k2,左端固定。假定没有外力时,两个弹簧的长度为L1和L2。 由于两物体有重力,那么...

wangxuwei
昨天
0
0
apolloxlua 介绍

##项目介绍 apolloxlua 目前支持javascript到lua的翻译。可以在openresty和luajit里使用。这个工具分为两种模式, 一种是web模式,可以通过网页使用。另外一种是tool模式, 通常作为大规模翻...

钟元OSS
昨天
2
0
Mybatis入门

简介: 定义:Mybatis是一个支持普通SQL查询、存储过程和高级映射的持久层框架。 途径:MyBatis通过XML文件或者注解的形式配置映射,实现数据库查询。 特性:动态SQL语句。 文件结构:Mybat...

霍淇滨
昨天
2
0
开发技术瓶颈期,如何突破

前言 读书、学习的那些事情,以前我也陆续叨叨了不少,但总觉得 “学习方法” 就是一个永远在路上的话题。个人的能力、经验积累与习惯方法不尽相同,而且一篇文章甚至一本书都很难将学习方法...

_小迷糊
昨天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部