#数据科学#定期整理

原创
2017/05/04 01:17
阅读数 121

illustration

最近沉迷P5无法自拔,不过也遇上一些工作上的挑战

第一是用xshell连接虚拟机时执行python程序,如果写那种用raw_input的程序,只要输错了,按其他键都没法修改输错的内容,此时要用ctrl+backspace删除输错的字符。之前一直不知道这点结果每次都得重新跑程序。

第二是scikit learn的FeatureHasher,主要是拿来把字符串转换为numpy数组,这个函数主要有三种输入:dict、pair(tuple)和string(list),这里重点记录下string样式:

>>> hasher = sklearn.feature_extraction.FeatureHasher(n_features=10,
...                                                   non_negative=True,
...                                                   input_type='string')
>>> X_new = hasher.fit_transform([['a', 'b'], ['a', 'c']])
>>> X_new.toarray()
array([[ 1.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 1.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.]])

不过就算只输入一个字符串也可以用:
illustration

scikit learn还有其他的诸如词向量化的函数,不过我似乎暂时用不上。不过我想后面的项目会用到这个。而且我也得早点着手做SOA sklearn的项目。

暂时遇到的问题就是这样。大创项目必定是靠python3,找个时间补下python2迁移到python3的知识比较好

----------------------------------------------5月5日更新---------------------------------------------------

FeatureHasher的执行结果是不变的....对于特定字符必然只出一种结果

参考:
关于featureHasher的示例

FeatureHasher

关于错误字符

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部