这 5 款 Python 数据科学工具至少提效提升20%!

原创
2020/11/16 18:10
阅读数 13

目前数据科学领域正在突飞猛进地发展,易于使用和开箱即用的 Python 数据科学库在不断地脱颖而出。

在这篇文章中,我将介绍五个这样的库,他们加快传数据科学地的进程,从而降低进入初学者的门槛,具体如下:

  • Dabl
  • Emot
  • Flashtext
  • SweetViz
  • Numerizer

1、Dabl(数据分析基线库)

Dabl 是由 Andreas Mueller 创建的,它的理念是使初学者更容易学习机器学习,并降低常见任务的门槛。

安装
pip install dabl
使用

作为典型的机器学习管道的一部分,Dabl 可用于数据集的自动预处理、快速 EDA 以及初始模型构建。让我们用泰坦尼克号数据集来演示此库的一些用例。

我们将从导入库和数据集开始。

#import the basiclibraries
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
#importing dabl
import dabl
#import the dataset
titanic_df = pd.read_csv('../input/titanic/train.csv')
titanic.info()
结果
2. 使用 dabl 进行探索性数据分析

dabl 提供了一个高级接口,它只需要一行代码就可以制作出精美的可视化图形,有助于进行数据探索。

dabl.plot(titanic_df, target_col="Survived")

2、Emot

Emot 是 Python 的表情符号和表情检测包。当我们需要进行预处理文本数据,以消除表情符号和表情符号,它是真正的方便。

安装
pip install Emot
使用

让我们看看几个字符串包含表情符号和表情符号。我们将使用 Emot 将这些表情符号转换为文本。

import emot
text = "The weather is ☁️, we might need to carry our ☂️ :
# Detecting emojis
("
emot.emoji(text)
结果

3、Flastext

Flastext 是一个 Python 包,允许从句子中提取关键字或替换句子中的关键字。它基于FlashText 算法,比 NLP 任务的正则表达式快得多。

安装
pip install Flastext
使用

数据集来自以前的 Kaggle 竞赛:Real or Not? NLP with Disaster Tweets,其目标是创建一个机器学习模型,以预测推文是否属于灾难类别。

让我们导入库和数据集,并快速查看数据。

from flashtext import KeywordProcessor
twitter_df =  pd.read_csv('data/tweets.csv')
twitter_df.head()

让我们创建训练集中所有推文的语料库

corpus = ', '.join(twitter_df.text)
corpus[:1000]

Flastext 可以非常方便的使用如下两个功能:

  • 提取关键词/搜索语料库中的单词
  • 替换文本文档中的单词

让我们计算一下 flood 这个词出现在语料库中多少次?

#提取关键词/搜索语料库中的单词
processor = KeywordProcessor()
processor.add_keyword(‘flood’)
found = processor.extract_keywords(corpus)
print(len(found))

我们还可以很容易地替换文档中的单词。让我们使用库替换单词的所有匹配项。

#替换文本文档中的单词
processor = KeywordProcessor(case_sensitive = False)
processor.add_keyword('forest fire','fire')
found = processor.replace_keywords(corpus)
print(found[:100])

4、Sweetviz

Sweetviz 是一个开源 Python 库,它生成美观的高密度可视化效果,通过单个代码行启动 EDA(探索性数据分析)。输出是一个完全自包含的 HTML 应用程序。

库可以对以下任务执行快速分析:

  • 目标分析
  • 可视化和比较
  • 混合类型关联
  • 类型推理:通过可选的手动覆盖自动检测数字、分类和文本功能等等

让我们通过泰坦尼克号数据集来演示

安装
pip install sweetviz
使用

Sweetviz 具有一个名为 Analyze() 的函数,该函数分析整个数据集并提供包含可视化效果的详细报告。


5、Numerizer

Numerizer 是用于将自然语言数字转换为 int 和浮点的 Python 模块。它在预处理文本数据时非常有用。

安装
pip install numerizer
使用

我们将使用 Numerizer 将文本数字转换为数字

演示

结论

这些是我最近遇到的数据科学的一些有趣和有用的 python 库。这些库正在取代现有的库,最终目标是增强和优化数据科学的过程,降低初学者的门槛。


本文分享自微信公众号 - Python学习与数据挖掘(Python_CaiNiao)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部