Sweetviz
https://github.com/fbdesignpro/sweetviz
Sweetviz 是一个开源的 Python 库,旨在让你的探索性数据分析 (EDA) 工作变得轻而易举!使用 Sweetviz,你可以立即显示交互式、详细且非常酷的报告。
Sweetviz 非常适合任何处理数据的人。它简化了繁重的工作,让你专注于理解和完善你的机器学习模型。
Sweetviz 简介
核心功能
-
特征分析:Sweetviz 擅长提供对数据集中每个特征的详细见解,涵盖类型、唯一值、缺失值、平均值、中位数、众数等。
-
可视化:它生成美观且信息丰富的可视化效果,使用户能够有效、直观地了解数据分布和相关性。
主要特性和组件
-
自动化 EDA:Sweetviz 自动化 EDA 流程,分析数据集并生成详细报告,只需用户最少的输入。
-
比较分析:它提供了有效比较两个数据集或数据集的两个子集的能力,突出了差异和相似之处。
-
目标分析:用户可以指定一个目标特征来深入了解其他特征与目标的关系,为预测建模提供有价值的信息。
如何使用 Sweetviz
-
轻松设置:设置和使用 Sweetviz 非常简单,只需几行代码即可生成详细的 EDA 报告。
-
可定制性:Sweetviz 具有大量定制选项,允许用户更改分析以突出数据集的特定功能和元素。
从本质上讲,Sweetviz 是数据分析领域的革命性工具,它改变了我们处理、解释和理解数据的方式,使其成为分析师在分析工作中追求深度、清晰度和效率的宝贵资产。
初体验
库的安装
首先,你需要安装 Sweetviz 库。你可以使用 pip 来完成此操作。
pip install sweetviz
加载数据集
在使用 Sweetviz 之前,你需要有一个数据集进行分析。
在本例中,我使用的是 vgsales.csv 数据集,它是 Kaggle 的视频游戏销售情况。
https://www.kaggle.com/datasets/arslanali4343/sales-of-video-games/data,
请注意,该文件尚未经过数据清理过程。
生成报告
现在,让 Sweetviz 发挥它的魔力吧!使用 analyze() 函数生成数据集的报告。该函数将返回一个DataframeReport 对象。
report = sv.analyze(data)
最后,你需要查看生成的报告。你可以直接在 notebook 中可视化它,也可以创建一个 HTML 文件。
report.show_notebook()
要创建 HTML 文件,请使用:
report.show_html('sweetviz_report.html')
单击摘要部分中的 “关联” 按钮会在屏幕右侧显示热图。
该热图的每个图块中都填充有正方形或圆形。
圆圈表示 Pearson 相关性,范围在 [-1, 1] 之间,表示数值特征之间的线性关系。
相反,正方形说明分类关联,按行扩展以显示特征(由左侧的行名称表示)与数据集中的每个其他特征的关联级别,范围从 [0, 1]。
当热图中显示数字特征之间的关系时,你会在热图中看到一个圆圈;当显示分类特征或数字和分类特征的混合之间的关系时,你会在热图中看到一个正方形。
来源——小寒