pandas-ai 是一个 Python 库,它将生成式 AI 集成到 Pandas 中****,使数据分析成为对话式的。它被设计为与 pandas 结合使用,而不是它的替代品。
它是一个以自然语言方式探索和理解数据的强大工具。
Pandas AI 的好处
-
即使你不熟悉生成式人工智能或 Pandas,它也很容易使用。
-
它可用于执行各种任务,包括数据探索、分析、可视化、清理、插补和特征工程。
-
它可以帮助你更深入地了解数据并做出更好的决策。
初体验
库的安装
可以直接使用 pip 来进行安装。
pip install pandasai
现在我们已经成功安装了 pandas AI,我们可以开始使用它进行探索性数据分析。
创建数据
下面我们将创建一个 DataFrame。
from pandasai import SmartDataframe
import pandas as pd
import numpy as np
df = pd.DataFrame({
"country": [
"United States",
"United Kingdom",
"France",
"Germany",
"Italy",
"Spain",
"Canada",
"Australia",
"Japan",
"China",
],
"gdp": [
19294482071552,
2891615567872,
2411255037952,
3435817336832,
1745433788416,
1181205135360,
1607402389504,
1490967855104,
4380756541440,
14631844184064,
],
"happiness_index": [6.94, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12],
})
导入LLM
由于 PandasAI 由 LLM 提供支持,因此我们需要初始化一个 LLM。
这里我们以 OpenAI 为例。
# Instantiate a LLM
from pandasai.llm import OpenAI
llm = OpenAI(api_token="XXX")
现在我们已经实例化了 LLM,接下来我们来实例化 SmartDataframe。
sdf = SmartDataframe(df, config={"llm": llm})
现在我们可以开始对数据集进行探索性数据分析。
GDP 排名前 5 位的国家
sdf.chat("返回GDP排名前5的国家")
两个最不幸福国家的 GDP 总和
sdf.chat("最不幸福的两个国家的 GDP 总和是多少?")
****绘制按国家/地区划分的 GDP 图表
sdf.chat("绘制按国家/地区划分的 GDP 图表")
按国家绘制 GDP 直方图,每个条形使用不同的颜色
sdf.chat("按国家绘制 GDP 直方图,每个条形使用不同的颜色")
Pandas AI 是一种以对话方式探索和理解数据的强大工具。
来源—–小寒聊python