详解Pandas与Lambda结合进行高效数据分析-参考财经网

您的位置：首页 >产经 >

详解Pandas与Lambda结合进行高效数据分析

来源：TechWeb 发布时间：2021-12-26 20:48 阅读量：4532

这篇文章小编来讲讲lambda方法以及它在pandas模块当中的运用，熟练掌握可以极大地提高数据分析与挖掘的效率

导入模块与读取数据

我们第一步需要导入模块以及数据集

importpandasaspddf=pd.read_csvdf.head 创建新的列

一般我们是通过在现有两列的基础上进行一些简单的数学运算来创建新的一列，例如

df=+df/10)/2

但是如果要新创建的列是经过相当复杂的计算得来的，那么lambda方法就很多必要被运用到了，我们先来定义一个函数方法

defcustom_rating:if'Thriller'ingenre:returnmin(10，rating+1)elif'Comedy'ingenre:returnmax(0，rating—1)elif'Drama'ingenre:returnmax(5，rating—1)else:returnrating

我们对于不同类别的电影采用了不同方式的评分方法，例如对于惊悚片，评分的方法则是在原来的评分+1和10分当中取一个最小的，而对于喜剧类别的电影，则是在0分和原来的评分—1当中取一个最大的，然后我们通过apply方法和lambda方法将这个自定义的函数应用在这个DataFrame数据集当中

df=df.apply(lambdax:custom_rating(x('Genre')，x('Rating'))，axis=1)

我们这里需要说明一下axis参数的作用，其中axis=1代表跨列而axis=0代表跨行，如下图所示

筛选数据

在pandas当中筛选数据相对来说比较容易，可以用到amp，

#单个条件，评分大于5分的dfdf_gt_5=dfgt，5)#多个条件:AND—同时满足评分高于5分并且投票大于100000的And_df=df(gt，5)amp，(df('Votes')gt，100000))#多个条件:OR—满足评分高于5分或者投票大于100000的Or_df=df(gt，5)

这些都是非常简单并且是常见的例子，但是要是我们想要筛选出电影的影名长度大于5的部分，要是也采用上面的方式就会报错

df.split(""))gt，=5)

output

AttributeError:'Series'objecthasnoattribute'split'

这里我们还是采用apply和lambda相结合，来实现上面的功能

#创建一个新的列来存储每一影片名的长度df=df.apply(lambdax:len(x('Title').split(""))，axis=1)#筛选出影片名长度大于5的部分new_df=df(dfgt，=5)

当然要是大家觉得上面的方法有点繁琐的话，也可以一步到位

new_df=df.split(""))gt，=5，axis=1))

例如我们想要筛选出那些影片的票房低于当年平均水平的数据，可以这么来做。

我们先要对每年票房的的平均值做一个归总，代码如下

year_revenue_dict=df.groupby).agg('Revenue(Millions)':np.mean).to_dict('Revenue(Millions)')

然后我们定义一个函数来判断是否存在该影片的票房低于当年平均水平的情况，返回的是布尔值

defbool_provider:returnrevenuelt，year_revenue_dict(year)

然后我们通过结合apply方法和lambda方法应用到数据集当中去

new_df=df')，x('Year'))，axis=1))

我们筛选数据的时候，主要是用.loc方法，它同时也可以和lambda方法联用，例如我们想要筛选出评分在5—8分之间的电影以及它们的票房，代码如下

df.locgt，5)amp，(x("Rating")lt，8))(("Title"，"Revenue(Millions)")) 转变指定列的数据类型

通常我们转变指定列的数据类型，都是调用astype方法来实现的，例如我们将Price这一列的数据类型转变成整型的数据，代码如下

df.astype('int')

会出现如下所示的报错信息

ValueError:invalidliteralforintwithbase10:'12，000'

因此当出现类似12，000的数据的时候，调用astype方法实现数据类型转换就会报错，因此我们还需要将到apply和lambda结合进行数据的清洗，代码如下

df=df.apply(lambdax:int(x.replace('，'，''))，axis=1) 方法调用过程的可视化

有时候我们在处理数据集比较大的时候，调用函数方法需要比较长的时间，这个时候就需要有一个要是有一个进度条，时时刻刻向我们展示数据处理的进度，就会直观很多了。本次认证的Pandar128集成了激光通道收发，上下双主控，高速信号分析，无线供电，无线通信，主动发光检测，主动接收检测等128个模块。建立完善的安全机制，实现符合标准要求的安全覆盖，需要克服许多技术和工程挑战。。

这里用到的是tqdm模块，我们将其导入进来

fromtqdmimporttqdm，tqdm_notebooktqdm_notebook.pandas

然后将apply方法替换成progress_apply即可，代码如下

df=df.progress_apply(lambdax:custom_rating(x('Genre')，x('Rating'))，axis=1)

output

当lambda方法遇到if—else

当然我们也可以将if—else运用在lambda自定义函数当中，代码如下

Bigger=lambdax，y:xifelseyBigger(2，10)

output

当然很多时候我们可能有多组if—else，这样写起来就有点麻烦了，代码如下

df.apply(lambdax:"低分电影"ifxlt，3else("中等电影"ifxgt，=3andxlt，5else("高分电影"ifxgt，=8else"值得观看")))

看上去稍微有点凌乱了，这个时候，小编这里到还是推荐大家自定义函数，然后通过apply和lambda方法搭配使用