返回顶部

数据分析

91浏览

13内容

在代码的第17行,我们声明了一个字符串变量csv_file,将它赋值为需要输出的文件名“../../tmp/autobots_output.csv”。

csv_file=’../../tmp/autobots_output.csv',这其中的..是什么意思,输出的文件名是autobots_output吗?

我们下面尝试将汽车人公司的通讯录保存为CSV文件,然后再尝试将保存好的CSV文件内容重新读取出来。

老师,这个'../../tmp/autobots_output.csv'本身是不是一个空文件?

  1. bool1=df['Med Age']>39
  2. bool2=df['Population']>50000000
  3. df[bool1 & bool2]

bool1=df['Med Age']>39 bool2=df['Population']>50000000 df[bool1 & bool2] 这里如果把& 改成and 会报错,这个是为什么呢

下面我们来练习一下。请将下面的代码抄写到Notebook中相应的单元格中,然后依次运行,观察每个单元格的运行结果。

  1. # DataFrame遍历
  2. #行遍历
  3. for index,data in df.iterrows():
  4. print(index,data[0],data[1],data[2],data[3])
  5. #行遍历tuples
  6. for row in df.itertuples():
  7. print(row)
  8. #---列遍历
  9. for col,data in df.iteritems():
  10. print(col,':',data[1001],data[1002],data[1003],data[1004],data[1005])

为什么列遍历不能向行遍历那样使用编号去索引。 如果把列遍历索引data[1001]改为data[0]会报错

跟NumPy类似,DataFrame中也有索引数组,将DataFrame中的某一列,与一个标量值进行对比计算,就可以得到一个由True、False组成的一维向量(Series)。在以下代码块中,添加代码df['部门'] == '研发部',观察代码执行的结果:

老师,这里我尝试用大于小于等比较运算符也能够得出结果,但是我不大清楚这里的判断依据是什么?

可以用数字表示的数据类型,比如我们经常使用的长度、高度、分数等等。这类数据的表现形式就是类似10.12.795这样的数字形态。

这几种类型有没有图形来展现一下呢

首先,根据要生成的文件2015_2017_top5.xlsx创建了写数据的ExcelWriter类型的对象writer

如果是在同一个sheet里面追加数据该怎么写代码?

数据分析过程五个步骤

下面看看老师的答案,老师能想到5种写法,分别是:

  1. s_position['大黄蜂']
  2. s_position['大黄蜂':'大黄蜂']
  3. s_position[-5]
  4. s_position[1]
  5. s_position[1:2]

第2种和第5种没理解

- 没有更多了 -
1