中国大学mooc大数据基础与应用最新考试答案-凯发k8天生赢家 新闻传播问答 6219
【第1周】初识大数据 【第一周】单元测试 1、大数据的特性不包括 a、应用领域广 b、容量大 c、速度快 d、价值密度低 2、如下关于大数据分析流程的哪一项是正确的? a、数据采集、数据清洗、数据管理、数据分析、数据呈现 b、数据采集、数据分析、数据清洗、数据管理、数据呈现 c、数据采集、数据呈现、数据分析、数据清洗、数据管理 d、数据清洗、数据采集、数据呈现、数据分析、数据管理 3、大数据分析与传统的数据分析的区别主要在于: a、传统数据分析主要是描述性分析和诊断性分析,而大数据分析主要是预测性分析。 b、大数据分析的对象是大规模类型多样的海量数据,使用的模型较为复杂;而传统数据分析则作用在有限的小规模数据集上,模型较为简单。 c、大数据分析主要是为了发现新的规律和知识,而传统数据分析主要是为了了解正在发生的事件及其原因。 d、大数据分析需要借助各种分析工具完成,而传统数据分析不需要使用其他工具。 4、1、大数据目前并无统一的定义,主要是由于数据规模巨大、来源分散、格式多样,所以需要新的体系架构、技术、算法和分析方法来对这些数据进行采集、存储和关联分析,以期望能够从中抽取出隐藏的有价值的信息。 5、数据科学家主要负责开发、构建、测试和维护系统,比如数据库和大规模处理系统 6、大数据分析的目的是从类型多样的海量数据中挖掘出隐藏的有价值的信息。 7、大数据分析能够应用在哪些领域?【第4周】python 大数据基础 【第四周】单元测试 1、python代码:r = 5 "5"的执行结果是 a、报错 b、55 c、10 d、5 2、1. m = [1, 2, [3]] 2. n = m[:] 3. n[1] = 4 4. n[2][0] = 5 5. print(m) 代码的执行结果是? a、[1,2,[5]] b、[1,2,[3]] c、[1,4,[3]] d、[1,4,[5]] 3、1. n1 = { 'a':1, 'b':2 } 2. n2 = n1 3. n1['a'] = 5 4. s = n1['a'] n2['a'] 5. print(s) 代码的结果是? a、10 b、5 c、6 d、7 4、用python处理本机文件时,可以使用glob完成文件查找功能。下列有关glob的说法中,错误的是 a、glob为内置库,无需import即可使用 b、glob可以使用?匹配单个字符 c、glob中表达式"[0-9]"表示匹配0-9中的单个数字 d、glob返回的是一个包含所有匹配文件的列表 5、1. import sqlite3 2. from faker import faker 3. f=faker("zh_cn") 4. conn=sqlite3.connect(":memory:") 5. c=conn.cursor() 6. c.execute("create table user (id varchar(10) primary key, name varchar(20))") 7. for i in range(0,100): 8. c.execute("insert into user (id, name) values ('{}','{}')".format(i,f.name())) 9. c.execute("select * from user") 10. result = c.fetchall() 11. print(len(result)) 上述代码执行的结果是? a、100 b、10 c、20 d、0 6、用户处理numpy的ndarray对象时,可以改变数组维度。下列描述中错误的是 a、resize方法不能修改原andarray数组 b、reshape方法不能修改原andarray数组 c、flatten方法不能修改原andarray数组 d、参数用元组来表示 7、numpy的series对象在进行运算时,其默认索引值是0到n-1可以参与运算,而自定义索引值不会参与运算。 8、dataframe结构为一个二维结构,每一列可以为不同的值类型,但一列之内的类型必须相同。 9、由于python的list列表足够强大,完全可以代替ndarry这种数组。 10、使用文件打开命令时,即使使用with as语句也应该调用close()方法显式关闭文件,以保证文件安全。【第5周】python 大数据基础 【第5周】单元测试 1、使用json库进行python的内置数据类型与json类型转换时,字典dict将被转换为 a、object b、string c、str d、array 2、某网站提供形式多样的财经大数据服务:①提供一个第三方python库,调用库中方法可以直接返回dataframe对象;②提供一个网站api,可以返回json格式字符串;③提供静态页面,内含表格数据;④提供查询功能,使用javascript动态脚本生成查询结果。 假设上述各种服务样式均可返回所需数据,则从减少编程工作量的角度看,用户应选择的方案编号是 a、① b、② c、③ d、④ 3、对于matplotlib的plot方法原型:plt.plot([x],y,[format], …),下列说法错误的是 a、只需要提供y轴数据,即可绘制出图像 b、plt是matplotlib中的一个字库名字 c、format表示控制字符串,包括:颜色、风格和标记 d、x轴数据必须提供 4、matplotlib提供了图形文本显示,下列函数可以在图像中任意位置显示文字的是 a、text() b、title() c、xlabel() d、ylabel() 5、使用pandas处理数据的时候,经常会遇到重复值。下列说法中错误的是 a、duplicated()返回值中用1表示重复,0表示不重复 b、duplicated()用于判断某行是否存在重复 c、duplicated()返回一个series对象 d、duplicated()不能删除重复值 6、排序在数据处理中具有重要的作用。若df为一个dataframe对象,则对其描述中错误的是 a、排序时无论是升序还是降序,nan统一排到序列的开头部分 b、df.nlargest(10,"score")表示取score列的前10项最大值 c、df.sort_index()表示对索引排序 d、df.sort_values()表示对数值排序 7、语句json.dumps({'name':'david', 'age':20})生成的字符串中,数字20被转换为字符串类型。 8、使用requests库爬取回来的字符串数据,可以加载到beautifulsoup库中,形成一个树状的html页面结构,供用户检索使用。 9、当在dataframe中试图补全空值时,可以使用fillna,但该方法只能为整个dataframe设置相同的补全值。 10、使用matplotlib绘制多图时,可以使用subplots和subplot方法。如: 1. fig,ax = subplot( rows,cols)【第6周】数据分析方法 【第6周】单元测试 1、如下关于数据分析框架的流程,哪一项是正确的? a、业务理解、数据理解、数据准备、建立模型、模型评估 b、建立模型、模型评估、数据理解、业务理解、数据准备 c、数据理解、业务理解、建立模型、数据准备、模型评估 d、数据准备、建立模型、模型评估、数据理解、业务理解 2、偏度是数据分布扁平程度的测度。 3、中位数指的是任意一组数据中的中间位置的数。 4、某组数据的峰态系数小于0,则并表明该组数据为扁平分布或者平峰分布。 5、预测降雨量属于机器学习中的回归任务的应用场景。 6、已知10个家庭的人均月收入数据分别为:660、750、780、850、960、1080、1250、1500、1630、2000,请计算该组数据的中位数。 7、已知9个家庭的人均月收入数据分别为:1500、750、780、1080、850、960、2000、1250、1630,请计算该组数据的四分位数。(请使用较准确的位置确定方法。) 8、请计算下列数据{10,12,13,14,25,30,40,50,90,100}的p=40%的截断均值。(保留2位小数) 9、请计算下列数据{1,3,7,9,0,3,5}的中列数。 10、依据下面两组数据,分别计算两组年收入数据的方差。 第一组:99个年收入10万的人和1个年收入1000万的人, 第二组:60个年收入10万的人和40个年收入34.75万的人。【第7周】数据分析方法 【第七周】 单元测试 1、“二手车价格预测”场景属于哪种机器学习的典型任务? a、回归 b、分类 c、关联 d、聚类 2、“垃圾邮件的处理”场景属于哪种机器学习的典型任务? a、分类 b、关联 c、聚类 d、回归 3、“推荐系统”场景属于哪种机器学习的典型任务? a、聚类 b、分类 c、关联 d、回归 4、“尿布与啤酒”案例属于哪种机器学习的典型任务? a、关联 b、分类 c、聚类 d、回归 5、过拟合是指模型不能在训练集上获得足够低的误差 6、有监督算法和无监督算法的区别在于数据是否进行标注。 7、k-means算法属于分类算法。 8、knn算法的优点在于不需要指定k的个数。 9、决策树的生成由两个阶段组成:_____、______ 10、假设有四个样本分布在坐标系中,已知a区两点分别(2,5)和(1,4), b区(8,1)和(9,2),若使用knn算法(距离使用欧氏距离),求m(4,3)属于哪一区?【第8周】开源平台和工具 【第八周】 单元测试 1、以下关于日志采集工具flume的说法不正确的是: a、flume是一个分布式、可靠和高可用的海量日志采集、聚合和传输的日志收集系统 b、flume的数据源和目标都是可定制、可扩展的 c、flume支持多级级联和多路复制 d、flume适用于大量数据的实时数据采集 2、以下关于数据分发中间件kafka的说法不正确的是: a、kafka是一个基于发布/订阅的消息系统 b、每条发布到kafka集群的消息都属于一个主题(topic) c、kafka主要是使用c 、java语言实现的 d、kafka将topic分成一个或者多个partition 3、以下关于分布式文件系统hdfs的说法不正确的是: a、hdfs是能够运行在通用硬件上的分布式文件系统 b、hdfs支持存储tb-pb级别的数据 c、hdfs支持多用户写入,任意修改文件 d、数据块(block)是hdfs文件系统基本的存储单位 4、hdfs集群中管理文件系统的元数据、负责客户端请求响应的节点是: a、namenode b、datanode c、clientnode d、activenode 5、hdfs(hadoop 1.x版本中)默认的块大小是: a、32 mb b、32 kb c、64 mb d、64 kb 6、以下关于分布式数据库hbase的说法不正确的是: a、hbase是一个基于列式存储的分布式数据库系统 b、hbase源于google bigtable技术 c、hbase比传统关系数据库系统具有更加丰富的数据类型 d、hbase不支持复杂的sql操作,例如表连接 7、hbase中分布式存储和负载均衡的最小单元是: a、table b、region c、block d、partition 8、以下关于数据仓库hive的说法不正确的是: a、hive主要是为分析数据而设计的数据仓库 b、hive的数据最终都保存为hdfs文件 c、hive将用户的查询语句转换为mapreduce作业提交到hadoop集群上执行 d、hive能够在大规模数据集上实现低延迟快速的查询 9、hive的数据模型主要包括: a、表(tables) b、分区(partitions) c、桶(buckets) d、块(blocks) 10、nosql数据库的主要类型包括: a、图形数据库 b、文档数据库 c、键值数据库 d、列族数据库期末考试 mooc期末测试 1、下列数据类型中,不属于python内置数据类型的是: a、str b、float c、dtype d、bool 2、假设d是一个dataframe类型对象,其中包含name和age两列100行数据。则下列表达式中,错误的是. a、d[‘age’] b、d[2,’name’] c、d.age d、d.loc[2,’name’] 3、下列有关python和json的描述中,错误的是. a、python使用csv库的loads()把json字符串转换为内置对象 b、load()用于把json文件转换为内置对象 c、python的字典被转换为json的object类型 d、python的none被转换为json的null 4、下列聚类算法哪种属于基于划分的聚类? a、cure算法 b、dbscan算法 c、神经网络算法 d、k-均值算法 5、以下不属于高维数据可视化技术的是. a、radviz b、平行坐标 c、降维投影 d、词云 6、以下哪个是常见的大数据处理流程. a、数据获取、数据清洗、数据分析、数据可视化 b、数据清洗、数据获取、数据分析、数据可视化 c、数据清洗、数据获取、数据可视化、数据分析 d、数据可视化、数据清洗、数据获取、数据分析 7、大数据分析技术可以应用于哪些行业. a、政务和交通 b、金融和农业 c、医疗和健康 d、其他全是 8、nan在python标准库中定义为整数0。 9、词典中的key不能是字典类型,但value可以是字典类型。 10、传统数据分析主要是完成描述性分析和诊断性分析,而大数据分析主要目的是预测性分析。 11、峰度是数据分布偏斜程度的测度。 12、偏度系数在0.5~1或-1~-0.5之间被称为高度偏态分布。 13、数据工程师的主要工作职责是整理和组织数据,进行描述性统计,分析开发潜在的价值,构建模型解决商业问题。 14、网络和层次化数据可视化的主要技术有力导图和treemap。 15、已知p = np.arange(20).reshape((4,5)),则p[3][2]的值是 。 16、训练误差和测试误差之间的差距太大在机器学习的术语是___。 17、请计算下列数据{10,12,16,18,22,35,45,50,90,100}的p=40%的截断均值_____ 18、大数据的特点主要包括:体量大、________、__________和________ 19、每条发布到kafka集群的消息都有一个类别,这个类别被称为 。 20、hadoop生态圈中最底层的存储系统是 。