24秋:数据采集-期末复习题:选择填空判断

embedded/2024/12/21 19:49:11/

数据采集技术 - 复习题

题型:单项选择题10道,30分,多项选择题5道,20分,判断题10道,20分,填空题5道,20分,程序题2道,10分。

一.单项选择题

1、传统爬虫从一个或若干网页的(   C  )开始获取初始网页上的地址。

A. 初始变量地址   B. 初始输入位置   C. 统一资源定位符URL   D. IP地址

2、HTTP请求头中Accept表示( B  )。

A. 浏览器标识   B. 请求的资源类型   C. 语言类型   D. 编码类型

3、HTTP请求头中User-Agent表示( A  )。

A. 浏览器标识   B. 请求的资源类型   C. 语言类型   D. 编码类型

4、HTTP请求头中Accept-Encoding表示( D  )。

A. 浏览器标识   B. 请求的资源类型   C. 语言类型   D. 编码类型

5、在Python的re模块中,( A  bB )函数实现从字符串的起始位置匹配一个模式。

A. search()   B. match()   C. find()   D. findall()

6、在Python的re模块中,( B A)函数用于扫描整个字符串,并返回第一个成功的匹配。

A. search()   B. match()   C. find()   D. findall()

7、在Python的re模块中,( D )函数用于在整个字符串中搜索所有符合正则表达式的字符串。

A. search()   B. match()   C. find()   D. findall()

8、正则表达式中,(C )表示匹配前一个元字符1到多次。

A. ?   B. #   C.  +   D. #

9、正则表达式中,( D )表示匹配前一个元字符0到多次。

A. ?   B. #   C.  #   D. *

10、正则表达式中,(A )表示匹配前一个元字符0到1次。

A. ?   B. #   C.  *   D. #

11、( B )是一个表示网页头部的标签。

A. <title></title>   B. <head></head>   C. <body></body>   D. <a></a>

12、(  C )模块是Python自带的网络请求模块。

A. pip   B. urllib3   C. urllib   D. requests

13、在urllib模块中,(D  )用于实现基本HTTP请求。

A. urllib.timeout   B. urllib.error   C. urllib.parse   D. urllib.request

14、在urllib模块中,( B )用于异常处理。

A. urllib.timeout   B. urllib.error   C. urllib.parse   D. urllib.request

15、在urllib.request.Request命令中,(  A )用来设置请求头部信息。

A. headers   B. url   C. method   D. data

16、在urllib3模块中,PoolManager对象的request()方法的默认请求重试次数为( B  D)。

A. 1   B. 5   C. 4   D. 3

17、( B )模块是request模块的扩展功能,用于提供持久化缓存支持。

A. Requests-Info   B. Requests-Cache   C. Requests-HTML   D. Requests-Get 

18、(C)方法用于实现将某个字符串中所有匹配正则表达式的部分,替换成其他字符串。

A. map()   B. split()   C. sub()   D. join() 

19、B )方法用于实现根据正则表达式分割字符串。

A. map()   B. split()   C. sub()   D. join() 

20、( D )是目前最受欢迎的开源关系数据库管理系统。

A. ACCESS   B. SQL SERVER   C. ORACLE   D. MySQL

21、(A  )是一个基于分布式文件存储的数据库。

A. MongoDB   B. SQL SERVER   C. ORACLE   D. MySQL

22、(C )是计算机中已运行程序的实体。

A. 指令   B. 数据   C. 进程   D. 线程

23、(B)是 防止多个线程同时读写某一块内存区域

A. 指令   B. 互斥锁   C. 数据   D. 程

二.多项选择题

1、数据采集对象的线上行为数据包括(   )。

A.页面数据   B.交互数据   C.表单数据   D.会话数据   E.应用日志

2、数据采集对象的内容数据包括(  )。

A.应用日志   B.电子文档   C.机器数据   D.语音数据   E.社交媒体数据

3、数据采集应用场景()

A.知识信息储备   B.搜索技术   C.过滤广告   D.精准营销   E.用户信息分析

4、网络爬虫由(  )。

A.控制节点   B.爬虫节点   C.资源库   D.数据库   E.爬取日志

5、深层网络爬虫将Web页面按存在方式分为( )。

A.浅层网页   B.表层网页   C.纵向网页   D.深层网页   E.横向网页

6、HTTP的请求方法有(  )。

A. get   B. delete   C. post   D.  put   E. options

7、网络爬虫按照实现的技术和结构可以分为()。

A.浅层网络爬虫   B.深层网络爬虫   C.通用网络爬虫   D.聚焦网络爬虫   E.增量式网络爬虫

8、Web服务器的工作原理可以概括为()步骤。

A. 建立连接   B. 分配连接   C. 请求过程   D. 应答过程   E. 关闭连接

9、urllib模块中的urllib.error子模块包含了(  )。

A. URLError   B. URLExcept   C. HTTPExcept   D. HTTPError   E. HTTPOut

10、urllib3模块的主要特性(  )。

A. 线程安全   B. 连接池   C. 客户端SSL/TLS验证   D. 处理HTTP重定向   E. 支持HTTP和SOCKS代理

11、request模块的主要特性()。

A. 持久Cookie的会话   B. 自动内容解码   C. 文件分块上传   D. 分块请求   E. 自动解压

12、互斥锁为资源引入了( )状态。

A. 封闭   B. 非封闭   C. 锁定   D. 非锁定   E. 自动

13、HTML正文存储为两种格式(  )。

A. JSON   B. TXT   C. CSV   D. DOC   E. EXE

三.判断题

1、网络爬虫是一种按照一定规则自动爬取互联网信息的程序或脚本。(  A )

2、通用网络爬虫又称为主题网络爬虫,爬取对象从一些种子扩充到整个web。( B  )

3、聚焦网络爬虫又称为全网爬虫,是指选择性地爬取相关页面的爬虫。( B  )

4、增量式网络爬虫是指对已下载的网页采取增量式更新。(  A )

5、Scrapy是一个为了爬取网站数据、提取结构化数据而编写的应用框架。( A  )

6、Scrapy是一套用Java编写的异步爬虫框架。( B  )

7、Scrapy是一套比较成熟的Python爬虫框架。(A  )

8、正则表达式是一种可以用于模式匹配和替换的强大工具。(A  )

9、在正则表达式中,行定位符是用来描述字符串的边界。( A )

10、PyCharm是有JetBrains公司开发的Python集成开发环境。( A )

11、HTTP是利用TCP在Web服务器之间传输信息的协议。(  A)B

解答:HTTP主要用于客户端(如Web浏览器)与服务器之间的通信,而不是服务器与服务器之间(尽管服务器之间确实可以通过HTTP通信,但这并不是HTTP的主要用途)。服务器之间的通信通常使用其他协议,如FTP(文件传输协议)、SMTP(简单邮件传输协议)

12、在CSS中,ID选择器是通过属性来选择标签。( A )B

解答:ID选择器是通过元素的id属性来选择特定的HTML元素。每个元素的id属性应该是唯一的,因此ID选择器能够精确地选择到单个元素。

13、Cookie是服务器向客户端返回响应数据时所留下的标记。( B )A

解答:Cookie确实是由服务器在HTTP响应中发送给客户端的一种小型数据块,并保存在客户端的计算机上。每次客户端向服务器发送请求时,都会自动带上这些Cookie。这样,服务器就可以通过这些Cookie来识别客户端或存储一些客户端的状态信息。

14、urllib模块中提供了url子模块,用于解析URL,可以实现URL的拆分或组合。(  ×  )

15、在urllib3模块中,PoolManager对象是一个连接池管理对象。(A )

16、在urllib3模块中,PoolManager对象只能向一个服务器发送请求。(B  )

17、使用Requests-Cache模块不会减少网络资源避免重复请求的次数。(B  )

18、使用Requests-Cache模块可以相应的避免一些反爬机制。( A)

19、Requests-HTML模块包含request模块中的所有功能。(B  )A

解答:基于 requests 库构建了一个更高层次的抽象,用于处理 HTML 和相关的任务。

20、Requests-HTML模块增加了对JavaScript的支持、数据提取以及模拟真实浏览器功能。( A )

21、XPath是XML路径语言,是一门可以在XML文件中查找信息的语言。(A  )

22、XPath使用路径表达式在XML或HTML中选取节点。( A  )

23、lxml模块的底层是通过python语言编写的,解析效率非常优秀。( B )

24、lxml模块的etree子模块可以直接解析HTML文件。( A )

25、lxml模块的etree子模块不能解析字符串类型的HTML文件。(B   )

四.填空题

1、任何完整的数据平台一般都包括___数据采集_______数据存储转换__  _数据处理_____  _加载__ 可视化___ 等几个过程。

2、利用urllib.request模块向百度发出一个get网络请求的命令是  urlib.request.get urlopen(“https://www.baidu.com”)

3、在urllib3模块中,向一个url发送get请求的命令是

  _get()___http = urllib3.PoolManager()__

  _openurl_res = http.request(GET, url)____

4、在urllib3模块中,向一个url发送get请求,重试次数为5次的命令是  _urllib3.openurl(“”)_____http = urllib3.PoolManager()

 ___res = http.request(GET,url, retries = 5)___

5、Ajax是 __异步JavaScript____ __XML 文本处理___ 的组合。

6  _ 线程_  是操作系统能够进行运算调度的最小单位。

7  _互斥锁_  防止多个线程同时读写某一块内存区域。

8、在threading模块中Lock类有两个方法: acquire()锁定__ _release()释放____

9  进程 __是计算机中已运行程序的实体。

10  程序_______只是指令、数据及其组织形式的描述, ___进程_ 才是程序的真正运行实例。

11、MongoDB是一个介于 关系数据库 非关系数据库 之间的产品。

12、 ___通用网络     爬虫的爬行范围和数量巨大。

13、HTTP是利用TCP在   WEB客户端   Web服务器  之间传输信息的协议。

14、  ___CSS__   是一种标记语言,用于为HTML文档定义布局。

15、_______urllib.request___模块中提供了     _openurl urlopen()___方法,用于实现最基本的HTTP请求。

  1. 实验目标

五、程序题

参考形考在线记分作业!!!


http://www.ppmy.cn/embedded/147612.html

相关文章

lua dofile 传参数

cat 1.lua arg[1] 111 arg[2] 222 dofile(./2.lua) cat 2.lua print("First argument is: " .. arg[1]) print("Second argument is: " .. arg[2]) 执行 lua 1.lua&#xff0c;结果为&#xff1a; First argument is: 111 Second argument is: 222 l…

14篇--模板匹配

原理 模板匹配就是用模板图&#xff08;通常是一个小图&#xff09;在目标图像&#xff08;通常是一个比模板图大的图片&#xff09;中不断的滑动比较&#xff0c;通过某种比较方法来判断是否匹配成功。 匹配方法 1. 平方差匹配TM_SQDIFF 以模板图与目标图所对应的像素值使用…

android、flutter离线推送插件,支持oppo、vivo、小米、华为

项目说明 项目地址&#xff1a;https://github.com/haomiao33/ym_flutter_push 起因 目前github上面搜索发现没有合适的flutter和android 推送原生插件&#xff0c;所以自己参考和借鉴了(https://github.com/taoweiji/MixPush)项目&#xff0c;这个mixpush太老了&#xff0c…

JVM(Java虚拟机)分区详情

JVM(Java虚拟机)运行时数据区是Java虚拟机的内存管理模型,它包括了多个关键的内存区域,这些区域各自承担着不同的职责,共同支持着Java程序的运行。以下是JVM运行时数据区的详细介绍: 一、整体概述 JVM运行时数据区按照线程占用的情况可以分为两类:线程共享和线程独享。…

Day41 动态规划part08

股票问题是一个动态规划的系列问题,前两题并不难,第三题有难度。 121. 买卖股票的最佳时机 视频讲解:动态规划之 LeetCode:121.买卖股票的最佳时机1_哔哩哔哩_bilibili 代码随想录 方法1:贪心算法 class Solution {public int maxProfit(int[] prices) {int low = Intege…

CS 144 check3: the TCP sender

Lecture Notes 略 Exercises 现在&#xff0c;在check3中&#xff0c;您将实现连接的另一边。 TCPSender是一种工具&#xff0c;它从出站字节流转换为将成为不可靠数据报的有效负载的段。 TCP sender的任务是确保receiver至少收到每个bytes一次。任务&#xff1a; 1、跟踪…

跨站脚本攻击(XSS)可能存在的位置与实操演示

免责申明 本文仅是用于学习研究XSS攻击的原理,请勿用在非法途径上,若将其用于非法目的,所造成的一切后果由您自行承担,产生的一切风险和后果与笔者无关;本文开始前请认真详细学习《‌中华人民共和国网络安全法》【学法时习之丨网络安全在身边一图了解网络安全法_中央网络安…

图文社区用户搜索关系表设计方案:空间换时间的权衡与抉择

背景 我们来聊一个解决方案&#xff1a;我们做了一个和抖音产品类似的图文社区&#xff0c;社区有一个搜索栏&#xff0c;通过名字搜索用户&#xff0c;搜索出来的用户需要体现出其与当前用户的关系&#xff1a;1.当前用户的粉丝。2.当前用户关注的人。3.互相关注。目前总用户…