目录
当大家想了解某个学校相关的就业招聘等信息时,一般的操作都是先进入学校的官网,找到我们需要的关键字点击进入浏览,每个学校的信息不一样,数据也是相当多。于是我也想知道本校的就业服务相关信息,接下来我就用所学的爬虫知识以我们学校为案例完成这个项目。这也是我第一次发文,肯定不完美,希望大家多多鼓励,我会继续努力的,以后也会在这里和你们一起学习。

这是我想要得到的数据
又称网络蜘蛛,就是通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。
爬虫的四个步骤:
(1)获取数据:爬虫程序会根据我们提供的网址,向服务器发起请求,然后给予相应的数据;
(2) 解析数据:爬虫程序会把服务器返回的数据解析成我们能读懂的格式;
(3)提取数据:爬虫程序从中再次提取出我们需要的数据;
(4)储存数据:爬虫程序会把我们最终需要的数据保存或下载下来;
(1) 请求网页: 通过 HTTP 库向目标网站发起请求,即发送一个 Request,请求可以包含额外的 headers 等信息,等待服务器响应!
(2) 获得相应内容: 如果服务器能正常响应,会得到一个 Response,Response 的内容便是所要获取的页面内容,类型可能有 HTML,Json 字符串,二进制数据(如图片视频)等类型。
(3) 解析内容: 得到的内容可能是 HTML,可以用正则表达式、网页解析库进行解析。可能是 Json,可以直接转为 Json 对象解析,可能是二进制数据,可以做保存或者进一步的处理。
(4) 存储解析的数据: 数据存储格式有很多,可以存为txt,csv,excel或者直接存为数据库。
Python有很多第三方库,包括我们使用的爬虫、数据分析,还有机器学习之类,Python提供的安装方式多种多样,常用语法为 pip install 库名,或者也可以把第三方库下载到本地,然后安装到如下所示(python文件夹)目录:
下图以jieba安装为例
图1 安装到文件夹
注:此处是python的库存储位置(当pip安装失败(在引用中显示没有该模块)时,可以尝试使用此法)
引用:
图2 查看安装成功
安装成功。这样,就可以安装我们所要用到的库。
此次实战我们需要用到的第三方库有:
# 导入相关模块
from selenium import webdriver
import time
from lxml import etree
import pandas as pd
(1)selenium库作用:用来操控浏览器,模拟人自动化做一些行为动作,主要因为测试直接运行在浏览器中,就可以像用户平常的在操作一样,支持多种浏览器。
selenium库的使用:
from selenium import webdriver # 导入库
br = webdriver.浏览器(传入浏览器的驱动程序) # 声明浏览器
实例化一个浏览器,这样就可以打开一个浏览器对象
br.get("") #引号里面放入你想要打开的网站地址
让浏览器发起一个指定url对应请求
(2)time模块的作用:是系统中自带的模块,让程序暂停执行指定的秒数,适当停留,有一个休眠的过程,看爬取效果。
time模块的使用:
import time # 导包
time.sleep(2) # 让程序睡2秒
每一步操作都可以使用time模块,让模拟更真实
(3)lxml库的作用:解析和提取XML和HTML中的数据,支持Xpath解析方式,利用语法,来定位特定元素及节点信息,效率很高。
lxml库的使用:
from lxml import etree #导入Xpath(将html中的数据进行提取)
tree = etree.HTML(page_text) #实例化一个对象,接收传入的页面源码数据
txt=tree.xpath("") #获取标签
获取标签有两种方法,绝对路径和相对路径。
(4)pandas库的作用:基于numpy的一种工具,为解决数据分析任务而创建的,可以处理csv,excel,html文本等文件。
pandas库的使用:
import pandas as pd #导入已经安装的包
pd.Series(data,index=index,dtype=dtype) #series对象的创建
data:数据,可以是列表,字典或Numpy数组
index:索引,为可选参数
dtype: 数据类型(支持多种类型),为可选参数
import numpy as np
用一维数组创建
dic = {"key1":value1,
"key2":value2,
.....}
fal = pd.Series(dic)
用字典创建,默认以键为index值为data
pd.DataFrame(data,index=index,columns=columns)
data:数据,可以是列表,字典或Numpy数组
index:索引,为可选参数
columns: 列标签,为可选参数
知识当然是无止境的呀,所以小菜鸟所展示的也只是冰山一角,还有很多需要补充的哦。
# 导入相关模块
from selenium import webdriver
import time
from lxml import etree
import pandas as pd
# 定义两个列表,一个存信息,一个存时间
list1=[]
list2=[]
# 封装
def gettxt(page_text):
# 解析数据
tree=etree.HTML(page_text)
# 遍历第一页的信息
for i in range(1,21):
#获取第一页所有招聘信息
txt=tree.xpath('/html/body/div/div[5]/div[2]/ul/li['+str(i)+']/span[1]/a/text()')
#获取第一页所有招聘信息的时间
txt1=tree.xpath('/html/body/div/div[5]/div[2]/ul/li['+str(i)+']/span[2]/text()')
# 列表转字符串,使用str()强转会把[]转进去,所以使用join
txt = "".join(txt)
#替换转义字符
for i in "\t\n":
txt=txt.replace(i,"")
# 使用空列表添加值
list1.append(txt)
list2.append("".join(txt1))
# 利用驱动打开一个网页
bro=webdriver.Edge(executable_path="D:\\vs code\\项目\\msedgedriver")
# 访问页面页数,每次访问一页
for i in range(1,90):
# 向网站发起请求
bro.get("http://www.gzmdrw.cn/rw/welcome/1288759137383718")
# 用page_text属性获取当前页面所对应的源码数据
page_text=bro.page_source
gettxt(page_text)
#字典
data={'信息':list1,'时间':list2}
#DataFrame()函数将字典转换
df=pd.DataFrame(data)
# 存储格式为csv并保存在本地
df.to_csv("就业数据.csv")
# 休眠
time.sleep(2)
#爬取结束退出
bro.quit
得到的运行结果

格式化后的效果

大约一年前,我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞,我可以在一个地方轻松完成,而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征,我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现,但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden
华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
在应用开发中,有时候我们需要获取系统的设备信息,用于数据上报和行为分析。那在鸿蒙系统中,我们应该怎么去获取设备的系统信息呢,比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况,一种是设备信息的获取,一种是系统信息的获取。1.1、获取设备信息获取设备信息,鸿蒙的SDK包为我们提供了DeviceInfo类,通过该类的一些静态方法,可以获取设备信息,DeviceInfo类的包路径为:ohos.system.DeviceInfo.具体的方法如下:ModifierandTypeMethodDescriptionstatic StringgetAbiList()Obt
C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.
本文主要介绍在使用Selenium进行自动化测试或者任务时,对于使用了iframe的页面,如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候,可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签,如果直接查找是无法找到的,会抛出没有找到元素的异常。比如近在咫尺的例子就是,CSDN的登录窗体就是使用的iframe,大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素,会抛出NoSuchElementException异常。解决
MIMO技术的优缺点优点通过下面三个增益来总体概括:阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下,MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中,可以获得复用增益,即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中,可以获得分集增益,即可靠性性能的改善。分集增益用独立衰落支路数来描述,即分集指数。在使用了空时编码的MIMO系统中,由于接收天线或发射天线之间的间距较远,可认为它们各自的大尺度衰落是相互独立的,因此分布式MIMO
遍历文件夹我们通常是使用递归进行操作,这种方式比较简单,也比较容易理解。本文为大家介绍另一种不使用递归的方式,由于没有使用递归,只用到了循环和集合,所以效率更高一些!一、使用递归遍历文件夹整体思路1、使用File封装初始目录,2、打印这个目录3、获取这个目录下所有的子文件和子目录的数组。4、遍历这个数组,取出每个File对象4-1、如果File是否是一个文件,打印4-2、否则就是一个目录,递归调用代码实现publicclassSearchFile{publicstaticvoidmain(String[]args){//初始目录Filedir=newFile("d:/Dev");Datebeg
通常,数组被实现为内存块,集合被实现为HashMap,有序集合被实现为跳跃列表。在Ruby中也是如此吗?我正在尝试从性能和内存占用方面评估Ruby中不同容器的使用情况 最佳答案 数组是Ruby核心库的一部分。每个Ruby实现都有自己的数组实现。Ruby语言规范只规定了Ruby数组的行为,并没有规定任何特定的实现策略。它甚至没有指定任何会强制或至少建议特定实现策略的性能约束。然而,大多数Rubyist对数组的性能特征有一些期望,这会迫使不符合它们的实现变得默默无闻,因为实际上没有人会使用它:插入、前置或追加以及删除元素的最坏情况步骤复