jjzjj

Python爬取站长之家网页信息(附详细源码)

1234567FENG 2023-04-15 原文

一、实验目的

在信息时代高速发展的现在,“互联网+”的使用日趋zhanzhang过互联网学习知识,传递思想,沟通交流,在众多数据和用户的碰

撞中,互联网经济应运而生。学会利用网络收集信息是最基本的要求,接下来,我将以“行业网站”——站长之

家为例,通过Python爬取各个网站的信息(主要为名称、Alexa周排名、反链数等)来更直观、准确地分析其中各个网站在互联网

上的竞争力排名,以此了解用户对某些类型网站的喜好程度。

二、实验项目

通过Python爬取“行业网站”——站长之家中各网站的名称、Alexa周排名、反链数等信息

三、实验操作步骤

(一)观察网页

首先通过浏览器进入“行业网站”——站长之家,查看网页的基本结构,通过改变网页得出为静态网页的结论,以下为网站名称及网址:

行业网站 - 行业网站排名 - 网站排行榜 (chinaz.com)

https://top.chinaz.com/hangye

 

以上图片中画圈部分为本次爬虫需要爬取信息。

进入网站源代码界面,查看我们所需要爬取内容的相关代码以及网络请求情况。

右键点击网页出现审查界面如下:

在此源代码界面,我们能看到我们需要的百度、Alexa周排名、反链数等字样,稍后我们要做的就是将其提取出来。

(二)请求数据

点击网页名字再点击标头,我们就能看到其真实网站,同时发现其请求方法是GET,状态代码Status Code为200通过,说明请求

成功。

继续点击响应观察,发现网页响应中出现charset=utf-8,说明其编码格式为“utf-8”。因其与requests库默认编码方式不同,需要进

行调整赋值。

导入第三方数据库

Python学习交流Q群:903971231####
#导入库
import requests   #requests库请求网页
from lxml import etree #进行文件格式解析
import pandas as pd  #pandas库保存索引信息
设置headers与请求链接

```python
#设置请求头
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36"}

```python
#requests请求链接
rq = requests.get(url,headers=headers).text

 

 

(三)解析数据

使用lxml模块中的etree方法将字符串转化为html标签,再使用xpath方法获取多行信息。

我们观察到,需要的网站信息存储在class='listCentent’的ul标签下,该标签在html标签下的body标签下第四个div标签下的第三个

div标签下的第二个div标签下。

其Xpath绝对路径如下:

/html/body/div[4]/div[3]/div[2]/ul

 

我们有个更简便的方法可以获得其绝对路径:右键点击Copy-Copy full Xpath,即可获得该标签Xpath的绝对路径。

站长之家的各网站信息都存储在上述ul标签下的li标签下。

我们可以获取各网站信息存储的li标签的list。

li_list = html.xpath("/html/body/div[4]/div[3]/div[2]/ul/li")

 

我们想获取网站名称、网址、Alexa周排名、反链数等信息,发现其在li标签的下级标签中

python学习交流Q群:903971231####
#使用lxml模块中的etree方法将字符串转化为html标签
html = etree.HTML(rq)

#用xpath定位标签位置
li_list = html.xpath("/html/body/div[4]/div[3]/div[2]/ul/li")

#获取要爬取内容的详情链接
for li in li_list:
    #爬取网站名称
    sitename = li.xpath("./div[2]/h3/a/text()")[0]
    #爬取网址
    websites = li.xpath("./div[2]/h3/span/text()")[0]
    #爬取Alexa周排名
    Alexa = li.xpath("./div[2]/div/p[1]/a/text()")[0]
    #爬取反链数
    Antichain = li.xpath("./div[2]/div/p[4]/a/text()")[0]

 

(四)储存数据

上述步骤中,我们已经将import pandas as pd输入,随后通过pandas的to_csv将数据存入csv中,将数据导出为csv文档。

#pandas中的模块将数据存入
df = pd.DataFrame({
"网站名称" : sitename_oyr,
"网址" : websites_oyr,
"Alexa周排名" : Alexa_oyr,
"反链数" : Antichain_oyr,
})

#储存为csv文件
df.to_csv("paiming.csv" , encoding='utf_8_sig', index=False)

 

(五)循环爬取前15页数据信息

利用url统一资源定位符快速定位网址https://top.chinaz.com/hangye/index_shenghuo_fenlei_0.html,利用代码将0位置替换为{},

随后使用format(a*15)作为其中填充,以此循环15次。

运行代码:

for a in range(15):
    #爬取网站的网址并且循环爬取前15页的内容
    url = "https://top.chinaz.com/hangye/index_shenghuo_fenlei_{}.html".format(a*15)

 

(六)全套代码及运行结果

全部代码:

#导入库
import requests
from lxml import etree
import pandas as pd

#初始列表
sitename_oyr,websites_oyr, Alexa_oyr, Antichain_oyr = [], [], [], []

#设置请求头
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36"}

for a in range(15):
   
    #爬取网站的网址并且循环爬取前15页的内容
    url = "https://top.chinaz.com/hangye/index_shenghuo_fenlei_{}.html".format(a*15)
   
    #requests请求链接
    rq = requests.get(url,headers=headers).text
    
    #使用lxml模块中的etree方法将字符串转化为html标签
    html = etree.HTML(rq)
    
    #用xpath定位标签位置
    li_list = html.xpath("/html/body/div[4]/div[3]/div[2]/ul/li")

    #获取要爬取内容的详情链接
    for li in li_list:
        #爬取网站名称
        sitename = li.xpath("./div[2]/h3/a/text()")[0]
        #爬取网址
        websites = li.xpath("./div[2]/h3/span/text()")[0]
        #爬取Alexa周排名
        Alexa = li.xpath("./div[2]/div/p[1]/a/text()")[0]
        #爬取反链数
        Antichain = li.xpath("./div[2]/div/p[4]/a/text()")[0]

        #输出
        print(sitename)
        print(websites)
        print(Alexa)
        print(Antichain)

        #将字段存入初始化的列表中
        sitename_oyr.append(sitename)
        websites_oyr.append(websites)
        Alexa_oyr.append(Alexa)
        Antichain_oyr.append(Antichain)

#pandas中的模块将数据存入
df = pd.DataFrame({
"网站名称" : sitename_oyr,
"网址" : websites_oyr,
"Alexa周排名" : Alexa_oyr,
"反链数" : Antichain_oyr,
})

#储存为csv文件
df.to_csv("paiming.csv" , encoding='utf_8_sig', index=False)

 

编译器获取结果:

获取文档:

最后

今天的这篇文章到这里就结束了,下一章见。

有关Python爬取站长之家网页信息(附详细源码)的更多相关文章

  1. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  2. ruby-on-rails - Rails 常用字符串(用于通知和错误信息等) - 2

    大约一年前,我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞,我可以在一个地方轻松完成,而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje

  3. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  4. Python 相当于 Perl/Ruby ||= - 2

    这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意,但是谷歌搜索||=并不是很有帮助;)Python中是否有与Ruby和Perl中的||=语句等效的语句?例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外,类似这样的东西的通用术语是什么?条件分配是我的第一个猜测,但Wikipediapage跟我想的不太一样。

  5. java - 什么相当于 ruby​​ 的 rack 或 python 的 Java wsgi? - 2

    什么是ruby​​的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht

  6. 华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2

    华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o

  7. 【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2

    在应用开发中,有时候我们需要获取系统的设备信息,用于数据上报和行为分析。那在鸿蒙系统中,我们应该怎么去获取设备的系统信息呢,比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况,一种是设备信息的获取,一种是系统信息的获取。1.1、获取设备信息获取设备信息,鸿蒙的SDK包为我们提供了DeviceInfo类,通过该类的一些静态方法,可以获取设备信息,DeviceInfo类的包路径为:ohos.system.DeviceInfo.具体的方法如下:ModifierandTypeMethodDescriptionstatic StringgetAbiList​()Obt

  8. UE4 源码阅读:从引擎启动到Receive Begin Play - 2

    一、引擎主循环UE版本:4.27一、引擎主循环的位置:Launch.cpp:GuardedMain函数二、、GuardedMain函数执行逻辑:1、EnginePreInit:加载大多数模块int32ErrorLevel=EnginePreInit(CmdLine);PreInit模块加载顺序:模块加载过程:(1)注册模块中定义的UObject,同时为每个类构造一个类默认对象(CDO,记录类的默认状态,作为模板用于子类实例创建)(2)调用模块的StartUpModule方法2、FEngineLoop::Init()1、检查Engine的配置文件找出使用了哪一个GameEngine类(UGame

  9. python - 如何读取 MIDI 文件、更改其乐器并将其写回? - 2

    我想解析一个已经存在的.mid文件,改变它的乐器,例如从“acousticgrandpiano”到“violin”,然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容,该乐器通过program_change或patch_change指令进行了更改,但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。 最佳答案 MIDIpackage会为您完成此操作,但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成,每个音轨是十六个channel中任何一个上的

  10. 「Python|Selenium|场景案例」如何定位iframe中的元素? - 2

    本文主要介绍在使用Selenium进行自动化测试或者任务时,对于使用了iframe的页面,如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候,可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签,如果直接查找是无法找到的,会抛出没有找到元素的异常。比如近在咫尺的例子就是,CSDN的登录窗体就是使用的iframe,大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素,会抛出NoSuchElementException异常。解决

随机推荐