jjzjj

【python】这么**得小姐姐网~不敢赶紧采集一波~免得它没了

颜狗一只 2023-10-21 原文

前言

大家早好、午好、晚好吖~

今天我们来采集一下这个小姐姐网~


环境使用:

  • Python 3.8 解释器

  • Pycharm 编辑器

  • import re

  • import requests >>> pip install requests


如果安装python第三方模块:

  1. win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

  2. 在pycharm中点击Terminal(终端) 输入安装命令


如何配置pycharm里面的python解释器?

  1. 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)

  2. 点击齿轮, 选择add

  3. 添加python安装路径


pycharm如何安装插件?

  1. 选择file(文件) >>> setting(设置) >>> Plugins(插件)

  2. 点击 Marketplace 输入想要安装的插件名字 比如:翻译插件 输入 translation / 汉化插件 输入 Chinese

  3. 选择相应的插件点击 install(安装) 即可

  4. 安装成功之后 是会弹出 重启pycharm的选项 点击确定, 重启即可生效


python实现案例: 批量数据采集/下载 <有方法 通用>

一. 数据来源分析

  1. 明确需求, 我们采集网上什么数据内容, 在什么地方

    分析我们想要高清原图在什么地方有

  2. 浏览器自带工具: 开发者工具 F12

    • 鼠标右键点击 插件 选择 network 刷新网页
    • 点击选择 Img 可以直接找到图片地址

    继续分析, 图片链接是从哪里来的

    • 通过搜索分析, 可以知道, 我们想要图片原图url 就在 图片详情页网页源代码里面

二. 代码实现步骤:

  1. 发送请求, 模拟浏览器对于 图片目录页面 发送请求

  2. 获取数据, 获取服务器返回响应数据
    开发者工具 response

  3. 解析数据, 提取我们想要数据内容
    图片详情页url地址

  4. 发送请求, 模拟浏览器对于 图片详情页url 发送请求

  5. 获取数据, 获取服务器返回响应数据
    开发者工具 response

  6. 解析数据, 提取我们想要数据内容
    图片原图高清url地址, 以及 标题

  7. 保存数据, 把图片保存文本文件夹

代码

# 导入数据请求模块 --> 第三方模块, 需要 pip install requests   不会 0  会 1
import requests
# 导入正则模块  内置模块 不需要安装的
import re

"""
1. 发送请求, 模拟浏览器对于 图片目录页面url 发送请求

  • python代码如何模拟浏览器?

使用headers 请求头

实现多页数据采集:

分析请求url地址变化规律 --> 分析图片目录页面url地址变化规律

每个网站数据结构是不一样, 数据来源也不一样, 但是分析数据来源思路 和 代码实现步骤过程 差不多的

"""

for page in range(1, 5):
    # 字符串格式化方法: 把page传入到字符串当中
    print(f'=================正在采集第{page}页的数据内容=================')

确定请求链接

有网站名得链接发出来就不给过拉~宝子们自己按照下面得图添加一下哦

    # 模拟浏览器 --> headers 请求头
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
    }
    # 发送请求
    response = requests.get(url=url, headers=headers)

<Response [200]> 表示请求成功

"""

  1. 获取数据, 获取服务器返回响应数据

开发者工具 response

  • response.text 获取响应文本数据

  • response.json() 获取响应json字典数据 <一定要完整json数据, 否则就会报错>

  1. 解析数据, 提取我们想要数据内容

图片详情页url地址

re.findall('匹配什么数据', '什么地方') 调用re模块里面findall 去找到匹配数据: 找到所有我们想要数据内容

从 什么地方 去匹配查询 什么数据

response.text 去匹配 <li><a target="_blank" href="(.*?)" alt="(.*?)" title=".*?"> 其中 (.*?) 就是我们想要的数据

  • () 表示精确匹配: 我们要的内容

  • 没有括号 泛匹配 不要的内容

  • .*? 通配符 元字符 . 表示匹配任意字符<除了换行符\n以外> * 匹配前一个字符0或者无限个 ? 非贪婪匹配模式

"""

提取详情页url地址

    img_info = re.findall('<li><a target="_blank" href="(.*?)" alt="(.*?)" title=".*?">', response.text)
    # for循环遍历 把列表里面元素 一个一个提取出来
    for img, title in img_info:

img: 图片详情页url地址

title: 图片标题

"""

4. 发送请求, 模拟浏览器对于 图片详情页url 发送请求

5. 获取数据, 获取服务器返回响应数据

开发者工具 response

6. 解析数据, 提取我们想要数据内容

图片原图高清url地址, 以及 标题

[0] 列表索引取值 提取第一个元素

"""

        # 发送请求 获取响应文本数据
        html_data = requests.get(url=img, headers=headers).text
        # 提取原图url地址
        img_url = re.findall('<img alt=".*?" title=".*?" src="(.*?)">', html_data)[0]

"""

7. 保存数据, 把图片保存文本文件夹

  • 发送请求, 获取数据内容

  • response.content 获取响应二进制数据 <图片/视频/音频/特定格式文件..>

如果图片名字一样的话, 会覆盖掉

  • split() 字符串分割 返回列表

  • [-1] 列表索引取值, 提取最后一个元素

  • title + img_url.split('/')[-1] 字符串拼接

"""

        # 获取二进制数据
        img_content = requests.get(url=img_url).content
        # 替换特殊字符
        img_title = title + img_url.split('/')[-1]
        img_title = re.sub(r'[\/:*?:<>|]', '_', img_title)
        with open('img漫画\\' + img_title, mode='wb') as f:
            f.write(img_content)
        print(img_url, img_title)







尾语 ?

好了,我的这篇文章写到这里就结束啦!

有更多建议或问题可以评论区或私信我哦!一起加油努力叭(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

有关【python】这么**得小姐姐网~不敢赶紧采集一波~免得它没了的更多相关文章

  1. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  2. Python 相当于 Perl/Ruby ||= - 2

    这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意,但是谷歌搜索||=并不是很有帮助;)Python中是否有与Ruby和Perl中的||=语句等效的语句?例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外,类似这样的东西的通用术语是什么?条件分配是我的第一个猜测,但Wikipediapage跟我想的不太一样。

  3. java - 什么相当于 ruby​​ 的 rack 或 python 的 Java wsgi? - 2

    什么是ruby​​的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht

  4. 华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2

    华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o

  5. python - 如何读取 MIDI 文件、更改其乐器并将其写回? - 2

    我想解析一个已经存在的.mid文件,改变它的乐器,例如从“acousticgrandpiano”到“violin”,然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容,该乐器通过program_change或patch_change指令进行了更改,但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。 最佳答案 MIDIpackage会为您完成此操作,但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成,每个音轨是十六个channel中任何一个上的

  6. 「Python|Selenium|场景案例」如何定位iframe中的元素? - 2

    本文主要介绍在使用Selenium进行自动化测试或者任务时,对于使用了iframe的页面,如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候,可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签,如果直接查找是无法找到的,会抛出没有找到元素的异常。比如近在咫尺的例子就是,CSDN的登录窗体就是使用的iframe,大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素,会抛出NoSuchElementException异常。解决

  7. python ffmpeg 使用 pyav 转换 一组图像 到 视频 - 2

    2022/8/4更新支持加入水印水印必须包含透明图像,并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时,是将这组图像视为MJPG流。我需要转换一组PNG图像到视频,FFMPEG就不认了。pyav内置了ffmpeg库,不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p

  8. Python 刷Leetcode题库,顺带学英语单词(31) - 2

    ValidPalindromeGivenastring,determineifitisapalindrome,consideringonlyalphanumericcharactersandignoringcases. [#125]Example:"Aman,aplan,acanal:Panama"isapalindrome."raceacar"isnotapalindrome.Haveyouconsiderthatthestringmightbeempty?Thisisagoodquestiontoaskduringaninterview.Forthepurposeofthisproblem

  9. python - 是否可以使用 Ruby 或 Python 禁用 anchor /引用来发出有效的 YAML? - 2

    是否可以在PyYAML或Ruby的Psych引擎中禁用创建anchor和引用(并有效地显式列出冗余数据)?也许我在网上搜索时遗漏了一些东西,但在Psych中似乎没有太多可用的选项,而且我也无法确定PyYAML是否允许这样做.基本原理是我必须序列化一些数据并将其以可读的形式传递给一个不是真正的技术同事进行手动验证。有些数据是多余的,但我需要以最明确的方式列出它们以提高可读性(anchor和引用是提高效率的好概念,但不是人类可读性)。Ruby和Python是我选择的工具,但如果有其他一些相当简单的方法来“展开”YAML文档,它可能就可以了。 最佳答案

  10. .net - .NET 将如何影响 Python 和 Ruby 应用程序? - 2

    我很好奇.NET将如何影响Python和Ruby应用程序。用IronPython/IronRuby编写的应用程序是否会非常特定于.NET环境,以至于它们实际上将变得特定于平台?如果他们不使用任何.NET功能,那么IronPython/IronRuby相对于非.NET同类产品的优势是什么? 最佳答案 我不能说任何关于IronRuby的东西,但是大多数Python实现(如IronPython、Jython和PyPy)都试图尽可能忠实于CPython实现。不过,IronPython正在迅速成为这方面的佼佼者之一,并且在PlanetPyth

随机推荐