详解Python爬虫爬取博客园问题列表所有的问题 2024/11/17 饿虎岗资源网

一.准备工作

首先，本文使用的技术为 python+requests+bs4，没有了解过可以先去了解一下。
我们的需求是将博客园问题列表中的所有问题的题目爬取下来。

二.分析：

首先博客园问题列表页面右键点击检查
通过Element查找问题所对应的属性或标签

可以发现在div class ="one_entity"中存在页面中分别对应每一个问题
接着div class ="news_item"中h2标签下是我们想要拿到的数据

三.代码实现

首先导入requests和BeautifulSoup

import requests
from bs4 import BeautifulSoup

由于很多网站定义了反爬策略，所以进行伪装一下

headers = {
    'User-Agent': 'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.4280.141Safari / 537.36'
  }

在这里User-Agent只是其中的一种方式，而且大家的User-Agent可能不同。

爬取数据main代码

url = 'https://q.cnblogs.com/list/unsolved"htmlcode">

  url = 'https://q.cnblogs.com/list/unsolved"htmlcode">

text_list = page_soup.select('.one_entity > .news_item > h2')
    for h2 in text_list:
      text = h2.a.string
      fp.write(text+'\n')


完整代码如下:


import requests
from bs4 import BeautifulSoup
if __name__ == '__main__':
  headers = {
    'User-Agent': 'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.4280.141Safari / 537.36'
  }
  url = 'https://q.cnblogs.com/list/unsolved"text-align: center">




            
            
                 上一篇： Python爬虫后获取重定向url的两种方法 
                 下一篇： 详解Python+Selenium+ChromeDriver的配置和问题解决 
            
            
                最新资源
                
                     
4complete《丛生》[320K/MP3][85.26MB]
 
4complete《丛生》[FLAC/分轨][218.01MB]
 
羽泉《给未来的你&天黑天亮》[WAV+CUE][968
 
庄心妍《我也许在等候》[低速原抓WAV+CUE]
 
王雅洁《小调歌后2》[原抓WAV+CUE]
 
中国武警男声合唱团《辉煌之声1天路》[DTS-WAV分
 
紫薇《旧曲新韵》[320K/MP3][175.29MB]
 
紫薇《旧曲新韵》[FLAC/分轨][550.18MB]
 
周深《反深代词》[先听版][320K/MP3][72.71MB]
 
李佳薇.2024-会发光的【黑籁音乐】【FLAC分轨】


                
            
            
一句话新闻
Windows上运行安卓你用过了吗在去年的5月23日，借助Intel Bridge Technology以及Intel Celadon两项技术的驱动，Intel为PC用户带来了Android On Windows（AOW）平台，并携手国内软件公司腾讯共同推出了腾讯应用宝电脑版，将Windows与安卓两大生态进行了融合，PC的使用体验随即被带入到了一个全新的阶段。

友情链接:杰晶网络 DDR爱好者之家南强小屋黑松山资源网白云城资源网站点导航 SiteMap

饿虎岗资源网手机版