用Python爬取公众号历史所有文章，看这篇就够了

85 阅读 0 评论 0 点赞

在Python中，爬取微信公众号的历史所有文章是一个比较常见的需求。以下是一个简单的示例，展示如何使用Python爬取微信公众号的文章。需要注意的是，爬虫行为需要遵守网站的robots.txt协议，并遵循相关法律法规。

环境准备

首先，我们需要安装一些必要的库，主要是requests和BeautifulSoup。可以通过下面的命令安装：

pip install requests beautifulsoup4

爬取微信公众号历史文章

下面是一个简单的示例代码，用于爬取指定微信公众号的历史文章。微信公众号通常有一定的反爬机制，因此这个示例仅供学习目的。

import requests
from bs4 import BeautifulSoup
import json
import time

def get_articles(weixin_id):
    url = f"https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz={weixin_id}&scene=124#wechat_redirect"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36',
    }
    response = requests.get(url, headers=headers)

    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        json_data = json.loads(soup.find('script', text=lambda x: x and 'feed_list' in x).string)
        articles = json_data['general_msg_list']
        return articles
    else:
        print("页面加载失败")
        return None

def parse_articles(articles):
    for article in articles:
        article_title = article['title']
        article_url = article['url']
        print(f"标题: {article_title}")
        print(f"链接: {article_url}")
        print("="*50)

if __name__ == "__main__":
    weixin_id = '你的公众号对应的biz代码'
    articles = get_articles(weixin_id)

    if articles:
        parse_articles(articles)

代码解析

导入库：我们需要导入requests、BeautifulSoup，以及json来处理网页内容。
获取文章：
- 定义了函数get_articles，用于获取指定公众号的文章。
- 构造请求URL，同时设置请求头以模拟浏览器行为。
- 使用requests.get获取网页响应，并检查响应状态码。
- 利用BeautifulSoup解析HTML，找到包含文章列表的JSON字符串，并将其加载为Python对象。
解析文章：
- 定义了函数parse_articles，用于解析和打印文章的标题及链接。
运行爬虫：
- 在主程序中，指定要爬取的微信公众号的biz代码，并调用获取文章和解析文章的函数。

注意事项

反爬机制：微信公众号对于频繁访问的IP有反爬机制，因此在实际使用中，应合理控制访问频率，避免造成封禁。
数据合法性：爬取的数据仅供学习和研究使用，不得用于商业用途，确保遵循相关法律法规。
Headers设置：在请求时设置合适的User-Agent可以降低被识别为爬虫的风险。
动态分页：某些公众号的文章可能会采用动态加载的方式，需要使用Selenium等工具处理。

总结

通过本示例，我们学会了如何使用Python爬取微信公众号的历史文章。虽然这只是一个简单的爬虫示例，实际应用中可能会遇到更复杂的问题，但掌握基本的思路和工具是非常有帮助的。

点赞(0) 打赏

本文分类：后端
本文标签：爬虫 python Python 实战
浏览次数：85 次浏览
发布日期：2024-09-23 00:58:54
本文链接：http://makehui.com/houduan/643.html

用Python爬取公众号历史所有文章，看这篇就够了

环境准备

爬取微信公众号历史文章

代码解析

注意事项

总结

微信扫一扫：分享

【Py/Java/C++三种语言OD独家2024E卷真题】20天拿下华为OD笔试之【模拟】2024E-转骰子【欧弟算法】全网注释最详细分类最全的华为OD真题题解

初级爬虫实战——巴黎圣母院新闻

Python 3.12 环境搭建（Windows版）

Python 列表全方位解析：创建、操作、删除与遍历的全面指南

微信扫一扫：分享