使用PHP抓取微博数据实现demo及原理解析

来自：网络

时间：2023-07-25

阅读：

实现目标

1. 用户发布的微博内容;

2. 用户发布的时间;

3. 用户的名称; (这里我并没有获取)

使用的工具

voku/simple_html_dom x-path

读取工具 (如果不知道怎么获取元素的xpath, 请百度这里不做赘述~)

安装:

composer require voku/simple_html_dom

实现的原理

当你去直接用file_get_contents去抓取微博的网页内容时, 你会被它的访客系统直接拦截, 所以直接用这个方法是不行的;

所以我采用了curl来获取. 当然,直接获取也是不行的, 所以我们要设置一下请求头, 微博对爬虫类的请求头是不会拒绝的,

所以你可以直接抓取到网页;

请求头设置如下:

       'User-Agent: spider'

代码如下:

// 通过这段代码你可以直接获取到微博的(HTML)网页
    public function curlGetWbData()
    {
        // 设置脚本超时时间
        set_time_limit(60);
        // 拉取微博地址
        $getWbUrl = "https://weibo.com/p/1005056447467552/home?profile_ftype=1&is_all=1#_0";
        // 设置curl 请求头
        $header = [
            'User-Agent: spider'
        ];
        $ch = curl_init();                                              // 初始化curl
        curl_setopt($ch, CURLOPT_URL, $getWbUrl);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
        curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);    // 禁止 cURL 验证对等证书
        curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
        curl_setopt($ch, CURLOPT_HTTPHEADER, $header);            // 设置请求头
        $wbContent = curl_exec($ch);
        curl_close($ch);
        // 到这里我们就拿到了微博的网页
        return $wbContent;
    }

拿到微博的网页内容之后, 我们就要对立面的数据进行提取, 因为并不是所有的数据我们都需要;

这里我们提取微博内容微博发布的时间; 现在需要使用x-path来进行提取;

x-path示例:

div[class='WB_cardwrap WB_feed_type S_bg2 WB_feed_like ']

代码如下:

// 这个方法是
public static function actionAddWbData(string $wbContent, string $userID)
{
    $htmlDeal = new HtmlDomParser();    // 处理DOM的对象
    $htmlDeal-&gt;load($wbContent);        // 装载文本
    // 微博VIP和普通用户的class名不一致
    $wbHtml['normal'] = $htmlDeal-&gt;find("div[class='WB_cardwrap WB_feed_type S_bg2 WB_feed_like ']");
    $wbHtml['vip']    = $htmlDeal-&gt;find("div[class='WB_cardwrap WB_feed_type S_bg2 WB_feed_vipcover WB_feed_like ']");
    $wbNum = [];
    foreach ($wbHtml as $item =&gt; $key) {
        if (count($key) &lt;= 0) {
            continue;
        }
        $wbNum[$userID][$item] = self::dealWbContent($key, $userID);
    }
    Yii::info("抓取微博日志记录" . '----' . json_encode($wbNum));
    return $wbNum;
}

以上就是使用PHP抓取微博数据实现demo及原理解析的详细内容，更多关于PHP抓取微博数据的资料请关注其它相关文章！

在PHP开发中，开发者经常会遇到Malformed UTF-8 characters错误。这个错误通常是由于代码中存在无效的UTF-8字符而引起的。本篇博客将为您介绍如何解决这个问题。什么是UTF-8

2024-08-20 21:03:39

总结一下当前thinkphp开发的项目中需要操作mongo：以下是三种tp中操作mongo数据的方法：使用tp中的扩展，方法一Db::connect('dataname')->table('dbname')->insertAll($list);$in

2024-06-09 23:55:16

目录一、什么是XSS攻击二、XSS攻击如何实现一、什么是XSS攻击跨站脚本攻击（Cross-Site Scripting，XSS）是一种常见的Web应用程序安全漏洞。它允许攻击者将恶意脚本注入到受害者

2024-06-09 23:55:13

目录常见方法使用反引号执行使用 exec使用 systemWindows读取外部普通文件时执行系统命令LinuxApache读取外部普通文件时执行系统命令时常见方法使用反引号执行 <?php $resu

2024-06-09 23:55:11

PHP与HTML中实现缓存可以帮助提高网页加载速度和减轻服务器负载。下面是一些常见的PHP与HTML缓存实现方法：1. 服务器端缓存：使用服务器端缓存可以在每次请求时避免重新生成HTM

2024-06-09 23:55:08

在PHP中，使用`exec()`函数执行外部命令时，如果命令执行时间较长，可能会导致CPU占用较高。这是因为`exec()`函数会阻塞当前进程，直到命令执行完成。为了避免这种情况，可以考虑使用

2024-06-09 23:55:06

目录什么是Attributes？如何定义Attributes？如何使用Attributes？预定义的Attributes静态分析工具的支持结论什么是Attributes？Attributes是一种结构化的元数据，可以与类、方法、属

2024-06-09 23:55:03

目录场景描述探索实现方式一探索方式二探索方式三探索方式四探索实现方式二场景描述项目开发中很多地方需要用到唯一编码，比如说订单、卡券、邀请码等等。这些编号是需要严格

2024-06-09 23:55:01

PHP获取客户端真实IP地址，需要根据具体的服务器环境来确定使用哪种方法。目前搜索到的方法，大多是直接贴代码，没有针对不同情况作出说明，有可能导致系统被假IP骗过（IP欺骗）。很多

2024-06-09 23:54:54

目录引言一、内存溢出可能由以下几个原因引起：二、这是一个简单的示例代码，展示了如何处理PHP内存溢出问题：三、解决PHP内存溢出问题的方法如下：引言PHP内存溢出指的是在PHP应用

2024-06-09 23:54:52

要将PHP与微信红包功能集成，您可以使用微信支付提供的红包API来实现。以下是一些步骤供您参考：获取微信支付商户号和API密钥：首先，您需要在微信支付商户平台注册并获取商户号（MCH

2024-06-09 23:54:49

目录1. 控制器中的参数绑定：2. 模型中的参数绑定：3. 原始SQL语句中的参数绑定：4. 参数绑定的占位符：在ThinkPHP中，参数绑定是一种安全的方式，用于处理用户输入，特别是在构建数据库

2024-06-09 23:54:46

1、使用round四舍五入保留小数点后两位$money=168.228;var_dump(round($money,2)); //返回结果 float(168.23)2、使用ceil向上取整四舍五入保留小数点后两位$money3=122.3

2024-06-09 23:54:44

可以使用PHP的exec函数来运行Python文件。exec函数调用系统命令，并返回执行结果。以下是在PHP中运行Python文件的示例代码：<?php// 要执行的Python文件路径$pyfile = "/path/t

2024-06-09 23:54:41

PHP跨域检测类是一种封装了跨域检测逻辑的PHP类。它可以用于在PHP应用程序中检测和处理跨域请求，以确保安全和正常的跨域通信。一个典型的PHP跨域检测类通常会包含以下功能：

2024-06-09 23:54:38

目录思路分析步骤一：文本预处理步骤二：关键字提取步骤三：结果呈现思路分析提取文章关键字是信息检索和自然语言处理中的一个重要任务，它有助于理解文章的主题、内容和重要性，并用

2024-06-09 23:54:35

目录1. 为什么需要分布式锁2. Redis分布式锁简介3. PHP中使用Redis分布式锁4. 参考Hyperf框架中的实现5. 高级主题和优化6. 结论在分布式系统中，保障对共享资源的安全访问是

2024-06-09 23:54:32

当使用PHP提供下载功能时，你需要设置正确的HTTP响应标头来告诉浏览器将文件视为要下载的内容，而不是在浏览器中显示。以下是更详细的步骤：确定要下载的文件路径和文件名：$file =

2024-06-09 23:54:29

可以使用PHP来实现图片防盗链。防盗链是一种措施，用于防止其他网站在未经授权的情况下直接链接到你的图片资源。下面是一种简单的PHP代码示例，可以用来检测并阻止盗链：<?php//

2024-06-09 23:54:27

目录支持版本新特性类型化类常量动态类常量获取添加#[\Override]属性只读修改添加json_validate函数一次 Lint 多个文件支持版本除了庆祝新的版本发布以后，也需要注意一下：PHP

2024-06-09 23:54:24

目录概念基本步骤详细操作问题排除概念要连接Oracle数据库，必须有两个东西，一个PHP官方写的扩展，一个Oracle官方写的客户端PHP是通过扩展去操作oralce客户端连接的服务端数据库

2024-06-09 23:54:23

目录摘要防止用户密码明文被窃听防止数据库被攻破时，用户密码明文被窃取。一些思考如何选择哈希算法强度为什么盐要随机为什么盐要有强度为什么盐可以明文存储php的实现最初

2024-06-09 23:54:19

目录一、什么是文件锁二、PHP文件锁可以用于以下一些常见的应用场景三、示例代码四、应用场景案例一、什么是文件锁PHP文件锁是一种用于控制对文件的并发访问的机制。它可以

2024-06-09 23:54:16

目录引言一、PHP下载文件的基本原理二、实现PHP下载功能1. PHP代码2. 文件路径三、统计下载次数四、完整的PHP下载脚本引言对Web开发人员来说，“下载”功能是一个

2024-06-09 23:54:13

目录一. 使用PHP命令行接口（CLI）二.传递参数三使用系统命令在PHP中，你可以使用命令行工具执行一些任务，比如运行脚本、执行定时任务等。以下是在PHP中使用命令行工具的几种方法

2024-06-09 23:54:11

目录使用 NativePHP 设置场景安装 NativePHP运行开发构建添加本地特性构建发布NativePHP 的注意事项结论PHP 在我心中占据着特殊的位置。它是我的第一份工作，我记得我在家里

2024-06-09 23:54:10

目录前言步骤一：获取直播间信息步骤二：模拟请求步骤三：连接弹幕服务器步骤四：运行脚本前言抖音直播是当今热门的实时互动平台之一，用户在直播间内发送的弹幕消息是互动的关键组成

2024-06-09 23:54:07

一、要在PHP中的header中增加key、sign和timestamp，并实现鉴权可以按照以下步骤进行操作：生成timestamp：使用time()函数获取当前时间戳。生成sign：将需要鉴权的数据（例如请求参数

2024-06-09 23:54:04

一、在PHP中解决中文乱码问题的常见方案有以下几种：设置字符编码：
在你的PHP代码中，可以使用header函数设置正确的字符编码。常见的字符编码是UTF-8，可以使用以下代码将页面的字

2024-06-09 23:54:02

目录一、什么是TCPDF二、要安装TCPDF库三、TCPDF库一、什么是TCPDFTCPDF是一个开源的PHP库，用于创建和处理PDF文件。它允许你在PHP应用程序中动态地生成PDF文档，可以用于生成

2024-06-09 23:54:01

2020-06-09

2020-03-22

2020-10-14

2020-09-03

2020-03-19

2018-08-05

2020-11-01

2018-08-26

2020-12-15

2019-11-17

使用PHP抓取微博数据实现demo及原理解析

目录

实现目标

使用的工具

实现的原理

PHP中的Malformed UTF-8 characters错误解决

thinkphp操作mongo数据的三种方法

使用PHP来防止XSS攻击的方法

详解PHP中如何执行系统命令

php中html缓存的实现详解

php使用exec函数占用cpu较高的解决办法

PHP8使用Attributes管理代码元数据的示例详解

一文解决PHP中生成随机数遇到的重复问题

PHP 获取客户端真实IP地址

关于PHP内存溢出的原因和解决方法

将PHP与微信红包功能集成的实例代码

ThinkPHP防止SQL注入攻击的方法

php保留数字小数点后两位的方法

使用php运行python文件的示例代码

php跨域检测类允许部分域名访问的示例详解

PHP根据文章内容生成关键词自动化Keywords标签

PHP实现Redis分布式锁的示例代码

PHP提供下载功能的详细步骤

基于PHP实现图片防盗链

PHP8.3更新内容新特性及支持版本探究

ThinkPHP连接ORACLE数据库的详细教程

php对用户密码进行加密技巧实例

PHP中文件锁的使用详解

PHP提供下载功能实现案例

PHP中命令行工具的使用详解

NativePHP使用PHP创建桌面应用程序

使用PHP实现抖音直播弹幕抓取的步骤详解

PHP实现简单鉴权的示例代码

php中文乱码和html中文乱码的解决方案

PHP使用TCPDF处理pdf

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道