大数据采集之用python爬取 20w 表情包-职坐标

大数据采集之用python爬取 20w 表情包

沉沙 2019-10-14 来源：阅读 3463 评论 0

摘要：本篇文章探讨了大数据采集之用python爬取 20w 表情包，希望阅读本篇文章以后大家有所收获，帮助大家对相关内容的理解更加深入。

本篇文章探讨了大数据采集之用python爬取 20w 表情包，希望阅读本篇文章以后大家有所收获，帮助大家对相关内容的理解更加深入。

大数据采集之用python爬取 20w 表情包

是这样的

有一次想要斗图

配图

就在网上搜索表情包

然后发现了一个表情巨多的网站

不小心动起了邪念

产生了兴趣

那就

把它们存下来吧

用 requests 请求了一下

发现这个网站没有做反爬

发现这里有 4k+ 的页面

简单的切换一下页面

可以发现

第一页的链接是这样的

https://fabiaoqing.com/biaoqing/lists/page/1.html

所以以此类推

构建一下所有url

_url = 'https://fabiaoqing.com/biaoqing/lists/page/{page}.html'

这样我们就可以得到所有表情包的链接了

我们来看一下页面里面的信息

在这里

我们只需要图片的地址和图片的名称即可

所以我们只要获取到每个页面的

所有 img 标签就可以了

可以使用 BeautifulSoup 根据类名获取

response = requests.get(url)

拿到了页面里面的所有 img

那么就可以获取每个图片的地址和名称

从而下载到我们想要的位置

  for img in img_list:

至此

几行代码就搞定了

先来测试一下

下载一个页面的图片

可以发现

每张图片都获取到了

效果还行

不过

要下载那么多张表情包的话

这样写的代码有点慢了

还是开启多线程吧

对于这种 IO 操作

还是能加快不少下载时间的

 queue = Queue()

在这里创建了 DownloadBiaoqingbao 这个线程类

然后创建 10 个线程

把 url 添加到队列中

来运行一下

这时候文件夹就写入表情包啦

经过一段时间

小帅b的文件夹就存满了各种表情包了哈哈哈

谁敢跟我斗图

我就砸死他

不过呢

有个问题

文件夹里面的图片太多了

需要检索一下才行

比如我们要找到关于

小老弟

的表情包

那么我们可以使用

glob

import globfor name in glob.glob('/home/wistbean/biaoqingbao/*小老弟*.*'):    print(name)

通过 * 这个符号进行模糊匹配

运行一下可以得到所有含有“小老弟”的表情包

到这里

已经有了大量的表情包

也可以通过关键词检索到表情包了

那么如何进一步用到微信来呢

嘿嘿，我得意的笑

开下脑洞

我们使用微信的接口和 python 对接一下

比如

我发送给我的微信说

我要关于沙雕的表情包，发 6 张来

这个时候

python接收到指令

然后就去检索表情包

发送回我的微信

可以使用 itchat 这个模块

使用网页版微信的方式登录

itchat.auto_login(hotReload=True)
itchat.run()

运行这段代码可以得到二维码

扫一下就可以登录进去操作微信了

接着就可以根据小帅b发送过来的关键词

进行文件搜索

imgs = []def searchImage(text):
    print('收到关键词: ', text)    for name in glob.glob('/home/wistbean/biaoqingbao/*'+text+'*.jpg'):
        imgs.append(name)

然后就可以在回复微信的时候发送图片给自己了

在这里就给自己发前 6 张图片吧

@itchat.msg_register([PICTURE, TEXT])def text_reply(msg):
    searchImage(msg.text)    for img in imgs[:6]:
        msg.user.send_image(img)
        time.sleep(0.3)
        print('开始发送表情：', img)
    imgs.clear()

但这里有个问题

就是 itchat 在发送图片的时候

中文名的文件发了没有反应

后来小帅b发现是 requests 库的问题

修改它的 fields.py

value = email.utils.encode_rfc2231(value, 'utf-8')    # value = '%s*=%s' % (name, value)    value = '%s=""%s""' % (name, value.encode('utf-8'))

也就是将

value = '%s*=%s' % (name, value)

改成

value = '%s=""%s""' % (name, value.encode('utf-8'))

搞定

以上

当然还可以优化一下

比如每次加载更多同类型的表情包

将表情包发送给特定的人等等

自己去玩吧

大数据采集之用python爬取 20w 表情包

本文由职坐标整理发布，学习更多的相关知识，请关注职坐标IT知识库！

大数据的本质是挖掘大数据采集平台大数据采集方法

本文由 @沉沙发布于职坐标。未经许可，禁止转载。

喜欢 | 0

不喜欢 | 0

看完这篇文章有何感觉？已经有0人表态，0%的人喜欢快给朋友分享吧~

后参与评论

加入IT交流圈

JAVA工程师交流群 +加入

大数据架构师交流群 +加入

人工智能Python交流群 +加入

WEB/H5前端交流群 +加入

大数据云计算 直通车

资料领取
答疑解惑
技术交流
职业测评
面试技巧
高薪秘笈

海同专业团队更多>>

黄骈联系TA

认证System Analyst，System Architect

张浩联系TA

15年全栈技术研发经验，中南大学、湖南师大等10+所高校特聘讲师

热门就业技能更多>>

【零基础】人工智能+Python全栈开发技术

大数据采集30天热搜词更多>>

大数据采集方法大数据的本质是挖掘大数据采集平台 matlab从入门到精通 matlab程序实例数据采集系统解决方案 csdn 大数据算法模型表格数据收集大数据数据采集技术人工智能大数据算法设备数据采集方案如何采集数据数据挖掘十大算法大数据采集计划 matlab编程技巧 ni数据采集技术十讲大数据采集系统大数据采集软件数据采集系统设计方案大疆数据采集