大数据采集之我是如何通过Web爬虫找工作的
沉沙 2019-02-19 来源 : 阅读 717 评论 0

摘要:本篇文章探讨了大数据采集之我是如何通过Web爬虫找工作的,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入。

本篇文章探讨了大数据采集之我是如何通过Web爬虫找工作的,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入。

大数据采集之我是如何通过Web爬虫找工作的


当时我刚从大学毕业,需要找一份工作。那时我不太喜欢社交,因此我决定以我所知道的最佳方法来找工作,即开发一个应用程序,这篇文章就介绍了我是如何做到的。




我打算通过开发应用程序,帮我在Craigslist在找寻软件工程师的相关工作。


Craigslist是美国著名的大型免费分类广告网站,你可以在上面找到东西出售,服务信息,社区帖子等内容。



那时我还从未开发过成熟的应用程序。我在大学里做的学术项目主要是:构建和解析二叉树,计算机图形和简单的语言处理模型等等。


换句话说,我是妥妥的小白。


Python是当下非常热门的新兴编程语言,我不太会Python,但我打算试着学一学。因此,我打算结合这两者,用Python开发一个小型的应用程序。



我是怎么做的


大学毕业后,我哥哥送了我一台明基笔记本电脑,我就用这台电脑进行开发。


这台电脑并不具备最好的开发环境,我用的是Python 2.4和Sublime的旧版本,但从零开始开发应用的过程确实令人振奋。


我不知道我需要做些什么,我在不断地尝试,看会遇到哪些问题。我的第一个挑战就是如何轻松访问Craigslist的数据。


首先,我查看Craigslist是否有公开的REST API,但令我沮丧的是,并没有。但我找到了不错的替代品。


Craigslist有公开供个人使用的RSS feed。RSS feed是网站发送更新的计算机可读摘要。RSS feed能让我获取发布的工作列表,这非常适合我的需求。



RSS feed大概是这样


接下来,我需要阅读这些RSS feed。我不想手动浏览RSS feed,这很耗时,与一页页浏览Craigslist没有什么不同。


这时我开始意识到谷歌的作用。有一个说法是,软件工程师的大部分时间都用在谷歌搜索上,我认为这是有一定道理的。


经过谷歌搜索后,我在StackOverflow上找到了这篇有用的帖子,上面描述了如何搜索Craiglist 的RSS feed,这是Craigslist免费提供的一种过滤功能。我所要做的就是通过特定的参数对感兴趣的关键字进行查询。


西雅图的RSS feed中标题中包含"software"的内容


遇到的问题


我不认为我的方法能行得通。


首先,列表的数量有限。我的数据未包含西雅图的所有发布的职位,返回的结果仅是一部分。我希望尽可能扩大搜索,因此我需要获得所有可用的工作列表。


其次,我意识到RSS feed 不包含任何联系方式,这太可惜了。我能找到职位发布信息,但除非我手动过滤这些列表,否则我无法联系到这些职位。


Craigslist回复链接的截图


继续迭代


经过第一次失败的尝试,我发现Craigslist有我可以进行爬取的RSS feed,每个帖子都指向实际发布的链接。


如果我可以访问实际的帖子,那么也许我能从中爬到邮箱地址?这意味着我需要找到一种方法来从原始帖子中获取邮件地址。


本文由职坐标整理发布,学习更多的相关知识,请关注职坐标IT知识库!

本文由 @沉沙 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程