摘要:本篇文章探讨了大数据采集之我是如何通过Web爬虫找工作的,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入。
本篇文章探讨了大数据采集之我是如何通过Web爬虫找工作的,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入。
当时我刚从大学毕业,需要找一份工作。那时我不太喜欢社交,因此我决定以我所知道的最佳方法来找工作,即开发一个应用程序,这篇文章就介绍了我是如何做到的。
我打算通过开发应用程序,帮我在Craigslist在找寻软件工程师的相关工作。
Craigslist是美国著名的大型免费分类广告网站,你可以在上面找到东西出售,服务信息,社区帖子等内容。
那时我还从未开发过成熟的应用程序。我在大学里做的学术项目主要是:构建和解析二叉树,计算机图形和简单的语言处理模型等等。
换句话说,我是妥妥的小白。
Python是当下非常热门的新兴编程语言,我不太会Python,但我打算试着学一学。因此,我打算结合这两者,用Python开发一个小型的应用程序。
我是怎么做的
大学毕业后,我哥哥送了我一台明基笔记本电脑,我就用这台电脑进行开发。
这台电脑并不具备最好的开发环境,我用的是Python 2.4和Sublime的旧版本,但从零开始开发应用的过程确实令人振奋。
我不知道我需要做些什么,我在不断地尝试,看会遇到哪些问题。我的第一个挑战就是如何轻松访问Craigslist的数据。
首先,我查看Craigslist是否有公开的REST API,但令我沮丧的是,并没有。但我找到了不错的替代品。
Craigslist有公开供个人使用的RSS feed。RSS feed是网站发送更新的计算机可读摘要。RSS feed能让我获取发布的工作列表,这非常适合我的需求。
RSS feed大概是这样
接下来,我需要阅读这些RSS feed。我不想手动浏览RSS feed,这很耗时,与一页页浏览Craigslist没有什么不同。
这时我开始意识到谷歌的作用。有一个说法是,软件工程师的大部分时间都用在谷歌搜索上,我认为这是有一定道理的。
经过谷歌搜索后,我在StackOverflow上找到了这篇有用的帖子,上面描述了如何搜索Craiglist 的RSS feed,这是Craigslist免费提供的一种过滤功能。我所要做的就是通过特定的参数对感兴趣的关键字进行查询。
遇到的问题
我不认为我的方法能行得通。
首先,列表的数量有限。我的数据未包含西雅图的所有发布的职位,返回的结果仅是一部分。我希望尽可能扩大搜索,因此我需要获得所有可用的工作列表。
其次,我意识到RSS feed 不包含任何联系方式,这太可惜了。我能找到职位发布信息,但除非我手动过滤这些列表,否则我无法联系到这些职位。
Craigslist回复链接的截图
继续迭代
经过第一次失败的尝试,我发现Craigslist有我可以进行爬取的RSS feed,每个帖子都指向实际发布的链接。
如果我可以访问实际的帖子,那么也许我能从中爬到邮箱地址?这意味着我需要找到一种方法来从原始帖子中获取邮件地址。
本文由职坐标整理发布,学习更多的相关知识,请关注职坐标IT知识库!
您输入的评论内容中包含违禁敏感词
我知道了
请输入正确的手机号码
请输入正确的验证码
您今天的短信下发次数太多了,明天再试试吧!
我们会在第一时间安排职业规划师联系您!
您也可以联系我们的职业规划师咨询:
版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
沪公网安备 31011502005948号