Hellobi Live |R语言爬虫实战案例分享:网易云课堂、知乎live、今日头条、B站视频

Hellobi Live |R语言爬虫实战案例分享:网易云课堂、知乎live、今日头条、B站视频

网络数据抓取是数据科学中获取数据中的重要途径,但是一直以来受制于高门槛,都是专业程序员的专属技能。

19.9 领券免费学习 点击领取 245 人学习

系统学习人工智能加入SVIP https://www.hellobi.com/svip

课程名称

R语言爬虫实战案例分享:网易云课堂、知乎live、今日头条、B站视频

网络数据抓取是数据科学中获取数据中的重要途径,但是一直以来受制于高门槛,都是专业程序员的专属技能。直到R语言和Python这种函数式编程语言的兴起,爬虫技能又从新引起数据分析人员的兴趣。

但是从目前的发展趋势来看,数据科学中的爬虫使用者,一直都被Python语言把持着。Python中不仅有着urllib、requests这样优秀的网络请求库,而且有着像lxml、BeautifulSoup那样强大的网页解析库,还有像Scrapy这样的工程框架。在爬虫领域里,R语言沦为数据分析初学者小打小闹的玩具,大量的在线课程、畅销书都是关于Python的,而涉及R语言爬虫的教材仅有《基于R语言的自动数据收集》一本。

但是R语言中也有RCurl这样的直接基于liburl爬虫C库的底层爬虫请求包,还有httr这样的短小精悍的新锐请求库,有像XML、rvest(xml2)这样高效的网页解析库,支持主流网页解析语法——Xpath、css表达式,支持Rwebdriver、RRSelenium浏览器驱动框架。

受制于R语言爬虫受众人数太少、生态圈过于狭窄,R语言的现有爬虫工具那些高阶功能少有人问津。这些工具组合足以让你的数据抓取流程在Python中一样游刃有余,信手拈来。至于那些高级反爬虫技巧(高级代理、并发与多进程、验证码识别等)从来都不是工具可以解决的,需要你基于个人经验和web前端知识,自己构建支持框架来绕过反爬。

 【温馨提示:1. 你可以在PC端浏览器或者微信收藏该页面,以方便你快速找到这个课程;2. 课程相关资料&QQ会员群可在课程PC端公告查看下载;3.购买课程后,点(课时)列表即可观看视频 】

嘉宾介绍

杜雨,EasyCharts团队成员,EasyCharts公众号及知乎专栏特约撰稿人。R语言中文社区专栏作者,微信公众号——“数据小魔方”创始人。兴趣方向为:Excel商务图表,R语言数据可视化,地理信息数据可视化。每天会为您推送Excel商务图表、R语言可视化及数据可视化精彩案例。个人公众号:数据小魔方(微信ID:datamofang)

博客专栏:https://ask.hellobi.com/blog/datamofang

分享内容

本次课程所有内容及案例均来自于本人平时学习练习过程中的心得和笔记总结,希望借此机会,将自己的爬虫学习历程与大家分享,并为R语言的爬虫生态改善以及工具的推广,贡献一份微薄之力,也是自己爬虫学习的阶段性总结。

课程大纲

一、爬虫的概念及基本流程

二、网络请求

2、常用网络请求的基本类型

2.1、GET请求详解

2.1.1参数传递

2.2、POST请求详解

2.2.1、application/x-www-form-urlencoded

2.2.2、application/json

2.2.3、text/xml

2.2.4、multipart/form-data

2.3、开发者工具与抓包分析基本流程

2.3.1、Chrome后台开发者工具

2.3.2、抓包报头参数分析(请求报头与相应报头)

2.3.3、Postman请求器的基本使用

2.4、RCurl/httr构造基本网络请求方法

2.4.1、GET请求构造(RCurl+httr)

2.4.2、POST请求构造(RCurl+httr)

2.4.3、快捷高阶函数(readtable、readlists、getlinks)

 

三、网页解析详解

3.1、json与xml结构数据结构分析

3.2、异常处理与循环跳出

3.3、Xpath公式

3.4、css表达式

3.5、二进制文件下载(pdf\jpg\mp3\mp4)

3.6、关系表入库(MYSQL)

3.7、lsit解析与非结构化数据存储(mongoDB)

3.8、基于反反爬虫的一些建议

3.9、显式循环、向量化函数、并行运算在数据爬取中的好处

 

四、实战案例

4.1、网易云课堂

4.2、知乎live

4.3、今日头条行业报告

4.4、B站视频信息

 

学习进阶建议:

1、正则表达式

2、自建IP代理池

3、学习Rwebdriver、RRSelenium浏览器驱动框架


友情提示:  

1、PC端如果发现浏览器无法观看课程,建议使用谷歌浏览器观看;移动端建议直接微信打开课程页面

2、如果购买后下次登录提示课程需要重新购买,一般是因为你把登录账户记成你绑定的手机或者邮箱帐号而混淆了。

3、【在微信购买课程的用户注意】请微信收藏课程页面或者关注微信公众号:天善智能(点“我的”即可查看你已购买的课程),已方便下次学习。

4、课程相关资料&QQ会员群可在课程PC端公告查看下载;

5、 本课程虚拟商品,已经购买,不能退款。建议先试听章节的,有疑问可咨询客服天善九号:tianshansvip 

6、加入学习后请添加客服微信:tianshansvip(请注明:公司+职位+姓名),邀请你加入微信课程群

天善九号.jpg


改版

反馈