晋江市
经验:
学历:大专
一、岗位职责:
1、负责制定网络数据抓取规则,完成数据采集与爬取、清洗、解析处理、入库等数据日常工作;
2、负责传统网页、电商网站、社会化媒体网站等互联网数据的高效采集与正确解析;
3、负责爬虫的核心技术研究与开发和前沿爬虫技术并实践;
4、大规模分布式互联网爬虫系统的开发和维护,优化抓取策略,充分利用带宽资源,避免各类限制,提升网页抓取效率和质量。
二、岗位要求:
1、大专以上学历,计算机及相关专业,2年以上Python开发经验;
2、精通网页抓取原理及技术,熟悉基于Cookie或JWT的网站登录原理,熟悉正则表达式、XPath、CSS等网页信息;
3、精通Python编程语言,精通JavaScript,对HTTP协议及HTML有深入的了解;精通正则表达式,用于从各种网络结构化和非结构化数据中抽取有用的信息;
4、熟练掌握数据库开发,对数据处理和数据质量有较深认识;精通至少一种主流数据NoSQL、MySQL数据库;
5、熟悉Selenium、WebDriver、PhantomJS、htmlunit、Nutch、ETL、HtmlParser等技术优先;有分布式爬虫架构,数据挖掘经验者优先。