数据提取之JSON与JsonPATH的关系

背景介绍我们知道再爬虫的过程中我们对于爬取到的网页数据需要进行解析,因为大多数数据是不需要的,所以我们需要进行数据解析,常用的数据解析方式有正则表达式,xpath,bs4,这次我们来介绍一下另一个数据解析库--jsonpath,在此之前我们需要先了解一下什么是json。

Read More →

一文了解如何揪出并预防AI偏误

任何AI应用的成功都与训练数据密切相关。您不仅需要合适的数据质量和合适的数据量,还要主动确保您的AI工程师没有将自己的潜在偏误传递到开发的产品上。如果工程师任由自己的世界观和成见影响数据集——也许提供仅限于某个统计人群或焦点的数据,依赖AI解决问题的应用系统将同样有偏误、不准确、用处不大。

Read More →

猿辅导xDorisDB:构建统一OLAP平台,全面升级数据分析能力

猿辅导公司的数据中台部门为猿辅导、斑马、猿编程、小猿搜题、猿题库、南瓜科学等各个业务线的产品、运营、研发提供标准化的数据集(OneData)和统一数据服务(OneService)。OLAP平台作为数据中台的一个核心部分,为各个业务线提供统一标准化的、可复用的、高可靠的数据服务,支持各个业务线人员进行快速灵活的查询和分析,是连接前台和后台的桥梁。

Read More →

Excel 竟然还有这种操作:自动同步网站数据

有时我们需要从网站获取一些数据,传统方法是通过复制粘贴,直接粘到 Excel 里。不过由于网页结构不同,并非所有的复制都能有效。有时即便成功了,得到的也是“死数据”,一旦后期有更新,就要不断重复上述操作。能否制作一个随网站自动同步的 Excel 表呢?答案是肯定的,这就是 Excel 里的 Power Query 功能。

Read More →