行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 数据挖掘 正文

在Python中处理JSON数据

我最近完成了两项工作——基于spark的数据摄取框架和基于spark的数据质量框架;都是元数据驱动的。通常,都是存储在RDBMS中。在数据摄取框架中,我需要存储源(用户名、密码、路径、格式等信息)、目标(用户名、密码、路径、格式等信息)、压缩等参数。在普通模式中,我看到这些参数被建模为表中的列。
 

by Bipin Patwardhan 来源:DZone

作为一名程序员,我决定不使用multiple columns。相反,所有参数将存储在单个column中(作为数据库表中的字符串)。Spark应用程序将负责读取字符串并提取所需的参数。

做出这个(看起来很简单的)决定之后,下一步是定义“参数”字符串的格式。为此,我毫不犹豫地选择了JSON。虽然解析类似于csv的格式很容易,但是JSON提供了很多灵活性——但是要付出一些代价。

在Spark中研究JSON解析的各种选项之后,我使用Scala解析库,开发了一个Scala类来实现这个目的,在编程世界中,完成一项任务的方法不止一种,即使是对于JSON解析,也有许多可用的库,如Json4s、Play JSON、Spray JSON等。

在使用Scala解析JSON之后,我想在Python中尝试一些类似的东西。我发现在Python中JSON解析很简单(本质上就是一个导入和一行代码)。

 

 

由于我们习惯于将简单的事情复杂化,所以我决定将JSON解析逻辑封装在一个名为CustomJSON的类中。

 

微信公众号

声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
SEM推广服务

Copyright©2005-2028 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注

扫码入群
扫码关注

微信公众号

返回顶部