DAND“整理 OpenStreetMap 数据”学习总结

讲真,一开始让我写一篇这样的文章我是拒绝的,因为我以前总是觉得,学习是自己的事情,学到多少,学了什么,自己清楚就好。不过,在优达学城近两个月的学习之后,我逐步改变了观点,正如优达优等生互助班所倡导的“探索、自律、分享”的学习理念,实际上学习过程中的积累和分享的过程,也是提升学习兴趣的一个非常重要的点。所以,今天也想在这里汇总一下关于DAND课程里P3项目“整理 OpenStreetMap 数据”这阶段的学习总结,同时也记录一下自己的学习心路历程,这里特别感谢一下优等生互助班导师——鱼头同学的各种鼓励和支持@Clark Yu,非常负责任的一位导师,为了我们的学习进度也是操碎了心 /捂脸

阅读全文

数据科学家与数据工程师

最近看到一篇文章介绍数据科学家和数据工程师的区别,觉得解释的还不错,希望对有兴趣投入数据工作的同学有所启发。

数据科学家和数据工程师的主要区别,可以用ETL和DAD的区别来解释。

● ETL(提取/变换/载入)是数据工程师,还有数据架构师或数据库管理员(DBA)的职责。

阅读全文

Python字典、列表、嵌套、复杂排序

一: 字典排序

解析: 使用sorted 方法, 排序后的结果为一个元组. 可以字符串排序(那数字肯定更没问题了!)

1: 按照键值(value)排序

1
2
a = {'a': 'China', 'c': 'USA', 'b': 'Russia', 'd': 'Canada'}
b = sorted(a.items(), key=lambda x: x[1], reverse=True)

阅读全文

利用Python进行豆瓣影视数据分析

豆瓣影视数据分析

最近学习了Pandas以及相关数据分析的知识,今天尝试使用Pandas对豆瓣影视数据进行分析,数据事先已经通过爬虫抓取,接下来对这个数据进行一些分析,尝试一下数据分析的过程。

定义排名的算法规则

排名规则主要由两个关键字段构成,一个是影评分数,一个是观影人数,通过对这两个值采用统计学的Z-score标准化方法,来计算排名。

这里我们根据rate和audience计算出一个指数index,我们将用index值来作为排序的依据,并将index作为新的column添加到movie_frame中

index值是由rate和audience相加得到的,我们对rate和audience都采用z-score 标准化,即(数值-平均值)/标准差,来保证两个数值都在相等一定范围内。

阅读全文

Python回调函数的理解(转)

作者:桥头堡 链接:https://www.zhihu.com/question/19801131/answer/27459821

阅读全文

shell实现web服务进程监控并自动重启

一、目的需求

根据业务需要,目前负责维护的产品形式基本是属于分布式的,有多个web服务部署在不同项目现场,针对这些web服务的维护就成了比较麻烦的事情。为了保障系统服务,之前已经采用LNMP+zabbix的方案搭建了一套web服务监控系统,可以方便的查看各项目的web服务状态,方便及时发现问题并解决。
采用Grafana的前端监控界面(比zabbix自带的图表好看点 - -):
1.png

阅读全文

在列表、字典、集合中根据条件筛选数据

在列表、字典、集合中根据条件筛选数据

通用解法:迭代

如何在列表、字典、集合中根据条件筛选数据?通常我们的做法是使用迭代。

阅读全文

git学习笔记

git命令:

git add xxx 添加文件

git commit -m “Manual” 提交修改并添加说明,Manual对应本次修改的内容

git log –pretty=oneline 显示提交日志,完整版本号

阅读全文

Hello HEXO

本着不折腾不死的精神,费了6个小时,终于把HEXO + github pages的博客搭建起来了,虽然搭建教程一大堆,不过,有些问题还是得自己摸索去解决。不过其实最费时间的其实是注册域名的过程,这里吐槽一下西部数码域名商,域名管理功能实在是差劲,本来早就屯了4个域名,心想这次能用上了,结果各种域名过户失败,导致无法修改DNS解析,提交工单也只是说让重试。一气之下,直接重新在阿里云注册了.com域名,并顺利做好DNS解析(真的不是广告~逃)

阅读全文

Beatiful Soup的效率问题

今天写爬虫的时候看bs4的官方文档,说使用lxml作为解析器比使用内置解析器速度快很多,于是写了个函数测试了一下,但不知道为什么,测试跑出来的结果刚好相反,暂时未找到原因,先做下记录后续继续研究。 图 1

阅读全文