中关村在线

首页 排行 新品 问答 下载 论坛 手机 笔记本 数码相机 主板 显卡 平板电脑 更多

怎么成为一个数据分析师?需要具备哪些技能

举报
讨论回答 (6)
guigui825
dsibetpgdxne
目前很多想从事数据分析的,可能只会Excel,会做透视表,会VBA;进阶一点会写SQL,还懂点业务;再专业一些,有统计学基础,懂回归、时间序列、假设检验等等。这些对于专业的数据分析师,还都差了点火候。
如果你有心想发展成为一个数据分析师,或者说某业务的资深数据分析专家,从技术层面来讲,你需要了解成为一个数据分析师的路径,6个步骤:
第一步:统计、数据、机器学习
关于数学知识,大学课堂会学过一部分,如果是数学科学类的专业会学得更精深。关于统计学知识,还是需要一定思维的锻炼的。机器学习,可以看下西线学院的课程,有公开课。
第二步:编代码
如果希望拥有专业水准的话,从编程基础到端到端的开发,一些技术的语言,比如R、Python、和一些商业软件的SAS、SPSS等,以及深入的交互式学习,这些你至少精通几门,其他懂一些最好。
第三步:懂数据库
数据分析大多应用实际。企业数据常常被保存在MySQL、Oracle、Postgres、MonogoDB、Cassandra等数据库中,所以这些数据库你要了解甚至懂。
第四步:数据管理、数据可视化、数据报告
数据管理包括数据的清洗格加工ETL,目的是让分析前的数据更加准确和清晰,比如DataWrangler
数据可视化数据数据分析的前端展示,目的是让数据呈现更清楚明了,更形象,比如tableau,spotfire
数据报告是通过不同工具将数据展示出来,可以和数据可视化归类一起,但实际应用中大多数都是通过PPT的承载方式来呈现。
目前市面上很多公司都使用商业智能的工具,比如FineBI。
BI工具是数据连接,数据处理和可视化为一体的工具,比起上方的纯工具,能更好的适应业务。
第五步:大数据
大数据是未来的必然趋势,而大数据技术的类型也是多种多样,hadoop,mapreduce,spark等等,多学会一种,层次也就不一样。
第六步:积攒经验,学习同行
以上都是理论和工具,但是实践才是出真知,不管是刚接触数据分析的职场人,还是专业学习数据挖掘分析的你,都希望在学习以上内容的同时,多参加一些比赛,学习同领域的专业大神,训练自己在这方面的感觉。
当然,在实际应用过程中,大多数人不一数据分析为主业,数据分析只是分析业务的一个工具,那第四步的内容已经能够满足日常对业务的分析了,当然Excel和PPT的熟练掌握也是必须的。
zjxc1025
要成为一个数据分析师,你需要掌握一些必要的技能。你需要具备扎实的数学基础,包括统计学、线性代数和概率论等。这些基础知识将帮助你理解和应用各种数据分析方法。
编程技能也是非常重要的。掌握Python、R或SQL等编程语言,可以帮助你进行数据处理和分析。熟悉常用的数据分析工具和库,如Pandas和NumPy等,能够提高你的工作效率。
良好的沟通能力也是一个合格数据分析师所需具备的技能之一。数据分析师经常需要与团队成员、业务人员以及非技术人员进行有效的沟通。清晰地表达分析结果并将其解释给非专业人士是十分重要的。
对领域知识的了解也是成为一名优秀数据分析师必备的技能。深入了解所从事行业的背景和特点将有助于更准确地理解和解读数据。
良好的问题解决能力和逻辑思维也是成功的数据分析师所需具备的技能之一。在面对复杂问题时,能够运用逻辑推理和批判性思维进行分析和解决是非常重要的。
持续学习和更新技能也是成为一个出色的数据分析师的必备品质。数据分析领域发展迅速,新的技术和方法不断涌现。保持学习的态度,紧跟行业动态,不断提升自己的技能和知识储备至关重要。
成为一名优秀的数据分析师需要掌握数学基础、编程技能、良好的沟通能力、领域知识、问题解决能力和持续学习的精神。只有全面发展这些技能,才能在数据分析领域取得成功。记住,数据分析并非一蹴而就,需要不断努力和实践。加油吧!
a522481198
成为优秀的数据分析师你需要具备的技能如下:
数学知识
对于初级数据分析师来说,则需要了解统计相关的基础性内容,公式计算,统计模型等。当你获得一份数据集时,需要先进行了解数据集的质量,进行描述统计。
而对于高级数据分析师,必须具备统计模型的能力,线性代数也要有一定的了解。
分析工具
对于分析工具,SQL 是必须会的,还有要熟悉Excel数据透视表和公式的使用,另外,还要学会一个统计分析工具,SAS作为入门是比较好的,VBA 基本必备,SPSS/SAS/R 至少要熟练使用其中之一,其他分析工具(如 Matlab)可以视情况而定。
编程语言
数据分析领域最热门的两大语言是 R 和 Python。涉及各类统计函数和工具的调用,R无疑有优势。但是大数据量的处理力不足,学习曲线比较陡峭。Python 适用性强,可以将分析的过程脚本化。所以,如果你想在这一领域有所发展,学习 Python 也是相当有必要的。
当然其他编程语言也是需要掌握的。要有独立把数据化为己用的能力, 这其中SQL 是最基本的,你必须会用 SQL 查询数据、会快速写程序分析数据。当然,编程技术不需要达到软件工程师的水平。要想更深入的分析问题你可能还会用到:Exploratory analysis skills、Optimization、Simulation、Machine Learning、Data Mining、Modeling 等。
业务理解
对业务的理解是数据分析师工作的基础,数据的获取方案、指标的选取、还有最终结论的洞察,都依赖于数据分析师对业务本身的理解。
对于初级数据分析师,主要工作是提取数据和做一些简单图表,以及少量的洞察结论,拥有对业务的基本了解就可以。对于高级数据分析师,需要对业务有较为深入的了解,能够基于数据,提炼出有效观点,对实际业务能有所帮助。对于数据挖掘工程师,对业务有基本了解就可以,重点还是需要放在发挥自己的技术能力上。
逻辑思维
对于初级数据分析师,逻辑思维主要体现在数据分析过程中每一步都有目的性,知道自己需要用什么样的手段,达到什么样的目标。对于高级数据分析师,逻辑思维主要体现在搭建完整有效的分析框架,了解分析对象之间的关联关系,清楚每一个指标变化的前因后果,会给业务带来的影响。对于数据挖掘工程师,罗辑思维除了体现在和业务相关的分析工作上,还包括算法逻辑,程序逻辑等,所以对逻辑思维的要求也是最高的。
数据可视化
数据可视化主要借助于图形化手段,清晰有效地传达与沟通信息。听起来很高大上,其实包括的范围很广,做个 PPT 里边放上数据图表也可以算是数据可视化。
对于初级数据分析师,能用 Excel 和 PPT 做出基本的图表和报告,能清楚地展示数据,就达到目标了。对于稍高级的数据分析师,需要使用更有效的数据分析工具,根据实际需求做出或简单或复杂,但适合受众观看的数据可视化内容。
协调沟通
数据分析师不仅需要具备破译数据的能力,也经常被要求向项目经理和部门主管提供有关某些数据点的建议,所以,你需要有较强的交流能力。
对于高级数据分析师,需要开始独立带项目,或者和产品做一些合作,因此除了沟通能力以外,还需要一些项目协调能力。
AC1188
dandan8likai

学习数据分析师之前,你必须清楚自己想要达成什么目标。也就是说,你想通过这门技术来解决哪些问题或实现什么计划。有了这个目标,你才能清晰地开展自己的学习规划,并且明确它的知识体系。只有明确的目标导向,学习必备也是最有用的那部分,才能避免无效信息降低学习效率。
1、明确知识框架和学习路径
数据分析这件事,如果你要成为数据分析师,那么你可以去招聘网站看看,对应的职位的需求是什么,一般来说你就会对应该掌握的知识架构有初步的了解。你可以去看看数据分析师职位,企业对技能需求可总结如下:
SQL数据库的基本操作,会基本的数据管理;
会用Excel/SQL做基本的数据提取、分析和展示;
会用脚本语言进行数据分析,Python or R;
有获取外部数据的能力加分,如爬虫或熟悉公开数据集;
会基本的数据可视化技能,能撰写数据报告;
熟悉常用的数据挖掘算法:回归分析、决策树、分类、聚类方法;
高效的学习路径是什么?就是数据分析的流程。一般大致可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据可视化”这样的步骤来实现一个数据分析师的学成之旅。按这样的顺序循序渐进,你会知道每个部分需要完成的目标是什么,需要学习哪些知识点,哪些知识是暂时不必要的。然后每学习一个部分,你就能够有一些实际的成果输出,有正向的反馈和成就感,你才会愿意花更多的时间投入进去。以解决问题为目标,效率自然不会低。
按照上面的流程,我们分需要获取外部数据和不需要获取外部数据两类分析师,总结学习路径如下:
1.需要获取外部数据分析师:
python基础知识
python爬虫
SQL语言
python科学计算包:pandas、numpy、scipy、scikit-learn
统计学基础
回归分析方法
数据挖掘基本算法:分类、聚类
模型优化:特征提取
数据可视化:seaborn、matplotlib
2.不需要获取外部数据分析师:
SQL语言
python基础知识
python科学计算包:pandas、numpy、scipy、scikit-learn
统计学基础
回归分析方法
数据挖掘基本算法:分类、聚类
模型优化:特征提取
数据可视化:seaborn、matplotlib

接下来我们分别从每一个部分讲讲具体应该学什么、怎么学。
数据获取:公开数据、Python爬虫
如果接触的只是企业数据库里的数据,不需要要获取外部数据的,这个部分可以忽略。
外部数据的获取方式主要有以下两种。
第一种是获取外部的公开数据集,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。
另一种获取外部数据费的方式就是爬虫。
比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的电影列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。
在爬虫之前你需要先了解一些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数(链接的菜鸟教程非常好)……以及如何用成熟的 Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫。如果是初学,建议从 urllib 和 BeautifulSoup 开始。(PS:后续的数据分析也需要 Python 的知识,以后遇到的问题也可以在这个教程查看)
网上的爬虫教程不要太多,爬虫上手推荐豆瓣的网页爬取,一方面是网页结构比较简单,二是豆瓣对爬虫相对比较友好。
掌握基础的爬虫之后,你还需要一些高级技巧,比如正则表达式、模拟用户登录、使用代理、设置爬取频率、使用cookie信息等等,来应对不同网站的反爬虫限制。
除此之外,常用的的电商网站、问答网站、点评网站、二手交易网站、婚恋网站、招聘网站的数据,都是很好的练手方式。这些网站可以获得很有分析意义的数据,最关键的是,有很多成熟的代码,可以参考。
数据存取:SQL语言
你可能有一个疑惑,为什么没有讲到Excel。在应对万以内的数据的时候,Excel对于一般的分析没有问题,一旦数据量大,就会力不从心,数据库就能够很好地解决这个问题。而且大多数的企业,都会以SQL的形式来存储数据,如果你是一个分析师,也需要懂得SQL的操作,能够查询、提取数据。
SQL作为最经典的数据库工具,为海量数据的存储与管理提供可能,并且使数据的提取的效率大大提升。你需要掌握以下技能:
提取特定情况下的数据:企业数据库里的数据一定是大而繁复的,你需要提取你需要的那一部分。比如你可以根据你的需要提取2018年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……,SQL可以通过简单的命令帮你完成这些工作。
数据库的增、删、查、改:这些是数据库最基本的操作,但只要用简单的命令就能够实现,所以你只需要记住命令就好。
数据的分组聚合、如何建立多个表之间的联系:这个部分是SQL的进阶操作,多个表之间的关联,在你处理多维度、多个数据集的时候非常有用,这也让你可以去处理更复杂的数据。
数据预处理:Python(pandas)
很多时候我们拿到的数据是不干净的,数据的重复、缺失、异常值等等,这时候就需要进行数据的清洗,把这些影响分析的数据处理好,才能获得更加精确地分析结果。
比如空气质量的数据,其中有很多天的数据由于设备的原因是没有监测到的,有一些数据是记录重复的,还有一些数据是设备故障时监测无效的。比如用户行为数据,有很多无效的操作对分析没有意义,就需要进行删除。
那么我们需要用相应的方法去处理,比如残缺数据,我们是直接去掉这条数据,还是用临近的值去补全,这些都是需要考虑的问题。
对于数据预处理,学会 pandas 的用法,应对一般的数据清洗就完全没问题了。需要掌握的知识点如下:
选择:数据访问(标签、特定值、布尔索引等)
缺失值处理:对缺失数据行进行删除或填充
重复值处理:重复值的判断与删除
空格和异常值处理:清楚不必要的空格和极端、异常数据
相关操作:描述性统计、Apply、直方图等
合并:符合各种逻辑关系的合并操作
分组:数据划分、分别执行函数、数据重组
Reshaping:快速生成数据透视表
概率论及统计学知识
数据整体分布是怎样的?什么是总体和样本?中位数、众数、均值、方差等基本的统计量如何应用?如果有时间维度的话随着时间的变化是怎样的?如何在不同的场景中做假设检验?数据分析方法大多源于统计学的概念,所以统计学的知识也是必不可少的。需要掌握的知识点如下:
基本统计量:均值、中位数、众数、百分位数、极值等
其他描述性统计量:偏度、方差、标准差、显著性等
其他统计知识:总体和样本、参数和统计量、ErrorBar
概率分布与假设检验:各种分布、假设检验流程
其他概率论知识:条件概率、贝叶斯等
有了统计学的基本知识,你就可以用这些统计量做基本的分析了。通过可视化的方式来描述数据的指标,其实可以得出很多结论了,比如排名前100的是哪些,平均水平是怎样的,近几年的变化趋势如何……
你可以使用python的包 Seaborn(python包)在做这些可视化的分析,你会轻松地画出各种可视化图形,并得出具有指导意义的结果。了解假设检验之后,可以对样本指标与假设的总体指标之间是否存在差别作出判断,已验证结果是否在可接受的范围。
python数据分析
如果你有一些了解的话,就知道目前市面上其实有很多 Python 数据分析的书籍,但每一本都很厚,学习阻力非常大。但其实真正最有用的那部分信息,只是这些书里很少的一部分。比如用 Python 实现不同案例的假设检验,其实你就可以对数据进行很好的验证。
比如掌握回归分析的方法,通过线性回归和逻辑回归,其实你就可以对大多数的数据进行回归分析,并得出相对精确地结论。比如DataCastle的训练竞赛“房价预测”和“职位预测”,都可以通过回归分析实现。这部分需要掌握的知识点如下:
回归分析:线性回归、逻辑回归
基本的分类算法:决策树、随机森林……
基本的聚类算法:k-means……
特征工程基础:如何用特征选择优化模型
调参方法:如何调节参数优化模型
Python 数据分析包:scipy、numpy、scikit-learn等
在数据分析的这个阶段,重点了解回归分析的方法,大多数的问题可以得以解决,利用描述性的统计分析和回归分析,你完全可以得到一个不错的分析结论。
当然,随着你实践量的增多,可能会遇到一些复杂的问题,你就可能需要去了解一些更高级的算法:分类、聚类,然后你会知道面对不同类型的问题的时候更适合用哪种算法模型,对于模型的优化,你需要去学习如何通过特征提取、参数调节来提升预测的精度。这就有点数据挖掘和机器学习的味道了,其实一个好的数据分析师,应该算是一个初级的数据挖掘工程师了。
系统实战
这个时候,你就已经具备了数据分析的基本能力了。但是还要根据不同的案例、不同的业务场景进行实战。能够独立完成分析任务,那么你就已经打败市面上大部分的数据分析师了。
如何进行实战呢?
上面提到的公开数据集,可以找一些自己感兴趣的方向的数据,尝试从不同的角度来分析,看看能够得到哪些有价值的结论。
另一个角度是,你可以从生活、工作中去发现一些可用于分析的问题,比如上面说到的电商、招聘、社交等平台等方向都有着很多可以挖掘的问题。
开始的时候,你可能考虑的问题不是很周全,但随着你经验的积累,慢慢就会找到分析的方向,有哪些一般分析的维度,比如top榜单、平均水平、区域分布、年龄分布、相关性分析、未来趋势预测等等。随着经验的增加,你会有一些自己对于数据的感觉,这就是我们通常说的数据思维了。
你也可以看看行业的分析报告,看看优秀的分析师看待问题的角度和分析问题的维度,其实这并不是一件困难的事情。
在掌握了初级的分析方法之后,也可以尝试做一些数据分析的竞赛,比如 DataCastle 为数据分析师专门定制的三个竞赛,提交答案即可获取评分和排名:
员工离职预测训练赛
美国King County房价预测训练赛
北京PM2.5浓度分析训练赛
种一棵树最好的时间是十年前,其次是现在。现在就去,找一个数据集开始吧!!
展开查看全部 6 条讨论
精品应用推荐
新浪微博 新浪微博 天气通 天气通 淘宝特价版 淘宝特价版 UC浏览器 UC浏览器
相关问题

家电

1.3万 浏览 1044 回答

手机性能天梯榜讨论

4279 浏览 615 回答

显卡

2.1万 浏览 614 回答

硬盘

1.5万 浏览 601 回答

显示器

8953 浏览 587 回答

扩展阅读

告别电量焦虑 vivo Y300 Pro蓝海电池技术全解析

评论 1

告别电量焦虑 vivo Y300 Pro蓝海电池技术全解析

43mm双A镜头画质出众 徕卡Q3 43拍摄体验

评论 1

43mm双A镜头画质出众 徕卡Q3 43拍摄体验

iPhone 16评测:性能够强,续航够长

评论 1

iPhone 16评测:性能够强,续航够长

一局游戏动用两颗芯片,iQOO Z9 Turbo+性能实测体验

评论 1

一局游戏动用两颗芯片,iQOO Z9 Turbo+性能实测体验

年轻人的第一台全画幅微单——佳能EOS R8

评论 30

年轻人的第一台全画幅微单——佳能EOS R8
热门问题

求推荐一款笔记本。工科研究生用,便于随身携带。平时做科研,处理数据,查阅文献。不玩网游和单机,至多玩棋牌游戏和影音。喜欢摄影,需要修图。附加:纠结要不要带数字键盘区。预算最多8000。尽量便宜些。

1.2万 浏览 6 回答

求推荐一款笔记本。工科研究生用,便于随身携带。平时做科研,处理数据,查阅文献。不玩网游和单机,至多玩棋牌游戏和影音。喜欢摄影,需要修图。附加:纠结要不要带数字键盘区。预算最多8000。尽量便宜些。

平面设计一个月工资一般多少

6520 浏览 5 回答

平面设计一个月工资一般多少

256gSSD是否够用?打算买个笔记本,办公为主,查阅文献等。不玩大型游戏,至多玩一些棋牌类游戏和影音娱乐。手里有2T移动硬盘,但也想在笔记本上存少量的电影。平时玩单反,处理图片比较多。

2.3万 浏览 4 回答

256gSSD是否够用?打算买个笔记本,办公为主,查阅文献等。不玩大型游戏,至多玩一些棋牌类游戏和影音娱乐。手里有2T移动硬盘,但也想在笔记本上存少量的电影。平时玩单反,处理图片比较多。

Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ Ⅺ Ⅻ这些数字在电脑键盘上怎么打出来

2.4万 浏览 10 回答

Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ Ⅵ Ⅶ Ⅷ Ⅸ Ⅹ Ⅺ Ⅻ这些数字在电脑键盘上怎么打出来

iphone自带浏览器肿么复制网址

8488 浏览 5 回答

iphone自带浏览器肿么复制网址

公司电脑,安装solidworks,为何点击setup无反应,在自己电脑上是可以安装的

9564 浏览 6 回答

公司电脑,安装solidworks,为何点击setup无反应,在自己电脑上是可以安装的

数码相机怎么用

9万 浏览 4 回答

数码相机怎么用

怎样恢復微信和某个人的聊天记录?

3338 浏览 6 回答

怎样恢復微信和某个人的聊天记录?

激光显示概念股有哪些激光显示概念股一览

9251 浏览 3 回答

激光显示概念股有哪些激光显示概念股一览

怎么在Word中设置首行缩进2字符

6236 浏览 7 回答

怎么在Word中设置首行缩进2字符
最新问答

oppor9sk忘记锁屏密码该肿么刷机,求解答

8626 浏览 2 回答

oppor9sk忘记锁屏密码该肿么刷机,求解答

我用爱奇艺VIP下载了电影,会员到期了,我离线的电影还能看吗???

1.4万 浏览 8 回答

我用爱奇艺VIP下载了电影,会员到期了,我离线的电影还能看吗???

dnf搬砖收益提升的装备和称号 搬砖带什么装备收益

2314 浏览 6 回答

dnf搬砖收益提升的装备和称号 搬砖带什么装备收益

笔记本电脑可否拆卸自带的显示屏,改用外接显示器

9580 浏览 4 回答

笔记本电脑可否拆卸自带的显示屏,改用外接显示器

为何使用按键精灵的时候,明明点了循环到按中止键结束,它还是不会循环?

6284 浏览 6 回答

为何使用按键精灵的时候,明明点了循环到按中止键结束,它还是不会循环?
举报
举报成功

经过核实后将会做出处理,感谢您为社区和谐做出贡献。

请选择删除原因
删除成功
确定推荐该回答?
推荐成功

更多频道

频道导航
辅助工具