鑫寶貝66
1. 第一階段(一般崗位叫數(shù)據(jù)專員)
基本學(xué)會excel(VBA最好學(xué)會;會做透視表;熟練用篩選、排序、公式),做好PPT。這樣很多傳統(tǒng)公司的數(shù)據(jù)專員已經(jīng)可以做了
2. 第二階段(數(shù)據(jù)專員~數(shù)據(jù)分析師)
這一階段要會SQL,懂業(yè)務(wù),加上第一階段的那些東西。大多數(shù)傳統(tǒng)公司和互聯(lián)網(wǎng)小運(yùn)營、產(chǎn)品團(tuán)隊夠用了。
3. 第三階段(數(shù)據(jù)分析師)
統(tǒng)計學(xué)熟練(回歸、假設(shè)檢驗、時間序列、簡單蒙特卡羅),可視化,PPT和excel一定要溜。這些技術(shù)就夠了,能應(yīng)付大多數(shù)傳統(tǒng)公司業(yè)務(wù)和互聯(lián)網(wǎng)業(yè)務(wù)。
4. 第四階段(分裂)
數(shù)據(jù)分析師(數(shù)據(jù)科學(xué)家)、BI等:這部分一般是精進(jìn)統(tǒng)計學(xué),熟悉業(yè)務(wù),機(jī)器學(xué)習(xí)會使用(調(diào)參+選模型+優(yōu)化),取數(shù)、ETL、可視化啥的都是基本姿態(tài)。
可視化工程師:這部分國內(nèi)比較少,其實偏重前端,會high charts,, 。技術(shù)發(fā)展路線可以獨(dú)立,不在這四階段,可能前端轉(zhuǎn)行更好。
ETL工程師:顧名思義,做ETL的。
大數(shù)據(jù)工程師:熟悉大數(shù)據(jù)技術(shù),hadoop系二代。
數(shù)據(jù)工程師(一部分和數(shù)據(jù)挖掘工程師重合):機(jī)器學(xué)習(xí)精通級別(往往是幾種,不用擔(dān)心不是全部,和數(shù)據(jù)分析師側(cè)重點(diǎn)不同,更需要了解組合模型,理論基礎(chǔ)),會組合模型形成數(shù)據(jù)產(chǎn)品;計算機(jī)基本知識(包括linux知識、軟件工程等);各類數(shù)據(jù)庫(RDBMS、NoSQL(4大類))
數(shù)據(jù)挖掘:和上基本相同。
爬蟲工程師:顧名思義,最好http協(xié)議、tcp/ip協(xié)議熟悉。技術(shù)發(fā)展路線可以獨(dú)立,不在這四階段
發(fā)現(xiàn)回答的有點(diǎn)文不對題額,不過大致是所有從底層數(shù)據(jù)工作者往上發(fā)展的基本路徑。往數(shù)據(jù)發(fā)展的基本學(xué)習(xí)路徑可以概括為以下內(nèi)容:
1. EXCEL、PPT(必須精通)
數(shù)據(jù)工作者的基本姿態(tài),話說本人技術(shù)并不是很好,但是起碼會操作;要會大膽秀自己,和業(yè)務(wù)部門交流需求,展示分析結(jié)果。技術(shù)上回VBA和數(shù)據(jù)透視就到頂了。
2. 數(shù)據(jù)庫類(必須學(xué))
初級只要會RDBMS就行了,看公司用哪個,用哪個學(xué)哪個。沒進(jìn)公司就學(xué)MySQL吧。
NoSQL可以在之后和統(tǒng)計學(xué)啥的一起學(xué)?;镜腘oSQL血MongoDB和Redis(緩存,嚴(yán)格意義上不算數(shù)據(jù)庫),然后(選學(xué))可以了解各類NoSQL,基于圖的數(shù)據(jù)庫Neo4j,基于Column的數(shù)據(jù)庫BigTable,基于key-value的數(shù)據(jù)庫redis/cassendra,基于collection的數(shù)據(jù)庫MongoDB。
3. 統(tǒng)計學(xué)(必須學(xué))
如果要學(xué)統(tǒng)計學(xué),重要概念是會描述性統(tǒng)計、假設(shè)檢驗、貝葉斯、極大似然法、回歸(特別是廣義線性回歸)、主成分分析。這些個用的比較多。也有學(xué)時間序列、bootstrap、非參之類的,這個看自己的意愿。
其他數(shù)學(xué)知識:線性代數(shù)常用(是很多后面的基礎(chǔ)),微積分不常用,動力系統(tǒng)、傅里葉分析看自己想進(jìn)的行業(yè)了。
4. 機(jī)器學(xué)習(xí)(數(shù)據(jù)分析師要求會選、用、調(diào))
常用的是幾個線性分類器、聚類、回歸、隨機(jī)森林、貝葉斯;不常用的也稍微了解一下;深度學(xué)習(xí)視情況學(xué)習(xí)。
5. 大數(shù)據(jù)(選學(xué),有公司要求的話會用即可,不要求會搭環(huán)境)
hadoop基礎(chǔ),包括hdfs、map-reduce、hive之類;后面接觸spark和storm再說了。
6. 文本類(選學(xué),有公司要求的話會用即可)
這部分不熟,基本要知道次感化、分詞、情感分析啥的。
7. 工具類
語言:非大數(shù)據(jù)類R、Python最多(比較geek的也有用julia的,不差錢和某些公司要求的用SAS、Matlab);大數(shù)據(jù)可能還會用到scala和java。

喵布拉基
1. 第一階段(一般崗位叫數(shù)據(jù)專員)
基本學(xué)會excel(VBA最好學(xué)會;會做透視表;熟練用篩選、排序、公式),做好PPT。這樣很多傳統(tǒng)公司的數(shù)據(jù)專員已經(jīng)可以做了
2. 第二階段(數(shù)據(jù)專員~數(shù)據(jù)分析師)
這一階段要會SQL,懂業(yè)務(wù),加上第一階段的那些東西。大多數(shù)傳統(tǒng)公司和互聯(lián)網(wǎng)小運(yùn)營、產(chǎn)品團(tuán)隊夠用了。
3. 第三階段(數(shù)據(jù)分析師)
統(tǒng)計學(xué)熟練(回歸、假設(shè)檢驗、時間序列、簡單蒙特卡羅),可視化,PPT和excel一定要溜。這些技術(shù)就夠了,能應(yīng)付大多數(shù)傳統(tǒng)公司業(yè)務(wù)和互聯(lián)網(wǎng)業(yè)務(wù)。
4. 第四階段(分裂)
精品窗簾
像你從零開始來學(xué)習(xí)的話,可能需要下夠足夠的功夫才可以了,如果你想要掌握真正的技能與技巧的話,建議你還是掌握更多的技術(shù),掌握更多的能力,只有這樣才能獲得更多更好。更全面的數(shù)據(jù)分析能力才能更快的找到適合自己的工作。
Nightwish陽光
第三節(jié) 延伸預(yù)測法 用延伸預(yù)測法進(jìn)行預(yù)測須具有以下條件: 一是預(yù)測變量的過去、現(xiàn)在和將來的客觀條件基本保持不變,歷史數(shù)據(jù)解釋的規(guī)律可以延續(xù)到未來。 二是預(yù)測變量的發(fā)展過程是漸變的,而不是跳躍式的或大起大落的。 延伸預(yù)測法包括簡單移動平均法、指數(shù)平滑法、成長曲線模型、季節(jié)波動模型等,其基本方法是時間序列預(yù)測。 在市場預(yù)測中,經(jīng)常遇到按時間排列的統(tǒng)計數(shù)據(jù),如按月份、季度和年度統(tǒng)計的數(shù)據(jù),稱為時間序列。時間序列預(yù)測就是通過對預(yù)測目標(biāo)本身時間序列的處理,研究預(yù)測目標(biāo)的變化趨勢。 一、簡單移動平均法 簡單移動平均法是以過去某一段時期的數(shù)據(jù)平均值作為將來某時期預(yù)測值的一種方法。該方法按對過去若干歷史數(shù)據(jù)求算術(shù)平均數(shù),并把該數(shù)據(jù)作為以后時期的預(yù)測值。 (一)簡單移動平均公式 簡單移動平均可以表述為:f=∑x/n 其中:f是預(yù)測數(shù), n是在計算移動平均值時所使用的歷史數(shù)據(jù)的數(shù)目,即移動時段的長度 為了進(jìn)行預(yù)測,需要對每一個t計算出相應(yīng)的Ft+1,所有計算得出的數(shù)據(jù)形成一個新的數(shù)據(jù)序列。經(jīng)過兩到三次同樣的處理,歷史數(shù)據(jù)序列的變化模式將會被揭示出來。這個變化趨勢較原始數(shù)據(jù)變化幅度小,因此,移動平均法從方法論上分類屬于平滑技術(shù)。 (二)n的選擇 采用移動平均法進(jìn)行預(yù)測,實際工作中平均數(shù)的時期數(shù) n 的選擇非常重要。這也是移動平均的難點(diǎn)。 不同n的選擇對所計算的平均數(shù)是有較大影響的。 n值越小,表明對近期觀測值預(yù)測的作用越重視,預(yù)測值對數(shù)據(jù)變化的反應(yīng)速度也越快,但預(yù)測的修勻程度較低,估計值的精度也可能降低。 n值越大,預(yù)測值的修勻程度越高,但對數(shù)據(jù)變化的反映程度較慢。 因此,n值的選擇無法二者兼顧,應(yīng)視具體情況而定。 n一般在3—200之間,視序列ざ群馱げ餑勘昵榭齠ā?BR>一般對水平型數(shù)據(jù),n值的選取較為隨意;一般情況下,如果考慮到歷序列中含有大量隨機(jī)成分,或者序列的基本發(fā)展趨勢變化不大,則n應(yīng)取大一點(diǎn)。對于具有趨勢性或階躍型特點(diǎn)的數(shù)據(jù),為提高預(yù)測值對數(shù)據(jù)變化的反應(yīng)速度,減少預(yù)測誤差,n值取較小一些,以使移動平均值更能反映目前的發(fā)展變化趨勢。 (三)簡單移動平均的應(yīng)用范圍 移動平均法只適用于短期預(yù)測,在大多數(shù)情況下只用于以月度或周為單位的近期預(yù)測。簡單移動平均法的另外一個主要用途是對原始數(shù)據(jù)進(jìn)行預(yù)處理,以消除數(shù)據(jù)中的異常因素或除去數(shù)據(jù)中的周期變動成分。類似于季節(jié)指數(shù)趨勢法的前幾步。 二、指數(shù)平滑法 指數(shù)平滑法又稱指數(shù)加權(quán)平均法,實際是加權(quán)的移動平均法,它是選取各時期權(quán)重數(shù)值為遞減指數(shù)數(shù)列的均值方法。指數(shù)平滑法解決了移動平均法需要幾個觀測值和不考慮t—n前時期數(shù)據(jù)的缺點(diǎn),通過某種平均方式,消除歷史統(tǒng)計序列中的隨機(jī)波動,找出其中主要的發(fā)展趨勢。 (一)指數(shù)平滑法公式 對時間序列x1、x2、x3、……,xn,一次平滑指數(shù)公式為: F=αx+(1-α )Ft-1 式中 α——是平滑系數(shù),0<α<1; xt——是歷史數(shù)據(jù)序列x在t時的觀測值; F,和F是t時和t—1時的平滑值。 一次指數(shù)平滑法又稱簡單指數(shù)平滑,是一種較為靈活的時間序列預(yù)測方法,這種方法在計算預(yù)測值時對于歷史數(shù)據(jù)的觀測值給予不同的權(quán)重。這種方法與簡單移動平均法相似,兩者之間的區(qū)別在于簡單指數(shù)平滑法對先前預(yù)測結(jié)果的誤差進(jìn)行了修正,因此這種方法和簡單移動平均法一樣,都能夠提供簡單適時的預(yù)測。 一次指數(shù)平滑法適用于市場觀測呈水平波動,無明顯上升或下降趨勢情況下的預(yù)測,它以本期指數(shù)平滑值作為下期的觀測值,預(yù)測模型為: x’t+1=Ft 亦即 x’t+1 =αx +(1-α) (二)平滑系數(shù)。 平滑系數(shù)。實際上是前一觀測值和當(dāng)前觀測值之間的權(quán)重。 當(dāng)α接近于1時,新的預(yù)測值對前一個預(yù)測值的誤差進(jìn)行了較大的修正;當(dāng)α=1時,F(xiàn)t+1=xt,即t期平滑 值就等于t期觀測值。 當(dāng)α接近于0時,新預(yù)測值只包含較小的誤差修正因素; 當(dāng)α=0時,F(xiàn)t+1=Ft,即本期預(yù)測值就等于上期預(yù)測值。 研究表明大的α值導(dǎo)致較小的 平滑效果,而較小的α值會產(chǎn)生客觀的平滑效果。因此,在簡單指數(shù)平滑方法的應(yīng)用 過程中,α值對預(yù)測結(jié)果所產(chǎn)生的影響不亞于簡單移動平均法中n的影響。 一般情況下,觀測值呈較穩(wěn)定的水平發(fā)展,α值取0.1-0.3之間;觀測值波動較 大時,α值取0.3—0.5之間;觀測值呈波動很大時,α值取0.5-0.8之間。 (三)初始值Fo的確定 從指數(shù)平滑法的計算公式可以看出,指數(shù)平滑法是一個迭代計算過程,用該法進(jìn) 行預(yù)測,首先必須確定初始值Fo值,它實質(zhì)上應(yīng)該是序列起點(diǎn)t=0以前所有歷史數(shù)據(jù) 的加權(quán)平均值。 一般采用這樣的方法處理:當(dāng)時間序列期數(shù)在20個以上時,初始值 對預(yù)測結(jié)果的影響很小,可用第一期的觀測值代替,即Fo=x1;當(dāng)時間序列期數(shù)在20 個以下時,初始值對預(yù)測結(jié)果有一定影響,可取前3-5個觀測值的平均值代替,如: Fo= (x1+x 2+X3) /3。 三、成長曲線模型 產(chǎn)品生命周期理論揭示產(chǎn)品市場的發(fā)展具有一個成長的過程,要經(jīng)歷導(dǎo)入期、成長期、成熟期和衰退期四個階段。對產(chǎn)品市場演變趨勢的預(yù)測,可以運(yùn)用成長曲線(又稱為增長曲線)預(yù)測模型進(jìn)行預(yù)測。 (一)成長曲線模型 Yt =e(k+abt)(k>0,b>0) 該模型稱為龔泊茲曲線,它反映了時間序列呈現(xiàn)S型增長曲線,即初期增長緩慢,接著以較大幅度增長,隨后趨于穩(wěn)定水平。它與產(chǎn)品生命周期曲線非常相似,可以用來預(yù)測產(chǎn)品市場的周期變化。 (二)計算過程(略) 四、季節(jié)變動分析 季節(jié)變動,是指市場需求由于自然條件、消費(fèi)習(xí)慣等因素的作用,隨著季節(jié)的轉(zhuǎn)變而呈現(xiàn)出周期性的變化,它在每年都重復(fù)出現(xiàn),表現(xiàn)為逐年同月(或季)有相同的變化方向和大致相同的變化幅度。 掌握市場需求的季節(jié)變化規(guī)律,是合理預(yù)測市場需求的前提。季節(jié)變動按照數(shù)據(jù)的時間序列,有升降趨勢和水平趨勢,季節(jié)變動分析包括季節(jié)指數(shù)趨勢法和季節(jié)指數(shù)水平法兩種。 (一)季節(jié)指數(shù)水平法 預(yù)測模型: Yt=Yft 式中 Y——為時序的平均水平,ft為季節(jié)指數(shù)。 Y可以是預(yù)測前一年的月(季)平均水平,也可以是已知年份所有數(shù)據(jù)月(或季)的平均水平。ft稱為季節(jié)比或季節(jié)指數(shù)、季節(jié)系數(shù),它表示季節(jié)變動的數(shù)量狀態(tài)。 季節(jié)指數(shù)水平法適用于無明顯的上升或下降變動趨勢,主要受季節(jié)變動和不規(guī)則變動影響的時間序列,它一般需要3-5年分月(或季度)的歷史數(shù)據(jù)資料。 季節(jié)指數(shù)水平法預(yù)測的一般程序為: (1)數(shù)據(jù)分析,形成數(shù)據(jù)序列; (2)計算各年同月(或季)的平均值yi; (3)計算所有年所有月(或季)的平均值Y; (4)計算各月(或季)的季節(jié)比率ft=Yi/Y; (5)計算預(yù)期趨勢值,一般采用最近年份的平均值Yt-1; (6)計算預(yù)測年各月(季)的預(yù)測值Yt= Yt-1*ft (二)季節(jié)指數(shù)趨勢法 市場需求量存在季節(jié)變動,同時各年水平或同月(或季)水平呈現(xiàn)上升或下降的趨勢,這時不能采用指數(shù)水平法,而應(yīng)該采用季節(jié)指數(shù)趨勢法。 其預(yù)測模型為: Y=(a+bt)ft 式中(a+bt)為時間序列的線性趨勢變動部分,ft為季節(jié)指數(shù)。 季節(jié)指數(shù)趨勢法的基本思路是,先分離出不含季節(jié)周期變動的長期趨勢,再計算季節(jié)指數(shù),最后建立預(yù)測模型。其基本步驟是: (1)以一年的季度數(shù)4或月數(shù)12為n,對觀測值時間序列進(jìn)行n項移動平均。 (2)由于n為偶數(shù),應(yīng)再對相鄰兩期的移動平均再平均后對正,形成新的序列Mt,以此為長期趨勢。 (3)將各期觀測值除去同期移動均值為季節(jié)比率, ft=Yt/Mt,以消除趨勢。 (4)將各年同季(或月)的季節(jié)比率平均,季節(jié)平均比率fi消除不規(guī)則變動,i表示季度或月份。 (5)計算時間序列線性趨勢預(yù)測值X’t,模型為: X’t=a+bt 式中 b=(Mt末尾項—Mt首項)/Mt項數(shù) a=[∑y-b*∑t]/n
優(yōu)質(zhì)工程師考試問答知識庫