我是梅干啊
LiangJin0727
大數(shù)據(jù)是眾多學科與統(tǒng)計學交叉產(chǎn)生的一門新興學科。大數(shù)據(jù)牽扯的數(shù)據(jù)挖掘、云計算一類的,所以是計算機一類的專業(yè)。分布比較廣,應(yīng)用行業(yè)較多。
零售業(yè):主要集中在客戶營銷分析上,通過大數(shù)據(jù)技術(shù)可以對客戶的消費信息進行分析。獲知客戶的消費習慣、消費方向等,以便商場做好更合理商品、貨架擺放,規(guī)劃市場營銷方案、產(chǎn)品推薦手段等。
金融業(yè):在金融行業(yè)里頭,數(shù)據(jù)即是生命,其信息系統(tǒng)中積累了大量客戶的交易數(shù)據(jù)。通過大數(shù)據(jù)可以對客戶的行為進行分析、防堵詐騙、金融風險分析等。
醫(yī)療業(yè):通過大數(shù)據(jù)可以輔助分析疫情信息,對應(yīng)做出相應(yīng)的防控措施。對人體健康的趨勢分析在電子病歷、醫(yī)學研發(fā)和臨床試驗中,可提高診斷準確性和藥物有效性等。
制造業(yè):該行業(yè)對大數(shù)據(jù)的需求主要體現(xiàn)在產(chǎn)品研發(fā)與設(shè)計、供應(yīng)鏈管理、生產(chǎn)、售后服務(wù)等。通過數(shù)據(jù)分析,在產(chǎn)品研發(fā)過程中免除掉一些不必要的步驟,并且及時改善產(chǎn)品的制造與組裝的流程。

我叫鑫小鑫
大數(shù)據(jù)前景是很不錯的,像大數(shù)據(jù)這樣的專業(yè)還是一線城市比較好,師資力量跟得上、就業(yè)的薪資也是可觀的,學習大數(shù)據(jù)可以按照路線圖的順序,
學大數(shù)據(jù)關(guān)鍵是找到靠譜的大數(shù)據(jù)培訓機構(gòu),你可以深度了解機構(gòu)的口碑情況,問問周圍知道這家機構(gòu)的人,除了口碑再了解機構(gòu)的以下幾方面:
1.?師資力量雄厚
要想有1+1>2的實際效果,很關(guān)鍵的一點是師資隊伍,你接下來無論是找個工作還是工作中出任哪些的人物角色,都越來越愛你本身的技術(shù)專業(yè)大數(shù)據(jù)技術(shù)性,也許的技術(shù)專業(yè)大數(shù)據(jù)技術(shù)性則絕大多數(shù)來自你的技術(shù)專業(yè)大數(shù)據(jù)教師,一個好的大數(shù)據(jù)培訓機構(gòu)必須具備雄厚的師資力量。
2. 就業(yè)保障完善
實現(xiàn)1+1>2效果的關(guān)鍵在于能夠為你提供良好的發(fā)展平臺,即能夠為你提供良好的就業(yè)保障,讓學員能夠?qū)W到實在實在的知識,并向大數(shù)據(jù)學員提供一對一的就業(yè)指導,確保學員找到自己的心理工作。
3. 學費性價比高
一個好的大數(shù)據(jù)培訓機構(gòu)肯定能給你帶來1+1>2的效果,如果你在一個由專業(yè)的大數(shù)據(jù)教師領(lǐng)導并由大數(shù)據(jù)培訓機構(gòu)自己提供的平臺上工作,你將獲得比以往更多的投資。
希望你早日學有所成。
qianmian1015
1. 第一階段(一般崗位叫數(shù)據(jù)專員)
基本學會excel(VBA最好學會;會做透視表;熟練用篩選、排序、公式),做好PPT。這樣很多傳統(tǒng)公司的數(shù)據(jù)專員已經(jīng)可以做了
2. 第二階段(數(shù)據(jù)專員~數(shù)據(jù)分析師)
這一階段要會SQL,懂業(yè)務(wù),加上第一階段的那些東西。大多數(shù)傳統(tǒng)公司和互聯(lián)網(wǎng)小運營、產(chǎn)品團隊夠用了。
3. 第三階段(數(shù)據(jù)分析師)
統(tǒng)計學熟練(回歸、假設(shè)檢驗、時間序列、簡單蒙特卡羅),可視化,PPT和excel一定要溜。這些技術(shù)就夠了,能應(yīng)付大多數(shù)傳統(tǒng)公司業(yè)務(wù)和互聯(lián)網(wǎng)業(yè)務(wù)。
4. 第四階段(分裂)
數(shù)據(jù)分析師(數(shù)據(jù)科學家)、BI等:這部分一般是精進統(tǒng)計學,熟悉業(yè)務(wù),機器學習會使用(調(diào)參+選模型+優(yōu)化),取數(shù)、ETL、可視化啥的都是基本姿態(tài)。
可視化工程師:這部分國內(nèi)比較少,其實偏重前端,會high charts,, 。技術(shù)發(fā)展路線可以獨立,不在這四階段,可能前端轉(zhuǎn)行更好。
ETL工程師:顧名思義,做ETL的。
大數(shù)據(jù)工程師:熟悉大數(shù)據(jù)技術(shù),hadoop系二代。
數(shù)據(jù)工程師(一部分和數(shù)據(jù)挖掘工程師重合):機器學習精通級別(往往是幾種,不用擔心不是全部,和數(shù)據(jù)分析師側(cè)重點不同,更需要了解組合模型,理論基礎(chǔ)),會組合模型形成數(shù)據(jù)產(chǎn)品;計算機基本知識(包括linux知識、軟件工程等);各類數(shù)據(jù)庫(RDBMS、NoSQL(4大類))
數(shù)據(jù)挖掘:和上基本相同。
爬蟲工程師:顧名思義,最好http協(xié)議、tcp/ip協(xié)議熟悉。技術(shù)發(fā)展路線可以獨立,不在這四階段
發(fā)現(xiàn)回答的有點文不對題額,不過大致是所有從底層數(shù)據(jù)工作者往上發(fā)展的基本路徑。往數(shù)據(jù)發(fā)展的基本學習路徑可以概括為以下內(nèi)容:
1. EXCEL、PPT(必須精通)
數(shù)據(jù)工作者的基本姿態(tài),話說本人技術(shù)并不是很好,但是起碼會操作;要會大膽秀自己,和業(yè)務(wù)部門交流需求,展示分析結(jié)果。技術(shù)上回VBA和數(shù)據(jù)透視就到頂了。
2. 數(shù)據(jù)庫類(必須學)
初級只要會RDBMS就行了,看公司用哪個,用哪個學哪個。沒進公司就學MySQL吧。
NoSQL可以在之后和統(tǒng)計學啥的一起學?;镜腘oSQL血MongoDB和Redis(緩存,嚴格意義上不算數(shù)據(jù)庫),然后(選學)可以了解各類NoSQL,基于圖的數(shù)據(jù)庫Neo4j,基于Column的數(shù)據(jù)庫BigTable,基于key-value的數(shù)據(jù)庫redis/cassendra,基于collection的數(shù)據(jù)庫MongoDB。
3. 統(tǒng)計學(必須學)
如果要學統(tǒng)計學,重要概念是會描述性統(tǒng)計、假設(shè)檢驗、貝葉斯、極大似然法、回歸(特別是廣義線性回歸)、主成分分析。這些個用的比較多。也有學時間序列、bootstrap、非參之類的,這個看自己的意愿。
其他數(shù)學知識:線性代數(shù)常用(是很多后面的基礎(chǔ)),微積分不常用,動力系統(tǒng)、傅里葉分析看自己想進的行業(yè)了。
4. 機器學習(數(shù)據(jù)分析師要求會選、用、調(diào))
常用的是幾個線性分類器、聚類、回歸、隨機森林、貝葉斯;不常用的也稍微了解一下;深度學習視情況學習。
5. 大數(shù)據(jù)(選學,有公司要求的話會用即可,不要求會搭環(huán)境)
hadoop基礎(chǔ),包括hdfs、map-reduce、hive之類;后面接觸spark和storm再說了。
6. 文本類(選學,有公司要求的話會用即可)
這部分不熟,基本要知道次感化、分詞、情感分析啥的。
7. 工具類
語言:非大數(shù)據(jù)類R、Python最多(比較geek的也有用julia的,不差錢和某些公司要求的用SAS、Matlab);大數(shù)據(jù)可能還會用到scala和java。
小兔子lucky
首先,必須明白數(shù)值分析的用途。通常所學的其他數(shù)學類學科都是由公式定理開始,從研究他們的定義,性質(zhì)再到證明與應(yīng)用。但實際上,尤其是工程,物理,化學等其它具體的學科。往往你拿到手的只是通過實驗得到的數(shù)據(jù)。如果是驗證性試驗,需要代回到公式進行分析,驗證。但往往更多面對的是研究性或試探性試驗,無具體公式定理可代。那就必須通過插值,擬合等計算方法進行數(shù)據(jù)處理以得到一個相對可用的一般公式。還有許多計算公式理論上非常復雜,在工程中不實用,所以必須根據(jù)實際情況把它轉(zhuǎn)化成多項式近似表示。這都是數(shù)值分析的任務(wù)。學習數(shù)值分析,不應(yīng)盲目記公式,因為公事通常很長且很乏味。我個人認為,應(yīng)從公式所面臨的問題以及用途出發(fā)。比如插值方法,就是就是把實驗所得的數(shù)據(jù)看成是公式的解(好比函數(shù)圖像上的各個點),由這些解反推出一個近似公式,可以具有局部一般性。再比如說擬合,在插值的基礎(chǔ)上考慮實驗誤差,通過擬合能將誤差盡可能縮小,之后目的也是得到一個具有一定條件下的一般性的公式。好好學吧,數(shù)值分析挺實用,與數(shù)學建模一起構(gòu)成數(shù)學學科中最實用的兩門學科,在工程,經(jīng)濟等許多鄰域都有廣泛的用途。
獨角獸z
數(shù)據(jù)分析工程師+培訓?結(jié)構(gòu)介紹如下:
了解數(shù)據(jù)采集的意義在于真正了解數(shù)據(jù)的原始面貌,包括數(shù)據(jù)產(chǎn)生的時間、條件、格式、內(nèi)容、長度、限制條件等。這會幫助數(shù)據(jù)分析師更有針對性的控制數(shù)據(jù)生產(chǎn)和采集過程,避免由于違反數(shù)據(jù)采集規(guī)則導致的數(shù)據(jù)問題;同時,對數(shù)據(jù)采集邏輯的認識增加了數(shù)據(jù)分析師對數(shù)據(jù)的理解程度,尤其是數(shù)據(jù)中的異常變化。
Omniture中的Prop變量長度只有100個字符,在數(shù)據(jù)采集部署過程中就不能把含有大量中文描述的文字賦值給Prop變量(超過的字符會被截斷)。
在Webtrekk323之前的Pixel版本,單條信息默認最多只能發(fā)送不超過2K的數(shù)據(jù)。當頁面含有過多變量或變量長度有超出限定的情況下,在保持數(shù)據(jù)收集的需求下,通常的解決方案是采用多個sendinfo方法分條發(fā)送;而在325之后的Pixel版本,單條信息默認最多可以發(fā)送7K數(shù)據(jù)量,非常方便的解決了代碼部署中單條信息過載的問題。
當用戶在離線狀態(tài)下使用APP時,數(shù)據(jù)由于無法聯(lián)網(wǎng)而發(fā)出,導致正常時間內(nèi)的數(shù)據(jù)統(tǒng)計分析延遲。直到該設(shè)備下次聯(lián)網(wǎng)時,數(shù)據(jù)才能被發(fā)出并歸入當時的時間。這就產(chǎn)生了不同時間看相同歷史時間的數(shù)據(jù)時會發(fā)生數(shù)據(jù)有出入。
在數(shù)據(jù)采集階段,數(shù)據(jù)分析師需要更多的了解數(shù)據(jù)生產(chǎn)和采集過程中的異常情況,如此才能更好的追本溯源。另外,這也能很大程度上避免“垃圾數(shù)據(jù)進導致垃圾數(shù)據(jù)出”的問題。
優(yōu)質(zhì)工程師考試問答知識庫