
大數(shù)據(jù)的應(yīng)用如今已經(jīng)十分普遍了,作為一名大數(shù)據(jù)程序員,對(duì)于大數(shù)據(jù)應(yīng)用要掌握的知識(shí)還是比較多的,下面重慶達(dá)內(nèi)小編為大家分享3個(gè)大數(shù)據(jù)平臺(tái)應(yīng)用知識(shí),希望能幫助學(xué)習(xí)大數(shù)據(jù)的你.
一、大數(shù)據(jù)分析中的實(shí)時(shí)推薦是如何實(shí)現(xiàn)的?
實(shí)時(shí)推薦需要使用實(shí)時(shí)處理框架結(jié)合推薦算法,從而做到對(duì)數(shù)據(jù)的實(shí)時(shí)處理和推薦。實(shí)時(shí)處理框架有Storm、Flink、SparkStreaming,組件可以對(duì)接Kafka,獲取實(shí)時(shí)流數(shù)據(jù),在實(shí)時(shí)框架內(nèi)部實(shí)現(xiàn)對(duì)數(shù)據(jù)的處理過(guò)程。
1、實(shí)時(shí)推薦需要借助實(shí)時(shí)計(jì)算框架例如Spark或是Strom技術(shù),
2、數(shù)據(jù)采集采用Flume+Kafka作為數(shù)據(jù)緩存和分發(fā)作用
3、同時(shí)還需要有非常適合的實(shí)時(shí)推薦算法,例如基于用戶畫(huà)像的實(shí)時(shí)推薦,或是基于用戶行為的實(shí)施推薦、或是對(duì)商品相識(shí)度的實(shí)施推薦等不同的算法
二、數(shù)據(jù)治理有何高效的處理方法或工具?
數(shù)據(jù)治理沒(méi)有具體的工具和方法,這是一項(xiàng)浩大的工程,可能牽扯到每個(gè)部門(mén),既有技術(shù)人員參與,又要有業(yè)務(wù)人員參與,關(guān)鍵時(shí)刻還要有領(lǐng)導(dǎo)進(jìn)行決策。每個(gè)公司的數(shù)據(jù)情況不同,處理方法也不盡相同,基本的方法是有的,暨通過(guò)對(duì)數(shù)據(jù)的梳理(元數(shù)據(jù)、主數(shù)據(jù)),發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題,再通過(guò)質(zhì)量標(biāo)準(zhǔn)或組織協(xié)調(diào)的方式,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理的。
數(shù)據(jù)治理是一項(xiàng)人力和辛苦活,沒(méi)有捷徑和什么有效的工具,而且在一個(gè)大數(shù)據(jù)項(xiàng)目中,數(shù)據(jù)治理是非常重要的一個(gè)環(huán)節(jié),因?yàn)橹挥袛?shù)據(jù)質(zhì)量滿足前端應(yīng)用需求,才有可能挖掘和分析出準(zhǔn)確的結(jié)果。
具體數(shù)據(jù)處理方法還需要看實(shí)際業(yè)務(wù)情況,例如數(shù)據(jù)庫(kù)、數(shù)據(jù)類(lèi)型、數(shù)據(jù)規(guī)模等
數(shù)據(jù)治理的過(guò)程是一個(gè)對(duì)業(yè)務(wù)系統(tǒng)數(shù)據(jù)梳理的過(guò)程,過(guò)程中發(fā)現(xiàn)的問(wèn)題會(huì)反饋給業(yè)務(wù)部門(mén),同時(shí)還要制定統(tǒng)一的質(zhì)量和稽核標(biāo)準(zhǔn),就好比給每個(gè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)生成線上增加一個(gè)質(zhì)量監(jiān)管員。
三、請(qǐng)問(wèn)在大數(shù)據(jù)平臺(tái)搭建過(guò)后,大數(shù)據(jù)平臺(tái)的運(yùn)維監(jiān)控主要關(guān)注哪些?
大數(shù)據(jù)平臺(tái)的運(yùn)維監(jiān)控主要包括硬件和軟件層面,具體如下:
1、主機(jī)、網(wǎng)絡(luò)、硬盤(pán)、內(nèi)存、CPU等資源。
在擁有幾十臺(tái)以上的集群環(huán)境中,大量的數(shù)據(jù)計(jì)算對(duì)硬件尤其是硬盤(pán)的損耗是較大的,在大量計(jì)算中,網(wǎng)絡(luò)也往往會(huì)成為一個(gè)瓶頸,這些都需要時(shí)刻關(guān)注。
2、平臺(tái)層面
主要監(jiān)控平臺(tái)各個(gè)組件的狀態(tài)、負(fù)載情況,有異常及時(shí)報(bào)警。
3、用戶層面
大數(shù)據(jù)平臺(tái)建設(shè)是為了服務(wù)公司內(nèi)部廣大用戶的,所以資源既是共享的,又需要是隔離的,所以需要對(duì)用戶對(duì)平臺(tái)資源的使用情況做好監(jiān)控,及時(shí)發(fā)現(xiàn)異常使用情況,防止對(duì)其他用戶產(chǎn)生不良影響,影響正常業(yè)務(wù)開(kāi)展。
大數(shù)據(jù)平臺(tái)搭建后,運(yùn)維監(jiān)控的主要內(nèi)容包括
1、分布式架構(gòu)的底層虛擬機(jī)的運(yùn)行情況(CPU、內(nèi)存、網(wǎng)絡(luò)、硬盤(pán)等)
2、各個(gè)組件(HDFS、MR、SPark、Hive、Hbase、IMpla、FLume、Spooq等)的運(yùn)行狀態(tài)和告警信息
更多有關(guān)大數(shù)據(jù)學(xué)習(xí)資訊的信息請(qǐng)關(guān)注我們,在線老師會(huì)免費(fèi)提供試聽(tīng)學(xué)習(xí)資料,在線預(yù)約可享受課程優(yōu)惠,點(diǎn)擊進(jìn)入【重慶達(dá)內(nèi)教育】網(wǎng)站詳細(xì)了解。