啟達大數(shù)據(jù)解決方案基于啟達開發(fā)框架、提供一套全面集成的元計算服務及高內(nèi)聚低耦合的資源整合,支持大數(shù)據(jù)的分布式架構(gòu)的、縱向和橫向的無限切分的高并發(fā)數(shù)據(jù)集合的解決方案。
啟達大數(shù)據(jù)從大數(shù)據(jù)的特征定義理解行業(yè)對大數(shù)據(jù)的整體描繪和定性;從對大數(shù)據(jù)價值的探討來深入解決大數(shù)據(jù)的核心技術(shù);洞悉大數(shù)據(jù)的發(fā)展趨勢;從大數(shù)據(jù)安全與隱私這個特別而重要的視角審視人和數(shù)據(jù)之間的長久博弈。
技術(shù)是大數(shù)據(jù)價值體現(xiàn)的手段和前進的基石。啟達大數(shù)據(jù)解決方案分別從云計算、分布式處理技術(shù)、存儲技術(shù)中抽象、提煉、歸納。形成啟達大數(shù)據(jù)從采集、處理、存儲到形成結(jié)果、查詢統(tǒng)計分析的整個過程。
大數(shù)據(jù)的處理的核心是可無限擴展服務器和與之相對應的分布式算法,數(shù)據(jù)庫分布式,其核心內(nèi)容無非就是數(shù)據(jù)切分(Sharding),以及切分后對數(shù)據(jù)的定位、整合工作,解決單一數(shù)據(jù)庫或數(shù)據(jù)表因數(shù)據(jù)量過大而導致的性能瓶頸問題。集數(shù)據(jù)存儲、管理以及分布式協(xié)調(diào)與計算為一體的數(shù)據(jù)庫系統(tǒng)。數(shù)據(jù)切分就是把數(shù)據(jù)分散存放到多個數(shù)據(jù)庫或多個表中,使得單臺主機中的數(shù)據(jù)量變小,使得通過擴充主機數(shù)量即可提升數(shù)據(jù)庫操作性能的目的。
數(shù)據(jù)切分可分為縱向和橫向兩種切分方法??v向切分就是根據(jù)業(yè)務耦合性,將關(guān)聯(lián)度低的不同表獨立建成不同的數(shù)據(jù)庫,如下圖所示:
縱向切分相對簡單,做法與我們將一個大的系統(tǒng)拆分成幾個小系統(tǒng)的做法相似,就是根據(jù)業(yè)務分類進行獨立劃分應用或數(shù)據(jù)庫。然而當一個應用已經(jīng)難以再進一步拆分時,或者拆分后數(shù)據(jù)行數(shù)巨大時,我們就還需要進行橫向切分(即:將單個表的記錄數(shù)變小)。橫向切分是根據(jù)表內(nèi)數(shù)據(jù)的邏輯關(guān)系,將同一個表按不同的條件拆分到多個數(shù)據(jù)庫或多個表中,如下圖所示:
如上圖所示,橫向切分后同一張表同時出現(xiàn)在多個數(shù)據(jù)庫中,每個庫的數(shù)據(jù)內(nèi)容不同,如何設定數(shù)據(jù)記錄的切分規(guī)則是最重要考量。一旦確定切分規(guī)則,應用對該表的操作原則基本就已確定。
因此大數(shù)據(jù)的終極解決方向為數(shù)據(jù)的橫向切分,理論上由此可以衍生出無數(shù)的分布式數(shù)據(jù)庫,但對于這些切分后的數(shù)據(jù)庫,如何有效的進行調(diào)用、查詢統(tǒng)計等數(shù)據(jù)的調(diào)度,是大數(shù)據(jù)切分的成敗的標志。
啟達大數(shù)據(jù)解決方案提出的可行性方法為,通過系統(tǒng)的config配置,抽象出數(shù)據(jù)的宏觀性標志,將此標志傳遞到系統(tǒng)底層進行運算,同時,在表現(xiàn)層提供相應的大數(shù)據(jù)處理功能,并且在大數(shù)據(jù)調(diào)用過程中,通過啟動開發(fā)框架自動進行處理,即啟達開發(fā)框架底層已經(jīng)預設了大數(shù)據(jù)處理的相關(guān)機制,一旦啟動,即可確保大數(shù)據(jù)在調(diào)度上的穩(wěn)定性、安全性、準確性、高效性