中心動態
    數云原力大會 | Bill Inmon:數據湖倉,能更好地開展業務,讓客戶更滿意
    2023-05-09

    5月6日,由國家金融與發展實驗室金融科技研究中心學術指導,北京立言金融與發展研究院、神州控股、神州信息、神州數碼集團共同主辦的2023數云原力大會“數據資產•金融核心競爭力”主題論壇在京盛大舉辦。

    作為全球金融科技大會系列論壇之一,本次活動大咖云集。數據倉庫之父、Databricks獨立董事Bill Inmon線上帶來主旨演講:《Lakehouse技術展望》。

    公司的數據一般有三種類型:結構化數據、文本數據和模擬/物聯網數據。這些都是可用于做出商業決策的數據。

    結構化數據大多數是業務運營的基礎數據。文本數據則貫穿于公司的方方面面,可惜的是,幾乎沒人會利用它們。首先,文本數據可能以多種語言的書面或口頭形式存在,像英語、西班牙語、中文、葡萄牙語等等。其次,文本數據有不同的形式:有正式用語,還有俚語、縮略詞以及其他形式的語言。此外,文本數據可能出現在很多場景,例如錄音中,書本上,還可以在互聯網和視頻中。各種地方都可以找到文本數據。文本 ETL技術能夠讀取文本數據后轉化為數據庫可識別的格式。不利用文本 ETL 技術,就沒法對文本數據進行分析。第三種類型的數據就是機器生成的數據。

    你會發現,只有一部分數據有意義。過去,把數據扔進數據湖就好,結果它變成了沼澤。怎樣把沼澤變成有用的東西呢?我們首先需要具備分析型的基礎架構,其次需要給數據湖加載集成整合后的數據。為了幫助數據科學家產出效益,我們需要將數據湖轉換成數據湖倉。

    分析型基礎架構有很多組件,比如元數據,對結構化數據很有用;對于文本數據,有本體論和分類法;對于模擬/物聯網數據,有提煉算法等等。這些組件會使數據湖倉的管理運營工作更加高效。

    文本 ETL 能夠將文本轉換成能夠分析的格式,然后放入數據湖倉;模擬/物聯網數據通過提煉,從中挑出有用的也放進數據湖倉;原始格式的文本無法進行分析,必須將文本轉換為標準數據庫的格式;再把機器生成的數據分離成訪問概率高的數據和訪問概率低的數據,這樣整個分析過程就不會被沒必要的數據所淹沒。

    一般來說,文本數據的數據量遠遠多于結構化數據,而機器生成的數據又遠遠多過文本數據。它們的商業價值也不相同,結構化數據大多有較高的商業價值,文本數據有一部分會有較高商業價值,而機器生成的數據只有極少數有商業價值。

    將具有高可用性和訪問概率高的數據存放到高性能存儲,而將訪問概率不高的數據存放到大容量存儲。當發現大容量存儲中有想要用于分析處理的數據,只需要從大容量存儲中把數據取出存放到高性能存儲,以便分析。歸檔信息也是一樣,將這些數據從高性能系統環境中移出,存放到大容量存儲系統以便于歸檔。這樣也方便數據科學家訪問、使用高性能存儲中的數據。

    數據倉庫和數據湖倉不是一回事,就基礎架構而言,數據倉庫和數據湖倉有關系,但并非同一種東西。而有了數據湖倉,就能更好地開展業務,讓客戶更加滿意。

    5月11日

    “2023數云原力大會

    ——數字金融新征程論壇”

    掃碼預約注冊

    主站蜘蛛池模板: 临朐县| 高台县| 庆云县| 崇义县| 开化县| 瓮安县| 衡山县| 延边| 张家口市| 名山县| 金沙县| 洛隆县| 阿克苏市| 商水县| 浮梁县| 商丘市| 黄冈市| 菏泽市| 牡丹江市| 砀山县| 苏尼特右旗| 正镶白旗| 海林市| 四子王旗| 阿瓦提县| 万山特区| 历史| 遵义市| 沈丘县| 汉沽区| 广汉市| 九台市| 天镇县| 玉山县| 本溪市| 芦山县| 宁强县| 肃南| 邢台县| 苍南县| 将乐县|