解密!大數據 (Big Data) 與 AI 的依存關係

解密!大數據 (Big Data) 與 AI 的依存關係

Cover_Big data

大數據 (Big Data) 的經典定義

自從1990年代起,大數據(Big Data) 的概念開始經常被人們提及,並在往後的二十年間於各產業中蓬勃發展,不管是在經濟學領域、社會學領域或是科技相關產業都能看到其相關應用。許多人在看到大數據時,無論何種語言,單純名詞認知上容易會將它當成數量非常龐大的資料數據,然而,這個認知其實對大數據而言是不夠精確的。Gartner, Inc. 的分析師在大數據發展的早期就提出一個至目前為止都還經常被提到的大數據定義:3-Vs,就讓我們一起看看以下節錄的部分原文。

“Big data” is high-volume, -velocity and -variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making.

Doug Laney, Analyst, Gartner, Inc.

這段話的意思是,「大數據是大量、高速且類型多變的資訊資產,它需要全新且高效的資訊處理方式以達到更強的訊息洞察力與決策能力。」,其中「Volume (資料量) 」、「Velocity (資料傳輸速度) 」、「Variety (資料類型) 」這三者便被稱為大數據的 3-Vs,而面對此三項特性,會遭遇不同的挑戰,必須擁有其對應能力,才有辦法將大數據的應用發揮的淋漓盡致。

  • 面對 Volume 資料量 :

必須具備處理數量極度龐大、低密度、非結構化資料的能力,才有辦法處理大數據的運算及分析。

  • 面對 Velocity 資料傳輸速度 :

在大數據的環境下,資料通常都需要即時處理才能發揮最大的價值,因此需有相較於傳統資料處理更連續且快速的資料流處理能力。這裡的傳輸速度通常是指資料輸入(接收)與輸出(做出反應)的速度。

  • 面對 Variety 資料類型 :

大數據中的資料來源包羅萬象,從早期的純文字到目前網路上的多媒體資源(圖片、音訊、視訊…等),資料種類的多樣性,增加其分類、運算、分析的難度,因此資料處理能力是非常重要的。

在資訊爆炸的時代,有關大數據概念的資訊也日益更新, 3-Vs 定義在近10年來被業界的權威人士們不斷地挑戰,後期更是加入了「Veracity (資料真實性) 」、「Value (資料價值) 」的 4-Vs 與 5-Vs特性,但當在提及大數據時,最原始的 3-Vs 定義仍然是最常被提及且經典的大數據概念。

Big Data 4V

除了 3-Vs 以外,還能怎麼理解大數據 (Big Data) ?

實際上,大數據 (Big Data) 這個詞彙是一個模糊的概念性名詞,它通常泛指難以用傳統資料處理方式處理的大量數據資料。因為大數據的龐大資料量、複雜程度以及非結構化,傳統資料處理軟體或系統難以去應對並管理大數據資料,然而,隱藏在大數據龐大資料量之下的資訊卻開啟了解決許多以前難以處理的問題的可能性。

Big data usually includes data sets with sizes beyond the ability of commonly used software tools to capture, curate, manage, and process data within a tolerable elapsed time.

大數據 (Big Data) 通常包含了泛用型軟體難以在可接受時間內捕捉、篩選、管理及處理的龐大資料庫。

Snijders, C.; Matzat, U.; Reips, U.-D., 2012

大數據的資料量隨著近年來硬體及軟體發展而不斷累積增加,一份來自國際數據資訊 (International Data Corporation, IDC) 的預測報告指出,全球的資料量在2013至2020年間從 4.4 Zettabytes 指數型成長至了 44 Zettabytes (\(1\) Zettabyte \(= 10^{12}\) GB),預計在2025年時會達到 163 Zettabytes,也就是說,全球的資料量約每2年就會倍增,如何有效去運用這些越來越多的資料就是大數據的重點課題。

所以 … AI 和 Big Data 是什麼關係呢?

簡單來說,AI 和 Big Data 互相彌補了對方的不足:AI,或更精準地來說,機器學習以及深度學習的模型需要非常大量的資料去演算及改進。雖然人們期望大數據能提供資料擁有者更多以前所無法挖掘出的資訊,但若不倚靠 AI 等新型演算法,很難有效率地去管理大數據的資料庫,無法處理大量即時資料的傳統演算法在面對大數據時並沒有任何幫助,這就是 AI 和大數據能互補的主因。當人們需要找出大數據背後有意義的資訊時,先進的 AI 技術能高效地處理大數據並將其導入機器學習或深度學習之中,更加完善其整體模型架構。

Big Data visualization

結論

大數據 (Big Data) 讓人們對新的商業模型及機會有了更多的展望,但資料工程師將資料導入 AI 或機器學習演算法之前,通常需要花費超過 50% 的時間在清理、篩選或是規格化原始資料,如何解決這個資料處理的難題呢?

沒錯,還是 AI! AI 能有效地幫助管理大數據資料

大數據的規模會越來越龐大,以 AI、機器學習及深度學習去管理大數據是未來資料處理的趨勢,現今使用 AI 管理大數據的應用還處於發展階段,而 AI 和大數據也都是目前資料科學領域中重要的研究議題,大數據的管理及發展需要 AI 輔助,而 AI 模型的改善需要大數據的支持,AI 及大數據的互動將會是資料科學領域中不間斷的挑戰。

希望這篇文章讓您對 Big Data 的了解有所幫助,我們會持續提供 AI 相關議題的專欄,感謝您的閱讀。

References:

Related articles:

撰文者:鄭杰峰
美國喬治亞理工學院 電機博士
迎棧科技 技術專欄作家

訂閱電子報

Select list(s)*

 

Loading