數據科學
數據科學(粵拼:sou3 geoi3 fo1 hok6 | 英文:data science)係一個跨學科科學領域,重點研究運用科學方法同各種演算法,由有結構或者冇結構嘅 data 嗰度搵出有用知識[1][2]。
諗頭
編輯睇埋:大數據
有人指,數據科學係科學嘅第四範式(fourth paradigm):本嚟科學係以實證、理論同計算為重嘅,廿一世紀初就喺呢三樣之上加多個「數據」[4];數據科學會運用數學、統計學、機械學習、以及訊息科學等領域嘅技術,由手上嘅數據當中抽取有用嘅知識,並且攞嚟喺有經濟價值嘅地方嗰度使用(例:根據手上數據,呢柞變數之間成噉嘅關係,呢個預測現象嘅能力可以作乜商業用途?)[5]。數據科學係伴隨廿一世紀資訊科技而嚟嘅-隨住互聯網發達,有大量數據喺網上流動(睇埋大數據),於是有唔少人開始想利用呢啲數據做有用嘅嘢,數據科學就隨住呢股趨勢而興起[6][7]。
工序
編輯睇埋:人工智能
做數據科學嘅工序如下[8]:
- 諗清楚要解決嘅問題係乜。例:家陣有個數據科學家,俾人請佢幫手做市場研究,佢首先要搞清楚份研究想達到乜目的(搞清楚消費者鍾意同唔鍾意件產品啲乜,再按呢個資訊改良件產品)。
- 做一啲探索性質(exploratory)嘅分析,諗吓手上嘅數據解答到乜嘢同目的相關嘅問題。例:手上個數據庫有一大柞消費者嘅數據,知道每個消費者對件產品喺各方面嘅評價,計劃可以試吓做聚類分析將消費者分做若干類。
- 建立一啲數學模型,描述柞數據入面有啲乜嘢規律喺當中。例:用機械學習演算法做返咗個聚類分析,結果係消費者可以按照佢哋對件產品各方面嘅評價分做三大類。
- 匯報個結果(尤其係步驟 3 嘅結果)俾相關人員聽,將數據視覺化,等啲數據易睇。
- 講吓個結果有乜嘢影響-即係知道咗呢個結果,目前嘅做嘢方法要有乜嘢改變先可以更有效噉達到目的。例:知道咗消費者可以分做三類,產品設計要點改變先可以令消費者更加滿意?
睇埋
編輯參考
編輯
- Understanding The 4 V's Of Big Data, Forbes,呢篇文講到大數據有 4V,即係指數據量大(volume)、花款多(variety)、攞得快(velocity)、而且有時難核實(veracity)。
- Cielen, D., Meysman, A., & Ali, M. (2016). Introducing data science: big data, machine learning, and more, using Python tools. Manning Publications Co.
- Grus, J. (2019). Data science from scratch: first principles with python. O'Reilly Media.
引述
編輯- ↑ Dhar, V. (2013). "Data science and prediction". Communications of the ACM. 56 (12): 64–73.
- ↑ Jeff Leek (12 December 2013). "The key word in "Data Science" is not Data, it is Science 互聯網檔案館嘅歸檔,歸檔日期2018年8月21號,.". Simply Statistics.
- ↑ Leskovec, Jure; Rajaraman, Anand; Ullman, Jeffrey David. Mining of Massive Datasets (PDF) (Preprint of 3rd ed.). Cambridge University Press. p. 1.
- ↑ Tansley, S., & Tolle, K. M. (2009). The fourth paradigm: data-intensive scientific discovery (Vol. 1). A. J. Hey (Ed.). Redmond, WA: Microsoft research.
- ↑ Hayashi, Chikio (1 January 1998). "What is Data Science? Fundamental Concepts and a Heuristic Example". In Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, Noboru; Tanaka, Yutaka; Baba, Yasumasa (eds.). Data Science, Classification, and Related Methods. Studies in Classification, Data Analysis, and Knowledge Organization. Springer Japan. pp. 40–51.
- ↑ Bell, G.; Hey, T.; Szalay, A. (2009). "COMPUTER SCIENCE: Beyond the Data Deluge". Science. 323 (5919): 1297–1298.
- ↑ "ASA Statement on the Role of Statistics in Data Science". AMSTATNEWS. American Statistical Association.
- ↑ A Design Thinking Mindset for Data Science. Towards Data Science
拎
編輯- (英文) Towards Data Science