首頁 > 精品范文 > 數(shù)據(jù)分析統(tǒng)計學(xué)方法
時間:2023-07-23 09:15:44
序論:寫作是一種深度的自我表達(dá)。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來了七篇數(shù)據(jù)分析統(tǒng)計學(xué)方法范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創(chuàng)作。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)分析;數(shù)理統(tǒng)計
基金項目:華北理工大學(xué)研究生教育教學(xué)改革項目資助(項目編號:K1503)
基金項目:華北理工大學(xué)教育教學(xué)改革研究與實踐重點項目資助(項目編號:Z1514-05;J 1509-09)
G643;O21-4
谷歌公司的經(jīng)濟(jì)學(xué)家兼加州大學(xué)的教授哈爾?范里安先生過去說過統(tǒng)計學(xué)家將會成為像電腦工程師一樣受歡迎的工作。在未來10年里,人們獲得數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù)、判斷數(shù)據(jù)、提取信息的能力將變得非常重要,不僅僅在教育領(lǐng)域,各行各業(yè)都需要數(shù)據(jù)專家,“大數(shù)據(jù)”時代的到來使得數(shù)據(jù)處理與分析技術(shù)日新月異,深刻的影響著各個行業(yè)、領(lǐng)域及學(xué)科的發(fā)展,尤其是與數(shù)據(jù)關(guān)系密切的行業(yè)及學(xué)科,而作為工科各專業(yè)碩士研究生重要的公共基礎(chǔ)課數(shù)理統(tǒng)計學(xué)是天生與數(shù)據(jù)打交道的學(xué)科。
怎樣在“大數(shù)據(jù)”時代背景下培養(yǎng)出適應(yīng)面向企業(yè)自主創(chuàng)新需求的數(shù)據(jù)分析人員或掌握現(xiàn)代數(shù)據(jù)處理技術(shù)的工程師,如何把當(dāng)下流行的“大數(shù)據(jù)”處理技術(shù)與相關(guān)數(shù)理統(tǒng)計學(xué)課程教學(xué)有機(jī)的結(jié)合,以激發(fā)學(xué)生對數(shù)據(jù)處理與分析技術(shù)發(fā)展的興趣,這些都是我們在與數(shù)理統(tǒng)計學(xué)相關(guān)的課程教學(xué)中不得不思考的問題。然而,當(dāng)前高校工科各專業(yè)碩士研究生數(shù)理統(tǒng)計教學(xué)的現(xiàn)狀卻與其重要程度相去甚遠(yuǎn),整個教學(xué)過程的諸多環(huán)節(jié)都存在較大的不足,主要表現(xiàn)為:1.教學(xué)內(nèi)容偏重理論,學(xué)生學(xué)習(xí)興趣不高;2. 輕統(tǒng)計實驗;忽略對統(tǒng)計相關(guān)軟件的教學(xué);3.沒有注重數(shù)理統(tǒng)計的學(xué)習(xí)與研究生專業(yè)相結(jié)合,實用性強(qiáng)調(diào)不夠。4. 輕能力培養(yǎng);輕案例分析等。
這些現(xiàn)象導(dǎo)致的直接后果就是學(xué)生動手能力上的缺陷和創(chuàng)新能力的缺乏, 不能夠自覺利用數(shù)理統(tǒng)計知識解決實際問題, 尤其缺乏對統(tǒng)計數(shù)據(jù)的分析能力。因此,需要數(shù)理統(tǒng)計學(xué)隨著環(huán)境的變化不斷創(chuàng)新新的數(shù)理統(tǒng)計思維和教學(xué)內(nèi)容。避免教學(xué)內(nèi)容與大數(shù)據(jù)時代脫節(jié)。為此筆者在該課程的教學(xué)過程中,有意識地進(jìn)行了一些教學(xué)改革嘗試。提出了幾點工科研究生數(shù)理統(tǒng)計教學(xué)的改革措施。
(1)調(diào)整教學(xué)內(nèi)容,將與數(shù)理統(tǒng)計相關(guān)的大數(shù)據(jù)處理案例引進(jìn)課堂。有很多有普遍性的應(yīng)用統(tǒng)計實際案例,可以在本課程的教學(xué)過程中有選擇的引入介紹給學(xué)生,讓學(xué)生們了解利用所學(xué)統(tǒng)計方法進(jìn)行實際數(shù)據(jù)分析的操作過程和得出結(jié)論的思維方法。以期解決工科研究生對確定性思維到隨機(jī)性思維方式的轉(zhuǎn)變的不適應(yīng)性。
(2)適應(yīng)大數(shù)據(jù)時代數(shù)理統(tǒng)計學(xué)課程的教學(xué)環(huán)境。實現(xiàn)教學(xué)方式的多樣性。大數(shù)據(jù)時代背景下,互聯(lián)網(wǎng)十分發(fā)達(dá),學(xué)生根據(jù)自己的興趣去收集、整理和分析數(shù)據(jù),既可以改變他們對統(tǒng)計方法的進(jìn)一步認(rèn)識,也可以增加他們的學(xué)習(xí)興趣。甚至可以以專業(yè)QQ群,郵件的方式和同學(xué)、老師之間相互交流,交流者處于相互平等的地位,可以暢所欲言,隨時隨地都可以交流,起到事半功倍的效果。這種交流使得教師不再是知識的權(quán)威,而是把教師上課作為一種更好自主學(xué)習(xí)的引導(dǎo),這種交流使得他們的思想變得更加成熟。同時參與各種網(wǎng)絡(luò)論壇,貼吧回答問題等使得他們更能體現(xiàn)自己的價值,這種交流也使得學(xué)生的學(xué)習(xí)熱情和學(xué)習(xí)精神得到更好的激發(fā)。
(3)引導(dǎo)工科研究生開展與本專業(yè)相結(jié)合的課題研究,強(qiáng)調(diào)實用性,注重統(tǒng)計思維能力培養(yǎng)。適應(yīng)大數(shù)據(jù)時代數(shù)理統(tǒng)計學(xué)課程教學(xué)環(huán)境,實現(xiàn)教學(xué)方式的多樣性。以期彌補(bǔ)學(xué)生缺少數(shù)據(jù)分析實例的訓(xùn)練,解決學(xué)以致用的不足。在目前的數(shù)理統(tǒng)計教學(xué)安排下,受學(xué)時所限,如果相當(dāng)一部分時間用來學(xué)習(xí)公式、定理的推導(dǎo)及證明,勢必沒有時間進(jìn)行實際的數(shù)據(jù)分析練習(xí)。在大數(shù)據(jù)時代背景下,隨著海量數(shù)據(jù)、復(fù)雜形式數(shù)據(jù)的出現(xiàn),使得統(tǒng)計方法的發(fā)展和以前有了很大的不同,沒有實際的數(shù)據(jù)分析訓(xùn)練,學(xué)生們就無法對統(tǒng)計的廣泛應(yīng)用性及重要性有深刻的體會,也不利于保持和提高他們的學(xué)習(xí)興趣。這要求具體工作者提出新的統(tǒng)計思想和方法,加深對已有統(tǒng)計思想的理解,以解決實際問題。
(4)改革成績評定方式?,F(xiàn)有的考試模式為通過有限的一到兩個小時的期末考試,進(jìn)行概念的辨析和理論及方法的推導(dǎo)計算,由此來判斷研究生關(guān)于數(shù)理統(tǒng)計課程的學(xué)習(xí)情況有很大的不足,特別是對可以利用軟件進(jìn)行的某些實際數(shù)據(jù)分析的考察沒有辦法實現(xiàn)。因此,有必要通過日常課堂“論文選題―提交―討論”與期末理論考試相結(jié)合的形式對學(xué)生數(shù)理統(tǒng)計學(xué)習(xí)進(jìn)行考核。加大對學(xué)生平時考察的力度,相應(yīng)地減少期末考試成績的比重。讓學(xué)生選擇一些與自己專業(yè)有關(guān)的數(shù)據(jù)進(jìn)行嘗試性的數(shù)據(jù)分析、一些統(tǒng)計科普著作的讀書報告等并寫成論文的形式提交,做為對學(xué)生成績的評定方式,更能綜合、客觀地評價學(xué)生的學(xué)習(xí)情況。
數(shù)據(jù)分析在現(xiàn)代生活中發(fā)揮的作用越來越大,而道磽臣品椒可以與數(shù)據(jù)分析有機(jī)的結(jié)合,從而在提高數(shù)據(jù)分析效率的同時,保持分析結(jié)果的有效性,為生產(chǎn)和實踐活動提供準(zhǔn)確的參考。以上的思考和建議僅是我們在教學(xué)研究和教學(xué)過程中的一點體會,還有許多工作亟待深入,比如適合工科研究生數(shù)理統(tǒng)計課程的大數(shù)據(jù)案例選取,與課程內(nèi)容的有效銜接;案例教學(xué)法如何實施;教學(xué)方式多樣化問題;課堂教學(xué)與網(wǎng)絡(luò)交流結(jié)合;理論介紹與軟件應(yīng)用訓(xùn)練結(jié)合問題等。教學(xué)改革與實踐是一項艱巨的任務(wù),以培養(yǎng)學(xué)生的實際運用能力和正確解釋數(shù)據(jù)分析結(jié)果的能力為目的,強(qiáng)調(diào)統(tǒng)計思想和方法應(yīng)用的培養(yǎng),讓學(xué)生們了解利用所學(xué)統(tǒng)計方法進(jìn)行實際數(shù)據(jù)分析的操作過程和得出結(jié)論的思維方法將是一項長期的工作。
參考文獻(xiàn)
[1].游士兵,張 佩,姚雪梅.大數(shù)據(jù)對統(tǒng)計學(xué)的挑戰(zhàn)和機(jī)遇[J].珞珈管理評論, 2013, ( 02): 165-171.
統(tǒng)計學(xué)研究的對象是數(shù)據(jù),數(shù)據(jù)科學(xué)顧名思義也是以數(shù)據(jù)為研究對象,這產(chǎn)生一種直觀的錯覺,似乎數(shù)據(jù)科學(xué)與統(tǒng)計學(xué)之間存在某種與生俱來的淵源關(guān)系。Wu(1998)直言不諱,數(shù)據(jù)科學(xué)就是統(tǒng)計學(xué)的重命名,相應(yīng)地,數(shù)據(jù)科學(xué)家替代了統(tǒng)計學(xué)家這個稱謂。若此,那是什么促成了這種名義上的替代?顯然僅僅因為數(shù)據(jù)量大本身并不足以促成“統(tǒng)計學(xué)”向“數(shù)據(jù)科學(xué)”的轉(zhuǎn)變,數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)這些概念似乎就已經(jīng)足夠了。問題的關(guān)鍵在于,二者所指的“數(shù)據(jù)”并非同一概念,數(shù)據(jù)②本身是一個很寬泛的概念,只要是對客觀事物記錄下來的、可以鑒別的符號都可以稱之為數(shù)據(jù),包括數(shù)字、文字、音頻、視頻等等。統(tǒng)計學(xué)研究的數(shù)據(jù)雖然類型豐富,如類別數(shù)據(jù)、有序數(shù)據(jù)等定性數(shù)據(jù),定距數(shù)據(jù)、定比數(shù)據(jù)等定量數(shù)據(jù),但這些都是結(jié)構(gòu)化數(shù)據(jù);數(shù)據(jù)科學(xué)所謂的數(shù)據(jù)則更為寬泛,不僅包括這些傳統(tǒng)的結(jié)構(gòu)型數(shù)據(jù),而且還包括文本、圖像、視頻、音頻、網(wǎng)絡(luò)日志等非結(jié)構(gòu)型和半結(jié)構(gòu)型數(shù)據(jù),即,大數(shù)據(jù)。大數(shù)據(jù)(以半/非結(jié)構(gòu)型數(shù)據(jù)為主)使基于關(guān)系型數(shù)據(jù)庫的傳統(tǒng)分析工具很難發(fā)揮作用,或者說傳統(tǒng)的數(shù)據(jù)庫和統(tǒng)計分析方法很難在可容忍的時間范圍內(nèi)完成存儲、管理和分析等一系列數(shù)據(jù)處理過程,為了有效地處理這類數(shù)據(jù),需要一種新的范式———數(shù)據(jù)科學(xué)。真正意義上的現(xiàn)代統(tǒng)計學(xué)是從處理小數(shù)據(jù)、不完美的實驗等這類現(xiàn)實問題發(fā)展起來的,而數(shù)據(jù)科學(xué)是因為處理大數(shù)據(jù)這類現(xiàn)實問題而興起的。因此數(shù)據(jù)科學(xué)的研究對象是大數(shù)據(jù),而統(tǒng)計學(xué)以結(jié)構(gòu)型數(shù)據(jù)為研究對象。退一步,單從數(shù)量級來講,也已發(fā)生了質(zhì)變。對于結(jié)構(gòu)化的大規(guī)模數(shù)據(jù),傳統(tǒng)的方法只是理論上的(可行性)或不經(jīng)濟(jì)的(有效性),實踐中還需要借助數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、并行處理技術(shù)等現(xiàn)代計算技術(shù)才能實現(xiàn)。
二、數(shù)據(jù)科學(xué)的統(tǒng)計學(xué)內(nèi)涵
(一)理論基礎(chǔ)
數(shù)據(jù)科學(xué)中的數(shù)據(jù)處理和分析方法是在不同學(xué)科領(lǐng)域中分別發(fā)展起來的,譬如,統(tǒng)計學(xué)、統(tǒng)計學(xué)習(xí)或稱統(tǒng)計機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、應(yīng)用數(shù)學(xué)、數(shù)據(jù)密集型計算、密集計算方法等。在量化分析的浪潮下甚至出現(xiàn)了“metric+模式”,如計量經(jīng)濟(jì)學(xué)、文獻(xiàn)計量學(xué)、網(wǎng)絡(luò)計量學(xué)、生物統(tǒng)計學(xué)等。因此,有學(xué)者將數(shù)據(jù)科學(xué)定義為計算機(jī)科學(xué)技術(shù)、數(shù)學(xué)與統(tǒng)計學(xué)知識、專業(yè)應(yīng)用知識三者的交集,這意味著數(shù)據(jù)科學(xué)是一門新興的交叉學(xué)科。但是這種沒有側(cè)重的疊加似乎只是羅列了數(shù)據(jù)科學(xué)所涉及到的學(xué)科知識,并沒有進(jìn)行實質(zhì)性的分析,就好似任何現(xiàn)實活動都可以拆解為不同的細(xì)分學(xué)科,這是必然的。根據(jù)Naur(1960,1974)的觀點,數(shù)據(jù)科學(xué)或稱數(shù)據(jù)學(xué)是計算機(jī)科學(xué)的一個替代性稱謂。但是這種字面上的轉(zhuǎn)換,并沒有作為一個獨立的學(xué)科而形成。Cleveland(2001)首次將數(shù)據(jù)科學(xué)作為一個獨立的學(xué)科提出時,將數(shù)據(jù)科學(xué)表述為統(tǒng)計學(xué)加上它在計算技術(shù)方面的擴(kuò)展。這種觀點表明,數(shù)據(jù)科學(xué)的理論基礎(chǔ)是統(tǒng)計學(xué),數(shù)據(jù)科學(xué)可以看作是統(tǒng)計學(xué)在研究范圍(對象)和分析方法上不斷擴(kuò)展的結(jié)果。一如統(tǒng)計學(xué)最初只是作為征兵、征稅等行政管理的附屬活動,而現(xiàn)在包括了范圍更廣泛的理論和方法。從研究范圍的擴(kuò)展來看,是從最初的結(jié)構(gòu)型大規(guī)模數(shù)據(jù)(登記數(shù)據(jù)),到結(jié)構(gòu)型的小規(guī)模數(shù)據(jù)(抽樣數(shù)據(jù))、結(jié)構(gòu)型的大規(guī)模數(shù)據(jù)(微觀數(shù)據(jù)),再擴(kuò)展到現(xiàn)在的非(半)結(jié)構(gòu)型的大規(guī)模數(shù)據(jù)(大數(shù)據(jù))和關(guān)系數(shù)據(jù)等類型更為豐富的數(shù)據(jù)。從分析方法的擴(kuò)展來看,是從參數(shù)方法到非參數(shù)方法,從基于模型到基于算法,一方面?zhèn)鹘y(tǒng)的統(tǒng)計模型需要向更一般的數(shù)據(jù)概念延伸;另一方面,算法(計算機(jī)實現(xiàn))成為必要的“可行性分析”,而且在很多方面算法模型的優(yōu)勢越來越突出。注意到,數(shù)據(jù)分析有驗證性的數(shù)據(jù)分析和探索性的數(shù)據(jù)分析兩個基本取向,但不論是哪一種取向,都有一個基本的前提假設(shè),就是觀測數(shù)據(jù)是由背后的一個(隨機(jī))模型生成,因此數(shù)據(jù)分析的基本問題就是找出這個(隨機(jī))模型。Tukey(1980,2000)明確提到,EDA和CDA并不是替代關(guān)系,兩者皆必不可少,強(qiáng)調(diào)EDA是因為它被低估了。數(shù)據(jù)導(dǎo)向是計算機(jī)時代統(tǒng)計學(xué)發(fā)展的方向,這一觀點已被越來越多的統(tǒng)計學(xué)家所認(rèn)同。但是數(shù)據(jù)導(dǎo)向仍然有基于模型與基于算法兩種聲音,其中,前文提到的EDA和CDA都屬于基于模型的方法,它們都假定數(shù)據(jù)背后存在某種生成機(jī)制;而算法模型則認(rèn)為復(fù)雜的現(xiàn)實世界無法用數(shù)學(xué)公式來刻畫,即,不設(shè)置具體的數(shù)學(xué)模型,同時對數(shù)據(jù)也不做相應(yīng)的限制性假定。算法模型自20世紀(jì)80年代中期以來隨著計算機(jī)技術(shù)的迅猛發(fā)展而得到快速成長,然而很大程度上是在統(tǒng)計學(xué)這個領(lǐng)域之外“悄然”進(jìn)行的,比如人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹、隨機(jī)森林等機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方法。若響應(yīng)變量記為y,預(yù)測變量記為x,擾動項和參數(shù)分別記為ε和β,則基于模型的基本形式是:y=f(x,β,ε),其目的是要研究清楚y與x之間的關(guān)系并對y做出預(yù)測,其中,f是一個有顯式表達(dá)的函數(shù)形式(若f先驗假定,則對應(yīng)CDA;若f是探索得到的,則對應(yīng)EDA),比如線性回歸、Logistic回歸、Cox回歸等。可見,傳統(tǒng)建模的基本觀點是,不僅要得到正確的模型———可解釋性強(qiáng),而且要得到準(zhǔn)確的模型———外推預(yù)測能力強(qiáng)。而對于現(xiàn)實中復(fù)雜的、高維的、非線性的數(shù)據(jù)集,更切合實際的做法是直接去尋找一個恰當(dāng)?shù)念A(yù)測規(guī)則(算法模型),不過代價是可解釋性較弱,但是算法模型的計算效率和可擴(kuò)展性更強(qiáng)?;谒惴ǖ幕拘问筋愃朴诜菂?shù)方法y=f(x,ε),但是比非參數(shù)方法的要求更低yx,因為非參數(shù)方法很多時候要求f或其一階導(dǎo)數(shù)是平滑的,而這里直接跳過了函數(shù)機(jī)制的探討,尋找的只是一個預(yù)測規(guī)則(后續(xù)的檢驗也是基于預(yù)測構(gòu)造的)。在很多應(yīng)用場合,算法模型得到的是針對具體問題的解(譬如某些參數(shù)是被當(dāng)作一個確定的值通過優(yōu)化算法得到的),并不是統(tǒng)計意義上的推斷解。
(二)技術(shù)維度
數(shù)據(jù)科學(xué)是基于數(shù)據(jù)的決策,數(shù)據(jù)分析的本質(zhì)既不是數(shù)學(xué),也不是軟件程序,而是對數(shù)據(jù)的“閱讀”和“理解”。技術(shù)只是輔助數(shù)據(jù)理解的工具,一個毫無統(tǒng)計學(xué)知識的人應(yīng)用統(tǒng)計軟件也可以得到統(tǒng)計結(jié)果,但無論其過程還是結(jié)果都是可疑的,對統(tǒng)計結(jié)果的解釋也無法令人信服。“從計算機(jī)科學(xué)自身來看,這些應(yīng)用領(lǐng)域提供的主要研究對象就是數(shù)據(jù)。雖然計算機(jī)科學(xué)一貫重視數(shù)據(jù)的研究,但數(shù)據(jù)在其中的地位將會得到更進(jìn)一步的加強(qiáng)”。不可否認(rèn),統(tǒng)計分析逐漸向計算機(jī)科學(xué)技術(shù)靠近的趨勢是明顯的。這一方面是因為,數(shù)據(jù)量快速膨脹,數(shù)據(jù)來源、類型和結(jié)構(gòu)越來越復(fù)雜,迫切需要開發(fā)更高效率的存儲和分析工具,可以很好地適應(yīng)數(shù)據(jù)量的快速膨脹;另一方面,計算機(jī)科學(xué)技術(shù)的迅猛發(fā)展為新方法的實現(xiàn)提供了重要的支撐。對于大數(shù)據(jù)而言,大數(shù)據(jù)分析丟不掉計算機(jī)科學(xué)這個屬性的一個重要原因還不單純是因為需要統(tǒng)計軟件來協(xié)助基本的統(tǒng)計分析和計算,而是大數(shù)據(jù)并不能像早先在關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)那樣可以直接用于統(tǒng)計分析。事實上,面對越來越龐雜的數(shù)據(jù),核心的統(tǒng)計方法并沒有實質(zhì)性的改變,改變的只是實現(xiàn)它的算法。因此,從某種程度上來講,大數(shù)據(jù)考驗的并不是統(tǒng)計學(xué)的方法論,而是計算機(jī)科學(xué)技術(shù)和算法的適應(yīng)性。譬如大數(shù)據(jù)的存儲、管理以及分析架構(gòu),這些都是技術(shù)上的應(yīng)對,是如何實現(xiàn)統(tǒng)計分析的輔助工具,核心的數(shù)據(jù)分析邏輯并沒有實質(zhì)性的改變。因此,就目前而言,大數(shù)據(jù)分析的關(guān)鍵是計算機(jī)技術(shù)如何更新升級來適應(yīng)這種變革,以便可以像從前一樣滿足統(tǒng)計分析的需要。
(三)應(yīng)用維度
在商業(yè)應(yīng)用領(lǐng)域,數(shù)據(jù)科學(xué)被定義為,將數(shù)據(jù)轉(zhuǎn)化為有價值的商業(yè)信息①的完整過程。數(shù)據(jù)科學(xué)家要同時具備數(shù)據(jù)分析技術(shù)和商業(yè)敏感性等綜合技能。換句話說,數(shù)據(jù)科學(xué)家不僅要了解數(shù)據(jù)的來源、類型和存儲調(diào)用方式,而且還要知曉如何選擇相應(yīng)的分析方法,同時對分析結(jié)果也能做出切合實際的解釋②。這實際上提出了兩個層面的要求:①長期目標(biāo)是數(shù)據(jù)科學(xué)家從一開始就應(yīng)該熟悉整個數(shù)據(jù)分析流程,而不是數(shù)據(jù)庫、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、經(jīng)濟(jì)學(xué)、商業(yè)分析等片段化碎片化的知識。②短期目標(biāo)實際上是一個“二級定義”,即,鼓勵已經(jīng)在專業(yè)領(lǐng)域內(nèi)有所成就的統(tǒng)計學(xué)家、程序員、商業(yè)分析師相互學(xué)習(xí)。在提及數(shù)據(jù)科學(xué)的相關(guān)文獻(xiàn)中,對應(yīng)用領(lǐng)域有更多的傾向;數(shù)據(jù)科學(xué)與統(tǒng)計學(xué)、數(shù)學(xué)等其他學(xué)科的區(qū)別恰在于其更傾向于實際應(yīng)用。甚至有觀點認(rèn)為,數(shù)據(jù)科學(xué)是為應(yīng)對大數(shù)據(jù)現(xiàn)象而專門設(shè)定的一個“職業(yè)”。其中,商業(yè)敏感性是數(shù)據(jù)科學(xué)家區(qū)別于一般統(tǒng)計人員的基本素質(zhì)。對數(shù)據(jù)的簡單收集和報告不是數(shù)據(jù)科學(xué)的要義,數(shù)據(jù)科學(xué)強(qiáng)調(diào)對數(shù)據(jù)多角度的理解,以及如何就大數(shù)據(jù)提出相關(guān)的問題(很多重要的問題,我們非但不知道答案而且不知道問題何在以及如何發(fā)問)。同時數(shù)據(jù)科學(xué)家要有良好的表達(dá)能力,能將數(shù)據(jù)中所發(fā)現(xiàn)的事實清楚地表達(dá)給相關(guān)部門以便實現(xiàn)有效協(xié)作。從商業(yè)應(yīng)用和服務(wù)社會的角度來看,強(qiáng)調(diào)應(yīng)用這個維度無可厚非,因為此處是數(shù)據(jù)產(chǎn)生的土壤,符合數(shù)據(jù)科學(xué)數(shù)據(jù)導(dǎo)向的理念,數(shù)據(jù)分析的目的很大程度上也是為了增進(jìn)商業(yè)理解,而且包括數(shù)據(jù)科學(xué)家、首席信息官這些提法也都肇始于實務(wù)部門。不過,早在20世紀(jì)90年代中期,已故圖靈獎得主格雷(JimGray)就已經(jīng)意識到,數(shù)據(jù)庫技術(shù)的下一個“大數(shù)據(jù)”挑戰(zhàn)將會來自科學(xué)領(lǐng)域而非商業(yè)領(lǐng)域(科學(xué)研究領(lǐng)域成為產(chǎn)生大數(shù)據(jù)的重要土壤)。2008年9月4日刊出的《自然》以“bigdata”作為專題(封面)探討了環(huán)境科學(xué)、生物醫(yī)藥、互聯(lián)網(wǎng)技術(shù)等領(lǐng)域所面臨的大數(shù)據(jù)挑戰(zhàn)。2011年2月11日,《科學(xué)》攜其子刊《科學(xué)-信號傳導(dǎo)》、《科學(xué)-轉(zhuǎn)譯醫(yī)學(xué)》、《科學(xué)-職業(yè)》專門就日益增長的科學(xué)研究數(shù)據(jù)進(jìn)行了廣泛的討論。格雷還進(jìn)一步提出科學(xué)研究的“第四范式”是數(shù)據(jù)(數(shù)據(jù)密集型科學(xué)),不同于實驗、理論、和計算這三種范式,在該范式下,需要“將計算用于數(shù)據(jù),而非將數(shù)據(jù)用于計算”。這種觀點實際上是將數(shù)據(jù)從計算科學(xué)中單獨區(qū)別開來了。
三、數(shù)據(jù)科學(xué)范式對統(tǒng)計分析過程的直接影響
以前所謂的大規(guī)模數(shù)據(jù)都是封閉于一個機(jī)構(gòu)內(nèi)的(數(shù)據(jù)孤島),而大數(shù)據(jù)注重的是數(shù)據(jù)集間的關(guān)聯(lián)關(guān)系,也可以說大數(shù)據(jù)讓孤立的數(shù)據(jù)形成了新的聯(lián)系,是一種整體的、系統(tǒng)的觀念。從這個層面來說,將大數(shù)據(jù)稱為“大融合數(shù)據(jù)”或許更為恰當(dāng)。事實上,孤立的大數(shù)據(jù),其價值十分有限,大數(shù)據(jù)的革新恰在于它與傳統(tǒng)數(shù)據(jù)的結(jié)合、線上和線下數(shù)據(jù)的結(jié)合,當(dāng)放到更大的環(huán)境中所產(chǎn)生的“1+1>2”的價值。譬如消費行為記錄與企業(yè)生產(chǎn)數(shù)據(jù)結(jié)合,移動通訊基站定位數(shù)據(jù)用于優(yōu)化城市交通設(shè)計,微博和社交網(wǎng)絡(luò)數(shù)據(jù)用于購物推薦,搜索數(shù)據(jù)用于流感預(yù)測、利用社交媒體數(shù)據(jù)監(jiān)測食品價等等。特別是數(shù)據(jù)集之間建立的均衡關(guān)系,一方面無形中增強(qiáng)了對數(shù)據(jù)質(zhì)量的監(jiān)督和約束;另一方面,為過去難以統(tǒng)計的指標(biāo)和變量提供了另辟蹊徑的思路。從統(tǒng)計學(xué)的角度來看,數(shù)據(jù)科學(xué)(大數(shù)據(jù))對統(tǒng)計分析過程的各個環(huán)節(jié)(數(shù)據(jù)收集、整理、分析、評價、等)都提出了挑戰(zhàn),其中,集中表現(xiàn)在數(shù)據(jù)收集和數(shù)據(jù)分析這兩個方面。
(一)數(shù)據(jù)收集方面
在統(tǒng)計學(xué)被作為一個獨立的學(xué)科分離出來之前(1900年前),統(tǒng)計學(xué)家們就已經(jīng)開始處理大規(guī)模數(shù)據(jù)了,但是這個時期主要是全國范圍的普查登記造冊,至多是一些簡單的匯總和比較。之后(1920-1960年)的焦點逐漸縮聚在小規(guī)模數(shù)據(jù)(樣本),大部分經(jīng)典的統(tǒng)計方法(統(tǒng)計推斷)以及現(xiàn)代意義上的統(tǒng)計調(diào)查(抽樣調(diào)查)正是在這個時期產(chǎn)生。隨后的45年里,統(tǒng)計方法因廣泛的應(yīng)用而得到快速發(fā)展。變革再次來自于統(tǒng)計分析的初始環(huán)節(jié)———數(shù)據(jù)收集方式的轉(zhuǎn)變:傳統(tǒng)的統(tǒng)計調(diào)查方法通常是經(jīng)過設(shè)計的、系統(tǒng)收集的,而大數(shù)據(jù)是零散實錄的、有機(jī)的,這些數(shù)據(jù)通常是用戶使用電子數(shù)碼產(chǎn)品的副產(chǎn)品或用戶自行產(chǎn)生的內(nèi)容,比如社交媒體數(shù)據(jù)、搜索記錄、網(wǎng)絡(luò)日志等數(shù)據(jù)流等,而且數(shù)據(jù)隨時都在增加(數(shù)據(jù)集是動態(tài)的)。與以往大規(guī)模數(shù)據(jù)不同的是,數(shù)據(jù)來源和類型更加豐富,數(shù)據(jù)庫間的關(guān)聯(lián)性也得到了前所未有的重視(大數(shù)據(jù)的組織形式是數(shù)據(jù)網(wǎng)絡(luò)),問題也變得更加復(fù)雜。隨著移動電話和網(wǎng)絡(luò)的逐漸滲透,固定電話不再是識別住戶的有效工具變量,相應(yīng)的無回答率也在增加(移動電話的拒訪率一般高于固定電話),同時統(tǒng)計調(diào)查的成本在增加,人口的流動性在增加,隱私意識以及法律對隱私的保護(hù)日益趨緊,涉及個人信息的數(shù)據(jù)從常規(guī)調(diào)查中越來越難以取得(從各國的經(jīng)驗來看,拒訪率或無回答率的趨勢是增加的),對時效性的要求也越來越高。因此,官方統(tǒng)計的數(shù)據(jù)來源已經(jīng)無法局限于傳統(tǒng)的統(tǒng)計調(diào)查,迫切需要整合部門行政記錄數(shù)據(jù)、商業(yè)記錄數(shù)據(jù)、個人行為記錄數(shù)據(jù)等多渠道數(shù)據(jù)源,與部門和搜索引擎服務(wù)商展開更廣泛的合作。
(二)數(shù)據(jù)分析方面
現(xiàn)代統(tǒng)計分析方法的核心是抽樣推斷(參數(shù)估計和假設(shè)檢驗),然而數(shù)據(jù)收集方式的改變直接淡化了樣本的意義。比如基于瀏覽和偏好數(shù)據(jù)構(gòu)建的推薦算法,誠然改進(jìn)算法可以改善推薦效果,但是增加數(shù)據(jù)同樣可以達(dá)到相同的目的,甚至效果更好。即所謂的“大量的數(shù)據(jù)勝于好的算法”這與統(tǒng)計學(xué)的關(guān)鍵定律(大數(shù)定律和中心極限定理)是一致的。同樣,在大數(shù)據(jù)分析中,可以用數(shù)量來產(chǎn)生質(zhì)量,而不再需要用樣本來推斷總體。事實上,在某些場合(比如社會網(wǎng)絡(luò)數(shù)據(jù)),抽樣本身是困難的。數(shù)據(jù)導(dǎo)向的、基于算法的數(shù)據(jù)分析方法成為計算機(jī)時代統(tǒng)計學(xué)發(fā)展無法回避的一個重要趨勢。算法模型不僅對數(shù)據(jù)分布結(jié)構(gòu)有更少的限制性假定,而且在計算效率上有很大的優(yōu)勢。特別是一些積極的開源軟件的支撐,以及天生與計算機(jī)的相容性,使算法模型越來越受到學(xué)界的廣泛重視。大數(shù)據(jù)分析首先涉及到存儲、傳輸?shù)却髷?shù)據(jù)管理方面的問題。僅從數(shù)量上來看,信息爆炸、數(shù)據(jù)過剩、數(shù)據(jù)泛濫、數(shù)據(jù)墳?zāi)埂⒇S富的數(shù)據(jù)貧乏的知識……這些詞組表達(dá)的主要是我們匱乏的、捉襟見肘的存儲能力,同時,存儲數(shù)據(jù)中有利用價值的部分卻少之又少或塵封窖藏難以被發(fā)現(xiàn)。這除了對開采工具的渴求,當(dāng)時的情緒主要還是遷怨于盲目的記錄,把過多精力放在捕捉和存儲外在信息。在這種情況下,開采有用的知識等價于拋棄無用的數(shù)據(jù)。然而,大數(shù)據(jù)時代的思路改變了,開始變本加厲巨細(xì)靡遺地記錄一切可以記錄的數(shù)據(jù)。因為:數(shù)據(jù)再怎么拋棄還是會越來越多。我們不能通過刪減數(shù)據(jù)來適應(yīng)自己的無能,為自己不愿做出改變找借口,而是應(yīng)該面對現(xiàn)實,提高處理海量數(shù)據(jù)的能力。退一步,該刪除哪些數(shù)據(jù)呢?當(dāng)前無用的數(shù)據(jù)將來也無用嗎?顯然刪除數(shù)據(jù)的成本要大于存儲的成本。大數(shù)據(jù)存儲目前廣泛應(yīng)用的是GFS、HDFS等基于計算機(jī)群組的文件系統(tǒng),它可以通過簡單增加計算機(jī)來無限地擴(kuò)充存儲能力。值得注意的是,分布式文件系統(tǒng)存儲的數(shù)據(jù)僅僅是整個架構(gòu)中最基礎(chǔ)的描述,是為其他部件服務(wù)的(比如MapReduce),并不能直接用于統(tǒng)計分析。而NoSQL這類分布式存儲系統(tǒng)可以實現(xiàn)高級查詢語言,事實上,有些RDBMS開始借鑒MapReduce的一些思路,而基于MapReduce的高級查詢語言也使MapReduce更接近傳統(tǒng)的數(shù)據(jù)庫編程,二者的差異將變得越來越模糊。大數(shù)據(jù)分析的可行性問題指的是,數(shù)據(jù)量可能大到已經(jīng)超過了目前的存儲能力,或者盡管沒有大到無法存儲,但是如果算法對內(nèi)存和處理器要求很高,那么數(shù)據(jù)相對也就“大”了。換句話說,可行性問題主要是,數(shù)據(jù)量太大了,或者算法的復(fù)雜度太高。大數(shù)據(jù)分析的有效性問題指的是,盡管目前的硬件條件允許,但是耗時太久,無法在可容忍的或者說可以接受的時間范圍內(nèi)完成。目前對有效性的解決辦法是采用并行處理。注意到,高性能計算和網(wǎng)格計算也是并行處理,但是對于大數(shù)據(jù)而言,由于很多節(jié)點需要訪問大量數(shù)據(jù),因此很多計算節(jié)點會因為網(wǎng)絡(luò)帶寬的限制而不得不空閑等待。而MapReduce會盡量在計算節(jié)點上存儲數(shù)據(jù),以實現(xiàn)數(shù)據(jù)的本地快速訪問。因此,數(shù)據(jù)本地化是MapReduce的核心特征。
四、結(jié)論
(一)數(shù)據(jù)科學(xué)不能簡單地理解為統(tǒng)計學(xué)的重命名,二者所指“數(shù)據(jù)”并非同一概念,前者更為寬泛,不僅包括結(jié)構(gòu)型數(shù)據(jù),而且還包括文本、圖像、視頻、音頻、網(wǎng)絡(luò)日志等非結(jié)構(gòu)型和半結(jié)構(gòu)型數(shù)據(jù);同時,數(shù)量級也是后者難以企及的(PB以上)。但是數(shù)據(jù)科學(xué)的理論基礎(chǔ)是統(tǒng)計學(xué),數(shù)據(jù)科學(xué)可以看作是統(tǒng)計學(xué)在研究范圍(對象)和分析方法上不斷擴(kuò)展的結(jié)果,特別是數(shù)據(jù)導(dǎo)向的、基于算法的數(shù)據(jù)分析方法越來越受到學(xué)界的廣泛重視。
(二)從某種程度上來講,大數(shù)據(jù)考驗的并不是統(tǒng)計學(xué)的方法論,而是計算機(jī)科學(xué)技術(shù)和算法的適應(yīng)性。譬如大數(shù)據(jù)的存儲、管理以及分析架構(gòu),這些都是技術(shù)上的應(yīng)對,核心的數(shù)據(jù)分析邏輯并沒有實質(zhì)性的改變。因此,大數(shù)據(jù)分析的關(guān)鍵是計算機(jī)技術(shù)如何更新升級以適應(yīng)這種變革,以便可以像從前一樣滿足統(tǒng)計分析的需要。
(三)大數(shù)據(jù)問題很大程度上來自于商業(yè)領(lǐng)域,受商業(yè)利益驅(qū)動,因此數(shù)據(jù)科學(xué)還被普遍定義為,將數(shù)據(jù)轉(zhuǎn)化為有價值的商業(yè)信息的完整過程。這種強(qiáng)調(diào)應(yīng)用維度的觀點無可厚非,因為此處是數(shù)據(jù)產(chǎn)生的土壤,符合數(shù)據(jù)科學(xué)數(shù)據(jù)導(dǎo)向的理念。不過,早在20世紀(jì)90年代中期,已故圖靈獎得主格雷就已經(jīng)意識到,數(shù)據(jù)庫技術(shù)的下一個“大數(shù)據(jù)”挑戰(zhàn)將會來自科學(xué)領(lǐng)域而非商業(yè)領(lǐng)域(科學(xué)研究領(lǐng)域成為產(chǎn)生大數(shù)據(jù)的重要土壤)。他提出科學(xué)研究的“第四范式”是數(shù)據(jù),不同于實驗、理論、和計算這三種范式,在該范式下,需要“將計算用于數(shù)據(jù),而非將數(shù)據(jù)用于計算”。這種觀點實際上將數(shù)據(jù)從計算科學(xué)中單獨區(qū)別開了。
(四)數(shù)據(jù)科學(xué)范式對統(tǒng)計分析過程的各個環(huán)節(jié)都提出了挑戰(zhàn),集中表現(xiàn)在數(shù)據(jù)收集和數(shù)據(jù)分析這兩個方面。數(shù)據(jù)收集不再是刻意的、經(jīng)過設(shè)計的,而更多的是用戶使用電子數(shù)碼產(chǎn)品的副產(chǎn)品或用戶自行產(chǎn)生的內(nèi)容,這種改變的直接影響是淡化了樣本的意義,同時增進(jìn)了數(shù)據(jù)的客觀性。事實上,在某些場合(比如社會網(wǎng)絡(luò)數(shù)據(jù)),抽樣本身是困難的。數(shù)據(jù)的存儲和分析也不再一味地依賴于高性能計算機(jī),而是轉(zhuǎn)向由中低端設(shè)備構(gòu)成的大規(guī)模群組并行處理,采用橫向擴(kuò)展的方式。
【關(guān)鍵詞】統(tǒng)計學(xué);統(tǒng)計思想;認(rèn)識
1關(guān)于統(tǒng)計學(xué)
統(tǒng)計學(xué)是一門實質(zhì)性的社會科學(xué),既研究社會生活的客觀規(guī)律,也研究統(tǒng)計方法。統(tǒng)計學(xué)是繼承和發(fā)展基礎(chǔ)統(tǒng)計的理論成果,堅持統(tǒng)計學(xué)的社會科學(xué)性質(zhì),使統(tǒng)計理論研究更接近統(tǒng)計工作實際,在國家和社會得到廣泛發(fā)展。
2統(tǒng)計學(xué)中的幾種統(tǒng)計思想
2.1統(tǒng)計思想的形成
統(tǒng)計思想不是天然形成的,需要經(jīng)歷統(tǒng)計觀念、統(tǒng)計意識、統(tǒng)計理念等階段。統(tǒng)計思想是根據(jù)人類社會需求的變化而開展各種統(tǒng)計實踐、統(tǒng)計理論研究與概括,才能逐步形成系統(tǒng)的統(tǒng)計思想。
2.2比較常用的幾種統(tǒng)計思想
所謂統(tǒng)計思想,就是統(tǒng)計實際工作、統(tǒng)計學(xué)理論及應(yīng)用研究中必須遵循的基本理念和指導(dǎo)思想。統(tǒng)計思想主要包括:均值思想、變異思想、估計思想、相關(guān)思想、擬合思想、檢驗思想?,F(xiàn)分述如下:
2.2.1均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統(tǒng)計學(xué)理論,是統(tǒng)計學(xué)的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發(fā)展趨勢,避免個別偶然現(xiàn)象的干擾,故也體現(xiàn)了總體觀。
2.2.2變異思想
統(tǒng)計研究同類現(xiàn)象的總體特征,它的前提則是總體各單位的特征存在著差異。統(tǒng)計方法就是要認(rèn)識事物數(shù)量方面的差異。統(tǒng)計學(xué)反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
2.2.3估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認(rèn)識方法。使用估計方法有一個預(yù)設(shè):樣本與總體具有相同的性質(zhì)。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴(yán)謹(jǐn)?shù)谋匾襟E。
2.2.4相關(guān)思想
事物是普遍聯(lián)系的,在變化中,經(jīng)常出現(xiàn)一些事物相隨共變或相隨共現(xiàn)的情況,總體又是由許多個別事務(wù)所組成,這些個別事物是相互關(guān)聯(lián)的,而我們所研究的事物總體又是在同質(zhì)性的基礎(chǔ)上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關(guān)聯(lián)的。
2.2.5擬合思想
擬合是對不同類型事物之間關(guān)系之表象的抽象。任何一個單一的關(guān)系必須依賴其他關(guān)系而存在,所有實際事物的關(guān)系都表現(xiàn)得非常復(fù)雜,這種方法就是對規(guī)律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達(dá)的是“事物和關(guān)系的變化過程在數(shù)量上所體現(xiàn)的模式和基于此而預(yù)示的可能性”。
2.2.6檢驗思想
統(tǒng)計方法總是歸納性的,其結(jié)論永遠(yuǎn)帶有一定的或然性,基于局部特征和規(guī)律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數(shù)量特征的假設(shè)是否可信。
2.3統(tǒng)計思想的特點
作為一門應(yīng)用統(tǒng)計學(xué),它從數(shù)理統(tǒng)計學(xué)派汲取新的營養(yǎng),并且越來越廣泛的應(yīng)用數(shù)學(xué)方法,聯(lián)系也越來越密切,但在統(tǒng)計思想的體現(xiàn)上與通用學(xué)派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現(xiàn)出:(1)統(tǒng)計思想強(qiáng)調(diào)方法性與應(yīng)用性的統(tǒng)一;(2)統(tǒng)計思想強(qiáng)調(diào)科學(xué)性與藝術(shù)性的統(tǒng)一;(3)統(tǒng)計思想強(qiáng)調(diào)客觀性與主觀性的統(tǒng)一;(4)統(tǒng)計思想強(qiáng)調(diào)定性分析與定量分析的統(tǒng)一。
3對統(tǒng)計思想的一些思考
3.1要更正當(dāng)前存在的一些不正確的思想認(rèn)識
英國著名生物學(xué)家、統(tǒng)計學(xué)家高爾頓曾經(jīng)說過:“統(tǒng)計學(xué)具有處理復(fù)雜問題的非凡能力,當(dāng)科學(xué)的探索者在前進(jìn)的過程中荊棘載途時,唯有統(tǒng)計學(xué)可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現(xiàn)實問題可能要比想象的復(fù)雜得多。此外,有些人認(rèn)為方法越復(fù)雜越科學(xué),在實際的分析研究中,喜歡簡單問題復(fù)雜化,似乎這樣才能顯示其科學(xué)含量。其實,真正的科學(xué)是使復(fù)雜的問題簡單化而不是追求復(fù)雜化。與此相關(guān)聯(lián)的是,有些人認(rèn)為只有推斷統(tǒng)計才是科學(xué),描述統(tǒng)計不是科學(xué),并延伸擴(kuò)大到只有數(shù)理統(tǒng)計是科學(xué)、社會經(jīng)濟(jì)統(tǒng)計不是科學(xué)這樣的認(rèn)識。這種認(rèn)識是極其錯誤的,至少是對社會經(jīng)濟(jì)統(tǒng)計的無知。比利時數(shù)學(xué)家凱特勒不僅研究概率論,并且注重于把統(tǒng)計學(xué)應(yīng)用于人類事物,試圖把統(tǒng)計學(xué)創(chuàng)建成改良社會的一種工具。經(jīng)濟(jì)學(xué)和人口統(tǒng)計學(xué)中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產(chǎn)。新晨
3.2要不斷拓展統(tǒng)計思維方式
統(tǒng)計學(xué)是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數(shù)據(jù)信息(尤其是不完全甚至劣質(zhì)的信息)去產(chǎn)生新的知識或去驗證一個假設(shè),即以所掌握的數(shù)據(jù)信息為依據(jù),歸納得出具有一般特征的結(jié)論。歸納推理是要在數(shù)據(jù)信息的基礎(chǔ)上透過偶然性去發(fā)現(xiàn)必然性。演繹推理是對統(tǒng)計認(rèn)識能力的深化,尤其是在根據(jù)必然性去研究和認(rèn)識偶然性方面,具有很大的作用。
3.3深化對數(shù)據(jù)分析的認(rèn)識
任何統(tǒng)計研究都離不開數(shù)據(jù)分析。因為這是得到統(tǒng)計研究結(jié)論的必要環(huán)節(jié)。雖然統(tǒng)計分析的形式隨時代的推移而變化著,但是“從數(shù)據(jù)中提取一切信息”或者“歸納和揭示”作為統(tǒng)計分析的目的卻一直沒有改變。對統(tǒng)計數(shù)據(jù)分析的原因有以下三個方面:一是基于同樣的數(shù)據(jù)會得出不同、甚至相反的分析結(jié)論;二是我們所面對的分析數(shù)據(jù)有時是缺損的或存在不真實性;三是我們所面對的分析數(shù)據(jù)有時則又是海量的,讓人無從下手。雖然統(tǒng)計數(shù)據(jù)分析已經(jīng)經(jīng)歷了描述性數(shù)據(jù)分析(DDA)、推斷性數(shù)據(jù)分析(IDA)和探索性數(shù)據(jù)分析(EDA)等階段,分析的方法技術(shù)已經(jīng)有了質(zhì)的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數(shù)據(jù)分析的認(rèn)識,圍繞“準(zhǔn)確解答特定問題并且從數(shù)據(jù)中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續(xù)開展數(shù)據(jù)分析方法技術(shù)的研究。
參考文獻(xiàn):
[1]陳福貴.統(tǒng)計思想雛議[J]北京統(tǒng)計,2004,(05).
[2]龐有貴.統(tǒng)計工作及統(tǒng)計思想[J]科技情報開發(fā)與經(jīng)濟(jì),2004,(03).
一、統(tǒng)計學(xué)中的幾種常見統(tǒng)計思想
統(tǒng)計思想主要包括:均值思想、變異思想、估計思想、相關(guān)思想、擬合思想、檢驗思想等。統(tǒng)計思想不是天然形成的,需要經(jīng)歷統(tǒng)計觀念、統(tǒng)計意識、統(tǒng)計理念等階段。統(tǒng)計思想是根據(jù)人類社會需求的變化而開展各種統(tǒng)計實踐、統(tǒng)計理論研究與概括,才能逐步形成系統(tǒng)的統(tǒng)計思想。作為一門應(yīng)用統(tǒng)計學(xué),它從數(shù)理統(tǒng)計學(xué)派汲取新的營養(yǎng),并且越來越廣泛的應(yīng)用數(shù)學(xué)方法,聯(lián)系也越來越密切,但在統(tǒng)計思想的體現(xiàn)上與通用學(xué)派相比,還有著自己的特別之處。其基本特點:(1)統(tǒng)計思想強(qiáng)調(diào)方法性與應(yīng)用性的統(tǒng)一;(2)統(tǒng)計思想強(qiáng)調(diào)科學(xué)性與藝術(shù)性的統(tǒng)一;(3)統(tǒng)計思想強(qiáng)調(diào)客觀性與主觀性的統(tǒng)一;(4)統(tǒng)計思想強(qiáng)調(diào)定性分析與定量分析的統(tǒng)一。
1.均值思想。均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統(tǒng)計學(xué)理論,是統(tǒng)計學(xué)的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發(fā)展趨勢,避免個別偶然現(xiàn)象的干擾,故也體現(xiàn)了總體觀。
2.變異思想。統(tǒng)計研究同類現(xiàn)象的總體特征,它的前提則是總體各單位的特征存在著差異。統(tǒng)計方法就是要認(rèn)識事物數(shù)量方面的差異。統(tǒng)計學(xué)反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
3.估計思想。估計以樣本推測總體,是對同類事物的由此及彼式的認(rèn)識方法。使用估計方法有一個預(yù)設(shè):樣本與總體具有相同的性質(zhì)。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴(yán)謹(jǐn)?shù)谋匾襟E。
4.相關(guān)思想。事物是普遍聯(lián)系的,在變化中,經(jīng)常出現(xiàn)一些事物相隨共變或相隨共現(xiàn)的情況,總體又是由許多個別事務(wù)所組成,這些個別事物是相互關(guān)聯(lián)的,而我們所研究的事物總體又是在同質(zhì)性的基礎(chǔ)上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關(guān)聯(lián)的。
5.擬合思想。擬合是對不同類型事物之間關(guān)系之表象的抽象。任何一個單一的關(guān)系必須依賴其他關(guān)系而存在,所有實際事物的關(guān)系都表現(xiàn)得非常復(fù)雜,這種方法就是對規(guī)律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達(dá)的是“事物和關(guān)系的變化過程在數(shù)量上所體現(xiàn)的模式和基于此而預(yù)示的可能性”。
6.檢驗思想。統(tǒng)計方法總是歸納性的,其結(jié)論永遠(yuǎn)帶有一定的或然性,基于局部特征和規(guī)律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數(shù)量特征的假設(shè)是否可信。
二、對統(tǒng)計思想的若干思考
1.要改變當(dāng)前存在的一些不正確的思想認(rèn)識。英國著名生物學(xué)家、統(tǒng)計學(xué)家高爾頓曾經(jīng)說過:“統(tǒng)計學(xué)具有處理復(fù)雜問題的非凡能力,當(dāng)科學(xué)的探索者在前進(jìn)的過程中荊棘載途時,唯有統(tǒng)計學(xué)可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現(xiàn)實問題可能要比想象的復(fù)雜得多。此外,有些人認(rèn)為方法越復(fù)雜,越科學(xué)。在實際的分析研究中,喜歡簡單問題復(fù)雜化,似乎這樣才能顯示其科學(xué)含量。其實,真正的科學(xué)是使復(fù)雜的問題簡單化而不是追求復(fù)雜化。與此相關(guān)聯(lián)的是,有些人認(rèn)為只有推斷統(tǒng)計才是科學(xué),描述統(tǒng)計不是科學(xué),并延伸擴(kuò)大到只有數(shù)理統(tǒng)計是科學(xué)、社會經(jīng)濟(jì)統(tǒng)計不是科學(xué)這樣的認(rèn)識。這種認(rèn)識是極其錯誤的,至少是對社會經(jīng)濟(jì)統(tǒng)計的無知。比利時數(shù)學(xué)家凱特勒不僅研究概率論,并且注重于把統(tǒng)計學(xué)應(yīng)用于人類事物,試圖把統(tǒng)計學(xué)創(chuàng)建成改良社會的一種工具。經(jīng)濟(jì)學(xué)和人口統(tǒng)計學(xué)中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產(chǎn)。
關(guān)鍵詞 大數(shù)據(jù)時代 數(shù)據(jù)分析
一、相關(guān)概述
大數(shù)據(jù)環(huán)境下經(jīng)濟(jì)社會生活都出現(xiàn)了較大的變化,同時自然科學(xué)和人文科學(xué)等也都有了較大的提升。在此背景下,依靠計算機(jī)信息技術(shù)的不斷發(fā)展,研究者能夠使用一定的方法和技能對較為復(fù)雜且規(guī)模較大的海量數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,并有效挖掘其中的價值信息。大數(shù)據(jù)環(huán)境為統(tǒng)計學(xué)的研究和發(fā)展提供了好的機(jī)遇,同時也對統(tǒng)計學(xué)的拓展提出了一定的挑戰(zhàn)。
大數(shù)據(jù)環(huán)境下數(shù)據(jù)在各個行業(yè)和領(lǐng)域中都有所滲透,并逐漸成為主要的生產(chǎn)要素。大數(shù)據(jù)本身具有價值密度低、數(shù)據(jù)體量大、數(shù)據(jù)類型多、數(shù)據(jù)處理速度快的特點。不過由于數(shù)據(jù)量的急速增長,也使得在數(shù)據(jù)分析和研究過程中由于數(shù)據(jù)庫缺少必要的管理工具進(jìn)行數(shù)據(jù)采集和管理,而導(dǎo)致數(shù)據(jù)搜索、數(shù)據(jù)分析、數(shù)據(jù)存取和數(shù)據(jù)共享等出現(xiàn)一定的困難。一般情況下,在大數(shù)據(jù)環(huán)境下,往往存在著數(shù)據(jù)存儲、處理技術(shù)、數(shù)據(jù)安全等相關(guān)的技術(shù)性問題。這些問題的存在一定程度上影響和制約了數(shù)據(jù)的開發(fā)和應(yīng)用效率。盡管大數(shù)據(jù)下進(jìn)行數(shù)據(jù)分析存在一定困難,但是其在實踐中的應(yīng)用空間和領(lǐng)域卻十分廣泛,對于經(jīng)濟(jì)社會的發(fā)展具有重要的推動力。
二、大數(shù)據(jù)環(huán)境下數(shù)據(jù)分析過程分析
(一)數(shù)據(jù)的價值挖掘過程
面對海量的大數(shù)據(jù)環(huán)境,數(shù)據(jù)使用者應(yīng)當(dāng)圍繞數(shù)據(jù)分析目標(biāo)和具體要求對大數(shù)據(jù)進(jìn)行有效挖掘,提取有用數(shù)據(jù),摒棄無用數(shù)據(jù),從海量數(shù)據(jù)中進(jìn)行價值挖掘,結(jié)合數(shù)據(jù)類型提升數(shù)據(jù)使用價值。在進(jìn)行具體的大數(shù)據(jù)挖掘時可以按照具體的案例來進(jìn)行,比如在進(jìn)行廣告人群匹配時,在進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘上主要是面對著兩種數(shù)據(jù)。一種是廣告庫數(shù)據(jù),主要包含了廣告庫以及廣告的客戶信息等。這種數(shù)據(jù)一般都具有較高的結(jié)構(gòu)性,能夠在傳統(tǒng)的數(shù)據(jù)庫中進(jìn)行采集和應(yīng)用、分析。另外一種數(shù)據(jù)是客戶的后期行為數(shù)據(jù)。通過對此兩種數(shù)據(jù)的結(jié)合分析,有效挖掘其中的有效價值。與此同時,在具體的應(yīng)用實踐過程中,還需要積極發(fā)揮第二種信息的作用和價值,這樣能夠獲得客戶所需的信息。依靠對群體行為和群體智能的分析,最終形成具體的反饋機(jī)制和反饋流程,在此基礎(chǔ)上為信息使用者提供優(yōu)質(zhì)可靠的數(shù)據(jù)處理信息,為信息使用者科學(xué)決策提供有效的信息和數(shù)據(jù)支持。
(二)數(shù)據(jù)的處理與分析過程
在此過程中,一方面要及時更新抽樣調(diào)查的工作理念。一般情況下,大數(shù)據(jù)的樣本資料都是之前的材料匯總,這就要求在對此數(shù)據(jù)進(jìn)行分析處理時應(yīng)當(dāng)首先對數(shù)據(jù)整體進(jìn)行梳理和了解,并逐步向數(shù)據(jù)局部進(jìn)行延伸。同時在對海量數(shù)據(jù)進(jìn)行分析處理時還應(yīng)當(dāng)解決好調(diào)查目標(biāo)設(shè)定不合理、抽樣框架不穩(wěn)定以及樣本數(shù)量受限制等問題。另一方面,也要進(jìn)一步提升大數(shù)據(jù)環(huán)境下數(shù)據(jù)精確度標(biāo)準(zhǔn)。由于大數(shù)據(jù)環(huán)境下數(shù)據(jù)的來源比較廣,數(shù)據(jù)處理質(zhì)量和效果也各有差異,因此應(yīng)當(dāng)在允許數(shù)據(jù)之間存在準(zhǔn)確度差異的同時提升數(shù)據(jù)精準(zhǔn)度的標(biāo)準(zhǔn)。要在積極吸收各種數(shù)據(jù)資源的基礎(chǔ)上,提升數(shù)據(jù)處理能力和質(zhì)量,科學(xué)應(yīng)對數(shù)據(jù)復(fù)雜性和變量關(guān)系復(fù)雜性等問題。除此之外,也應(yīng)當(dāng)圍繞大數(shù)據(jù)中的數(shù)據(jù)分析,對數(shù)據(jù)關(guān)系的分析重點進(jìn)行合理轉(zhuǎn)換。既要重視對數(shù)據(jù)中因果關(guān)系的分析和梳理,同時也要重視對事物之間相關(guān)性的分析研究,及時轉(zhuǎn)換分析思路,圍繞數(shù)據(jù)分析目標(biāo)和事物之間關(guān)聯(lián)關(guān)系進(jìn)行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分析工作。
三、大數(shù)據(jù)對統(tǒng)計的影響分析
(一)能夠進(jìn)一步拓展統(tǒng)計學(xué)研究領(lǐng)域
大數(shù)據(jù)環(huán)境對于各個研究領(lǐng)域都能夠產(chǎn)生比較大的影響,對于統(tǒng)計學(xué)也是一樣。統(tǒng)計學(xué)研究的是客體、客觀事物之間的數(shù)量關(guān)系和數(shù)量特征,數(shù)量性是統(tǒng)計學(xué)研究對象最為主要的特征。由于在傳統(tǒng)的統(tǒng)計學(xué)研究實踐中實驗數(shù)據(jù)和調(diào)查數(shù)據(jù)是最主要的研究數(shù)據(jù),因此在大數(shù)據(jù)環(huán)境下,統(tǒng)計學(xué)研究對象既包括了之前的結(jié)構(gòu)化數(shù)據(jù),同時也包括了非結(jié)構(gòu)化數(shù)據(jù),這些非結(jié)構(gòu)化數(shù)據(jù)不能夠單純地依靠數(shù)量關(guān)系來加以衡量和表示。這其中就包括了文本、聲音、圖片、動畫等數(shù)據(jù)信息。從這個意義上講,大數(shù)據(jù)環(huán)境下統(tǒng)計學(xué)的研究領(lǐng)域有了較大范圍的擴(kuò)展。
(二)能夠?qū)y(tǒng)計計算的規(guī)范性產(chǎn)生影響
按照傳統(tǒng)的統(tǒng)計學(xué)研究方法,在反應(yīng)事物量的特征時大都是依靠方差、平均值、相對數(shù)等來進(jìn)行,這些研究方法能夠反映出事物之間的界限和關(guān)系,并且也能夠依靠數(shù)據(jù)計算規(guī)范來反映出具體的數(shù)據(jù)。不過在當(dāng)前的大數(shù)據(jù)環(huán)境下,非結(jié)構(gòu)性數(shù)據(jù)常常難以使用傳統(tǒng)的數(shù)據(jù)計算規(guī)范來加以計算。從這個角度上講,大數(shù)據(jù)環(huán)境下統(tǒng)計的數(shù)據(jù)計算規(guī)范也受到了較大的挑戰(zhàn)。
(三)能夠?qū)y(tǒng)計的數(shù)據(jù)整理和分析過程產(chǎn)生影響
統(tǒng)計學(xué)中數(shù)據(jù)審核之前主要是針對數(shù)據(jù)的完整性和準(zhǔn)確性。不過在當(dāng)前的大數(shù)據(jù)環(huán)境下,數(shù)據(jù)審核除了要保障原先的數(shù)據(jù)完整性、準(zhǔn)確性外,還應(yīng)當(dāng)保證數(shù)據(jù)審核的速度、效率以及數(shù)據(jù)預(yù)測的準(zhǔn)確性等。除此之外,還應(yīng)當(dāng)準(zhǔn)確確定數(shù)據(jù)處理的規(guī)模,合理確定數(shù)據(jù)量的級別。盡管大數(shù)據(jù)自身具有混亂性和不穩(wěn)定性的特點,但是使用合理的數(shù)據(jù)整理方法也能夠在大數(shù)據(jù)中有效挖掘出數(shù)據(jù)之間的隱蔽關(guān)系,提升數(shù)據(jù)挖掘的價值性。因此,大數(shù)據(jù)下統(tǒng)計研究對象本身具有準(zhǔn)確和不準(zhǔn)確兩種情況,它們分別具有不同的價值屬性,一般情況下不需要對其進(jìn)行刪除或者替換。
對于數(shù)據(jù)存儲來講,之前的統(tǒng)計研究數(shù)據(jù)存儲過程中都是將審核、匯總或者編制的表格、圖表等,并將它們進(jìn)行適當(dāng)?shù)谋4嫣幚?。不過在大數(shù)據(jù)環(huán)境下進(jìn)行數(shù)據(jù)的保存就還需要重視數(shù)據(jù)存儲成本的管控,并結(jié)合自身實際制定規(guī)章制度和計劃合理確定數(shù)據(jù)存儲的規(guī)模和目錄。
(四)能夠?qū)?shù)據(jù)開發(fā)和利用過程產(chǎn)生影響
這主要涉及大數(shù)據(jù)環(huán)境下數(shù)據(jù)的積累、開發(fā)以及應(yīng)用。在傳統(tǒng)的數(shù)據(jù)統(tǒng)計工作過程中,研究者都是圍繞自身目標(biāo)來對相關(guān)數(shù)據(jù)進(jìn)行分類和匯總,通過存儲和提取過程,對數(shù)據(jù)進(jìn)行有效挖掘,并在此基礎(chǔ)上為后續(xù)的數(shù)據(jù)分析和查詢提供支撐。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)量比較大,只有對數(shù)據(jù)信息進(jìn)行適當(dāng)處理才能夠獲得其中價值量比較高的信息。正是基于大數(shù)據(jù)自身的復(fù)雜性,統(tǒng)計研究者應(yīng)當(dāng)對前期數(shù)據(jù)進(jìn)行適當(dāng)處理。圍繞數(shù)據(jù)的規(guī)模和結(jié)構(gòu)、層次等進(jìn)行合理分類和匯總,在確保真實性的同時提升數(shù)據(jù)的價值性。與此同時,由于大數(shù)據(jù)環(huán)境下數(shù)據(jù)具有流動性特點,使得數(shù)據(jù)本身也具有再生性特征,并進(jìn)一步增加了數(shù)據(jù)的價值性。因此有必要針對統(tǒng)計研究中的大數(shù)據(jù)進(jìn)行深入的數(shù)據(jù)挖掘,依靠數(shù)據(jù)整合提升數(shù)據(jù)價值性。在數(shù)據(jù)應(yīng)用上則主要是針對統(tǒng)計學(xué)現(xiàn)象的預(yù)測和解釋,實現(xiàn)在大數(shù)據(jù)環(huán)境下數(shù)據(jù)相關(guān)關(guān)系的預(yù)測和分析。
總的來講,大數(shù)據(jù)環(huán)境不僅改變了經(jīng)濟(jì)社會生活,也對統(tǒng)計等相關(guān)科學(xué)產(chǎn)生了巨大的影響,如何實現(xiàn)大數(shù)據(jù)環(huán)境下的統(tǒng)計研究是統(tǒng)計學(xué)領(lǐng)域的重要課題。進(jìn)一步強(qiáng)化對大數(shù)據(jù)的理解和把握,重視大數(shù)據(jù)在統(tǒng)計中的研究和應(yīng)用,有效分析和挖掘大數(shù)據(jù)中的價值信息,更好地推動統(tǒng)計學(xué)的理論和實踐應(yīng)用。
(次世青、高東宇單位為首都航天機(jī)械公司;次青波單位為中國航天標(biāo)準(zhǔn)化研究所)
參考文獻(xiàn)
[1] 田茂再.大數(shù)據(jù)時代統(tǒng)計學(xué)重構(gòu)研究中的幾個熱點問題[J].統(tǒng)計研究,2015(05).
關(guān)鍵詞:大數(shù)據(jù);經(jīng)濟(jì)統(tǒng)計;專業(yè)建設(shè)
當(dāng)前,大數(shù)據(jù)已經(jīng)滲透到社會、經(jīng)濟(jì)、政治以及文化等眾多領(lǐng)域。大數(shù)據(jù)在給各行各業(yè)帶來了新的歷史發(fā)展機(jī)遇的同時,也將給各行各業(yè)帶來新的挑戰(zhàn)。顯然,對高等教育來講也同樣如此。相應(yīng)的,對直接服務(wù)于經(jīng)濟(jì)統(tǒng)計人才培養(yǎng)的經(jīng)濟(jì)統(tǒng)計學(xué)專業(yè)建設(shè)來講,迫切需要回答的問題是,在新形勢下,專業(yè)建設(shè)遇到新的挑戰(zhàn)又將是怎樣的呢?進(jìn)一步的,為了積極應(yīng)對新的挑戰(zhàn)又需要對舊的培養(yǎng)模式進(jìn)行怎樣的修正和改進(jìn)呢?從現(xiàn)有的文獻(xiàn)資料看,雖然學(xué)術(shù)界已經(jīng)積累了大量與(經(jīng)濟(jì))統(tǒng)計學(xué)專業(yè)建設(shè)相關(guān)的研究成果(如龐皓,1991;曾五一,1999;曾五一和尚衛(wèi)平,1999;曾五一等,2010;朱宇兵,2009等),但基于大數(shù)據(jù)背景對這些問題較為深入的研究還比較缺乏,本研究則可以視為是對此進(jìn)行彌補(bǔ)的一個努力嘗試。
1經(jīng)濟(jì)統(tǒng)計學(xué)專業(yè)建設(shè)的發(fā)展現(xiàn)狀
從某種意義上講,經(jīng)濟(jì)統(tǒng)計學(xué)是一個新的專業(yè)。2012年10月,教育部頒布了《普通高等學(xué)校本科專業(yè)目錄(2012年)》。在新專業(yè)目錄中,除保留統(tǒng)計學(xué)為理學(xué)類一級學(xué)科(包括統(tǒng)計學(xué)和應(yīng)用統(tǒng)計學(xué)兩個二級學(xué)科)之外,在經(jīng)濟(jì)學(xué)類的經(jīng)濟(jì)學(xué)一級學(xué)科下增設(shè)經(jīng)濟(jì)統(tǒng)計學(xué)。正是在這樣的背景下,目前我國高校經(jīng)濟(jì)統(tǒng)計學(xué)專業(yè)的開設(shè)一般有兩種情況,一種是新專業(yè)目錄頒布后新設(shè)立的,如中央財經(jīng)大學(xué)、對外經(jīng)濟(jì)貿(mào)易大學(xué)、西南政法大學(xué)以及中南民族大學(xué)等;一種則是由原來的統(tǒng)計學(xué)專業(yè)更名而來的,如中南財經(jīng)政法大學(xué)、天津財經(jīng)大學(xué)、江西財經(jīng)大學(xué)、南京財經(jīng)大學(xué)以及中央民族大學(xué)等。從發(fā)展歷史過程看,經(jīng)濟(jì)統(tǒng)計學(xué)并非是一個全新的專業(yè),而是由以前的統(tǒng)計學(xué)專業(yè)發(fā)展而來。在1998年9月國家教育部頒布的《普通高等學(xué)校本科專業(yè)目錄和專業(yè)介紹》中,統(tǒng)計學(xué)被列為理學(xué)類一級學(xué)科,但可選擇授予經(jīng)濟(jì)學(xué)或理學(xué)學(xué)位。在這種背景下,根據(jù)具體的辦學(xué)條件和偏好,各高校采用了不同的教育模式,一類是強(qiáng)調(diào)各類統(tǒng)計學(xué)所具有的共性。它肯定統(tǒng)計學(xué)的“理學(xué)性質(zhì)”,按照理學(xué)類學(xué)科的特點設(shè)置課程。另一類則是強(qiáng)調(diào)各類統(tǒng)計學(xué)的個性,如財經(jīng)類院校統(tǒng)計學(xué)專業(yè)(曾五一等,2010)。前者的數(shù)量較少,它是將統(tǒng)計學(xué)作為應(yīng)用數(shù)學(xué)的一個分支來看待,所開設(shè)課程主要是數(shù)學(xué)和各種數(shù)理統(tǒng)計方法。后者數(shù)量占有絕大的比重,其專業(yè)方向包括國民經(jīng)濟(jì)統(tǒng)計、經(jīng)濟(jì)統(tǒng)計、管理統(tǒng)計、金融證券統(tǒng)計等(李寶瑜,2004)。從我國統(tǒng)計學(xué)學(xué)科建設(shè)的發(fā)展過程看,其特征主要表現(xiàn)為兩個轉(zhuǎn)變,即從起初的側(cè)重理論培養(yǎng)向當(dāng)前的強(qiáng)調(diào)實際應(yīng)用轉(zhuǎn)變以及從起初的主要服務(wù)政府部門向當(dāng)前的主要服務(wù)社會企業(yè)組織轉(zhuǎn)變。由于新專業(yè)目錄頒布時間還很短,經(jīng)濟(jì)統(tǒng)計學(xué)專業(yè)還沒有建立起新的培養(yǎng)模式,主要還是其前身———(經(jīng)濟(jì)學(xué)方向的)統(tǒng)計學(xué)——培養(yǎng)模式的一種延續(xù)。從我們掌握的資料看,目前各高校經(jīng)濟(jì)統(tǒng)計學(xué)專業(yè)的培養(yǎng)方案還主要是參照1998年《普通高等學(xué)校本科專業(yè)介紹》制定的,其培養(yǎng)目標(biāo)是所謂的“復(fù)合型人才”,即具有堅實的經(jīng)濟(jì)理論基礎(chǔ),既懂?dāng)?shù)理統(tǒng)計方法、又懂經(jīng)濟(jì)統(tǒng)計方法,并能熟練掌握現(xiàn)代計算手段的經(jīng)濟(jì)統(tǒng)計人才(曾五一等,2010)。這種人才既是統(tǒng)計人才又是經(jīng)濟(jì)管理人才,不僅能勝任基層企業(yè)和政府部門的日常統(tǒng)計業(yè)務(wù),而且能從事市場調(diào)查、經(jīng)濟(jì)預(yù)測、信息分析和其他經(jīng)濟(jì)管理工作。相應(yīng)的,在具體的課程體系構(gòu)建和安排上,各高校大都貫徹了“大統(tǒng)計”的學(xué)科觀點,遵循“厚基礎(chǔ)、寬口徑、重應(yīng)用”的復(fù)合型人才培養(yǎng)原則(向書堅和平衛(wèi)英,2010),即在強(qiáng)調(diào)較為完整系統(tǒng)地介紹統(tǒng)計學(xué)主要理論和分析方法的同時,還強(qiáng)調(diào)其與經(jīng)濟(jì)學(xué)其他學(xué)科的密切聯(lián)系,按照經(jīng)濟(jì)類學(xué)科的特點設(shè)置課程。也就是說,經(jīng)濟(jì)統(tǒng)計學(xué)專業(yè)的課程設(shè)置具有顯著的二元性特征。從各高校的具體設(shè)置看,統(tǒng)計學(xué)方面的課程一般有數(shù)學(xué)基礎(chǔ)課、概率論、數(shù)理統(tǒng)計、運籌學(xué)、隨機(jī)過程、回歸分析、時間序列分析、多元統(tǒng)計分析、抽樣調(diào)查、非參數(shù)統(tǒng)計、統(tǒng)計預(yù)測與決策等;而經(jīng)濟(jì)學(xué)方面的課程一般則有微觀經(jīng)濟(jì)學(xué)、宏觀經(jīng)濟(jì)學(xué)、會計學(xué)、國際經(jīng)濟(jì)學(xué)以及與專業(yè)方向(如國民經(jīng)濟(jì)統(tǒng)計、財務(wù)會計統(tǒng)計、金融證券統(tǒng)計等)有關(guān)的課程。此外,和其他專業(yè)一樣,經(jīng)濟(jì)統(tǒng)計學(xué)也重視學(xué)生應(yīng)用和創(chuàng)新能力的培養(yǎng),特別強(qiáng)調(diào)本專業(yè)的畢業(yè)生應(yīng)該具有熟練地采集數(shù)據(jù)和應(yīng)用計算機(jī)分析、處理數(shù)據(jù)的能力。因此,Excel、SAS、SPSS等常用軟件的學(xué)習(xí)和訓(xùn)練也通常以實驗課的形式被納入到課程體系中。但是,要注意的是,我國各高校在制定或修訂經(jīng)濟(jì)統(tǒng)計學(xué)培養(yǎng)方案時,有意或無意地忽視了當(dāng)前隨互聯(lián)網(wǎng)技術(shù)日新月異帶來的大數(shù)據(jù)海量涌現(xiàn)。而由于大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)存在顯著的差異,各高?,F(xiàn)有的經(jīng)濟(jì)統(tǒng)計培養(yǎng)模式可能需要做出重大調(diào)整。
2大數(shù)據(jù)帶來的挑戰(zhàn)
大數(shù)據(jù)之所以在眾多領(lǐng)域里引起關(guān)注,其根本的原因在于大數(shù)據(jù)蘊(yùn)含著巨大的潛在價值。相對于傳統(tǒng)的標(biāo)準(zhǔn)化數(shù)據(jù),大數(shù)據(jù)不僅體量龐大、產(chǎn)生速率極快,而且也更為全面(甚至是整體數(shù)據(jù))。因此,大數(shù)據(jù)的分析結(jié)果也更接近真實。換句話說,大數(shù)據(jù)分析往往意味著人們能夠從這些全面的數(shù)據(jù)中獲取新的洞察力,從而更有可能創(chuàng)造出新的價值,進(jìn)而帶來更大的發(fā)展。大數(shù)據(jù)蘊(yùn)含的巨大潛在價值,勢必將打破現(xiàn)有的數(shù)據(jù)邊界,使大數(shù)據(jù)逐漸成為經(jīng)濟(jì)統(tǒng)計分析的主要對象。由于大數(shù)據(jù)與傳統(tǒng)的標(biāo)準(zhǔn)數(shù)據(jù)存在顯著的差異,對未來的經(jīng)濟(jì)統(tǒng)計工作而言,大數(shù)據(jù)勢必將帶來新的問題或挑戰(zhàn)。簡要地說,大數(shù)據(jù)帶來新的問題或挑戰(zhàn)主要來自于兩個方面,即:
(1)數(shù)據(jù)來源問題。與傳統(tǒng)數(shù)據(jù)主要來源于抽樣調(diào)查或組織內(nèi)部不同,大數(shù)據(jù)是互聯(lián)網(wǎng)高速發(fā)展的產(chǎn)物。隨著科技環(huán)境的巨變———個人電腦的全球普及,移動智能終端的盛行,物聯(lián)網(wǎng)和社交網(wǎng)絡(luò)的爆炸式發(fā)展,以及數(shù)以千萬計的聯(lián)網(wǎng)傳感器節(jié)點在交通、汽車、工業(yè)、公用事業(yè)和零售部門等的廣泛分布,這些都讓數(shù)據(jù)的生產(chǎn)和收集的途徑更為多元、更為廣泛。不過,需要特別注意的是,由于其蘊(yùn)含的巨大潛在價值,大數(shù)據(jù)已經(jīng)成為了可以與物質(zhì)和人力資本相提并論的重要生產(chǎn)要素和組織資產(chǎn)。相應(yīng)的,對各類逐利組織(尤其是企業(yè))來說,不僅需要考慮如何收集到大量的有效信息,同時也希望這些信息為其獨自所占有,如最近阿里巴巴封殺微信、京東,斷絕與社交網(wǎng)絡(luò)新浪微博的賬號合作。這種電商行業(yè)“封殺”現(xiàn)象的出現(xiàn),其理由看似是如這些企業(yè)所宣稱的那樣為了保護(hù)公司的信息安全,但背后的根源其實是擔(dān)心自身的內(nèi)部商業(yè)信息通過互聯(lián)網(wǎng)泄漏,擔(dān)心用戶流量的命脈被他人掌握。因此,在大數(shù)據(jù)時代,如何解決數(shù)據(jù)的封閉性問題將是經(jīng)濟(jì)統(tǒng)計工作數(shù)據(jù)收集面臨的一個重要挑戰(zhàn)。此外,對經(jīng)濟(jì)統(tǒng)計人才來講,由于數(shù)據(jù)不再僅僅是標(biāo)準(zhǔn)結(jié)構(gòu)的,資料收集新技術(shù)的開發(fā)和掌握也成為一種迫切的需要。
(2)數(shù)據(jù)分析問題。由于數(shù)據(jù)更多的是半結(jié)構(gòu)化或非結(jié)構(gòu)化的,傳統(tǒng)的經(jīng)濟(jì)統(tǒng)計分析工具和方法可能不再有效。就大數(shù)據(jù)分析而言,經(jīng)濟(jì)統(tǒng)計工作需要解決的問題是如何從體量龐大且雜亂無章的各類數(shù)據(jù)中挖掘有效信息以創(chuàng)造新的知識和新的價值。在以前,數(shù)據(jù)很大程度上是指“數(shù)字”,如業(yè)務(wù)量、營業(yè)收入額、利潤額、工業(yè)企業(yè)產(chǎn)值、固定資產(chǎn)投資、GDP等,都是一個個數(shù)字或者是可以進(jìn)行編碼的簡單文本。而在大數(shù)據(jù)時代,人們不再是隱藏在終端和網(wǎng)絡(luò)后面的隱形者,購物、社交、游戲、閱讀、出行等信息都變成數(shù)據(jù)被收集到各種各樣的儲存設(shè)備中。而數(shù)據(jù)也不再是單純的“數(shù)字”,還包括文本、圖片、音頻、視頻等多種格式,其涵括的內(nèi)容也更為豐富,如博客、微博、通話錄音、位置信息、交易信息、點評信息、互動信息等。也就是說,數(shù)據(jù)不再只是結(jié)構(gòu)化的,更多是廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)等之中的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。隨著數(shù)據(jù)越來越大,越來越復(fù)雜,增長越來越快,要想建立和保持競爭優(yōu)勢需要對數(shù)據(jù)進(jìn)行實時、有效的分析。而由于數(shù)據(jù)更多的是以半結(jié)構(gòu)化和非結(jié)構(gòu)化形式出現(xiàn),過去傳統(tǒng)的數(shù)據(jù)分析技術(shù)可能無法實現(xiàn)實時監(jiān)測和分析。
3應(yīng)對措施及建議
從個人服務(wù)到商業(yè)運營,從醫(yī)療衛(wèi)生到公共教育,從城市交通到公共管理,大數(shù)據(jù)已開始撼動世界的方方面面。在帶來新的發(fā)展機(jī)遇的同時,大數(shù)據(jù)時代也向包括經(jīng)濟(jì)統(tǒng)計在內(nèi)的眾多領(lǐng)域提出了眾多挑戰(zhàn),需要做好充足的準(zhǔn)備及應(yīng)對。具體到與人才培養(yǎng)息息相關(guān)的經(jīng)濟(jì)統(tǒng)計學(xué)專業(yè)建設(shè),我們認(rèn)為需要從以下幾個方面做出必要的變革:
(1)樹立市場意識,避免人才培養(yǎng)與現(xiàn)實需求脫節(jié)。從目前的實際情況看,我國高校經(jīng)濟(jì)統(tǒng)計人才培養(yǎng)與市場需求之間或多或少存在一定程度的“學(xué)”“用”脫節(jié),還沒有全面實現(xiàn)學(xué)以致用。一方面,以企業(yè)為主的各類組織對經(jīng)濟(jì)統(tǒng)計人才需求非常急迫,如最近一份針對近千家企業(yè)和從業(yè)人員的調(diào)查顯示,97.9%的企業(yè)認(rèn)為數(shù)據(jù)分析對電商運營很重要,超過半數(shù)的企業(yè)表示數(shù)據(jù)分析能力欠缺,同時有近60%的企業(yè)希望專業(yè)數(shù)據(jù)分析人才加入,并愿意為此支付更高薪資;①另一方面,無論是課程體系還是教學(xué)內(nèi)容以及教學(xué)方式,現(xiàn)有模式基本上是以傳統(tǒng)數(shù)據(jù)為對象的。換句話說,在現(xiàn)有培養(yǎng)方式下,學(xué)生掌握的數(shù)理統(tǒng)計和經(jīng)濟(jì)統(tǒng)計方法可能無法滿足大數(shù)據(jù)的分析需要,如傳統(tǒng)的統(tǒng)計分組、頻數(shù)分布等數(shù)據(jù)整理方法顯然難以完全適用于圖片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)。因此,要真正做到“厚基礎(chǔ)、寬口徑、重應(yīng)用”,則需要根據(jù)經(jīng)濟(jì)發(fā)展的需求設(shè)置教學(xué)計劃、更新落后的教育內(nèi)容、采納現(xiàn)代化的教學(xué)手段,需要注意與其他學(xué)科之間進(jìn)行充分的交流與融合,跟上當(dāng)代社會科學(xué)的雜交化、整體化趨勢發(fā)展的步伐。
(2)經(jīng)濟(jì)、統(tǒng)計與IT相融合,優(yōu)化課程體系。在大數(shù)據(jù)的洪流中,數(shù)據(jù)分析是否能夠帶來新的洞察力、創(chuàng)造新的知識和價值,取決于從業(yè)人員是否掌握大數(shù)據(jù)收集、管理、分析和開發(fā)的相關(guān)特定工具。從我國高校經(jīng)濟(jì)統(tǒng)計學(xué)專業(yè)課程體系看,專業(yè)課程設(shè)置主要包括經(jīng)濟(jì)類基礎(chǔ)課程與專業(yè)主干課程兩大基本模塊。雖然各高校都強(qiáng)調(diào)遵循“厚基礎(chǔ)、寬口徑、重應(yīng)用”的復(fù)合型經(jīng)濟(jì)統(tǒng)計人才培養(yǎng)原則,也主張將理論方法的教學(xué)與計算機(jī)軟件緊密結(jié)合起來(如“統(tǒng)計學(xué)導(dǎo)論”選用Excel,“應(yīng)用多元統(tǒng)計分析”選用SPSS,“計量經(jīng)濟(jì)學(xué)”選用Eviews等軟件作為計算工具),但在大數(shù)據(jù)的開發(fā)和應(yīng)用日益成為新潮流、新趨勢的背景下,仍然很少看到有高校在經(jīng)濟(jì)統(tǒng)計學(xué)專業(yè)中開設(shè)獨立的、專門涉及大數(shù)據(jù)技術(shù)的相關(guān)課程。因此,根據(jù)現(xiàn)實人才需求的新變化以及大數(shù)據(jù)技術(shù)的不斷進(jìn)步和升級,我們應(yīng)該對經(jīng)濟(jì)統(tǒng)計學(xué)專業(yè)的課程體系進(jìn)行必要的調(diào)整,即根據(jù)大數(shù)據(jù)分析的內(nèi)在需要,在經(jīng)濟(jì)學(xué)和統(tǒng)計學(xué)相關(guān)課程之外把大數(shù)據(jù)技術(shù)相關(guān)的課程納入到現(xiàn)有體系之中,實現(xiàn)“經(jīng)濟(jì)、統(tǒng)計與IT”三方面內(nèi)容的平衡和融合。在大數(shù)據(jù)時代,雖然經(jīng)濟(jì)統(tǒng)計所包括的主要工作仍然是數(shù)據(jù)收集和數(shù)據(jù)分析等,但是其內(nèi)容卻發(fā)生了翻天覆地的變化。如收集數(shù)據(jù)不再依賴于隨機(jī)采樣,而是需要利用多個數(shù)據(jù)庫來接收發(fā)自客戶端的數(shù)據(jù),并導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫。相應(yīng)的,數(shù)據(jù)存儲和預(yù)處理以及數(shù)據(jù)挖掘和分析也都是以分布式數(shù)據(jù)庫為工作對象的??紤]到本科教育的基本要求與技術(shù)的實際發(fā)展水平以及通用性等,在Hadoop、NoSQL、HDFS等目前較為常用的大型數(shù)據(jù)分析軟件和工具中,我們建議至少增設(shè)Hadoop方面相關(guān)的課程。
(3)與時俱進(jìn),加強(qiáng)師資隊伍培養(yǎng)。能否把本專業(yè)的學(xué)生培養(yǎng)成為復(fù)合型的應(yīng)用人才,取決于是否擁有一支高素質(zhì)的教師隊伍。隨著大數(shù)據(jù)及其應(yīng)用成為一種新的潮流和趨勢,經(jīng)濟(jì)統(tǒng)計的專業(yè)教師團(tuán)隊建設(shè)也需要做出相應(yīng)的調(diào)整和變革。從教師隊伍的結(jié)構(gòu)看,由于經(jīng)濟(jì)統(tǒng)計學(xué)專業(yè)發(fā)展的過程使然,目前我國各高校該專業(yè)的專業(yè)教師以具有經(jīng)濟(jì)學(xué)或統(tǒng)計學(xué)學(xué)科教育背景的教師為主,而具有信息技術(shù)教育背景的教師還非常稀少。由于大數(shù)據(jù)及其應(yīng)用需要融合經(jīng)濟(jì)、統(tǒng)計以及IT等多個領(lǐng)域的理論、方法和工具,因此對經(jīng)濟(jì)統(tǒng)計專業(yè)建設(shè)而言,當(dāng)前最為迫切的是,需要建設(shè)一支教育背景涵蓋上述三個領(lǐng)域的結(jié)構(gòu)合理的教師隊伍。而實現(xiàn)的途徑無非是兩種:一方面是在全校范圍內(nèi)進(jìn)行挖潛,重新組合和配置教師資源以優(yōu)化經(jīng)濟(jì)統(tǒng)計專業(yè)教師團(tuán)隊;另一方面則是實施“請進(jìn)來”戰(zhàn)略,加大力度引進(jìn)海內(nèi)外優(yōu)秀人才。在內(nèi)部挖潛和外部引進(jìn)的同時,專業(yè)教師團(tuán)隊建設(shè)還應(yīng)該努力創(chuàng)造一個良好的人才成長環(huán)境,鼓勵教師積極“走出去”,到國內(nèi)外高水平大學(xué)進(jìn)修和學(xué)習(xí),鼓勵教師不斷以新的知識充實、提高自己,以此來不斷提高本專業(yè)的教師質(zhì)量和水平.
參考文獻(xiàn)
[1]李寶瑜.統(tǒng)計學(xué)一級學(xué)科建設(shè)中的若干問題[J].統(tǒng)計研究,2004(8).
[2]龐皓.經(jīng)濟(jì)統(tǒng)計學(xué)課程體系改革的方向[J].統(tǒng)計研究,1991(1).
[3]向書堅,平衛(wèi)英.30年來我國財經(jīng)類院校統(tǒng)計學(xué)專業(yè)本科課程設(shè)置的歷史回顧與展望[J].統(tǒng)計研究,2010(1).
[4]曾五一.關(guān)于經(jīng)濟(jì)管理類統(tǒng)計學(xué)專業(yè)課程體系設(shè)置的幾點意見[J].統(tǒng)計教育,1999(8).
[5]曾五一,尚衛(wèi)平.關(guān)于經(jīng)濟(jì)統(tǒng)計學(xué)若干問題的思考[J].統(tǒng)計研究,1999(11).
[6]曾五一,肖紅葉,龐皓,朱建平.經(jīng)濟(jì)管理類統(tǒng)計學(xué)專業(yè)教學(xué)體系的改革與創(chuàng)新[J].統(tǒng)計研究,2010(2).
一、數(shù)據(jù)分析觀念的內(nèi)涵
(一)《標(biāo)準(zhǔn)》中“數(shù)據(jù)分析觀念”的主要內(nèi)涵
1.了解在現(xiàn)實生活中處理很多問題時,應(yīng)當(dāng)先做調(diào)查研究,收集數(shù)據(jù),再通過分析進(jìn)行判斷,明確數(shù)據(jù)中蘊(yùn)含的信息。這一描述強(qiáng)調(diào)了確立統(tǒng)計意識是培養(yǎng)數(shù)據(jù)分析觀念的前提。面對復(fù)雜的現(xiàn)實情境,學(xué)生要從數(shù)據(jù)中提取有用的信息,必須具備數(shù)據(jù)意識,意識到數(shù)據(jù)包含有所需要的信息,同時也要具備數(shù)據(jù)分析意識,知道只有通過分析數(shù)據(jù),才能挖掘出數(shù)據(jù)中所蘊(yùn)含的豐富信息。
2.了解對于同樣的數(shù)據(jù)有多種分析方法,需要根據(jù)問題的背景選擇合適的分析方法。數(shù)據(jù)中所蘊(yùn)含的情境性,是數(shù)據(jù)與數(shù)字的最大區(qū)別,這也使得在各種問題情境中所收集到的數(shù)據(jù)有可能相似,但采用的分析方法卻大相徑庭。不同的數(shù)據(jù)分析方法不能簡單地用“對”與“錯”來評判,只有“合適”與“不合適”。同樣的數(shù)據(jù),因為研究的問題和目標(biāo)不同,所以選擇的分析方法也不同,決策者要根據(jù)具體的情境和期待的結(jié)果作出正確的選擇。
3.通過數(shù)據(jù)分析體驗隨機(jī)性:一方面對于同樣的事情每次收集到的數(shù)據(jù)可能不同,另一方面只要有足夠的數(shù)據(jù)就可能從中發(fā)現(xiàn)規(guī)律。[1]這說明數(shù)據(jù)具有隨機(jī)性的特點,但是通過大量的實驗可以發(fā)現(xiàn),數(shù)據(jù)又呈現(xiàn)出一定的規(guī)律性。數(shù)據(jù)分析是在大量的甚至無限次的實驗的基礎(chǔ)上作出相應(yīng)的數(shù)理統(tǒng)計的過程,而每一次實驗都存在隨機(jī)性,無法保證實驗結(jié)果一定準(zhǔn)確無誤,這是數(shù)據(jù)出現(xiàn)隨機(jī)性的原因。
分析《標(biāo)準(zhǔn)》中關(guān)于“數(shù)據(jù)分析觀念”的闡述可以知道,針對義務(wù)教育階段統(tǒng)計教學(xué)如何培養(yǎng)學(xué)生的數(shù)據(jù)分析觀念,《標(biāo)準(zhǔn)》提出了3個方面的要求:一是過程性的規(guī)定,即數(shù)據(jù)分析觀念是在學(xué)生調(diào)查、收集和整理數(shù)據(jù)的過程中發(fā)展起來的,并在分析的基礎(chǔ)上作出相應(yīng)的決策;二是方法性的規(guī)定,即面對不同情境的問題,如何選擇恰當(dāng)?shù)摹⒑侠淼慕鉀Q方法;三是感悟性的規(guī)定,即讓學(xué)生從中體會數(shù)據(jù)的隨機(jī)性和規(guī)律性特點。
(二)關(guān)于內(nèi)涵解讀的研究
“統(tǒng)計是關(guān)于收集和分析帶有隨機(jī)性誤差的數(shù)據(jù)的科學(xué)和藝術(shù)?!盵2]y計的對象――數(shù)據(jù),是統(tǒng)計研究的基礎(chǔ)。正如美國統(tǒng)計學(xué)家戴維?S?穆爾所說:“統(tǒng)計是用來處理數(shù)據(jù)的。數(shù)據(jù)由數(shù)字組成,但它不僅是單純的數(shù)字。數(shù)據(jù)是有內(nèi)容的數(shù)字。”[3]小學(xué)階段的統(tǒng)計學(xué)習(xí)正是探討這些具有一定實際背景的數(shù)字,教學(xué)時教師需要將其與學(xué)生熟悉的“數(shù)與代數(shù)”中那些單純的數(shù)字進(jìn)行區(qū)分,幫助學(xué)生認(rèn)識統(tǒng)計的特殊性。
數(shù)據(jù)分析觀念是數(shù)據(jù)意識、統(tǒng)計技能的統(tǒng)一體。在現(xiàn)實生活中,數(shù)據(jù)意識體現(xiàn)在,當(dāng)遇到問題時能夠想到進(jìn)行調(diào)查研究,用數(shù)據(jù)說話,運用統(tǒng)計的方法解決問題。數(shù)據(jù)意識是統(tǒng)計活動的起點,也是統(tǒng)計教學(xué)的核心內(nèi)容。統(tǒng)計技能是完成統(tǒng)計活動所必需的各種能力和技術(shù)的總和,它包括數(shù)據(jù)的收集、整理和分析,從數(shù)據(jù)中提取有價值的信息,進(jìn)而作出決策。因此,數(shù)據(jù)分析觀念也可以劃分為3個維度:一是認(rèn)識到需要收集數(shù)據(jù),這包括3個要素,即有數(shù)據(jù)意識、發(fā)現(xiàn)和提出運用數(shù)據(jù)解決問題、根據(jù)問題的需要設(shè)計收集數(shù)據(jù)的計劃;二是了解數(shù)據(jù)中蘊(yùn)含的信息,也包括3個要素,即從數(shù)據(jù)中提取信息、通過分析數(shù)據(jù)進(jìn)行判斷、選擇恰當(dāng)?shù)慕y(tǒng)計方法;三是體會數(shù)據(jù)的隨機(jī)性特點,認(rèn)識到所收集的數(shù)據(jù)是隨機(jī)的,但數(shù)據(jù)較多時會呈現(xiàn)某種穩(wěn)定性和規(guī)律性。
盡管表述方式不同,但學(xué)者們都把數(shù)據(jù)分析作為統(tǒng)計內(nèi)容的核心,并一致強(qiáng)調(diào)數(shù)據(jù)的現(xiàn)實背景來源,具體表現(xiàn)為:①數(shù)據(jù)分析應(yīng)當(dāng)建立在統(tǒng)計的基礎(chǔ)之上;②應(yīng)當(dāng)選取合適的方法對收集到的數(shù)據(jù)進(jìn)行分析和處理;③根據(jù)已經(jīng)整理好的數(shù)據(jù)作出解釋、得出結(jié)論,運用數(shù)據(jù)進(jìn)行推斷,在推斷的過程中還要對數(shù)據(jù)的來源、處理方法和分析結(jié)果進(jìn)行合理的質(zhì)疑。
二、數(shù)據(jù)分析觀念的教育價值
在知識經(jīng)濟(jì)和信息技術(shù)時代,加強(qiáng)數(shù)據(jù)分析觀念的培養(yǎng)是新時代對人才的要求??梢?,數(shù)據(jù)分析觀念是義務(wù)教育階段學(xué)生必備的數(shù)學(xué)素養(yǎng)之一。
(一)結(jié)合數(shù)據(jù)的情境性激發(fā)數(shù)據(jù)意識
在信息化社會中,無論是人口預(yù)測、投資貸款、風(fēng)險評估、市場預(yù)測,還是學(xué)生學(xué)習(xí)統(tǒng)計與概率的知識,都需要數(shù)據(jù)分析觀念的指導(dǎo),而數(shù)據(jù)意識更是發(fā)揮著重要的作用。數(shù)據(jù)分析觀念并非簡單的匯攏數(shù)字、計算平均數(shù)和眾數(shù)、畫統(tǒng)計圖,而是人們在經(jīng)歷調(diào)查行動后形成的對事物加以整理和分析的意識。所謂數(shù)據(jù)意識,是指遇到現(xiàn)實情境問題時能夠想到用數(shù)據(jù)來解決問題,將現(xiàn)實情境中遇到的問題轉(zhuǎn)化為數(shù)據(jù)問題。
例如,小紅、小明的10次射擊訓(xùn)練成績(環(huán)數(shù))如下:
如果你是教練,會選擇誰參加比賽呢?遇到這樣的問題,學(xué)生首先會計算小紅和小明射擊訓(xùn)練成績(環(huán)數(shù))的平均數(shù),這時會發(fā)現(xiàn)兩人射擊訓(xùn)練成績(環(huán)數(shù))的平均數(shù)相同,于是產(chǎn)生疑問:那要根據(jù)什么進(jìn)行選擇呢?小學(xué)生雖然還沒有接觸方差等概念,但利用眾數(shù)和折線圖的陡緩程度能夠初步判斷誰的射擊訓(xùn)練成績(環(huán)數(shù))更穩(wěn)定、更有潛力。如果教師對學(xué)生進(jìn)行過相關(guān)的訓(xùn)練,在看到一組數(shù)據(jù)時,學(xué)生就會有意識地對數(shù)據(jù)進(jìn)行分析,從而發(fā)展數(shù)據(jù)意識,那么,今后遇到類似的問題時就能夠自覺地運用學(xué)到的知識和技能對數(shù)據(jù)進(jìn)行處理和分析了。
(二)在統(tǒng)計活動中體驗和發(fā)展隨機(jī)性思維
在生活與工作中,人們必須掌握處理不確定性現(xiàn)象的概率統(tǒng)計知識,具備一定的數(shù)據(jù)分析意識與數(shù)據(jù)處理能力,只有這樣,才能在面對大量的、不確定的數(shù)據(jù)信息時作出正確的選擇。小學(xué)生在學(xué)習(xí)“統(tǒng)計與概率”之前就已經(jīng)掌握了數(shù)與代數(shù)、圖形與幾何等內(nèi)容,具備了以邏輯推理為主的確定性思維,在學(xué)習(xí)統(tǒng)計與概率的內(nèi)容時,教師要讓學(xué)生知道事物的發(fā)展既有偶然性又有規(guī)律性,從而形成數(shù)據(jù)分析觀念和隨機(jī)性觀念。
例如,一個不透明的袋子中裝著若干個紅球和藍(lán)球,事先不告訴學(xué)生紅球和藍(lán)球的數(shù)量,而是讓學(xué)生重復(fù)摸取、放回,進(jìn)行多次實驗。在活動中我們發(fā)現(xiàn):每次摸取球的顏色可能不一樣,但是隨著摸取球的次數(shù)的增加,就會發(fā)現(xiàn)一些規(guī)律。學(xué)生在摸球過程中理解了隨機(jī)的概念,體驗到了隨機(jī)知識在生活中的應(yīng)用,進(jìn)而意識到學(xué)習(xí)隨機(jī)性的意義。
(三)親歷問題解決過程,訓(xùn)練思維的靈活性
數(shù)學(xué)思維的靈活性是需要重點培養(yǎng)的思維品質(zhì)之一,而這需要學(xué)生在解決數(shù)學(xué)問題的過程中獲得鍛煉和發(fā)展。比如,教師可以設(shè)計一些有效的統(tǒng)計活動,鼓勵學(xué)生采用不同的統(tǒng)計方法,從多角度對數(shù)據(jù)進(jìn)行分析,發(fā)散學(xué)生的思維,并根據(jù)情境的變換及時調(diào)整解決問題的思維方向,引導(dǎo)學(xué)生學(xué)會解決不同情境的實際問題。
例如,教師可以創(chuàng)設(shè)這樣的情境:假設(shè)學(xué)生是任教五(1)班和五(2)班的數(shù)學(xué)老師,期末總結(jié)時要對自己任教的這兩個班級的期末成績進(jìn)行比較。在這個過程中,教師應(yīng)當(dāng)引導(dǎo)學(xué)生按照不同的標(biāo)準(zhǔn)來評判兩個班級的數(shù)學(xué)成績。這時我們會發(fā)現(xiàn):有的學(xué)生依據(jù)兩個班級各自的數(shù)學(xué)平均分進(jìn)行比較;有的學(xué)生依據(jù)85分及以上為優(yōu)秀這個標(biāo)準(zhǔn),先統(tǒng)計出兩個班級獲得85分及以上的學(xué)生各有多少人,然后分別計算出兩個班級的優(yōu)秀率,再進(jìn)行比較分析;有的學(xué)生依據(jù)60分以下為不合格的標(biāo)準(zhǔn),統(tǒng)計出兩個班級不合格的人數(shù),按照不合格人數(shù)的數(shù)量比較兩個班級數(shù)學(xué)成績的優(yōu)劣。其實,這里的答案并不唯一,每一種答案都可以作為教師分析學(xué)生成績的標(biāo)準(zhǔn)。因此,教師應(yīng)當(dāng)鼓勵學(xué)生進(jìn)行多維度思考,訓(xùn)練學(xué)生思維的靈活性。
三、稻莘治齬勰畹吶嘌策略
數(shù)據(jù)分析觀念不是憑空想象出來的,也不是教師說統(tǒng)計有用,學(xué)生就能夠體會得到的,更不是憑借收集數(shù)據(jù)就可以形成的,而是學(xué)生在經(jīng)歷統(tǒng)計活動解決問題的過程中建立起來的一種認(rèn)識。從某種意義上說,觀念是意識的高級階段,是在意識、能力的基礎(chǔ)上形成的認(rèn)識。培養(yǎng)學(xué)生的數(shù)據(jù)分析觀念是一個循序漸進(jìn)的過程,教師必須根據(jù)學(xué)生的認(rèn)知特點設(shè)計教學(xué)。
(一)引導(dǎo)學(xué)生樹立統(tǒng)計思想
數(shù)據(jù)分析觀念是統(tǒng)計思想的重要組成部分,要讓小學(xué)生樹立統(tǒng)計思想,教師首先要讓學(xué)生意識到統(tǒng)計的必要性,重視統(tǒng)計的應(yīng)用。課堂上,教師可以向?qū)W生展示生活中與統(tǒng)計相關(guān)的事例,指導(dǎo)學(xué)生學(xué)會判斷在什么情況下需要采取統(tǒng)計的方法解決問題,并自覺地朝著統(tǒng)計這個方向思考問題。其次,學(xué)生具備了統(tǒng)計意識后,教師要讓學(xué)生掌握具體的統(tǒng)計方法和策略,以便更好地進(jìn)行數(shù)據(jù)分析。需要注意的是,面對不同的問題要采取不同的統(tǒng)計方法。
例如,調(diào)查統(tǒng)計“我們最愛吃的水果”,教師可以創(chuàng)設(shè)生活情境:生活老師要為同學(xué)們準(zhǔn)備課間水果,準(zhǔn)備哪些水果比較合適呢?首先,生活老師需要了解全班同學(xué)的喜好,為此必須采用統(tǒng)計的方法,設(shè)計統(tǒng)計方案。其次,當(dāng)收集到所有數(shù)據(jù)之后,為了確定哪一種水果最受歡迎,必須采用合適的統(tǒng)計方法進(jìn)行統(tǒng)計,比如可以采取扇形圖對水果進(jìn)行分類;至于每一種水果需要的數(shù)量是多少,則應(yīng)當(dāng)再次根據(jù)前期的數(shù)據(jù)調(diào)查進(jìn)行分析。
(二)體驗數(shù)據(jù)分析的全過程
學(xué)生要將數(shù)據(jù)分析觀念真正地納入已有的思維模式中,最有效的方法就是經(jīng)歷數(shù)據(jù)分析的整個過程,包括發(fā)現(xiàn)問題、提出問題、調(diào)查現(xiàn)狀、收集數(shù)據(jù)、整理分析、得出結(jié)論以及反思交流。小學(xué)生抽象思維尚未成熟,接觸的數(shù)據(jù)都應(yīng)源于現(xiàn)實生活背景,只有豐富的數(shù)學(xué)情境才能夠幫助他們更好地理解概念,并學(xué)會遷移應(yīng)用。因此,教師應(yīng)當(dāng)充分挖掘貼近學(xué)生生活的情境資源,創(chuàng)設(shè)學(xué)生感興趣的問題情境。
以估計全校學(xué)生上個月家庭用電情況為例,如果對全校每個學(xué)生都進(jìn)行調(diào)查,有點不切實際,浪費時間和精力。當(dāng)學(xué)生碰到這個問題時,教師可以滲透抽樣統(tǒng)計的方法,選取每個年級段的一個班級進(jìn)行調(diào)查,收集數(shù)據(jù)。在這個活動中,如何利用收集到的數(shù)據(jù)對全校學(xué)生進(jìn)行合理的估計,學(xué)生需要具備較強(qiáng)的數(shù)據(jù)分析能力。教師可以通過這個活動,發(fā)展學(xué)生的數(shù)據(jù)分析能力。學(xué)生掌握了基本的統(tǒng)計方法,經(jīng)歷了調(diào)查研究、整理數(shù)據(jù)、分析數(shù)據(jù)的過程,將會逐步形成數(shù)據(jù)分析的觀念。
(三)培養(yǎng)批判意識,提高辨別能力
在信息社會,人們每天都要接觸大量的數(shù)據(jù)信息,其中絕大多數(shù)是無用的信息或偽信息。辨別信息的真?zhèn)尾⒆鞒隼碇堑倪x擇,離不開批判意識和辨別能力。培養(yǎng)學(xué)生的批判性分析能力,教師要引導(dǎo)學(xué)生讀懂?dāng)?shù)據(jù),理解數(shù)據(jù)內(nèi)在的含義,并對數(shù)據(jù)的來源和處理方法進(jìn)行考察和分析。小學(xué)生心智發(fā)展尚未成熟,加上認(rèn)知發(fā)展水平還處于具體運算階段,對于外界復(fù)雜的信息缺乏理性的判斷,因此,教師可以呈現(xiàn)案例,如生活中誤用或濫用統(tǒng)計數(shù)據(jù)的現(xiàn)象但大多數(shù)人對此并未警覺或質(zhì)疑,從而培養(yǎng)學(xué)生的批判意識,提高辨別能力。
例如,超市為了促銷牛奶,打出的廣告是第二箱半價。如果不加思索,消費者就會認(rèn)為很實惠,馬上買了兩箱牛奶。但仔細(xì)思考發(fā)現(xiàn),兩箱牛奶的平均價格和促銷前其實只相差幾毛錢而已,這是因為,消費者只注意到半價,而并沒有留意到第一箱牛奶的價錢。又如,超市有兩種不同品牌的商品,甲品牌打八五折,乙品牌買滿150元送50元,我們應(yīng)該怎么選擇呢?面對這樣的問題,我們不能憑感覺亂猜,而要根據(jù)不同的需求量進(jìn)行分析。諸如此類的實例都是小學(xué)生在日常生活中常常會遇到的,學(xué)生要作出理性的選擇與判斷,必須具備質(zhì)疑能力和一定的數(shù)據(jù)分析能力。
(四)合理利用信息技術(shù)
小學(xué)生每天大部分時間都在學(xué)校度過,接觸外界事物的機(jī)會不多,而數(shù)據(jù)分析觀念的培養(yǎng)又需要呈現(xiàn)大量的真實的生活情境,讓學(xué)生對數(shù)據(jù)進(jìn)行整理、分析和判斷,信息技術(shù)正好可以彌補(bǔ)這一缺陷。教師可以利用信息技術(shù)的優(yōu)勢給學(xué)生呈現(xiàn)更多的生活實例。另外,當(dāng)碰到需要分析大數(shù)據(jù)或需要多次實驗才能夠解決的統(tǒng)計問題時,教師可以利用信息技術(shù)對原始數(shù)據(jù)及分析結(jié)果進(jìn)行直觀展示,這樣做有助于學(xué)生理解統(tǒng)計過程及其內(nèi)涵。
例如,調(diào)查分析全班學(xué)生對顏色的喜好情況,教師可以借助信息技術(shù),讓學(xué)生先在電腦中輸入自己最喜愛的一種顏色。待全部學(xué)生輸入完畢,電腦便會自動生成全班學(xué)生對顏色喜好的原始數(shù)據(jù)。接下來,學(xué)生就要對這些原始數(shù)據(jù)進(jìn)行分類、整理,再通過電腦將整理后的數(shù)據(jù)生成不同的統(tǒng)計圖表,并依據(jù)這些圖表分析學(xué)生對顏色的喜好情況。在這個過程中,教師利用信息技術(shù)不僅節(jié)省了寶貴的教學(xué)時間,將數(shù)據(jù)的收集、整理和繪制統(tǒng)計圖表生動形象地展示在學(xué)生面前,而且?guī)椭鷮W(xué)生經(jīng)歷了數(shù)據(jù)的收集、整理及圖表繪制的過程。
參考文獻(xiàn):
[1]中華人民共和國教育部.義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)(2011年版)[S].北京:北京師范大學(xué)出版社,2012:6.
[2]陳希孺.機(jī)會的數(shù)學(xué)[M].北京:清華大學(xué)出版社,2000:58.
[3](美)戴維?S?穆爾,鄭惟厚譯.統(tǒng)計學(xué)的世界[M].北京:中信出版社,2003:4.