數據分析方法論文

時間：2022-05-21 11:02:22

序論：寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感，挖掘那些隱藏在內心深處的真相，好投稿為您帶來了一篇數據分析方法論文范文，愿它們成為您寫作過程中的靈感催化劑，助力您的創作。

數據分析方法論文

數據分析 方法 論文:土工實驗數據分析方法探討

【摘要】土工實驗是進行土木工程的重要前提條件，其能夠為施工建設提供可靠的數據支持，能夠有效防止工程建設中可能存在的潛在危險事故。本文對其數據涉及的內容進行分析，分析了實驗準確性的因素，進而提出相應的方法應用，希望可以為土工實驗的發展提供借鑒。

【關鍵詞】土工實驗；實驗數據；數據分析；分析方法

一、引言

在進行實驗過程中，由于土體本身所具有的復雜性，土質質檢所存在的物理學特性以及采樣、運輸、存儲等等方面所表現出來的特點，都容易對數據造成一定程度的干擾，致使實驗的結果出現誤差。另外，因為實驗本身受到很多因素的干擾，也同樣容易發生數據偏差的問題。因此，本文著重從實驗數據所涉及的內容，影響實驗數據的因素，以及提升實驗準確率的角度出發，對土工實驗數據分析方法進行探討。

二、土工試驗數據所涉及內容

（一）土的比重實驗。土工試驗過程中，土的比重實驗是非常重要的。一般來說，地域相同或者相近，那么土的比重也將會比較相近。但是，因為在實際操作中，其整個的操作流程比較復雜，所以不同的單位會采用本地所出具的或者考察的相關數據直接進行比重實驗，這樣容易導致實驗數據的誤差存在。

（二）土的密度實驗。通過土的密度實驗可以詳細的了解土的組成，可以了解其組成成分的性質，能夠為之后的施工提供更多的參考。土的密度與土粒的重量、孔隙體積、孔隙大小、孔隙水重等等內容息息相關，能夠反映土的組成和基本結構特征。在進行實驗的過程中，要注意盡量避免對取樣即時進行實驗，最好能夠等待土樣達到日常狀態之后再進行試驗，這樣可以讓土密度實驗的結果更加準確。

（三）土的含水量實驗。土的含水量實驗可以說是土工實驗中的核心內容，其實驗的情況將會影響到工程地基建設，還會影響到后續工程的穩定性。不同地區的土樣其含水量不同，并存在很大程度上的差異性。實驗人員在進行取樣的過程中，要保證其樣品的均勻性，或者具有代表性，否則進行試驗所獲得的數據就沒有任何指導意義，其數據在實踐應用中的效率和質量也將會呈現大幅度的下降。

三、土性參數實驗結果誤差性的原因

（一）土體本身性質導致。依照相關的物理力學和力學性質，我們可以了解到土體的分層具有不均勻性，加上其所處環境的變化，可能發生的雨水沖擊、水文變化、其后影響等等語速怒，都會讓土體的性質發生改變。這樣在進行土工試驗的時候就非常容易造成實驗結果的差異性，甚至有可能會成為差異產生的主要影響因素。

（二）系統誤差。系統誤差是由于儀器的某些不完善、測量技術上受到限制或實驗方法不夠完善沒有保證正確的實驗條件等原因產生。不同的單位所使用的儀器往往不盡相同，所使用的試驗方法也有一定的出入，加上不同的試驗方法讓土工參數出現離散性，其所實驗的數據也就會有所不同。系統誤差的存在可以予以避免，其與偶然誤差不同，這就需要實驗室對設備和系統進行改進。

（三）偶然誤差。偶然誤差的特點是它的隨機性。如果實驗人員對某物理量只進行一次測量，其值可能比真值大也可能比真值小，這完全是偶然的，產生偶然誤差的原因無法控制，所以偶然誤差總是存在，通過多次測量取平均值可以減小偶然誤差，但無法消除。偶然誤差的存在屬于客觀存在的現象，其與人為原因所造成的誤差有很大的差別，對于兩者應當予以區分。

四、土工實驗數據分析方法的應用

（一）進行數據檢查，果斷進行取舍。在進行實驗的過程中，如果有明顯不符合物理力學性質的值的范圍點，則可以通過觀察予以了解，實驗人員要對其進行細致觀察，一旦發現異常立刻予以放棄。一般判斷的標準是大部分數值為范圍內波動，但是有一點超出正常值或者距離正常值較遠，則可以被認定為不合理。在實驗數據較多的情況下可以運用3σ法則進行數據之間取舍的考量。在進行實驗過程中，存在于之外數值所占比例較少，因此，大于和小于之間數值作為異常處理。

（二）土工實驗數據中最小樣本數問題。在土工試驗過程中，最小樣本數問題需要引起人們的重視。實驗中的樣本數要選取適當，如果樣本數過小就會影響實驗結果的準確性。但是，樣本數的數量并不是隨意定制的，其受到多種因素的影響，比如工程規模、工程精度要求、現場勘查情況等等。

（三）土體性質指標的自相關性的問題。根據以往數據實驗的關聯性，求的往往是其之間的線性相關系數，但是對于其自相關函數通常并沒有表現出線性相關，而是指數相關。因此，不能簡單依照求相關系數的方法判斷其相關性。在進行土工實踐過程中，往往可以通過δ對其獨立性進行判斷。在相關距離范圍內，圖形指標基本相關；在此范圍外，圖形指標基本不相關。但是對于δ事先未知，因此其需要根據樣本測值進行求算，一般使用遞推平均法對相關距離δ進行計算，并使用間距Z對δ的影響進行綜合考量。一般來說，Z /δ的數值越大，其各抽樣點的土性越接近相互獨立，抽樣誤差也就越小。

五、結束語

土工試驗對于土工建設來說影響較大，其影響因素包括土體本身性質、取樣儀器情況、人為因素等，需要對此方面予以重視。對其不合理點來說，可以通過3 原則進行剔除。對于其數據相關性來說，其可以通過迭代求解土性指標相關距離予以解決，通過樣本的加權平均來對該區域的平均性指標進行估算。為了讓樣本能夠滿足實驗需要，可以利用Bayes方法對其土性指標與因確認，從而彌補數目不準確的情況。通過此三個方面對其進行方法的應用，則可以有效提升實驗數據的準確性、可靠性，可以讓實驗的結果更加符合實際需要。

數據分析方法論文:社會調查數據建模及基于超圖的數據分析方法

摘要：針對現今的社會調查數據處理與分析中存在的問題，該文通過三維矩陣建立了社會調查數據的數學模型。將每一題表示為空間中的一個維度，每一張問卷表示成一個矩陣，將多個矩陣疊加即可得到社會調查數據的三維矩陣模型。在建立三維矩陣模型的基礎上，可以利用三維矩陣的性質對其進行多種數學處理，也可以采用超圖理論對數據進行進一步的分析，大大豐富了調查數據的處理方法。

關鍵詞：社會調查數據三維矩陣超圖

社會調查是了解各方面信息的重要途徑之一，社會調查數據主要是通過調查問卷的方法得到的。由于社會調查數據的維數較高，加上人為主觀因素，數據類型主要為二元變量、離散變量、序數變量等為主，所以對于社會調查數據的分析和處理大都基于統計學，只對單一題目進行統計學分析，其分析方法主要是基于題型進行處理的，對于題目和題目之間的關系很少關心[1]。許多數據挖掘算法因為種種限制無法在社會調查的數據分析中得到應用。因為方法的限制，所以現在很多社會調查只能驗證事先想好的內容和假設，很少可以對高維數據進行相對復雜的回歸分析處理。

根據以上存在的問題，該文建立了基于三維矩陣的數學模型，將單選題、多選題和排序題用向量形式進行表示，每一題定義為空間中的一個維度，從而所有的題目就可以構成一個N維空間。每份問卷的信息用一個M×N矩陣表示。這樣表示可以將所有問卷內容當作一個整體，作為后續算法的基礎。

1 社會調查數據的特點

通常情況下，社會調查數據特點如下。

（1）相關性。對于一個樣本個體而言，它具有本身的多個特征，這些特征之間就具有一定的相關性。對于多個樣本而言，個體與個體的特征之間具有相關性。如果樣本隨時間而變化，那么該樣本在不同時刻的特征之間又具有相關性。因此，由于上述多個原因使得社會調查數據具有了復雜的相關性，傳統的統計學調查難以解決這樣的問題。

（2）離散性。因為社會調查數據是通過自填式問卷、網絡調查數據庫等方法得到，所以社會調查數據一般以離散變量為主，且這些數據之間只有標示作用，并沒有嚴格的邏輯關系。

（3）模糊性。社會調查數據當中不可避免的會接觸到各種表達方式和概念，因此，它具有模糊性。

因為由自填式問卷或結構式訪問的方法得到的社會調查數據具有以上特點，所以在實際應用中基于統計學的處理方法只能籠統的顯示數據的部分特性，如頻數、離散程度等[2]。對于數據之間的關系只能分析出維數極少的大致的關系。

而且利用軟件進行數據挖掘時，因為現有的軟件中的數據挖掘算法對于數據類型和格式要求較高，所以能應用到的數據挖掘算法很少。就算是數據要求較低的關聯分析，其結果也存在大量的冗余。因此，我們需要建立一個合適的社會調查數據的數學模型來完善原先的方法并使跟多的數據挖掘方法可以運用到其中，使得結果更準確。

2 社會調查數據的建模

研究中我們發現，三維矩陣可適用于社會調查數據的建模。

2.1 三維矩陣的定義

三維矩陣的定義：由n個p×q階的矩陣組成的n×p×q階的矩陣A稱為三維矩陣，又稱立體陣。Ak，i，j表示三維矩陣A的第k層，第i行，第j列上的元素。其中n，p，q分別表示三維矩陣的高度，厚度和寬度。

2.2 三維矩陣模型的建立

調查問卷的題目一般有三種類型：單選題、多選題和排序題。這三類題目都可以表示成向量的形式，其中每一道單選題、多選題可以表示成一個向量，排序題可以表示成多個向量組成的矩陣。對于單選題和多選題，可以按選項的順序可以表示成一個向量，其中選中的項用“1”表示，未選中的項用“0”表示。對于排序題，可以表示成一個n×n的方陣，其中n表示該排序題的選項個數，。這樣，每一題就可以定義為空間中的一個維度，從而所有的題目就可以構成一個N維空間。每份調查問卷的信息用一個M×N矩陣表示（M為題目的最大選項數），其在每一維上的選擇稱之為一個元素，這樣每份問卷的信息就包括了N個元素。以第1，2，3題數據為例，其中第1題為單選題選擇“B”，用向量表示為一個元素，第2題為多選題選擇“ACE”，用向量表示為一個元素，第3題為排序題順序為CBADEFIHG，用矩陣表示，每一個列向量是一個元素，如圖1所示。

那么，假設有一問卷信息用一個大小為M×N的矩陣表示。K份的問卷信息就可以用K個大小為M×N的矩陣表示。將這K個矩陣疊加，形成一個三維矩陣。這個三維矩陣就是我們建立的三維矩陣數學模型，如圖2所示。

在圖2中我們看到，該三維矩陣數學模型有三個坐標軸，它們分別是題目，人數，選項。題目軸以每一道題為一個單位；人數軸以每一份問卷為一個單位；選項軸的刻度為A，B，C，D，E，F等題目選項，其個數為該調查問卷中選項最多的題目的選項個數。

在此基礎之上，這樣的三維矩陣具有以下性質。

（1）在題目軸中選取對應的題目，將三維矩陣面向豎切得到截面1（如圖2中01所示），截面2表示每一道題所有人選擇的信息。

（2）在人數軸中選取對應的人，將三維矩陣橫切得到橫截面1（如圖2中02所示），橫截面1表示對應的人選擇所有題目的信息。

在得到三維矩陣后，可對它進行像素化處理，置1的元素用黑點代替，置0元素的則空白，在得到像素化三維矩陣后我們可以將三維矩陣沿著人數維度上向下投影，這樣就可以得到一個具有濃黑不一的點的平面。通過這些點的濃度，可以知道每一選項選擇的人數。接下來我們可用灰度級表示點的濃度，篩選出濃度大于一定程度的點，在此基礎上進行后續算法處理。

上述三維矩陣數學模型具有數學三維矩陣的所有性質，可依據調查問卷的需求進行轉置，加權、相乘、篩選等數學處理，另外在數學處理的基礎上，采用超圖理論可以大大豐富了調查問卷的處理方法。

3 基于超圖算法的調查問卷分析技術

超圖是離散數學中重要的內容，是對圖論的推廣[3]。超圖是有限集合的子系統，它是一個由頂點的集合V和超邊集合E組成的二元對，超圖的一條邊可以有多個頂點的特性，這與一般的圖有很大不同。超圖分為有向超圖與無向超圖兩類，在無向超圖的每條超邊上添加方向后得到的有向二元對就是有向超圖。超圖在許多領域有廣泛的應用。

大家可以利用無向超圖表示每一道題的選擇情況，先將這每一題的每一個選項設成一個節點，然后將三維矩陣從上向下投影，如果某一題的若干個選項同時被一個人選擇，就用一條超邊包圍這些節點，那么選這些選項的人越多，投影得到的超邊就越濃。這樣就用超圖表示了問卷中每道題的信息，可以進行聚類處理。

利用有向超圖，可以將關聯規則表示成有向超圖的形式，在得到了關聯規則后，設實際中得到的關聯規則的形式為：，前項和后項都是由多個項組成的集合。該文定義一條關聯規則由一條有向超邊表示，有向超邊的頭節點表示關聯規則的前項，有向超邊的尾節點表示關聯規則的后項。每條有向超邊的頭節點和尾節點均可以為多個，如此便成功表示了復合規則，從而可以使用相關算法進行冗余規則檢測。

通過基于有向超圖的冗余規則檢測就可以將關聯規則之間存在著的大量冗余檢測出，減少挖掘資源的浪費，從而增加了挖掘結果的有效性。

傳統的聚類方法都對原始數據計算它們之間的距離來得到相似度，然后通過相似度進行聚類，這樣的方法對于低維數據有良好的效果，但是對于高維數據卻不能產生很好的聚類效果，因為高維數據的分布有其特殊性。通過超圖模型的分割實現對高維數據的聚類卻能產生較好的效果。它先將原始數據之間關系轉化成超圖，數據點表示成超圖的節點，數據點間的關系用超邊的權重來表示。然后對超圖進行分割，除去相應的超邊使得權重大的超邊中的點聚于一個類中，同時使被除去的超邊權重之和最小。這樣就通過對超圖的分割實現了對數據的聚類。具體的算法流程如下。

首先，將數據點之間的關系轉化為超圖，數據點表示為超圖節點。如果某幾個數據點的支持度大于一定閾值，則它們能構成一個頻繁集，就將它們用一條超邊連接，超邊的權重就是這一頻繁集的置信度，重復同樣的方法就可以得超邊和權重。

然后，在基礎此上，通過超圖分割實現數據的聚類。若設將數據分成k類，則就是對超圖的k類分割，不斷除去相應的超邊，直到將數據分為k類，且每個分割中數據都密切相關為止，同時保持每次被除去的超邊權重和最小，最終得到的分割就是聚類的結果。

如圖3所示是基于超圖算法的選題型調查問卷的分析技術的流程圖，主要包括4個主要部分，一是用向量表示調查問卷結果，二是將向量表示的調查問卷轉化為三維矩陣數學模型表示調查問卷結果，三是使用超圖算法進行優化，四是根據要求顯示調查問卷結果。

4 結語

該文針對社會調查數據處理與分析中存在的問題，建立了基于三維矩陣的數學模型，將單選題和多選題表示成向量，將排序題表示成多個列向量，從而每一題可以表示成空間的一個維度，每一個向量就是一個元素，這樣每一張問卷就可以表示成一個矩陣，通過將多個矩陣疊加就可以得到三維矩陣。該數學模型可以利用三維矩陣的性質對其進行多種數學處理，如豎切、橫切、像素化后投影等。在數學處理的基礎上，該文又提出超圖理論對數據進行聚類和檢測冗余規則的分析。

數據分析方法論文:對企業數據分析與決策支持方法進行研究

【摘要】本文首先對數據倉庫的概念和特征進行了介紹分析，對決策支持系統的概況進行了探討，并對數據決策支持的實現和應用進行了介紹，通過實際應用，決策支持系統可以有效幫助企業進行決策，提高企業的管理效率和管理水平。

【關鍵詞】大型裝備制造項目型制造企業數據分析決策支持

在我國制造行業的快速發展下，提升制造企業的管理水平已經成為當前需要重點解決的問題。隨著信息技術的快速發展，促進了制造企業數據分析和決策支持的發展。通過創建企業信息管理系統，可以有效提升企業的生產效率，使各個部門之間的工作更加協調。對分散、零碎的信息進行充分挖掘和利用。利用決策模型，對企業生產管理中遇到的問題提供決策支持。

一、基于數據倉庫的企業對集成的應用

（一）面向主題性

完成事務型處理的任務是傳統操作型數據庫進行的數據組織工作，各業務系統間存在相對獨立性，按照一定的主題組織數據倉庫中的數據。對主題而言，其概念比較抽象，通常情況下，一個主題同時與多個操作型數據庫有關系。例如，在確定企業的采購訂單時，需要分析供需情況、庫存信息、供應商信息等多方面的數據的綜合關系，然后做出最終的決策。

（二）集成性

一般情況下，操作型數據庫進行事務處理工作與某些特定的應用關系密切，數據庫間具有相對獨立性，通常具有異構性。抽取、清理原有分散的數據庫數據，然后對其進行系統加工、匯總和整理最終獲得了數據倉庫中的數據，并保證存儲在數據倉庫內的信息與規范的信息相一致。例如，在查詢銷售數據時，系統會根據輸入的條件要求，進行篩選、整理后提供出最終的決策參考數據。

（三）歷史變化的反映

當前的數據是操作型數據庫主要關注的，但是數據倉庫中還包括很多豐富的歷史性信息，系統將企業從過去某一時點（如開始應用數據倉庫的時點）到現在各階段的信息完整的記錄下來，企業可以以這些信息為依據，定量分析企業產品未來的發展情況。例如，企業可以通過分析產品上季度的綜合銷售情況以及市場反映來決策下一季度的生產量。

二、決策支持系統的概況

（一）決策系統的含義

Decision Support System 即決策支持系統，簡稱DSS，是指對大量數據和數學模型與數據處理模型等有機組合眾多模型進行綜合利用，通過人機交互功能，幫助企業各級決策者完成科學的決策的新型系統。機器學習（ML）興起于80年代后期，自動獲取知識有了新方法。數據倉庫（DW）和數據挖掘（DM）兩項新的決策支持技術興起于90年代中期。數據倉庫的發展是以數據庫為基礎發展的，支持決策是其發展目標。知識發現（KDD）是面向數據庫的機器學習方法發展的結果；“數據挖掘”是發現知識的關鍵步驟。決策的支持也是數據庫知識的功能。隨著決策支持技術的不斷發展，決策系統逐漸完善。

（二）決策支持系統組成部分

R.H.Sprague 提出DSS的構成部分為人機對話系統、數據庫與模型庫的兩庫結構。隨著決策支持系統功能的增強與擴大，對模型與方法進行分離存儲，因此，數據庫、模型庫與方法庫構成了 DSS。近年來，DSS 將人工智能技術、專家系統、知識工程的相關思想方法引進后，以原來的結構為基礎，新增知識庫，將推理機制引入，最終DSS的四庫結構框架形成。

隨著決策支持技術的發展提高，決策支持系統的體系結構不斷發展健全，傳統決策支持系統中的數據庫、模型庫與方法庫、知識庫與推理機、數據倉庫、OLAP、數據挖掘技術等都是其組成部分，將引進顯性知識與隱性知識同時引進到決策支持過程中是這種體系結構最關鍵的特點，保證推理的結果更科學合理，為決策層做出決策提供更高價值的參考依據。

三、實現數據分析與決策支持方法

（一）建立制造業決策模型庫

當前比較常用的決策模型系統如GIS、PDM、ERP、CRM、SCM 等。在選擇決策系統時，需要根據企業的發展戰略來進行選擇。通過決策模型，可以為企業的生產經營提供指導，使企業可以更好的把握市場、順應市場。企業用戶決策分析的存放模型是決策模型庫。進行決策的模型的建立是以大型制造企業生產過程中的材料采購、庫存管理、產品生產、市場營銷、財務管理、人力資源管理、研發設計、質量管理、售后服務等方面的數據為依據。決策模型被授予一定程度的權限，對數據進行訪問。然后以數據倉庫中獲取的數據為依據，對用戶指定的目標進行決策支持。系統描述現有模型的組成元素與其組成結構的知識，模型構造過程中的各類推理算法被獲取。以模型構建推理算法為基礎，使匹配模型的框架由新問題的屬性值填充，最終決策問題模型得以建立。

（二）實施制造業決策分析

對決策模型進行求解的過程就是決策分析的實施。通過理解決策問題獲得用戶需要決策的目標、意圖等方面信息，然后利用合適的決策模型分析獲得的數據，再根據規則與模型的求解算法獲得有價值的決策意見，將其提供給用戶。本系統規范描述每個模型包含的求解算法利用含有通用求解算法的模型很容易求解問題。但是如果沒有求解算法或者不確定利用哪種算法進行求解，平臺依據以前比較成功的相似的案例，將范例的求解方法求解問題。平臺會詳細記錄取得較好決策效果的案例，并用數據層的公用數據庫進行存放，這樣能夠及時調用成功的相似案例進行決策分析問題的求解。

（三）協作決策支持的多環節性

通常企業決策不會通過利用單一的決策模型得到。企業管理的決策方案案是利用了多模型的協作來實現決策的。協作決策的實施系統從兩個方面著手。

（1）為實現有效的智能理解需要利用人機智能交互接口實現，分解復雜的問題，最終可以得到結構有序的子問題、與決策問題有聯系的事實與數據、求解方案等；

（2）參與決策的模型可以利用平臺進行調用，與決策相關的模型的選擇可以通過分解的子問題實現，為了保證多個模型為特定的決策目標服務需要采用協調的合作機制。

四、結語

當前，國內制造普遍存在數據分析能力差，決策能力不足等問題，同時這也是制約企業持續、穩定發展的一個主要因素。本文首先對數據分析和決策支持的概念及構成進行了分析，并提出了一種基于數據分析的決策支持系統方案，為制造企業的信息化發展提供了指導。

數據分析方法論文:淺析電線線纜直流電阻測試方法與數據分析研究

摘要：電線線纜的導體直流電阻在相關的指標中比較重要，對其進行具體的測試時保證電線電纜正常工作的重要保證，也是促進當下電線電纜發展的中心環節。當前在電線電纜的直流電阻測試中主要是采用雙臂直流電橋的方法，這一方法在具體的測試中具有優點，但是也因為設別和測試過程本身的問題導致的很多漏洞的出現，本文就測試過程中的相關測試方法進行了解，并在數據分析的基礎上指出這種方法當下面臨的問題以及改進的措施，從理論上完善雙臂直流電橋測試直流電阻的方法。

關鍵詞：電線電纜直流電阻測試方法存在問題

1、電線線纜直流電阻測試問題分析及解決措施

1.1 電線線纜直流電阻測試問題分析

電線線纜的導體直流電阻測試在當下的輸電系統的發展中意義重大，雙臂電橋在測量1歐姆以下的電阻值方面具有重要的應用。

《電線電纜電性能試驗方法第4部分：導體直流電阻試驗》3.4條對具體的這方面測量內容進行了標準化確定：在四段測量夾具的處理中，應該在注意電位接點跟電流接點之間的測量，要保證相應的電流、電位接點之間的距離要比斷面周長的1.5倍大。但是在當前的測試設備的生產中，大部分廠家并沒有考慮到這方面問題，在相關的產品使用中并不能實現距離的自由調試，而是跟絕緣材料之間連接在一起，這種情況就不能夠滿足當下電線線纜直流電阻的測試要求，這方面的問題也是當下亟待解決的。如果使用這種產品僅僅能夠實現對斷面周長在1.5倍情況下的測量工作，在準確性的控制方面還比較成熟，但是如果電線線纜的截面不在相關的標準范圍之內，相關的測量結果就會出現很多問題，準確性也就受到很嚴重的影響這樣的實例在現實的測量中有很多，比如：假設夾具電位接點與電流接點間距為60mm，那么它所對應的所能準確測量的導體斷面周長最大為40mm，從中能夠O到電線線纜的截面面積，具體數值約為127mm2。也就是說用此夾具來測量截面積為127mm2以上的導體電阻時不能夠實現準確性的完全控制。？除此之外，在夾具夾持一些截面不規整的電線線纜的時候，特別是像大截面絞合成型電線線纜，這種電線線纜截面通常為扇形、弧形或三角形。如果出現夾持時電流接點夾頭接觸情況正常，而電位接點夾頭接觸不正常的狀況下，甚至當電流接點夾頭已經加緊，而電位接點夾頭卻還難以與導體接觸，都無法完成正常的測量工作。在這樣的情況下還堅持使用，就會造成夾具的磨損、變形，上述的狀況也就會出現。

1.2 電線線纜直流電阻測試問題解決措施

在以上具體的測試分析中，本人針對實際的測試過程，提出了以下的改進方法：第一是針對電流夾具的調試問題，將導體夾具上電流接點夾頭與電位接點夾頭間距設置為自由變化的形式，測量人員在一般的情況系測量長度為1m的電線線纜的電阻，這種情況下可以將電線線纜夾具上電位接點夾頭可固定為1m，而將電流接點夾頭設計為可在底座上自由移動的結構，進行底座的合理調整。如果做到“每個電位接點與相應的電流接點之間的間距不小于試樣斷面周長的1.5倍”的情況，就能夠對上述的狀況進行解決。第二是進行解決電位接點夾頭與導體不能良好接觸的問題。這方面的問題也很好解決，在設計中可以將夾具上電流接點夾頭與電位接點夾頭設計為獨立夾緊與松開的結構。在這種情況下能夠保證電流接點夾頭與電位接點夾頭同時與導體緊密接觸，并且能夠對因長期使用夾頭磨損、變形而不能夾緊的問題進行預防。

以上分析中可以發現，在相關的電線線纜測試中，需要對具體的測量標準進行數據的精確控制，也是保證測量精確度的關鍵，相關的數據分析中要以標準作為中心。注重在夾具方面的分析，并加強對具體夾具位置的設計，另外還要考慮到設備的使用周期，在維護設備方面制定合理的標準，保證測試的整個過程。

2、電線線纜直流電阻測試中溫度對測量的影響

大部分人都知道，溫度在導體的電阻影響因素中占據重要的地位。gb/t？3048-2007中對導體直流電阻測量的溫度范圍進行了規定，如果溫度達到不到相關的要求，測試人員一般情況下會人為改變環境溫度，空調調節的方式在調試中的到了廣泛的應用。但是在使用空調的時候會出現檢流計滑動的現象，這就就不能夠在穩定的條件下完成測量。這種情況下溫度在變，也就導致導體電阻也會慢慢發生變化，而檢流計的靈敏性也是一個重要問題，所以這種情況下的測量一般不允許出現環境溫度變化的情況，要等到環境溫度穩定的時候才能夠完成測量。而且試樣一定要在測量環境中保持足夠長的時間，使其自身溫度與環境溫度達到平衡，因為當測量人員在調節環境溫度時，這個過程中的試樣溫度并不會與環境溫度出現一樣的變化值，因此在測量過程中，溫度變化的現象也時有發生。并且空調不應對著測量裝置，以免檢流計難以穩定。不管怎樣說，測量中一定要對溫度進行合理的分析，只有擺脫溫度的限制，才能夠實現測量的準確性。

3、接觸電阻及測量電流對測量的影響

由于測量電路連接電線的接觸電阻側面按鍵之間的問題會導致測量結果的變化，一定程度上，一定要確保電纜側鍵和可靠的接觸才能夠保證測量結果的正確性。測量者經常使用的導體電阻不同的截面積，但是電流測量的大小確實相同的，這方面的取值不太合理。測量電流的保證實在最低靈敏度的前提下，應使用比較小的電流，電流過大容易產生過多熱量，從而使阻力變大，測量應在最短的時間內完成，時間太長的情況下，也會讓電線線纜產生熱量。

4、結論

在電線電纜導體直流電阻測試過程中要對測量工具進行不斷地優化，又要根據具體的數據分析，對相關測試數據范圍進行控制，這樣會取得很好的測量效果。另外要保持客觀嚴謹的科學態度，在測量過程中保持清醒的頭腦，對具體的流程進行精確的控制，這樣才能夠得到準確、可靠的數據。

數據分析方法論文:驗證型實驗的數據分析處理方法探討

【摘要】本文以大學物理實驗中典型的驗證型實驗――牛頓第二定律的驗證實驗為例，討論了驗證型物理實驗中的數學處理方法，得出該類實驗中，數學處理方法不但要得出所驗證的物理規律的數學式，而且更重要的是要通過計算物理量的相關系數確證該數學式所確立的物理規律成立。

【關鍵詞】驗證型實驗數學處理

物理實驗中，驗證型實驗和研究型實驗都是非常重要的兩類實驗。驗證型實驗是對已建立的物理規律的驗證，研究型實驗是通過實驗得到物理規律，這兩類實驗雖然實驗目的不同，但從數學處理方法上來看，具有相似性，都是通過實驗數據分析確證物理規律或得到物理規律，所以對實驗數據的分析處理方法是否得當就顯得十分重要。下面以一個典型的驗證型實驗的數據處理為例進行相應探討，以期望得出相對合理和妥當的實驗數據處理方法。

以大學物理實驗來說，驗證型實驗較多，諸如牛頓第二定律的驗證、彈性碰撞實驗等等都屬于此類實驗，其中牛頓第二定律的驗證實驗為該類實驗的典型實驗。牛頓第二定律的數學表達式是，力與加速度的大小關系可以表達成，要驗證這個規律，就是給物體加一個大小為F的力，對應產生一個大小為的加速度，得到一個測量點，通過改變力，得到n個測量點后，即可通過適當的數學方法驗證這個關系的成立。

類似這種線性物理規律，其數學模型都可以歸結為的形式。要得到這個線性關系，就是要得出和。通過測量n組和的值，即、、……、、……、，在X―Y平面中得到n個測量點。若不考慮實驗測量的系統誤差，則測量誤差應當服從高斯分布，反應在X―Y平面中，既是這n個測量點應當均勻地分布在所求表達式兩側，對第i個測量點，誤差為，n個測量點導致的總體誤差是最小的。若任意給一個直線，則一是測得到的這n個點不再均勻地分布在直線兩側，二是這n個測量點產生的總體誤差水平將增大，甚至可以達到無窮大。由此可知，所求直線即是使得n個測量點的總體誤差最小的那條直線。總體誤差可以寫成，但由于誤差服從高斯分布，導致理論上而無法通過此求和值衡量總體誤差水平。為使其不因為正負抵消而無法衡量總體誤差水平，只要使得所有誤差均為正再求和即可，故可用殘差來衡量總體誤差水平，雖然殘差不再是總體誤差。使得殘差取最小值的和，即為所求直線的和。此即最小二乘法的數學思想。據最小二乘法處理，所求和即是使得取最小值的和，即有，解此式，得

將測量值供稿，即可得到所求和。通常大學物理實驗中的處理方法，得到和，即是驗證了[1]。但其實這是不太恰當的。

驗證型或者研究型實驗，特別是驗證型實驗，最關鍵的是需要解決兩個問題，一是找出所要驗證的關系，第二是要驗證得出的關系的確成立，而第二點才是最重要的關鍵點。即使得出關系，但如果確證關系不成立，則第一步的工作就變得毫無意義。實際上，任意給出一組、、……、、……、，都可以根據最小二乘法得到和，即得出，但并不意味著此式的確成立，不能確證物理量和的確存在這樣的數量關系，并沒有檢驗此物理規律存在。因此，驗證型實驗做到這一步并不算已經驗證被驗證的物理規律成立，還需要研究和的相關性，通過計算相關系數，據的大小來檢驗和是否的確相關。

總之，驗證型實驗，是對物理規律的驗證，最重要的是確證被驗證物理規律成立，得出相應物理量間的數學表達式并不能說已經驗證了相應物理規律的成立，最重要的是要通過計算物理量間的相關系數來確證所得物理規律是否成立。

數據分析方法論文:水輪發電機組高精度水平測量和數據分析方法

摘要：水平度是機組安裝的重要檢測項目，有很多種測量儀器和測量方法。為了便于分析水平測量的數據結果，利用計算機軟件，實現測量結果的可視化。本文分析了一些高精度水平測量的方法和數據分析方法，對提高機組安裝精度和水平可以起到一些指導作用。

關鍵詞：水平測量；精密水準儀；水平儀；CAYERE法

隨著近些年來巨型機組越來越多，尺寸越做越大，機組安裝的精度要求也隨著加工制造水平不斷提高。水平度作為水輪發電機組安裝過程中非常重要的檢測項目，測量方法和數據分析手段也在不斷的創新，以適應高精度的測量要求。

水平度反映了被測工件面上各點相對于水平面的高低關系，表示方法一般有兩種：一種是直接測量兩點高程差的絕對高差值，單位有mm等，另一種是兩點之間高程差除以兩點之間距離的相對高差值，單位有mm/m、角秒（″）等。測量絕對高差時主要采用測量學方法，常用的儀器有水準儀、帶測微器的精密水準儀、電子水準儀、流體靜力水準等。測量相對高差主要采用機械工程測量方法，常用的儀器有框式水平儀、合像水平儀、電子水平儀等。

一、基于絕對高差值的測量方法

機組安裝中測量絕對高差最為常用的是光學水準儀，適用于測量視距大于水準儀最小焦距（一般為1.5m左右）的情況，使用任何水準儀進行精密水平測量時，都必須注意以下事項：（1）水準儀使用必須具備的環境條件。目前常用的水準儀都是自動安平水準儀，通過自動安平補償器使視線水平時標尺上的正確讀數通過補償器后仍舊落在水平十字絲上。自動安平補償器的靈敏度非常高，有輕微振動時十字絲都會出現晃動。所以在使用時一方面要保證儀器的支架要十分穩固，不允許有絲毫晃動，另一方面應避免周圍環境中風力、交叉作業的影響；（2）水準儀距離測點的距離盡可能接近。根據相關工程測量規范，一、二等水準測量時i角（儀器水準軸與視準軸在鉛垂面上投影的交角）誤差必須調校至15"以內。即便按此i角允許誤差要求，兩測點視距之間每相差1m產生的測量誤差為：1000×tan（15″）=0.073mm，在機組安裝中已經屬于較大的測量偏差了。只有測點之間視距相等，由i角產生的誤差在高差計算中相互抵消，例如測量兩點間高差時，可以選擇放置在兩點的垂直平分線上，在測量座環、底環等大型環形工件的水平時最好將儀器放置在中心位置；（3）立尺時必須確保水準尺垂直度。以1m的視線高為例，水準尺每前后傾倒10mm產生的高程差影響為1000×（1-C0S（10/1000））=0.05mm。為消除水準尺垂直度的影響，應在測量過程中減小視線高度，使用深度尺、鋼板尺等小尺寸量具作為標尺，或者使用帶有水準氣泡的變形監測專用銦鋼尺。

（一）普通水準儀配合游標卡尺測量法

將水準儀安平于可觀測到所立游標卡尺的適宜高度，為保證垂直度和穩定，可將游標卡尺靠在磁性表座上，底部與待測面貼緊。讀數時觀測者通過水準儀指揮把尺者緩慢微調游標，使游標的某一刻度線重合于水準儀十字絲的水平中絲，此時游標卡尺的讀數即為該點的水準儀讀數。每個測點讀數時游標應對準同一刻度，對比相互之間的讀數差值即絕對高差。此方法測量的讀數精度一般為0.02mm。

（二）帶測微器的精密水準儀測量法

精密水準儀一般配備了光學測微裝置，將配套水準尺上的最小分化進行細分，測定小于水準尺最小分劃值的尾數，進而提高在水準尺上的讀數精度。一般精密水準儀將水準尺10mm分劃成100格，可以讀到0.1mm，估讀至0.01mm。德國蔡司廠生產的Ni004、Ni007等精密水準儀則是將5mm的最小刻度分劃成100格，可以讀到0.05mm，估讀至0.005mm。精密水準儀讀數時需要通過測微螺旋上下微調望遠鏡的十字絲來對準同一刻度，此時測微器的讀數差即為絕對高差。

（三）電子水準儀

電子水準儀是以自動安平水準儀為基礎，在望遠鏡光路中增加了分光鏡和探測器（CCD），并采用條碼水準標尺和圖象處理電子系統構成的光機電測一體化的高科技產品，與傳統水準儀相比讀數客觀、精度高、速度快、效率高等特點。采用普通標尺時，又可以像一般水準儀一樣使用。目前市場上常見的天寶DiNi03、徠卡BT28-DNA03等電子水準儀讀數分辨率均達到了0.01mm。

（四）流體靜力水準測量法

液體靜力水準多用于高程變形監測等精密工程測量作業，由于它具有高精度、自動化、長期多點同時測量、安裝簡單的特點，可以引入到水平測量中，特別是座環、蝸殼澆筑過程中的監測。

二、基于相對高差值的測量方法

測量相對高差值一般使用各種水平儀，其中合像水平儀在精密水平測量中最為常用，使用水平儀測量時，應注意以下事項：（1）測量前應認真清洗測量面并擦干，檢查測量表面是否有劃傷、銹蝕、毛刺等缺陷；（2）水準器內液體對溫度影響變化較大，因此，應注意手熱、陽光直射、哈氣等因素對水平儀的影響；（3）讀數時，應在垂直水準器的位置上進行讀數，以減少視差對測量結果的影響；（4）測量時應檢查零位是否正確。操作時可以通過翻轉測量法獲得準確讀數，消除零位誤差，如果零位偏差較大則需要使用調整針對零位進行校正調整。

（一）水平梁測量法

水平梁測量法是經典的水平測量法，制作適當長度的平梁，加大水平儀測量的距離。在中間的頂部焊接一塊經過精細加工的座板，用以放置水平儀。在兩端的底面上安裝三個球形頭螺栓支撐，三個支點所在的平面應調整至與座板頂面平行。操作時為了消除水平儀及梁的誤差，水平儀在梁上的位置必須固定，水平儀與梁要一起調頭，取平均值計算的方法計算水平度誤差。只要平梁剛度足夠，跨距適合，把水平儀放在梁上就可以直接測量大尺寸平面上兩點的水平度誤差。

（二）“CAYERE”法

針對水平梁法長度固定，無法準確反映水平波浪度的情況，可以采用首尾銜接多點連續的測量方法。對于需要測量座環、底環、大軸法蘭等大的環形面，可以沿圓周方向連續測量，可以得到一條反映圓周水平波浪變化的曲線，此方法稱為“CAYERE”法，由ALSTOM在三峽使用后，國內很多電站都進行了推廣和嘗試，收到了良好的效果。

（三）網格法

對于設備基礎等比較大的平面，可以采用“網格法”，將測量面劃分成矩形方格網，用水平儀測量每條矩形邊的水平值，從而得到一個反應水平趨勢變化的曲面。

三、水平測量數據分析方法

水平測量的數據分析主要用來反映高低變化的趨勢，以便分析不平度產生的原因，采取相應的處理措施。為反映高低變化的趨勢，需要先將測量數值轉化成相對于某一點的絕對差值，然后利用計算機軟件方便地呈現出來。

用EXCEL“圖表法”繪制趨勢線。EXCEL是比較常用的辦公軟件，在線狀或環形的連續測量情況可以直觀的反映水平變化情況。下表1是某大型電站的分瓣座環組裝過程中的某次測量結果，采用的設備為蔡司NI007自動安平水準儀，測微器將5mm分成100份，測微器讀數的單位為0.005mm，各點與1#測點的高差均可用EXCEL的公式計算功能方便的計算出來。

四、結束語

本文所述的水平測量方法及數據處理方法，在很多電站機組安裝調整中起到了良好的指導作用。計算機的運算反映的是數據可視化后的趨勢，真正數據的準確度取決于測量的精度，因此，無論使用什么儀器或軟件，都需要通過發揮人的主觀能動性，積極探索實踐，消除儀器自身帶來的各種誤差和人為讀數誤差，這才是提高安裝質量的關鍵。

數據分析方法論文:大數據分析的方法及其在情報研究中的適用性初探

摘要：對基于數據或信息分析的情報研究來說，大數據分析方法帶來了新機遇。文章在現有研究的基礎上，先梳理了基于數據、流程及信息技術三種視角的大數據分析方法，并從中歸納出了面向統計、挖掘、發現、預測與集成等5種分析層次的17種相關研究方法。接著探討了大數據分析方法在情報研究的適用性，分別找出10種可直接移植的方法、2種調整后可移植的方法、2種不適用的方法、3種需要繼續研究或關注的方法。

關鍵詞：大數據大數據分析方法情報研究適用性

大數據分析（Big Data Analytics，BDA）是以“深度的發現分析、引領行動”作為目標的工作[1-2]，它包括由多個任務組成的高度重復執行的步驟[3-4]。BDA通常要集成多種分析技術與軟件工具，以便讓海量數據的處理及分析變得更加容易，從數據中提取有用信息并形成結論，用來驗證、指導及規范組織或個人的決策行動;BDA的執行過程一般包括問題需求及假設提出、數據獲取及記錄、信息抽取及清洗、數據整合及表示、選擇建模及分析方法、結果詮釋、評測結果有效性及監控等幾個階段。從以上BDA的定義及過程來看，BDA與情報學領域中的情報研究（也稱情報分析）在本質上是一致的，兩者至少在方法與技術（以下簡稱方法）上可以相互借鑒或補充。本文基于情報學的視角，關注哪些BDA方法可以為情報研究提供借鑒，并解決情報研究的相關問題。因此，本文首先概略總結BDA的方法體系，然后探討BDA方法在情報研究中的適用性。

1 大數據分析的方法分類

到目前為止，尚沒有公認的BDA方法的分類體系，甚至對BDA包括哪些方法，也有不同的認識。本文首先綜述現有的相關研究，并以此為基礎提出我們的分類體系。

1.1 相關研究

不同學者對BDA方法的看法各有差異，概括起來，主要有三種分類體系，分別是面向數據視角的分類、面向流程視角的分類以及面向信息技術視角的分類。

（1）面向數據視角的BDA方法分類。這類研究主要是以BDA處理的對象“數據”作為分類依據，從數據的類型、數據量、數據能夠解決的問題、處理數據的方式等角度對BDA方法進行分類。

Power[5]依據分析需求將數值型數據的分析方法劃分為三類：①若是模式理解及對未來做出推論，可采取歷史數據及定量工具進行“回顧性數據分析”;②若要進行前瞻及預測分析，可采取歷史數據及仿真模型進行“預測性數據分析”;③若要觸發事件，可采取實時數據及定量工具進行“規范性數據分析”。美國國家研究委員會在2013年公布的《海量數據分析前沿》研究報告中提出了七種基本統計數據分析方法[6]，包括：①基本統計（如一般統計及多維數分析等）;②N體問題（N-body Problems）（如最鄰近算法、Kernel算法、PCA算法等）;③圖論算法（Graph-Theoretic Algorithm）;④線性代數計算（Linear Algebraic Computations）;⑤優化算法（Optimizations）;⑥功能整合（如貝葉斯推理模型、Markov Chain Monte Carlo方法等）;⑦數據匹配（如隱馬爾可夫模型等）。

針對非純粹的數值型數據，Li、Han[7]梳理了面向“時空數據”（Spatiotemporal Data）的BDA方法，通過對動態數據挖掘出主體的預測性，如運用物理工程領域的傅立葉變換（Fourier Transform）及自相關匹配（Autocorrelation）偵查某一時間區段的信號、發生的事件或生物基因中的周期性節律，也可運用時間序列方法預測地點位置的變化;魏順平[8]以教育領域為例，梳理了面向學生與學習環境的“學習分析方法”（Learning Analytics），此方法集成了內容分析、話語分析、社會網絡分析、統計分析、數據挖掘等多種方法，從中挖掘學習的各種語義關系，并回答“誰在學、學什么、怎么學、學的結果如何”等問題，為教學與優化學習提供參考。

Mohanty等人[3]從數據獲取（Data Ingestion）角度，依照處理的數據量從小至大的順序，區分出八種分析方法：①流分析（Streaming Analytics），以預定模式及時處理數據流;②高速的數據采集（High Velocity Data Ingestion），不轉換任何格式，可稍晚處理; ③鏈結分析（Linkage Analysis），構建不同數據源的關系與鏈接;④罕見事件偵查（Rare-Event Detection），從龐大數據集中尋找特定模式;⑤數據聚合（Data Mash-Ups），需要對數據屬性發展故事線或鏈接關系進行分析;⑥文本分析（Text Analytics），如觀點挖掘或社會網絡分析等;⑦時間序列分析（Time-Series Analysis），通過模式偵測及事件發生概率來處理時空數據;⑧數據辯論（Data Forensic），用于數據科學家探索大規模數據集。

Chen等人[9]認為，在商業智能分析發展的過程中，商業智能分析經歷了從處理結構化程度較高的數據、到處理網絡上半結構化數據、再到處理移動數據的發展，涵蓋了五類核心的分析方法：①數據分析，涉及數據倉儲、ETL、聯機分析及數據挖掘等分析技術，可應用在時間序列挖掘、網站挖掘、空間數據挖掘等;②文本分析，涉及信息檢索、查詢處理、相關反饋等分析技術，可應用在QA系統、觀點挖掘、多語義分析、可視化分析等;③網站分析，涉及信息檢索、網絡爬蟲、日志分析等分析技術，可應用在云計算、社會網絡分析、網站可視化等;④網絡分析，涉及信息計量、引用網絡、數學網絡模式等分析技術，可應用在鏈結分析、社區發現、社會影響力及擴散模式等;⑤移動分析，可應用在移動通訊服務、個性化分析、游戲營銷分析等。

（2）面向流程視角的BDA方法分類。這類研究主要是依據BDA的步驟和階段對BDA方法進行分類。

美國計算社區協會出版的《大數據的機會與挑戰》白皮書指出BDA是一個多階段任務循環執行過程[4]，從整體看，其分析的過程包括了五個階段，每一個階段都包含該階段需要使用的方法：①數據獲取及記錄，從各種感知工具中獲取的數據通常與空間時空相關，需要及時分析技術處理數據并過濾無用數據;②信息抽取及清洗，從異構數據源抽取有用信息，并轉換為結構化的格式;③數據整合及表示，將數據結構與語義關系轉換為機器可讀取、自動解析的格式;④數據建模及分析，從數據中挖掘出潛在規律及知識，涉及可擴展的挖掘算法或知識發現等方法;⑤詮釋，為了讓用戶容易解讀分析結果，可視化分析技術變得十分重要。此外，嚴霄鳳、張德馨[10]依照搜集、分析到可視化的流程，梳理了適用于大數據的關鍵技術，包括：遺傳算法、神經網絡、數據挖掘、回歸分析、分類、聚類、關聯規則、數據融合、機器學習、自然語言處理、情感分析、網絡分析、空間分析、時間序列分析等多種方法。

（3）面向信息技術視角的BDA方法分類。這類研究強調大數據技術本身涉及到的新型信息技術，將大數據處理架構、大數據計算模式、大數據系統等作為BDA方法分類的依據。

孟小峰、慈祥[11]著眼于大數據處理框架，梳理了數據抽取與集成、數據分析及數據解釋所使用的分析方法，在數據抽取與集成方面，可區分為基于物化（Materialization）或ETL的方法、基于聯邦數據庫或中間件的方法、基于數據流的方法以及基于搜索引擎的方法等四類;在數據分析方面，傳統的數據挖掘、機器學習或統計分析面臨數據規模、算法調整等困難，需進一步發展;在數據解釋方面，引入可視化技術或交互式的數據分析過程，有助于用戶理解分析結果。覃雄派等人[12]認為，非關系數據管理（如MapReduce）擴展了數據分析的多維視角，使數據分析的生態系統從“大量數據的移動”轉向“直接對數據進行分析”。

2012～2013年在印度召開了兩次BDA國際研討會[13-14]，會上分別就BDA中的機器學習面臨數據規模與多維度問題、可擴展的機器學習算法（如隨機映射、隨機梯度下降等）、機器學習在MapReduce的應用、社交媒體數據挖掘（如話題檢測與跟蹤、地點推理、語義連接等）、高維數據降維分析（如主成分分析、因子分析、經典相關分析等）、圖像挖掘（如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach）及圖像比對分析（如特征提取、Iterative Methods）等進行了探討。2013年IEEE計算機協會在美國召開大數據國際研討會，BDA結合MapReduce、Hadoop等模型的分析方法仍是主流，研究的內容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。

1.2 BDA方法的分類――面向層次的BDA方法框架

上述三種視角的BDA分類各有特點，都有一定的道理。從面向數據的視角來看，BDA方法正從統計（Statistics）轉向挖掘（Mining），并提升到發現（Discovery）和預測（Prediction）。基于流程的BDA分類則更能反映BDA過程的集成性（Integration），也就是說，在完成一項分析任務時，需要綜合使用多種方法。從面向信息技術的BDA分類中可以看出，這種分類方式強調使用新技術對傳統數據處理方法進行改進和創新，同時更重視新型系統架構與分析方法的集成，例如，各種數據挖掘算法的MapReduce化，就是這方面的典型實例。

本文認為，如果綜合上述三種分類體系中體現的層次性，將可以更準確描述BDA方法。在此，本文提出一個面向層次的BDA分類框架，將BDA方法分為統計、挖掘、發現、預測及集成五個層次，并初步歸納出17種BDA相關方法（見表1）。

2 BDA方法在情報研究中的適用性探討

如前所述，BDA與情報研究在本質上有共同之處，BDA方法可為情報研究提供借鑒，因此，探討BDA方法對情報研究的適用性就很有必要性。以下綜合考慮方法本身的完善性及可操作性、情報研究的分析對象特征、方法的可移植性[15]等因素，對本文所列舉的17種面向層次的BDA方法在情報研究中的適用性進行分析。

2.1 可直接移植的方法

可直接移植方法是指這些方法的原理、流程、算法等可以直接應用于情報研究，用來對情報研究的數據源（如科技文獻、網絡資源等）進行處理，解決情報研究過程中的一個或幾個步驟中要解決的問題。在本文所列舉的17種面向層次的BDA方法中，數據挖掘、文本挖掘、知識發現、觀點挖掘、話題演化分析、多元統計分析、時間序列分析、海量數據的基本統計方法、高維數據降維分析方法、多源數據融合方法等10種方法均屬于可直接移植方法，其中有些方法在情報研究中已經有多年的應用歷史。

（1）數據挖掘與文本挖掘。數據挖掘與文本挖掘是不同概念，兩種方法分別使用不同的發現技術，文本挖掘屬于基于計算機語言學及統計方法的發現技術，用來揭示文本中的詞與句法特征;數據挖掘以數據庫中的大量結構化的數據挖掘為基礎，用來揭示數據中潛在的、可能的數據模式及關聯規律[16]。在情報學領域的實踐應用中，數據挖掘多應用在圖書館自動化技術與服務方面，例如，館藏采購決策、個性化服務、信息檢索、讀者管理、館藏布局等。文本挖掘在情報研究的價值在于彌補了情報學專門分析方法對科技文獻內在知識挖掘不足的缺欠，例如，祝清松、冷伏海[17]為了解決引文分析方法無法揭示論文的研究內容這個問題，提出引文內容分析，先建立基于規則的引文內容抽取來識別引用句，再通過基于C-value多詞術語識別算法找出高被引論文主題，相比于引文分析，這種方法較能提供客觀的語義信息與文獻之間的語義關系。

（2）知識發現。情報研究中所說的知識發現，主要是指基于文獻的知識發現，例如，張樹良、冷伏海[18]在共詞、共引、文本挖掘等方法基礎上，提出了“基于文獻的知識發現”，包括：基于相關文獻、基于非相關文獻及基于全文獻三種條件下的知識發現，完整揭示文獻的知識結構與演化情況。在網絡環境下，李楠、張學福[19]認為關聯數據的RDF數據模型、數據訪問機制、URIs及自描述數據等規范所形成的數據共享環境，為知識發現提供了新的研究潛力，包括知識發現的范圍被擴展成全球數據空間、高效率理解及處理數據間的語義關系等。簡言之，知識發現從不同數據源之間的復雜關系中獲得隱含的知識或規律，甚至可對未來進行預測。

（3）觀點挖掘與話題演化分析。觀點挖掘與話題演化分析兩種方法實際上是數據挖掘及文本挖掘的具體及深化應用。觀點挖掘主要有三種挖掘任務：情感分類、基于特征的觀點挖掘、比較語句和關系挖掘[20]，例如，黃曉斌、趙超[21]通過對網絡輿情信息的文本挖掘，找出不同民眾對某一社會事件的情緒、態度及觀點，再通過關聯分析找出網絡輿情信息的各種關聯性。趙潔、溫潤[22]認為微博情感分析的關鍵是觀點句識別，并根據文本特征的差異性，提出了基于新詞擴充和特征選擇的觀點句識別方法，即先擴充情感詞典來提高分詞準確率，再結合微博特征進行句子選取。話題演化分析方法是近年文本挖掘的研究熱點，借助不同的話題模型，包括基于LSI模型、基于pLSI模型、基于LDA模型等，獲取文本中的一組詞語，表示為某一話題的集合，再引入時間信息模擬該話題隨著時間推移所表現的受關注程度及關注點的變化[23]。又例如，賀亮、李芳[24]利用LDA模型抽取科技文獻中的話題（即主題詞），再計算話題的強度與內容演化，從而區分熱門與冷門話題及其歷年特征詞的演化趨勢。

（4）多元統計分析與時間序列分析。多元統計分析與時間序列分析兩種方法也是情報研究常見的定量分析方法[25]，前者研究客觀事物中多個變量（或多個因素）之間相互依賴的統計規律，后者則是基于隨機過程理論和數理統計學方法，研究動態數據序列的規律性。這兩種分析方法的一個重要特點在于能基于歷史數據的變化，評價事物現狀或預測事物未來的發展。

（5）海量數據的基本統計分析方法。海量數據的七種基本統計分析方法適用于情報研究的原因是，專家們普遍認為，在現有硬件技術條件下要開發一個海量數據分析系統的難度過高，且高性能計算領域也面臨許多困難，因而轉向尋找共通的基礎性計算方法來幫助運算[6]，同時這些統計方法也經常應用于數據挖掘或文本挖掘。對情報研究來說，處理的數據量不及高性能計算領域的海量數據，因此可以容易地應用這些基本統計分析方法。盡管如此，隨著情報研究處理的文本量增加，包括文獻計量或信息計量方法在內的定量分析方法，仍然要經常借鑒基礎性的計算方法，并進行公式改進。

（6）高維數據降維分析方法。高維數據降維分析方法反映了海量的數值型數據在數據縮減的重要性，常見的降維（Dimensionality Reduction）方法包括主成分分析、因子分析、典型相關分析、獨立成分分析、投影尋蹤等[26]。高維數據經常存在大量的弱相關內容或噪音，通過線性（如主成分分析、典型相關分析等）或非線性（如投影尋蹤、核方法等）映射可以將數據樣本從高維空間映射到低維空間，從而提高機器學習的效率[27-28]。情報研究在處理文本語料時，廣泛使用基于向量空間模型來表示文本，形成的高維特征集會對文本分類或機器學習的效果產生很大影響，通過特征選擇（如特征頻率、互信息等）進行特征抽取（如PCA、LSI、NMF等），轉換成一個低維的特征集來提高訓練效果，是非常必要的[29]。

（7）多源數據融合方法。多源數據融合方法是解決大數據環境下異構數據整合而提出的方法，例如，為了解決不同研究階段產生的各類科學數據集成問題，白如江、冷伏海[30]認為解決關鍵在于中間件構建，例如，通過基于XML模型將異構數據源的元數據映射到全局視圖，解決了不同數據源的關系描述問題，并提供用戶可靈活訂制查詢規則;但基于XML模型只能提供語法層次的整合，為了提供數據在語義層次的整合，可通過基于語義模型對XML的對象進行分類，在對象模型的基礎上生成邏輯規則，揭示隱含在科學數據中的語義信息。此外，也可以通過基于物化或ETL方法、基于數據流方法或其他方法對異構數據源中的數據抽取出實體與關系，再進行數據集成或數據清洗[11]。多源數據融合方法是進入數據分析之前的重要任務，對情報研究來說，需要多種來源支持情報分析工作，包括同型異源信息、異質異構信息、多語種信息等，都需要通過異源信息字段的映射、拆分、濾重、加權等進行融合分析[31]。

2.2 調整后移植的方法

調整后移植的方法是指其在原本的領域已經成功應用，但由于該方法最早或成功應用的領域在任務需求、數據處理、分析過程有自身的特點，若移植到情報研究時，需要根據情報研究自身的特征進行調整。數據可用處理及分析方法、時空數據分析等兩種分析方法就屬于這類情況。

（1）數據可用處理及分析方法。大數據環境中容易產生許多劣質數據來降低數據可用性，為了提高數據可用性及數據質量，李建中及劉顯敏[32]梳理了數種數據可用性的相關方法，包括高質量數據獲取與整合、數據錯誤自動檢測與修復、弱可用數據處理與分析等，分別解決了大規模數據集預處理階段常見的一致性、精確性、完整性、時效性及實體同一性等問題。對情報研究來說，情報素材、產品形式及工作任務分解的質量控制是情報工作的核心[33]，其中，情報素材的質量對后續的情報分析成敗存在著至關重要的作用，當數據或信息是錯誤或不完整時，提煉出來的情報勢必會存在缺陷或錯誤。過去對情報研究的質量控制取決于人，如果能引入數據可用處理及分析方法解決數據或信息源可能存在的不一致、不精確、遺漏、滯后或重復等問題，有助于提高情報分析素材的可用性與正確性。

（2）時空數據分析。時空數據分析是地球信息科學相關領域的研究熱點，其中最常使用“周期性行為”（Periodic Behavior）分析，例如天氣預報、環境監控、地理信息系統、城市交通網絡管理等都是常見的應用實例[7]。現有研究的多數做法是采取基于時間序列的方法進行周期性行為建模，但建模過程容易出現對象可能沒有周期性行為、時間點分布不一定呈現周期性等問題，為了解決這些問題，王閱等人[34]提出基于ERP的周期檢測方法解決周期長度定義問題，孟志青等人[35]提出多粒度時間文本下的周期模式挖掘算法解決時態文本數據挖掘問題。對情報研究來說，時間是文本中一個重要的屬性，如文獻發表規律、輿情監控、科研人員的研究主題周期等。在原有數據基礎上增加時間維度進行長時段分析是多數研究的常見做法，但并沒有呈現出其中的周期性規律，特別是文本中的規律特征較難發現，如果能引入此類方法，將有助于找出情報演化的周期模式。

2.3 不適用的方法

考慮學科領域差異，本文認為 “翻譯生物信息學分析”及“學習分析方法”兩種專門研究方法不適合情報研究。

（1）翻譯生物信息學分析。翻譯生物信息學分析是生物信息學的專門分析方法，這種方法是依據特定目的整合多數據源及促進領域知識的有效利用，其結果可應用在生物醫學研究、產生支持醫療人員在治療點中的“可操作的決策”（Actionable Decision），同時能對人類與疾病的關聯關系提供更好的理解。生物信息學為了找出更多基因與疾病的關系，通過翻譯生物信息學分析，可以將分析方法與工具開發從系統層面橫跨到分子、個人或全人類層面，分析視角從單一基因或多肽（Polymorphic）挖掘的研究轉向新基因或遺傳性狀組合與預測研究[36]。從分析方法的操作過程來說，考慮到數據源的特殊性（如DNA編碼數據、蛋白質結構等）、分析視角、工具構建及使用等因素，并不符合情報學的學科研究特色。

（2）學習分析方法。學習分析方法是搜集、分析及評測學習者及其學習語境的分析方法，目的在于理解與優化學習及其學習環境[8]。從UNESCO IITE機構在2012年11月出版的學習分析方法政策簡報可知，學習分析方法的數據分析功能是基于數據挖掘從而開展相關分析內容，包括行為分析、學習資源瀏覽分析、各種關聯分析與影響因素分析等。雖然數據挖掘是情報研究的常見方法，但學習分析方法的結果意義在于解釋學習者的學習語境，為教師或管理者提供決策支持，從而改善學習者的學習習慣及促進學習效果。由于這種方法有其特定的含義和應用環境，離開了學習語境，方法的內涵和外延可能就會產生變化，因此，難以移植到情報研究。

2.4 需要繼續關注的方法

基于MapReduce或Hadoop的衍生分析方法、圖模型分析與挖掘以及商務智能分析，是近年研究探討較多的方法，但目前尚未形成一個成熟且完善的方法體系，例如，MapReduce或Hadoop等之類的工具還在持續發展中，本身也存在不斷的改進空間，它們與各種分析方法的集成缺乏公認的標準和規范，同樣地，對于關注圖像與事物之間關聯的圖模型分析與挖掘也尚沒有發展出固定的技術，又例如，商務智能分析被定義為由數據倉庫、ETL、聯機分析、數據挖掘、客戶關系管理、知識管理等多種技術融合的一組系統，通過BI系統管理組織內部及個人相關的商業數據、專家信息及知識，涉及數據的融合、取用及分析等方法與工具[37-38]，目前也沒有標準化的體系架構。

因此，本文還無法明確回答上述三種方法將如何應用于情報研究、在應用過程中需要做哪些調整、這些方法與現有的情報研究方法的關系如何等相關問題，但可以肯定的是，這些方法對未來的情報研究具有借鑒價值，例如，一旦情報研究的處理對象（即數據）積累到了一定程度，成為傳統關系數據庫處理不了的大數據，那么，使用基于MapReduce或Hadoop的衍生分析方法就成為了必然。又如，圖模型分析與挖掘可補充情報研究在圖像分析的不足，而商務智能分析可理解為一套集成系統，可應用在情報機構的知識庫或機構典藏，找出組織的知識缺口等方面。

3 結語

大數據時代就是一個數據分析的時代，學界和業界提出了很多大數據分析的方法與技術，這些方法與技術對情報研究產生了積極的借鑒作用，本文總結了大數據分析的方法，提出面向層次的BDA方法框架，歸納總結了其中的17種BDA方法，并從可直接移植、將調整后移植、不適用于情報研究以及需要繼續關注等四個方面對這些方法在情報研究中的適用性進行了分析，以期為情報研究借鑒或移植BDA相關方法提供參考，促進情報研究的理論與實踐發展。

數據分析方法論文:考慮采用數據分析方法表明飛機撤離能力經驗介紹

【摘要】民用飛機的應急撤離能力是民用飛機安全性能的要求之一。目前國內外對民機應急撤離能力的分析對采用實景撤離試驗的方法。針對實景撤離試驗危險系數高、花費昂貴、周期長等諸多問題，本文闡述應用數據分析的方法，在積累試驗數據的基礎上通過建立應急撤離元素數據庫實現對飛機撤離能力評判的經驗介紹。

【關鍵詞】撤離能力；數據分析；撤離元素

0 引言

如何在飛機發生故障時使機上乘員快速的撤離（即應急撤離）是民用飛機安全性要求之一。根據中國民用航空規章第25部（CCAR-25）運輸類飛機適航標準要求[1]：“對客座量大于44座的飛機，必須表明其最大乘坐量在90秒鐘內在模擬的應急情況下從飛機撤離至地面。對于這一點的符合性，必須通過按CCAR25部附錄J規定的試驗準則所進行的實際演示來表明，除非中國民用航空局（CAAC）適航部門認為分析與試驗的結合足以提供與實際演示所能獲得的數據等同的數據資料（§25.803（c））”。

進行全尺寸應急撤離試驗，有以下不可避免的缺點：真人驗證非常危險、試驗花銷昂貴、準備周期較長以及參與試驗者在撤離中隨機行為等問題。根據美國聯邦航空局（FAA）的研究發現，在進行全尺寸應急撤離試驗中平均6%的參試者受傷。在1972年至1980年，美國進行了7次全尺寸應急撤離試驗，2571名乘客和機組參加了試驗，其中有168人次受傷[2]。

在1985年FAA開始討論用分析與試驗結合的方法替代全尺寸應急撤離試驗來表明對于§25.803（c）的符合性。允許申請人使用分析的方法，其目的是證實飛機能在90秒以內能將機上人員全體撤出[2]。

1 積累試驗數據

對于采用分析方法進行證明新型號飛機或已有飛機進行了型號設計更改后符合§25.803（c）的要求，這需要之前的全尺寸撤離演示及其他的試驗積累的充足的數據和知識。

分析必須有適當的試驗支持，這些試驗可能包含，但不限于：

（1）應急出口和輔助撤離設施組合的撤離率；

（2）確定開門和撤離人員準備時間；

（3）確定乘務員訓練和程序是充足的以幫助乘客迅速撤離飛機；

（4）確定通道的影響，包含通向應急出口或交叉過道及合并乘客流量的過道交點位置等；

（5）確定飛機內外部應急照明照度更改造成的影響的試驗；

（6）確定乘務員座椅位置更改對組織撤離的影響的試驗。

成功的應急撤離試驗是分析的數據源，分析應基于對確定應急撤離系統元素的信任，（客艙內部特征，門的尺寸，撤離輔助設備和與門的結合和相對位置），引用合適的涉及更小的或者相同的元素的試驗記錄，然后這些性能數據對需要驗證的構型，進行有效的分析。

如果使用未能成功的全尺寸試驗數據為基礎，對型號飛機的撤離能力進行分析，首先失敗的原因應被確定（設備、構型、或程序），然而說明現需要驗證的飛機構型中不包含這些失敗的元素。

2 建立應急撤離元素數據庫

基于上述，對于新型號的飛機及涉及影響飛機撤離能力的設計更改，應進行評估其對于符合§25.803的影響。如果考慮用試驗和分析方法結合方法代替全尺寸應急撤離試驗，應急撤離元素的數據庫的建立，是進行應急撤離分析的基礎，同時，相應的試驗是應急撤離元素數據庫建立的前提。

首先數據庫中需要建立對飛機內部構型進行了詳細描述的具體模型，在這些模型中，乘客容量與撤離能力的應清晰表述，審定基礎應清晰。

客艙內部安排特征和撤離系統元素（例如過道和交口，出口通路、乘務員輔助空間，門和應急出口等）對分析是至關重要的。應詳細的描述客艙安排和撤離系統元素，這些表述應該包含位置、操作和客艙的尺寸和特征等，這些對于分析是非常重要的。

關于撤離系統元素任何專用條件、豁免、和等效安全的均應被討論，和評估，視情況進行相應的試驗。在進行應急撤離分析時，這些評估均需包含其中。

如果采用與先前驗證飛機相似的特征。經全尺寸演示的構型被考慮作為原驗證構型，兩個構型的共同特征需要描述清晰。代表性的描述：門和輔助系統是沒有更改或與原基本構型相似。內部特征完全沒有更改或客艙主要部分沒有更改。兩個構型的不同之處及構型的獨特特征應重點關注。例如，安裝了一個新的門，這個門的影響需要進行評估，在其他飛機上相似的門系統的驗證數據可以是的源泉。“相似”是使用這些數據基礎，“相似”也是分析中的重點表述內容之一。例如：獨特特征的空間參數應與已驗證的相匹配。這些系統的性能數據應在分析中包含以確定新的構型滿足條款要求。當一個新的安裝更改了早期的安裝詳細特征，改變了系統性能，這個更改應該被驗證，分析中應包含新安裝和早期的安裝的性能數據。

數據源應被包含除全尺寸應急撤離演示的以外的試驗數據，例如：一個新滑梯的拋放/充氣時間數據應被考慮進入撤離時間序，因為滑梯和救生筏拋放和充氣，因此一旦開始，不受人為的進一步干涉和CCAR25（和FAR25部）附錄J中試驗條件的影響。相似的，拉丁文正方形試驗（AC25-17A附錄4運輸類飛機客艙內部失墜性手冊）可能被使用確定一個新撤出系統或系統元素的性能能力（需要在附錄J的試驗條件下執行），以確定乘員和新系統之間的界面是合適的，例如：滑梯的燈光是否是充足的鼓勵參與者最小猶豫的跳下去[5]。

3 應急撤離元素

應急撤離元素越涉及小單元的元素，并引入其相應的是試驗記錄，其分析的可信度越高。

3.1 應急出口

3.1.1 應急出口大小和分布

應急出口的選擇和布置需滿足§25.807（應急出口）和§25.809（應急出口的布置）的要求。對于申請人已要求豁免的適用的聯邦航空條例中的非標準出口布局，必須確定它的可接受性，在一定的條件下進行全尺寸試驗，以便與標準出口進行精確的比較。

試驗目的是使用所提供的出口構型來確定的平均撤離時間等于或少于運輸類飛機適用的聯邦航空條例中規定的出口構型所規定的時間。這個結果可用作證實豁免的等效性或證實等效的安全水平。這個試驗程序不用作確定出口率或出口構型。

3.1.2 撤離輔助設施

撤離輔助設施展開的時間需滿足§25.810的要求。

3.1.3 撤離路線

§25.810 （c）中對撤離路線的選擇和制定進行了詳細要求。

3.1.4 應急出口標記

應急出口標記要求乘員能認清應急出口及其位置，易于接近通路并易于開啟。應急出口標記的的設置滿足§25.812的要求。

3.1.5 應急出口和輔助撤離設施組合

如果應急門開啟時，由應急門帶動并觸發輔助撤離設施的啟動裝置，應急門的運動過程與輔助撤離設施的完美組合是對于應急撤離性能的影響是非常關鍵的。輔助設施系統的安裝需要進行相應的驗證工作。應急門輔助設施除完成TSO-C69驗證試驗外，還需要完成§25.810（a）（1）（v）的要求的5次連續拋放試驗。對于應急出口和輔助撤離設施組合有影響的更改，例如：滑梯裝飾罩、地板鉚釘突出等，存在影響應急門運動和輔助撤離設施開啟的組合過程的因素，均需要進行評估分析，視情況進行試驗，并記錄試驗結果。

3.2 過道和通道

3.2.1 應急出口通道

§25.813中明確規定了主過道通往各類型出口和連通各個區域的通道的詳細尺寸要求。

3.2.2 應急出口可達性

3.2.3 乘員輔助空間

必須按下列要求規定提供足夠的空間，便于機組人員協助旅客撤離：該輔助空間不得使用通道的無障礙寬度減少到低于出口所要求的無障礙寬度。

當鄰近出口的區域被要求用于許可機組人員輔助乘客在使用逃生裝置，一個12×20英寸的輔助空間在長矩形和清晰的20英寸靠近通道或相當設備是被提供，這個地方是充足的允許乘務員直立站著去執行需要的輔助服務在乘客撤離。較小的偏離從12×20英寸輔助空間是被允許如果已經進行了出口影響減少的評估。一個演示可能是需要的以顯示乘員能有效的撤離。

座椅椅背前折不應該被使用侵占輔助空間。依賴輔助空間和坐墊壓縮是允許的。如果座椅是容易向前推動和坐墊是容易壓縮的。

如果輔助空間是在頭頂上的架子下面，例如乘務員不能直立站直，增加空間是被要求的，例如免除外部座椅。輔助空間的效果必須要驗證。

輔助空間不需要直接靠近出口。在一些情況下輔助空間可以是在出口稍稍靠里但在主要通道的外部。

輔助扶手是常常被提供在與地板水平的應急出口為乘務員提供穩定性在應急撤離期間。對于輔助扶手沒有具體要求。在撤離演示中已經使用了輔助扶手以符合規章要求，那么輔助扶手應該安裝，并且在輔助空間上的位置不能更改。

3.2.4 過道寬度

§25.815對飛機應具有符合性合格審定要求的最小無障礙過道和通道進行了規定。這可以組合多模式特征。各種組合模式特征下的撤離速率的影響，需要進行試驗。最小的座椅寬度考慮了動態試驗座椅的變形影響。

通過§25.815（過道寬度）表明符合§25.807（應急出口）是符合25.803的序幕。構型滿足§25.807和§25.813（應急出口通道）的要求的討論是應急撤離能力分析的重要部分和可接受的重點。這一節定義了各種應急出口的類型，各種類型數目的要求和易于接近和T■=T■+T■位置的要求。這些分析應直接闡明客艙乘客分布的和出口能力分布的問題。當物理約束，例如機體結構、機翼和發動機位置、防止艙門位置合適的幾何獨特性、提高應急撤離能力的補償因素應該被討論。出口的幾何分布，出口類型的規定能力，乘客艙區域客座椅密度應該被記錄。布置圖上出口的幾何分布是明顯的。涉及到乘員分布的出口均勻分布可能不是立即可視的。

3.3 應急照明

飛機應急照明系統的設計需要滿足§25.812的要求。

3.4 乘員座椅位置

乘務員和提供的座位應在合適的構型中定義。

3.5 乘員培訓

3.6 撤離者行為（猶豫不決等）對試驗的影響

3.7 應急撤離的其他客艙特征

例如：飛機外部影響應急撤離的特征（例如發動機和機翼副翼）應詳細描述。

4 撤離時間的分析計算

4.1 撤離時間計算公式

FAA確定了撤離能力分析工作和一個可接受的標準的公式，基于撤離系統的時間鏈或全尺寸撤離演示錄像帶中觀察的事件的次序[4]。

T■=T■+T■ （1）

式中，T■表示總的撤離時間，即從演示開始到最后一個參與者到達地面的間隔事件；T■表示撤離出口前的時間，即從演示開始到第一個參與者到達地面的時間或站在出口前的時間；T■表示出口的撤離時間，即從第一個參與者到達地面到最后一個撤離者到達地面的時間。

其中，T■主要包括：

（1）開門時間；

（2）輔助設施拋放，和充氣（如適用）；

（3）第一個參試者猶豫的時間（定義作為設備可以開始使用和第一個參與者已經朝地面的動作）和參試者到達地面的時間。

4.2 支持分析數據

（1）上文討論數據庫中包含了從試驗和演示中得到的數據，并定義了定義每一個數據的對于驗證的需要程度。

（2）當分析中使用的數據是一個時間間隔，數據庫中包含了在兩個事件時間中增加了時間間隔。事件是可視的和可直接驗證的，因此間隔是源于事件時間。用于支持分析的所有的單一事件時間表格在數據庫中是易見的。

（3）一個不平常的數據影響時間間隔，例如一個參試者在輔助設施完全開啟前跳出，或輔助設施拋放在演示中，這些數據應合適的調整。這樣的調整應在分析中驗證。

4.3 整體撤離時間計算

計算撤離時間和參與者計算在出口附近的可以被使用提供一個簡單的圖標結果。一個簡單的構型圖表可以滿意出口描述的多種目的。乘客和機組允許出口（客艙定義線）和每個出口的撤離時間。

4.4 成功判據

飛機在CCAR25部附錄J或CCAR121部附錄D確定的演示條件下具有總撤離時間小于90秒的撤離能力，出口撤離能力的時間裕度是需要的。

可以使用以下的公式定義時間裕度TM：

T■=∑■■90-T■ （2）

T■表示第i個出口的總體撤離時間（秒）；n表示總體使用出口的數目。

在以上公式計算使用的可用裕度應該等于或大于9秒。9秒的時間間隔（目前標準90秒的10%）是基于目前運輸類飛機驗證的能力[4]。

5 總結

使用分析與試驗組合的方法替代全尺寸應急撤離試驗，表明符合§25.803，是飛機設計驗證發展的方向，其依靠大量的試驗數據作為分析的支持數據，試驗是飛機應急撤離能力分析的基礎。同時，申請人如果考慮采用此方法，需要盡可能早的與適航部門溝通討論，以確定所有的重要因素均得到考慮和評估，這些因素的考慮對于應急撤離能力的分析是至關重要的。

數據分析方法論文:質量管理數據分析方法在船舶設計中的應用

摘要：采用一種全新的質量管理數據分析方法，對某船送中國船級社（CCS）廣州審圖中心審查的所有圖樣文件進行了統計和分析。通過采用此方法，能清晰地反映出各專業的技術力量情況，從而可根據需要對各專業進行調整，最終達到提高產品項目設計質量的目的。

關鍵詞：質量管理，統計分析，船舶設計

1概述

在船舶設計項目質量管理中，對設計圖紙的差錯率進行統計分析非常重要，不僅可以總結經驗，還可以找出設計環節中的薄弱之處，進而有針對性地采取改進措施，降低圖紙差錯率和圖紙修改率，最終達到提高設計質量的目的。本文將一種全新的質量管理數據分析方法應用到船舶設計項目中，對某船送中國船級社（CCS）廣州審圖中心的各專業圖樣文件進行了統計和分析。首先對CCS審圖意見類別及其導致修改的原因進行統計，然后對統計結果進行分析，最后針對產生原因采取相應的改進措施。

2專業審圖意見類別和原因分析

對各專業分別進行統計和分析，有利于了解各專業本身技術力量的實際情況，以便專業負責人做出適時的調整，對薄弱之處加以改進和提高。根據CCS的審圖意見類別，對某船各專業的圖樣文件進行統計，然后根據CCS提出的意見進行原因分析。

為了方便分析，設置下列不同的代碼，表示不同的審圖意見類別和原因分析含義。

（1）審圖意見類別代碼含義：

A－認可無意見；

AC－認可有意見；

N－備查無意見；

NC－備查有意見；

TS－轉送現場驗船師審核；

RS－不予批準，需修改后重新送審。

（2）原因分析代碼含義：

B1-設計方案欠妥；

B2-設計接口不協調；

B3-不符合現行有效的規范、法規要求；

B4-標識不明或有誤；

B5-其它。

下面對輪機專業進行舉例說明：

該專業的意見類別統計見表1，原因分析統計見表2。

表1輪機專業CCS審圖意見類別統計表

表2輪機專業原因分析統計表

由表1可清楚地看出某船輪機專業圖樣文件的退審意見分布情況。其它專業也分別如此進行歸類和統計，便能了解本專業圖樣文件的退審意見分布情況，并且還可將各專業的退審情況進行比較。

由表2可清楚地看出某船輪機專業圖樣文件的差錯分布較為集中在B3 （不符合現行有效的規范、法規要求），其次是B1（設計方案欠妥），說明輪機專業在這兩方面需采取措施加以改進。其它專業也分別如此歸類和統計，這樣就能清楚地了解各專業自身的薄弱環節在何處，從而可采取相應的措施來改進和提高。

3全船審圖意見類別和原因分析

為了使分析具有全局性，對各專業之間進行比較之后，需對全船進行統計和分析，這樣有利于找出整體中的薄弱環節在何處。某船全船圖樣文件的CCS審圖意見類別統計見表3；原因分析統計見表4。

表3全船CCS審圖意見類別數據統計表

表4全船原因分析統計表

由表3可清楚地看出各個專業退審圖樣文件的總體情況。由表4可看出各個專業圖樣文件的退審意見主要集中在B3（不符合現行有效的規范、法規要求），說明在這一環節所有專業均比較薄弱，特別是電氣專業，因此需專門針對這一環節制定改進措施。

通過對全船的退審圖樣文件進行統計和分析后，使項目負責人能清楚地掌握各專業的實際工作情況與整個項目組中的薄弱環節所在，以便采取改進措施，從全局出發對各專業的技術力量進行調整，進而提高產品項目設計質量。

4結論

在船舶設計項目中采用這種全新的質量管理數據分析方法，不僅能清晰地反映出各專業本身的優劣勢，還能反映出各個專業之間技術力量的強弱差別。這樣不但讓專業負責人能了解本專業的問題所在，并采取相應的改進措施，同時也能讓項目負責人掌控全局，根據需要對各專業進行協調，從而提高產品項目的質量，降低圖樣文件的差錯率。

數據分析方法論文:正交設計及數據分析方法在工業中的應用

【摘要】試驗設計在工業生產中具有重要的地位，本文采用正交設計優化試驗方案，系統地對正交試驗數據的分析方法進行了研究，涉及極差分析與方差分析。探討了方差分析的幾種情況：有交互作用、無交互作用、有重復試驗和無重復試驗類型，并討論了其在工業中的應用，總結出其編程實現。

【關鍵詞】正交設計；方差分析；極差分析；試驗設計；工業應用

一、正交設計的應用類型

基本上有四種情況：有交互作用和無交互作用，重復試驗和無重復試驗。相應的對這四種情況所構造的正交表也有所區別具體情況如下：（1）無交互作用是指實驗各因素之間是相互

獨立的，只是單個因素的水平變化對指標有影響，因素間各水平的聯合搭配對指標沒有影響或影響可以忽略不計，這種情況對正交表的構造沒有影響。（2）有交互作用是指在進行實驗時，有時不僅因素的水平變化對指標有影響，而且有些因素間各水平的聯合搭配對指標也產生影響，這種聯合搭配作用稱為交互作用。當出現了交互作用時，正交表的構造也要發生相應的變

二、方差分析在工業上的應用舉例

下面以一個三因素、三水平的無重復實驗，無交互作用的工業生產例子進行分析一下：例，某水泥廠為了提高水泥的強度，需要通過試驗選擇最好的生產方案，經研究有三個因素影響水泥的強度，這三個因素生料中礦化劑的用量，燒成溫度，保溫時間，每個因素都考慮3個水平，具體情況如表，試驗的考察指標為28天的抗壓強度（Mpa），分別為44.1，45.3，46.7，48.2，46.2，47.0，45.3，43.2，46.3。問：對這3個因素的3個水平如何安排，才能獲得最高的水泥抗壓強度？

上述例子中指標為抗壓強度，影響指標的因素為A（礦化劑的用量），B（燒成溫度），C（保溫時間），例中只有三個因素，三個水平，L9（34）、L27（318）這兩張表都至少有四個列。因此，都可以用來安排這個試驗。我們要求盡量少做試驗。

對上述例子應用SAS編程，只用輸入主效應項，運行后的結果如下：

從輸出結果中可以看出，在A（礦化劑的用量）的第二個水平下的均值最大，在B（燒成溫度）的第三個水平下的均值最大，在C（保溫時間）的第三個水平下的均值最大。根據實際因素，（抗壓強度）越大越好，因此在A2B3C3的條件下，即在礦化劑的用量4%，燒成溫度1450℃，保溫時間40的條件下生產，抗壓強度最大。

三、正交設計法的應用步驟

（1）定指標，挑因素，選水平；（2）選擇正交表、排表頭；（3）排試驗方案表，做試驗，填數據；（4）分析數據，選取合適的生產條件。通過驗證試驗，找出較穩定的較優生產條件，進行小批量考驗，最后納入技術文件，才算完成一項正交試驗的全過程。

精品范文

熱門期刊

亚洲国产精品无码成人片久久-夜夜高潮夜夜爽夜夜爱爱-午夜精品久久久久久久无码-凹凸在线无码免费视频

數據分析方法論文

數據分析 方法 論文:土工實驗數據分析方法探討

數據分析方法論文:社會調查數據建模及基于超圖的數據分析方法

數據分析方法論文:對企業數據分析與決策支持方法進行研究

數據分析方法論文:淺析電線線纜直流電阻測試方法與數據分析研究

數據分析方法論文:驗證型實驗的數據分析處理方法探討

數據分析方法論文:水輪發電機組高精度水平測量和數據分析方法

數據分析方法論文:大數據分析的方法及其在情報研究中的適用性初探

數據分析方法論文:考慮采用數據分析方法表明飛機撤離能力經驗介紹

數據分析方法論文:質量管理數據分析方法在船舶設計中的應用

數據分析方法論文:正交設計及數據分析方法在工業中的應用

數據采集與處理

數據通信

數據

中國數據通信