| |||||||||
日 | 一 | 二 | 三 | 四 | 五 | 六 | |||
---|---|---|---|---|---|---|---|---|---|
27 | 28 | 29 | 30 | 1 | 2 | 3 | |||
4 | 5 | 6 | 7 | 8 | 9 | 10 | |||
11 | 12 | 13 | 14 | 15 | 16 | 17 | |||
18 | 19 | 20 | 21 | 22 | 23 | 24 | |||
25 | 26 | 27 | 28 | 29 | 30 | 31 | |||
1 | 2 | 3 | 4 | 5 | 6 | 7 |
不再墮落。
Oracle documents:
http://tahiti.oracle.com/
正態分布(normal distribution)
目錄[隱藏] |
正態分布是一種概率分布。正態分布是具有兩個參數μ和σ2的連續型隨機變量的分布,第一參數μ是遵從正態分布的隨機變量的均值,第二個參數σ2是此隨機變量的方差,所以正態分布記作N(μ,σ2 )。遵從正態分布的隨機變量的概率規律為取 μ鄰近的值的概率大 ,而取離μ越遠的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。正態分布的密度函數的特點是:關于μ對稱,在μ處達到最大值,在正(負)無窮遠處取值為0,在μ±σ處有拐點。它的形狀是中間高兩邊低 ,圖像是一條位于x 軸上方的鐘形曲線。當μ=0,σ2 =1時,稱為標準正態分布,記為N(0,1)。μ維隨機向量具有類似的概率規律時,稱此隨機向量遵從多維正態分布。多元正態分布有很好的性質,例如,多元正態分布的邊緣分布仍為正態分布,它經任何線性變換得到的隨機向量仍為多維正態分布,特別它的線性組合為一元正態分布。
正態分布是最重要的一種概率分布。正態分布概念是由德國的數學家和天文學家Moivre于1733年受次提出的,但由于德國數學家Gauss率先將其應用于天文學家研究,故正態分布又叫高斯分布高斯這項工作對后世的影響極大,他使正態分布同時有了“高斯分布”的名稱,后世之所以多將最小二乘法的發明權歸之于他,也是出于這一工作。高斯是一個偉大的數學家,重要的貢獻不勝枚舉。但現今德國10馬克的印有高斯頭像的鈔票,其上還印有正態分布的密度曲線。這傳達了一種想法:在高斯的一切科學貢獻中,其對人類文明影響最大者,就是這一項。在高斯剛作出這個發現之初,也許人們還只能從其理論的簡化上來評價其優越性,其全部影響還不能充分看出來。這要到20世紀正態小樣本理論充分發展起來以后。皮埃爾-西蒙·拉普拉斯很快得知高斯的工作,并馬上將其與他發現的中心極限定理聯系起來,為此,他在即將發表的一篇文章(發表于1810年)上加上了一點補充,指出如若誤差可看成許多量的疊加,根據他的中心極限定理,誤差理應有高斯分布。這是歷史上第一次提到所謂“元誤差學說”——誤差是由大量的、由種種原因產生的元誤差疊加而成。后來到1837年,海根(G.Hagen)在一篇論文中正式提出了這個學說。
其實,他提出的形式有相當大的局限性:海根把誤差設想成個數很多的、獨立同分布的“元誤差” 之和,每只取兩值,其概率都是1/2,由此出發,按狄莫佛的中心極限定理,立即就得出誤差(近似地)服從正態分布。皮埃爾-西蒙·拉普拉斯所指出的這一點有重大的意義,在于他給誤差的正態理論一個更自然合理、更令人信服的解釋。因為,高斯的說法有一點循環論證的氣味:由于算術平均是優良的,推出誤差必須服從正態分布;反過來,由后一結論又推出算術平均及最小二乘估計的優良性,故必須認定這二者之一(算術平均的優良性,誤差的正態性) 為出發點。但算術平均到底并沒有自行成立的理由,以它作為理論中一個預設的出發點,終覺有其不足之處。拉普拉斯的理把這斷裂的一環連接起來,使之成為一個和諧的整體,實有著極重大的意義。
1、集中性:正態曲線的高峰位于正中央,即均數所在的位置。
2、對稱性:正態曲線以均數為中心,左右對稱,曲線兩端永遠不與橫軸相交。
3、均勻變動性:正態曲線由均數所在處開始,分別向左右兩側逐漸均勻下降。
4、正態分布有兩個參數,即均數μ和標準差σ,可記作N(μ,σ):均數μ決定正態曲線的中心位置;標準差σ決定正態曲線的陡峭或扁平程度。σ越小,曲線越陡峭;σ越大,曲線越扁平。
5、u變換:為了便于描述和應用,常將正態變量作數據轉換。
1.估計正態分布資料的頻數分布
例1.某地1993年抽樣調查了100名18歲男大學生身高(cm),其均數=172.70cm,標準差s=4.01cm,①估計該地18歲男大學生身高在168cm以下者占該地18歲男大學生總數的百分數;②分別求、
、
范圍內18歲男大學生占該地18歲男大學生總數的實際百分數,并與理論百分數比較。
本例,μ、σ未知但樣本含量n較大,按式(3.1)用樣本均數和標準差S分別代替μ和σ,求得u值,u=(168-172.70)/4.01=-1.17。查附表標準正態曲線下的面積,在表的左側找到-1.1,表的上方找到0.07,兩者相交處為0.1210=12.10%。該地18歲男大學生身高在168cm以下者,約占總數12.10%。其它計算結果見表3.1。
表:1100名18歲男大學生身高的實際分布與理論分布
2.制定醫學參考值范圍:亦稱醫學正常值范圍。它是指所謂“正常人”的解剖、生理、生化等指標的波動范圍。制定正常值范圍時,首先要確定一批樣本含量足夠大的 “正常人”,所謂“正常人”不是指“健康人”,而是指排除了影響所研究指標的疾病和有關因素的同質人群;其次需根據研究目的和使用要求選定適當的百分界值,如80%,90%,95%和99%,常用95%;根據指標的實際用途確定單側或雙側界值,如白細胞計數過高過低皆屬不正常須確定雙側界值,又如肝功中轉氨酶過高屬不正常須確定單側上界,肺活量過低屬不正常須確定單側下界。另外,還要根據資料的分布特點,選用恰當的計算方法。常用方法有:
(1)正態分布法:適用于正態或近似正態分布的資料。
(2)對數正態分布法:適用于對數正態分布資料。
常用u值可根據要求由表3.2查出。
(3)百分位數法:常用于偏態分布資料以及資料中一端或兩端無確切數值的資料。
雙側界值:P2.5和P97.5;單側上界:P95,或單側下界:P5。
表:常用u值表
3.正態分布是許多統計方法的理論基礎:如t分布、F分布、分布都是在正態分布的基礎上推導出來的,u檢驗也是以正態分布為基礎的。此外,t分布、二項分布、Poisson分布的極限為正態分布,在一定條件下,可以按正態分布原理來處理。
方差(Variance)
方差和標準差是測度數據變異程度的最重要、最常用的指標。
方差是各個數據與其算術平均數的離差平方和的平均數,通常以σ2表示。方差的計量單位和量綱不便于從經濟意義上進行解釋,所以實際統計工作中多用方差的算術平方根——標準差來測度統計數據的差異程度。
標準差又稱均方差,一般用σ表示。方差和標準差的計算也分為簡單平均法和加權平均法,另外,對于總體數據和樣本數據,公式略有不同。
設總體方差為σ2,對于未經分組整理的原始數據,方差的計算公式為:
對于分組數據,方差的計算公式為:
方差的平方根即為標準差,其相應的計算公式為:
未分組數據:
分組數據:
樣本方差與總體方差在計算上的區別是:總體方差是用數據個數或總頻數去除離差平方和,而樣本方差則是用樣本數據個數或總頻數減1去除離差平方和,其中樣本數據個數減1即n-1稱為自由度。設樣本方差為,根據未分組數據和分組數據計算樣本方差的公式分別為:
未分組數據:
分組數據:
未分組數據:
分組數據:
例:考察一臺機器的生產能力,利用抽樣程序來檢驗生產出來的產品質量,假設搜集的數據如下:
3.43 | 3.45 | 3.43 | 3.48 | 3.52 | 3.50 | 3.39 |
3.48 | 3.41 | 3.38 | 3.49 | 3.45 | 3.51 | 3.50 |
根據該行業通用法則:如果一個樣本中的14個數據項的方差大于0.005,則該機器必須關閉待修。問此時的機器是否必須關閉?
解:根據已知數據,計算
因此,該機器工作正常。
方差和標準差也是根據全部數據計算的,它反映了每個數據與其均值相比平均相差的數值,因此它能準確地反映出數據的離散程度。方差和標準差是實際中應用最廣泛的離散程度測度值。
---------------------------------------------------------------------
http://zh.wikipedia.org/wiki/%E6%96%B9%E5%B7%AE
在概率論和統計學中,一個隨機變量的“方差”描述的是它的離散程度,也就是該變量離其期望值的距離。 一個實隨機變量的方差也稱為它的二階距,恰巧也是它的二階culmulent。 方差的算術平方根稱為該隨機變量的標準差。
目錄[隱藏] |
設 X 為服從分布 F 的隨機變量,則稱 Var(X) = E(X − EX)2 為隨機變量 X 或者分布 F 的方差。
如果 是隨機變數 X 的期望值 (平均數) , 則其變異數為:
在樣本空間Ω上存在有限期望和方差的隨機變量構成一個希爾伯特空間: L^2(Ω, dP),不過這里的內積和長度跟方差,標準差還是不大一樣。 所以,我們得把這個空間“除”常變量構成的子空間,也就是說把相差一個常數的 所有原來那個空間的隨機變量做成一個等價類。這還是一個新的無窮維線性空間, 并且有一個從老空間內積誘導出來的新內積,而這個內積就是方差
如果X是一個向量其取值范圍在Rn空間,并且其每個元素都是一個一維隨機變量,我們就把X稱為隨機向量。隨機向量的方差是一維隨機變量方差的自然推廣,其定義為E[(X − μ)(X − μ)T], 其中 μ = E(X) ,XT是X的轉秩. 這個方差是一個非負定方陣,通常稱為協方差矩陣。
如果X是一個復隨機變量,那么其方差定義則為E[(X − μ)(X − μ)*], 其中X*是X的復共軛向量。根據這個定義,方差為實數。
方差這個詞首先由Ronald Fisher在論文The Correlation Between Relatives on the Supposition of Mendelian Inheritance中引入.