zeroooreo
zeroooreo
無標題
20 posts
Don't wanna be here? Send us removal request.
zeroooreo · 9 months ago
Text
初步結果部分的優勢包括:可以使用各種方法,進而選擇出最好的
2. 初步結果部分的一些潛在弱點包括:無
Tumblr media
0 notes
zeroooreo · 9 months ago
Text
“方法”部分的優勢包括:預測品質可以使用迴歸模型以及更進階的機器學習方法,像是決策樹、隨機森林、支持向量機等。
2. “方法”部分的一些潛在弱點包括:無
0 notes
zeroooreo · 9 months ago
Text
標題和/或研究問題簡介的優勢包括:
研究影響紅酒品質的化學及物理因素。吸引一些擅長品酒的人的興趣。
2. 研究問題的標題和/或引言的一些潛在弱點包括:
對於酒類的背景知識不足。
0 notes
zeroooreo · 9 months ago
Text
Kmeans
Tumblr media
0 notes
zeroooreo · 9 months ago
Text
Lasso迴歸
Tumblr media Tumblr media
因為MSE很小而且R-square幾乎等於1,因此此模型配適好。
0 notes
zeroooreo · 9 months ago
Text
隨機森林
Tumblr media
由混淆矩陣得知正確預測為1的比例為603/605=99.67%。
準確率為99.19%。
Tumblr media
3. 特徵重要性:其中發現最重要的為0.266(total sulfur dioxide)。
Tumblr media
4. 由圖可發現樹越多準確率越高,但需要注意可能會有overfitting的問題。
Tumblr media
0 notes
zeroooreo · 9 months ago
Text
決策樹分析
Tumblr media Tumblr media
由混淆矩陣發現若type=1,其中會有586筆被預測出來;若type=0,則會有1964被正確預測出來。
準確率為0.98 = (586+1964)/(586+34+15+1964)
0 notes
zeroooreo · 9 months ago
Text
羅吉斯迴歸
因為性別,小孩數量以及地區的p-value皆小於0.05,因此此羅吉斯迴歸模型 logit(P(Y=1)) = -19.1404 + 0.0227*age + 0.362*bmi + 7.5726*smoker。
Tumblr media
2. 每個變數對charges>30000與charges<30000的勝算比
Tumblr media
3. 勝算比的95%信賴區間。
Tumblr media
0 notes
zeroooreo · 9 months ago
Text
多元線性迴歸模型:
因為sex的p-value>顯著水準0.001,因此多元迴歸模型為y = intercept + 257.2881*age + 332.5701*bmi + 479.3694*children -353.64*region。
Tumblr media
2.
Tumblr media Tumblr media
3.
Tumblr media
0 notes
zeroooreo · 9 months ago
Text
線性迴歸分析
先將2 levels的類別解釋變數編碼(0,1),下圖為這些變數的次數分配表。
Tumblr media
2. 再將連續解釋變數減��平均。如下圖
Tumblr media
3. 進行模型建立分析:
Tumblr media
圖1、年齡(x)與保險費用(y)的線性迴歸模型:y=22.502x,由於截距項p-value>0.001,因此截距項=0。且年齡的p-value<0.001(顯著水準),因此此迴歸係數顯著(即不等於0)。
Tumblr media
圖2、BMI(x)與保險費用(y)的線性迴歸模型:y=393.8730x,由於截距項p-value>0.001,因此截距項=0。且BMI的p-value<0.001(顯著水準),因此此迴歸係數顯著(即不等於0)。
Tumblr media
圖3、小孩數量的p-value>0.001(顯著水準),因此此迴歸係數不顯著(即等於0)。
Tumblr media
0 notes
zeroooreo · 9 months ago
Text
Writing About Data
樣本描述:此資料集包含醫療訊息以及健保公司的醫療費用。總共有1338個樣本,其中有年齡、性別、BMI、小孩數量、是否吸菸、地區以及保險費用。
資料收集過程:由多家健保公司的計費紀錄蒐集而成。此資料集的目的是研究影響保險費用的因素。
變量:其中年齡、BMI、小孩數量、保險費用為數值型;性別、是否吸菸、地區為類別型。感興趣的反應變數為保險費用。
Tumblr media
0 notes
zeroooreo · 9 months ago
Text
*由於本資料樣本數眾多,因此設 顯著水準=9.861×10^(-8)
對活躍客戶來說,p-value>顯著水準,因此客戶是否流失與估計薪資不顯著;對不活躍者,p-value<顯著水準,因此客戶是否流失與估計薪資有關。
Tumblr media Tumblr media
2. 在客戶流失一群中,客戶居住地與是否為活躍客戶相關性不顯著;在沒有流失一群中,客戶居住地與是否為活躍客戶相關性亦不顯著。
Tumblr media Tumblr media Tumblr media
0 notes
zeroooreo · 9 months ago
Text
皮爾森相關係數
*由於本資料樣本數眾多,因此設 顯著水準=9.861×10^(-8)
p-value = 0.00029 > 顯著水準,表示信用分數與年齡相關性不顯著。且相關係數的平方 = (-0.0089)^2 = 0.00007291,此可解釋成:如果知道信用分數,就可以預測年齡的0.007291%的可變性。
p-value = 0.0283 > 顯著水準,表示估計薪資與年齡相關性不顯著。且相關係數的平方 = (-0.0054)^2 = 0.00002916,此可解釋為:如果知道估計薪資,就可以預測年齡的0.002916%的可變性。
Tumblr media
0 notes
zeroooreo · 9 months ago
Text
卡方獨立性檢定:
*由於本資料樣本數眾多,因此設 顯著水準=9.861×10^(-8)
圖1、檢定客戶居住地與是否為活躍客戶是否獨立,p-value<0.05表示這兩個變數為相關的,即這三個Geography裡的三個levels在活躍客戶與非活躍客戶兩組中的均值顯著不同。
Tumblr media
圖2、檢定居住地兩兩之間的levels均值是否相同,其中法國與德國、德國與西班牙這兩組的均值皆有顯著差異。
Tumblr media
0 notes
zeroooreo · 9 months ago
Text
銀行客戶流失的影響因子
*由於本資料樣本數眾多,因此設 顯著水準=9.861×10^(-8)
探討連續變數與客戶是否流失的關係
圖1、由檢定結果可以發現,估計薪資在客戶有流失及沒有流失兩組中的平均數是顯著的。即估計薪資與客戶是否流失有關。
Tumblr media
圖2、由檢定結果可以發現,客戶信用分數在客戶有流失及沒有流失兩組中的平均數是顯著的。即客戶信用分數與客戶是否流失有關。
Tumblr media
圖3、由檢定結果可以發現,客戶估計薪資在客戶居住地組中的平均數是顯著的。即客戶估計薪資與客戶居住地有關。
Tumblr media
圖4、其中每組的p皆<0.05,因此估計薪資在這三個地區的平均值皆顯著不同。
Tumblr media
0 notes
zeroooreo · 10 months ago
Text
Visualized plot
單變量圖表
Tumblr media Tumblr media Tumblr media Tumblr media
We could find that the happiness index is about normal.
2. 雙變量圖表
Tumblr media Tumblr media
We could find that 'happiness index' vs. 'GDP per person' and 'oil consumption per person' vs. 'GDP per person' have the positive relationship.
0 notes
zeroooreo · 1 year ago
Text
Make and implement data management decisions
The frequency for GDP groups shows that there're half of subjects of investigation being developing nations.
The frequency for oil consumption groups indicates that these countries have lower tons oil consumption per person. (0-5 tons)
The total number of data is 195, so there're 86 missing data in the column 'happiness index' and 116 missing data in 'oil consumption per person'.
Tumblr media Tumblr media Tumblr media
0 notes