在本實驗中,我們將使用dplyr軟件包探索數據,并使用ggplot2軟件包對其進行可視化以進行數據可視化
library(ggplot2) library(dplyr)
load("brfss2013.RData") dim(brfss2013)
## [1] 491775 330
我們可以看到數據集的維度。我們的數據集包含491775個觀測值(行)和330個變量(列)
行為風險因素監視系統(BRFSS)是每年對美國超過40萬人進行的電話調查。該系統收集有關美國居民與健康相關的危險行為,長期健康狀況,以及使用預防服務。顧名思義,BRFSS旨在識別成年人口中的危險因素并報告新出現的健康趨勢。
通過與家庭居民進行電話采訪,從美國各州,哥倫比亞特區和參與的美國領土收集了數據。2011年進行了超過50萬次此類采訪,使用隨機抽樣收集了電話采訪和手機訪問的樣本,從一個州根據密度按分層抽樣方法獲得了電話樣本,而手機樣本則是從一個隨機抽樣中抽取的。
為了保持各州之間的一致性,BRFSS遵循標準的數據收集協議,其中包括對符合條件的家庭進行隨機抽樣,構建調查表,進行手機采訪,維護程序以保護受訪者的機密性并確保采訪過程的質量。一個月的樣本電話采訪在同一個月內進行。
BRFSS的調查涵蓋了50個州和美國領土,其中包括對隨機收集的家庭數據進行的超過500,000次電話采訪,這些數據僅是隨機樣本,并且在數據收集中建立了嚴格的程序以確保代表性人口樣本。
由于這是一項觀察性研究,而不是具有隨機控制的蹤跡和目標樣品的隨機分配的實驗性研究,因此無法推斷變量之間的因果關系。
研究問題1:
這個問題涉及對人的健全健康影響睡眠的年齡 的問題。這將是從該數據集中探索的有趣相關性。正在考慮的變量有:
physhlth:天數身體健康不好
menthlth:心理健康的天數不好
sleptim1:您睡多少時間
性別:受訪者性別
研究問題2:
因為收入水平和就業狀況對個人的自我價值和心理狀態具有巨大影響。金融不安全會給個人造成巨大的精神傷害,因此我們希望這些人具有不利的健康狀況。
考慮的變量有:
genhlth:一般健康
受雇1:就業狀況
收入2:收入水平
研究問題3:
這個問題試圖回答肥胖對加重心臟病發作健康風險的影響。心臟驟停是影響所有背景人群的最常見疾病之一。我們將嘗試尋找高膽固醇水平,BMI升高與心臟病風險之間的關系。
正在考慮的變量有:
_bmi5cat:計算體重指數類別
tellhi2:高膽固醇血癥
cvdinfr4:曾經被診斷出患有心臟病
研究問題1:
V1<-brfss2013%>% filter(!is.na(physhlth),!is.na(sleptim1),!is.na(menthlth),!is.na(sex))%>% select(physhlth,sleptim1,menthlth,sex)
我們創建了一個新的數據框V1,其中包含4個連續變量。在刪除了包含NA輸入的行之后,我們對數據進行了分類。
ggplot(data=V1,aes(x=sleptim1,y=physhlth,color=sex))+ geom_point()+scale_fill_manual(values =c("red","seagreen3"))
研究問題2:
清理目標變量的數據集并將結果存儲在新的V2中
研究問題3:
新的變量V3存儲由3個目標變量組成的數據幀。
count(V3,cvdinfr4)
## # A tibble: 2 x 2 ## cvdinfr4 n ## ## 1 Yes 26935 ## 2 No 370021
ggplot(data=V3,aes(x=cvdinfr4,fill=X_bmi5cat))+ geom_bar()
高膽固醇血癥最嚴重的原因是超重或肥胖。