精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
R語言探索BRFSS數據可視化

原文鏈接:http://tecdat.cn/?p=9266

設定

加載包

在本實驗中,我們將使用dplyr軟件包探索數據,并使用ggplot2軟件包對其進行可視化以進行數據可視化

library(ggplot2) library(dplyr)

載入資料

load("brfss2013.RData") dim(brfss2013)## [1] 491775 330

我們可以看到數據集的維度。我們的數據集包含491775個觀測值(行)和330個變量(列)


第1部分:數據

關于BRFSS

行為風險因素監視系統(BRFSS)是每年對美國超過40萬人進行的電話調查。該系統收集有關美國居民與健康相關的危險行為,長期健康狀況,以及使用預防服務。顧名思義,BRFSS旨在識別成年人口中的危險因素并報告新出現的健康趨勢。 

數據收集方法

通過與家庭居民進行電話采訪,從美國各州,哥倫比亞特區和參與的美國領土收集了數據。2011年進行了超過50萬次此類采訪,使用隨機抽樣收集了電話采訪和手機訪問的樣本,從一個州根據密度按分層抽樣方法獲得了電話樣本,而手機樣本則是從一個隨機抽樣中抽取的。  

為了保持各州之間的一致性,BRFSS遵循標準的數據收集協議,其中包括對符合條件的家庭進行隨機抽樣,構建調查表,進行手機采訪,維護程序以保護受訪者的機密性并確保采訪過程的質量。一個月的樣本電話采訪在同一個月內進行。 

關于數據收集對推斷范圍的影響的評論

BRFSS的調查涵蓋了50個州和美國領土,其中包括對隨機收集的家庭數據進行的超過500,000次電話采訪,這些數據僅是隨機樣本,并且在數據收集中建立了嚴格的程序以確保代表性人口樣本。 

由于這是一項觀察性研究,而不是具有隨機控制的蹤跡和目標樣品的隨機分配的實驗性研究,因此無法推斷變量之間的因果關系。


第2部分:研究問題

研究問題1:

身心健康與睡眠之間有關聯嗎? 

這個問題涉及對人的健全健康影響睡眠的年齡 的問題。這將是從該數據集中探索的有趣相關性。正在考慮的變量有:

  • physhlth:天數身體健康不好

  • menthlth:心理健康的天數不好

  • sleptim1:您睡多少時間

  • 性別:受訪者性別

研究問題2:

收入水平和就業狀況是否會改善健康狀況?

 因為收入水平和就業狀況對個人的自我價值和心理狀態具有巨大影響。金融不安全會給個人造成巨大的精神傷害,因此我們希望這些人具有不利的健康狀況。

考慮的變量有:

  • genhlth:一般健康

  • 受雇1:就業狀況

  • 收入2:收入水平

研究問題3:

肥胖(高BMI)會加劇心臟病發作和高膽固醇水平的風險嗎?

這個問題試圖回答肥胖對加重心臟病發作健康風險的影響。心臟驟停是影響所有背景人群的最常見疾病之一。我們將嘗試尋找高膽固醇水平,BMI升高與心臟病風險之間的關系。

正在考慮的變量有:

  • _bmi5cat:計算體重指數類別

  • tellhi2:高膽固醇血癥

  • cvdinfr4:曾經被診斷出患有心臟病


第3部分:探索性數據分析

研究問題1:

V1<-brfss2013%>% filter(!is.na(physhlth),!is.na(sleptim1),!is.na(menthlth),!is.na(sex))%>% select(physhlth,sleptim1,menthlth,sex)

我們創建了一個新的數據框V1,其中包含4個連續變量。在刪除了包含NA輸入的行之后,我們對數據進行了分類。

ggplot(data=V1,aes(x=sleptim1,y=physhlth,color=sex))+ geom_point()+scale_fill_manual(values =c("red","seagreen3"))

 

研究問題2:

清理目標變量的數據集并將結果存儲在新的V2中

研究問題3:

新的變量V3存儲由3個目標變量組成的數據幀。

count(V3,cvdinfr4)## # A tibble: 2 x 2 ## cvdinfr4 n ## ## 1 Yes 26935 ## 2 No 370021ggplot(data=V3,aes(x=cvdinfr4,fill=X_bmi5cat))+ geom_bar()

 超重和肥胖的人似乎最容易受到心臟病的影響。

高膽固醇血癥最嚴重的原因是超重或肥胖。

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
R語言在BRFSS數據中可視化分析探索糖尿病的影響因素
“越來越多30~50歲的人,得了胃癌!”
Dataset:heart disease數據集的簡介、下載、使用方法之詳細攻略
R語言 | 第16期.ggplot2氣泡圖
ggplot2繪圖入門系列之二:圖層控制與直方圖 | R blogs / lang
ggplot配色怎么弄
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 灯塔市| 抚松县| 苗栗市| 册亨县| 华亭县| 湾仔区| 如皋市| 郯城县| 沙河市| 渝中区| 屏南县| 固原市| 章丘市| 新和县| 新昌县| 永胜县| 灵璧县| 梁平县| 龙井市| 蓬安县| 武乡县| 当阳市| 丹凤县| 石家庄市| 贵阳市| 柳林县| 德州市| 湖南省| 肇州县| 临武县| 望江县| 鄢陵县| 洱源县| 女性| 舟山市| 开原市| 镇赉县| 河津市| 榆树市| 裕民县| 中西区|