期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
摘要:本文對重癥監護醫學信息集市Ⅲ(MIMICⅢ數據庫)的數據構成和特征內容進行分析,梳理了研究者基于該數據庫的研究主題分布、代碼知識庫的共享模式及腳本內容、隱私數據的處理和多層保護機制,認為MIMICⅢ數據庫的技術和管理模式適用于類似醫療信息的處理,如注重隱私的處理、對于主索引的確立及各類代碼的統一、促進源代碼的共享等,對構建共享中醫數據集具有參考意義。
關鍵詞:MIMICⅢ數據庫;代碼共享;中醫數據集
推薦閱讀:大數據時代的企業管理會計創新與應用
隨著醫院信息系統的不斷完善,醫療數據的獲取和再利用的效率成為醫療健康大數據的焦點,醫生和科研人員通過對這些信息的檢索整合,可以獲得科研成果或者用于臨床決策支持。中醫科室基于實際業務建立了大量的專科數據集,數據集的質量直接影響到數據的使用效果。本文旨在通過對國際通用度較高的醫學信息數據庫的數據特征及運行模式進行研究,為構建中醫數據集提供參考,使其能更好地、有針對性地支持臨床數據挖掘及臨床決策。
1 MIMICⅢ數據庫概況
2003年,美國貝斯以色列女執事醫療中心(Beth Israel Deaconess Medical Center,以下簡稱“醫療中心”)、麻省理工(MIT)、麻省總醫院(MGH)和英國牛津大學的急診科醫生、重癥科醫生、計算機科學專家等共同建立了一個數據庫,該數據庫在建立之初的名字為Multiparameter Intelligent Monitoring in Intensive Care Ⅱ,簡寫為MIMICⅡ。2016年9月,MIMICⅡ數據庫升級為MIMICⅢ數據庫,并改名為Medical Information Mart for Intensive Care,直譯為重癥監護醫學信息集市,簡寫仍然是MIMIC。
目前MIMICⅢ數據庫最新的版本是1.4(V1.4),包含了2001年6月-2012年10月在醫療中心住院的38 645名成年個體(非新生兒)和 7 875名新生兒(出生至28天)的58 000余次住院臨床診療信息。這些資料被整理成了26張CSV格式(以純文本的形式存儲表格數據,包括數字和文本)的表格供研究者查詢[1],為流行病學的分析性研究、臨床決策的發展及醫學電子設備的研發提供了更多樣的方法和思路[2]。
2 MIMICⅢ數據庫內容
2.1 MIMICⅢ數據庫的表結構
MIMICⅢ數據庫有26張表格,其中5張為輔助字典表(包括醫療項目、診斷、手術操作、指標項目、實驗室項目對應代碼),余下21張都是患者住院期間的各項臨床數據,其中檢驗記錄表(Chartevents)是內存最大的一張表格,達到30多個G,由于數據量過大,這一張表在導入數據庫時被拆分為18張。在研究中,較為常用的MIMICⅢ數據庫的信息主要有以下幾類。
2.1.1 基本信息 患者的人口統計學資料(如性別、種族、婚姻狀況等),以及出入院、病區轉換等基本信息。年齡沒有直接記載,但可以通過出生日期和入院日期之差計算得出。這些基本信息可用于研究初期,在樣本中篩選出類似性質的患者供下一步分析。
2.1.2 診斷及手術信息 使用國際疾病分類(International Classification of Diseases, ICD)中ICD_9標準編碼,記錄患者診斷、診斷分組、手術操作記錄信息。表1是根據信息中的第一診斷配合患者年齡分組得出的一個簡單示例。
2.1.3 實時記錄的生理指標 例如,信息數據結構化存儲可以實時記錄心率、動脈血壓、肺動脈壓及體液出入量平衡等情況。