一,國(guó)內(nèi)外EMR應(yīng)用情況
近年來(lái),EMR作為醫(yī)療信息化的一個(gè)重點(diǎn)方向,在國(guó)內(nèi)外均有很大的發(fā)展,以下分別以美國(guó)和日本為例,簡(jiǎn)單介紹下國(guó)內(nèi)外EMR的應(yīng)用狀況。
美國(guó)的情況:
美國(guó)在電子病歷相關(guān)的模型與理論等多個(gè)方面均完成了大量工作,同時(shí),結(jié)合美國(guó)的衛(wèi)生管理部門對(duì)于醫(yī)藥行業(yè)存在問(wèn)題的分析,美國(guó)的電子病歷系統(tǒng)建設(shè)具有十分明顯的針對(duì)性,所建設(shè)的系統(tǒng)一定要立足于解決在醫(yī)療實(shí)踐中切實(shí)存在的錯(cuò)誤與問(wèn)題。
美國(guó)著名的HIMSS首先將電子病歷(EMR)劃分為臨床數(shù)據(jù)存儲(chǔ)庫(kù)(CDR)、臨床決策支持系統(tǒng)(CDSS)、受控醫(yī)學(xué)詞匯表(CMV)、計(jì)算機(jī)支持醫(yī)院醫(yī)囑系統(tǒng)(CPOE)、藥品管理系統(tǒng)、以及臨床文檔應(yīng)用程序等若干個(gè)部分,然后結(jié)合其他醫(yī)療信息系統(tǒng)的建設(shè)過(guò)程,將EMR的建設(shè)分成了如下8個(gè)階段:
階段0:藥品管理系統(tǒng)、LIS(檢驗(yàn)科信息系統(tǒng))、RIS(放射科信息系統(tǒng))三大主要臨床輔助系統(tǒng)沒(méi)有建立;
階段1:藥品管理系統(tǒng)、LIS、RIS三大主要臨床輔助系統(tǒng)實(shí)現(xiàn);
階段2:主要臨床輔助系統(tǒng)提供數(shù)據(jù)給CDR以便醫(yī)師重新得到或回顧結(jié)果,CDR包括了一個(gè)受限醫(yī)學(xué)詞匯表和臨床決策支持/規(guī)則引擎。這個(gè)階段CDR可以鏈接來(lái)自影像系統(tǒng)的信息;
階段3:護(hù)理系統(tǒng)、圖表、治療計(jì)劃和電子藥物管理系統(tǒng)(eMAR)已經(jīng)實(shí)現(xiàn)并和CDR結(jié)合。臨床決策支持的第一個(gè)水平是實(shí)現(xiàn)對(duì)醫(yī)囑錄入的操作錯(cuò)誤檢查(如藥物/藥物、藥物/食品、藥物/檢查沖突檢查)。PACS(醫(yī)學(xué)影像系統(tǒng))的接口能讓醫(yī)師通過(guò)組織內(nèi)部網(wǎng)絡(luò)訪問(wèn)相關(guān)的醫(yī)學(xué)圖像;
階段4:護(hù)理和CDR環(huán)境中增加了供任何臨床醫(yī)師使用的CPOE,同時(shí)實(shí)現(xiàn)了涉及到基于醫(yī)學(xué)協(xié)議的第二水平臨床決策支持;
階段5:全跟蹤藥物治療管理環(huán)境完全實(shí)現(xiàn),eMAR和條形碼以及其它自動(dòng)標(biāo)識(shí)技術(shù)(如 RFID)已實(shí)現(xiàn),并與CPOE及藥物系統(tǒng)結(jié)合在一起,在藥物管理上實(shí)現(xiàn)患者衛(wèi)生保健過(guò)程中安全的最大化;
階段6:實(shí)現(xiàn)上面提到的完全的醫(yī)療文檔/圖表。第三水平的臨床決系統(tǒng)和臨床醫(yī)生診療行為的向?qū)。這些向?qū)c以變化的及依從性的警報(bào)形式提供的協(xié)議和成果相關(guān)。一個(gè)完全功能的PACS系統(tǒng)在內(nèi)部網(wǎng)絡(luò)內(nèi)向醫(yī)師提供醫(yī)學(xué)圖像,取代了所有膠片圖像;
階段7:臨床信息能夠與在一個(gè)區(qū)域衛(wèi)生網(wǎng)絡(luò)中所有的實(shí)體(如其它醫(yī)院、門診部、急救中心、雇主,付款人和患者)經(jīng)過(guò)電子事務(wù)或交換電子記錄方式方便地共享。醫(yī)學(xué)記錄完全電子化/無(wú)紙化。這個(gè)階段允許醫(yī)療機(jī)構(gòu)支持真正的EHR;
上述各階段的劃分,是和美國(guó)醫(yī)療行業(yè)現(xiàn)狀有密切的關(guān)系,根據(jù)美國(guó)醫(yī)學(xué)研究所與疾控中心的一份統(tǒng)計(jì)報(bào)告,醫(yī)療處置不當(dāng)或錯(cuò)誤近年來(lái)一直排在美國(guó)人死因的前十位,排名高于多種常見(jiàn)疾病,人數(shù)初步估算在48,000到96,000之間,而此類錯(cuò)誤中,絕大部分是藥品使用錯(cuò)誤。
同時(shí),美國(guó)醫(yī)學(xué)研究所認(rèn)為,在每年發(fā)生的幾百萬(wàn)件醫(yī)療錯(cuò)誤中,有相當(dāng)比例可預(yù)防。
在上述基本共識(shí)的基礎(chǔ)上,美國(guó)電子病歷建設(shè)的第一階段就是要構(gòu)建藥品管理系統(tǒng),重點(diǎn)防范藥品使用錯(cuò)誤,然后在第二階段對(duì)臨床輔助系統(tǒng)進(jìn)行建設(shè),以獲得客觀準(zhǔn)確的數(shù)據(jù)來(lái)支持更準(zhǔn)確的決策,然后在后續(xù)的階段當(dāng)中,對(duì)醫(yī)療操作的過(guò)程與文檔信息兩個(gè)方面進(jìn)行信息化的建設(shè)與完善工作,真正提高醫(yī)療質(zhì)量。
HIMSS曾經(jīng)對(duì)美國(guó)的5000多家醫(yī)院進(jìn)行了評(píng)分,0-2階段的占70%以上,到達(dá)第6階段的為1%左右,3-5階段的大約在20%,大部分醫(yī)院的信息化水平基本處于第3階段。
同時(shí),美國(guó)電子病歷在建設(shè)過(guò)程中,結(jié)合美國(guó)醫(yī)療界公私結(jié)合,注重規(guī)范與效率等特征,十分注意信息化建設(shè)的實(shí)效,故此,形成了傳統(tǒng)手工流程與信息化流程相結(jié)合,科室與全院相結(jié)合,使用電子病歷與不使用電子病歷人員相結(jié)合的復(fù)雜局面。
此外,由于美國(guó)醫(yī)療系統(tǒng)制度的不統(tǒng)一,且各地醫(yī)院發(fā)展不均衡,所要解決的問(wèn)題與階段存在差異,造成了在諸多大型醫(yī)院內(nèi)部系統(tǒng)數(shù)量大,客觀上促進(jìn)了集成與相關(guān)標(biāo)準(zhǔn)的發(fā)展。
<!--[endif]-->
一個(gè)基于IHE組織定義的醫(yī)院系統(tǒng)集成實(shí)例示意圖
日本的情況:
日本2006年的IT新改革戰(zhàn)略中,涉及到醫(yī)療的部分,將日本的醫(yī)療信息化建設(shè)分為如下5步目標(biāo):
1,制定醫(yī)療衛(wèi)生全面發(fā)展規(guī)劃
有效地促進(jìn)醫(yī)療,健康,護(hù)理,福利各方面的系統(tǒng)信息化;
2,進(jìn)一步推動(dòng)醫(yī)療信息系統(tǒng)的發(fā)展
進(jìn)一步普及電子病歷等醫(yī)療信息系統(tǒng),提高醫(yī)療服務(wù)質(zhì)量,保證醫(yī)療安全,促進(jìn)各醫(yī)療機(jī)關(guān)間的相互合作;
3,促進(jìn)遠(yuǎn)程醫(yī)療
促進(jìn)遠(yuǎn)程醫(yī)療,消除地區(qū)間醫(yī)療服務(wù)水平的差距,同時(shí),利用數(shù)字電視等手段,實(shí)現(xiàn)緊急救援時(shí)對(duì)病人的指導(dǎo);
4,構(gòu)建國(guó)民健康數(shù)據(jù)庫(kù)與應(yīng)用服務(wù)平臺(tái)
到2010年,構(gòu)建國(guó)民健康信息數(shù)據(jù)庫(kù)和能充分利用該數(shù)據(jù)庫(kù)的應(yīng)用服務(wù)平臺(tái),讓國(guó)民也能把握自己的健康狀況,努力促進(jìn)國(guó)民的健康;
5,實(shí)現(xiàn)醫(yī)療結(jié)算全面OnLine
計(jì)劃于2011年,實(shí)現(xiàn)醫(yī)療結(jié)算的全面OnLine化,削減醫(yī)療保險(xiǎn)成本,建立結(jié)算數(shù)據(jù)庫(kù),推進(jìn)疾病預(yù)防的發(fā)展,并推動(dòng)國(guó)民醫(yī)療費(fèi)用合理化;
其中的第二個(gè)階段,電子病歷是發(fā)展的重點(diǎn)。
日本目前電子病歷的建設(shè)高度突出了多個(gè)系統(tǒng)與功能進(jìn)行集成的特征,在不同角色的工作站中,將患者信息管理,醫(yī)囑與臨床處置,臨床路徑,決策支持等幾個(gè)方面的功能實(shí)現(xiàn)了很好的集成。
多種資料表明,由于日本國(guó)內(nèi)醫(yī)療服務(wù)的高標(biāo)準(zhǔn)要求,促成了日本的電子病歷系統(tǒng)在細(xì)節(jié)處理與人性化設(shè)計(jì)方面的明顯優(yōu)勢(shì)。
二,EMR主要涉及的技術(shù)及其發(fā)展
目前,電子病歷的實(shí)現(xiàn)所涉及的幾個(gè)關(guān)鍵技術(shù)問(wèn)題有:
<!--[if !supportLists]-->Ø <!--[endif]-->結(jié)構(gòu)化處理方式
<!--[if !supportLists]-->Ø <!--[endif]-->編輯工具
<!--[if !supportLists]-->Ø <!--[endif]-->存儲(chǔ)方式
<!--[if !supportLists]-->Ø <!--[endif]-->系統(tǒng)集成
1,結(jié)構(gòu)化處理方式
電子病歷的首要職能是作為醫(yī)療過(guò)程的一種記錄形式而存在,而為了能夠在醫(yī)療過(guò)程中提供安全可靠的信息,為臨床人員提供信息資源,對(duì)個(gè)體或群體患者制定科學(xué)的醫(yī)療計(jì)劃,并為公共衛(wèi)生方面的工作提供支持等,必須將文檔的理解層級(jí)由人工可識(shí)別,過(guò)渡到計(jì)算機(jī)可識(shí)別,直到計(jì)算機(jī)可處理,為實(shí)現(xiàn)這個(gè)目標(biāo),病歷內(nèi)容的結(jié)構(gòu)化顯然是必須要完成的工作。
以下,我們從現(xiàn)有病歷的基本結(jié)構(gòu)模型,結(jié)構(gòu)化的幾種主要實(shí)現(xiàn)方式,以及優(yōu)缺點(diǎn)等幾個(gè)方面,綜合了解下目前有關(guān)病歷結(jié)構(gòu)化處理工作的進(jìn)展:
(1)病歷的結(jié)構(gòu)模型
在電子病歷出現(xiàn)以前,臨床病歷幾乎完全以自然語(yǔ)言進(jìn)行描述。一個(gè)典型的模型是POMR,目前國(guó)內(nèi)常見(jiàn)的病歷結(jié)構(gòu),基本是POMR思想指導(dǎo)下的SOAP描述方式:
S-Subjective:主觀內(nèi)容,可以近似認(rèn)為是主訴與現(xiàn)病史
O-Objective:客觀內(nèi)容,體現(xiàn)在輔助檢查
A-Assessment:評(píng)估性的內(nèi)容,可以認(rèn)為診斷是屬于這類
P-Plan:計(jì)劃,診療計(jì)劃屬于這個(gè)范圍
但是,毫無(wú)疑問(wèn),結(jié)構(gòu)化到這種程度,遠(yuǎn)遠(yuǎn)不能滿足從電子病歷挖掘醫(yī)療規(guī)律,支持循證醫(yī)學(xué)與臨床科研等工作的要求。
(2)結(jié)構(gòu)化的幾種主要實(shí)現(xiàn)方式與優(yōu)缺點(diǎn)
目前,結(jié)構(gòu)化的實(shí)現(xiàn)方式多種多樣,但實(shí)際總結(jié)起來(lái),其技術(shù)思想基本是兩大類:SDE與MLP。
SDE(結(jié)構(gòu)化數(shù)據(jù)錄入)的方式:是目前可以實(shí)現(xiàn)極高程度結(jié)構(gòu)化的一種數(shù)據(jù)采集方式,通過(guò)軟件上的菜單,選項(xiàng)框等各種控件,結(jié)合一定的醫(yī)學(xué)智能判斷,實(shí)現(xiàn)在預(yù)定模板范圍內(nèi)的信息100%準(zhǔn)確獲取,國(guó)外代表產(chǎn)品系列為OpenSDE。
SDE的操作方式最大的優(yōu)點(diǎn)是能夠完整準(zhǔn)確的獲得臨床信息;缺點(diǎn)則是由于將受控詞匯原封不動(dòng)的表現(xiàn)在前端,使得臨床醫(yī)生操作極為不便,在效率和靈活性上有明顯的缺陷。
MLP(醫(yī)學(xué)語(yǔ)言處理)的方式:則是尊重臨床人員采用自然語(yǔ)言描述病歷的習(xí)慣,在自然語(yǔ)言描述的內(nèi)容基礎(chǔ)上,通過(guò)預(yù)定義的術(shù)語(yǔ)集來(lái)實(shí)現(xiàn)信息的獲取等工作。
MLP方式的優(yōu)點(diǎn)是與幾乎完全繼承了醫(yī)務(wù)人員以往的工作習(xí)慣,操作簡(jiǎn)便,學(xué)習(xí)曲線平滑;缺點(diǎn)則是現(xiàn)有的自然語(yǔ)言處理技術(shù)準(zhǔn)確性不足,在某些場(chǎng)景下尚不能達(dá)到醫(yī)療工作的需要。
目前,針對(duì)上述問(wèn)題的解決方案,一般從如下兩個(gè)方向進(jìn)行考慮:
融合:將SDE與MLP兩種方式進(jìn)行結(jié)合
這種思路指導(dǎo)下的典型例子,是目前國(guó)內(nèi)普遍出現(xiàn)的在“所見(jiàn)即所得”編輯器基礎(chǔ)上的受控詞匯嵌入自然語(yǔ)言的模板,通過(guò)直觀的編輯工具,結(jié)合具體的臨床科室,將病歷內(nèi)容盡可能采用自然方式展現(xiàn)出來(lái),同時(shí),對(duì)其中有臨床科研與其他數(shù)據(jù)利用價(jià)值的詞匯進(jìn)行結(jié)構(gòu)化處理,兩類數(shù)據(jù)并存于整個(gè)文檔中,結(jié)構(gòu)化的數(shù)據(jù)類似于一種鑲嵌方式存在;當(dāng)數(shù)據(jù)利用時(shí),就可以從同一個(gè)病歷文檔中,獲得多方面的數(shù)據(jù)。
這種融合的思路最大的優(yōu)勢(shì)是通過(guò)臨床工作的嚴(yán)肅性保證了數(shù)據(jù)的準(zhǔn)確,同時(shí)也能夠一定程度的解決SDE與MLP的矛盾,目前面臨的主要問(wèn)題是,在不同的臨床科室內(nèi),是否能定制出對(duì)多個(gè)病種足夠適應(yīng)的模板;以及在不同的科研與數(shù)據(jù)利用要求下,是否可能通過(guò)一個(gè)模板來(lái)滿足多個(gè)不同角度與科研與數(shù)據(jù)利用的要求。
目前,國(guó)內(nèi)推出的《電子病歷架構(gòu)與數(shù)據(jù)標(biāo)準(zhǔn)》,提出了臨床文檔-文檔段-數(shù)據(jù)組-數(shù)據(jù)元的四級(jí)概念,其核心思想是將病歷內(nèi)容逐層的進(jìn)行結(jié)構(gòu)化處理,對(duì)電子病歷的技術(shù)實(shí)現(xiàn),具有很高的指導(dǎo)意義。
分立:從實(shí)際需求出發(fā),在不同的業(yè)務(wù)場(chǎng)景下?lián)P長(zhǎng)避短,有針對(duì)性的發(fā)揮SDE與MLP兩種方式各自的優(yōu)勢(shì)。
目前,這種思路也有相當(dāng)比例的市場(chǎng),比如,從醫(yī)療工作的要求來(lái)看,某些需要獲取的信息比較簡(jiǎn)練,且操作時(shí)間要求高,則可以將需要采集的內(nèi)容固化到軟件界面上,定制為高度簡(jiǎn)潔的SDE式窗口,臨床醫(yī)療工作者只需要簡(jiǎn)單的點(diǎn)選與操作,即可完成必要的數(shù)據(jù)采集;而對(duì)于病歷文檔這種自然語(yǔ)言特征明顯的內(nèi)容,則結(jié)合機(jī)器自動(dòng)處理與人工標(biāo)注,實(shí)現(xiàn)數(shù)據(jù)利用的需要。
(3)可能的幾個(gè)突破方向
通過(guò)上述的比較,已經(jīng)可以看出,在SDE與MLP兩種方式存在融合與分立的現(xiàn)狀,技術(shù)上可能的幾個(gè)突破方向,無(wú)非是以下幾種:
基于多維術(shù)語(yǔ)集的智能模板:
不論是SDE還是MLP,首先均需要標(biāo)準(zhǔn)化的術(shù)語(yǔ)集支持,在此基礎(chǔ)上,方可以定義諸如醫(yī)療行為索引,醫(yī)療行為關(guān)系及相應(yīng)字典等構(gòu)成臨床數(shù)據(jù)中心的基礎(chǔ)設(shè)施。
在標(biāo)準(zhǔn)化術(shù)語(yǔ)集存在后,為解決自然語(yǔ)言描述與受控結(jié)構(gòu)化描述之間的矛盾,可基于多維術(shù)語(yǔ)集智能模板來(lái)實(shí)現(xiàn)高命中率的模板,如根據(jù)患者的基本信息,初步印象,關(guān)鍵檢查與檢驗(yàn),重要癥狀與體征,生成與臨床醫(yī)生期望較為接近的模板。
自然語(yǔ)言處理(尤其是中文)技術(shù)的發(fā)展:
病歷中的檢驗(yàn)與醫(yī)療處置類信息一般已經(jīng)高度結(jié)構(gòu)化,要提高信息利用率,首先要解決的問(wèn)題是多系統(tǒng)數(shù)據(jù)的集成,但對(duì)于病史類文字,則可能要寄希望于自然語(yǔ)言處理技術(shù)(尤其是中文分詞技術(shù))的進(jìn)一步發(fā)展,這種在后期結(jié)構(gòu)化的方式最大的優(yōu)點(diǎn)在于可以將原始文檔幾乎完全獨(dú)立,完全根據(jù)自然語(yǔ)言處理的發(fā)展程度來(lái)進(jìn)行數(shù)據(jù)利用工作。
2,編輯工具
目前,電子病歷的編輯工具是電子病歷系統(tǒng)實(shí)現(xiàn)的基礎(chǔ)性構(gòu)件,通過(guò)編輯器,可以反映出一個(gè)電子病歷系統(tǒng)的數(shù)據(jù)架構(gòu),對(duì)結(jié)構(gòu)化的處理程度等多方面的設(shè)計(jì)水平。
電子病歷的編輯工具可根據(jù)是否所見(jiàn)即所得與是否結(jié)構(gòu)化,分為如下幾類:
(1)SDE式編輯工具
與這種編輯工具最接近的醫(yī)療概念,是表格病歷。
嚴(yán)格來(lái)說(shuō),這種編輯工具并不能成為完整的電子病歷編輯器,因?yàn)槠鋬H僅是通過(guò)界面的方式,完成了一定的信息采集工作,諸如排版,文本格式處理等一系列功能,均需要額外提供排版工具來(lái)進(jìn)行處理。
一些優(yōu)秀的SDE編輯器,可以一定程度上適應(yīng)不同科室的要求,實(shí)現(xiàn)前后文選擇控件內(nèi)容之間的關(guān)系,體現(xiàn)一定的醫(yī)療邏輯,故目前這種編輯工具還是有一定比例的市場(chǎng)。
目前,此類編輯器的技術(shù)實(shí)現(xiàn),大多是采用Windows環(huán)境下的開(kāi)發(fā)工具,如PB,Delphi,VB或VC#等,將多個(gè)控件組合成為科室模板,同時(shí)將每個(gè)控件所代表的醫(yī)療信息內(nèi)置于模板中,在每個(gè)科室調(diào)用時(shí),根據(jù)所選擇的控件值所反映出的醫(yī)療關(guān)系,對(duì)整個(gè)界面上的控件布局進(jìn)行控制,以體現(xiàn)醫(yī)療邏輯與流程。
(2)“所見(jiàn)即所得”的自由文本編輯器
此類編輯器功能一般較為簡(jiǎn)單,對(duì)結(jié)構(gòu)化涉及較少,多為直接調(diào)用相對(duì)成熟的文本編輯組件,如MS Word,同時(shí)進(jìn)行簡(jiǎn)單的結(jié)構(gòu)劃分,如主訴,現(xiàn)病史級(jí)別的劃分。
對(duì)于這種編輯器,如果要進(jìn)行病歷內(nèi)容結(jié)構(gòu)化的工作,則只能采用自然語(yǔ)言處理的技術(shù)。
(3)“所見(jiàn)即所得”的結(jié)構(gòu)化病歷編輯器
顧名思義,這種編輯器是將文本編輯功能與結(jié)構(gòu)化的設(shè)計(jì)融合在一起,既能對(duì)文本進(jìn)行常規(guī)排版,同時(shí)還可以在其中體現(xiàn)出對(duì)病歷結(jié)構(gòu)化的編輯。
此類編輯器的設(shè)計(jì)初衷,大多是要充分照顧自然語(yǔ)言輸入的習(xí)慣,并在編輯的同時(shí),直接完成結(jié)構(gòu)化詞匯的生成,完成對(duì)病歷數(shù)據(jù)利用的準(zhǔn)備。
從技術(shù)角度來(lái)看,這種編輯器的設(shè)計(jì)思路是較為先進(jìn)的,但最大的不足是實(shí)現(xiàn)難度較大,目前業(yè)內(nèi)普遍認(rèn)為,此類編輯器從開(kāi)發(fā)到成熟,平均需要5-6年的時(shí)間。
目前,這種編輯器由于要直接處理復(fù)雜的內(nèi)容節(jié)點(diǎn),通常與xml技術(shù)相結(jié)合。
3,存儲(chǔ)方式
首先,xml技術(shù)由于其自解釋,實(shí)現(xiàn)多級(jí)對(duì)象節(jié)點(diǎn)方便,文檔類型定義與文檔內(nèi)容可分離等多種特性,已經(jīng)成為電子病歷領(lǐng)域文檔實(shí)體的事實(shí)標(biāo)準(zhǔn)。
目前,電子病歷內(nèi)容具體的存儲(chǔ)方式可以簡(jiǎn)單的歸結(jié)為如下幾類:
(1)基于關(guān)系型數(shù)據(jù)庫(kù)
目前,鑒于關(guān)系型數(shù)據(jù)庫(kù)占據(jù)了相當(dāng)高的市場(chǎng)份額,故基于關(guān)系型的數(shù)據(jù)庫(kù)存儲(chǔ)也成為電子病歷市場(chǎng)的主流選擇,具體的實(shí)現(xiàn),一般有字段存儲(chǔ)+應(yīng)用期組合,xml作為對(duì)象存儲(chǔ),xml原生存儲(chǔ)等三種方式:
字段存儲(chǔ)+應(yīng)用期組合
這種方式是對(duì)病歷的結(jié)構(gòu)進(jìn)行拆解,然后存入數(shù)據(jù)庫(kù)的字段,在應(yīng)用層調(diào)用時(shí),通過(guò)對(duì)各個(gè)數(shù)據(jù)字段的組合,生成邏輯上的xml文檔供應(yīng)用層使用。
此方式最大的優(yōu)點(diǎn)在于某些簡(jiǎn)單的數(shù)據(jù)利用要求出現(xiàn)時(shí),可以充分利用傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的優(yōu)勢(shì),提供極好的性能,但缺點(diǎn)則是由于對(duì)復(fù)雜的數(shù)據(jù)操作一律要在客戶端處理,故技術(shù)實(shí)現(xiàn)較為繁瑣,運(yùn)行效率也容易受到限制。
xml與數(shù)據(jù)庫(kù)字段的關(guān)系圖
xml作為對(duì)象存儲(chǔ)
這種方式通常結(jié)合了數(shù)據(jù)庫(kù)系統(tǒng)對(duì)xml的存儲(chǔ)支持,目前業(yè)內(nèi)主流的數(shù)據(jù)庫(kù)系統(tǒng)均支持將xml作為BLOB字段進(jìn)行存儲(chǔ)
此種方式,將病歷文檔進(jìn)行大粒度的分解后,直接以xml方式存儲(chǔ)于數(shù)據(jù)庫(kù)的BLOB字段中,同時(shí),為了某些簡(jiǎn)單的數(shù)據(jù)檢索等需要,通常會(huì)在存儲(chǔ)該xml文檔時(shí),將該文檔中一些常用的數(shù)據(jù)直接存儲(chǔ)在數(shù)據(jù)字段中。
xml原生存儲(chǔ)
xml原生存儲(chǔ)的方式是伴隨著數(shù)據(jù)庫(kù)對(duì)xml的存儲(chǔ)技術(shù)不斷進(jìn)步而產(chǎn)生的,某些數(shù)據(jù)庫(kù)系統(tǒng)軟件針對(duì)xml的特征設(shè)計(jì)存儲(chǔ)結(jié)構(gòu),可以在整體存儲(chǔ)xml文檔的同時(shí),還可以高效的實(shí)現(xiàn)對(duì)xml內(nèi)部詳細(xì)信息的檢索。
該方式目前最大的缺陷,是所提供的檢索技術(shù)對(duì)現(xiàn)有的粗細(xì)結(jié)合粒度的xml文檔檢索能力有限。
(2)基于后關(guān)系型數(shù)據(jù)庫(kù)
以Cache為代表的數(shù)據(jù)庫(kù)系統(tǒng)軟件,在其內(nèi)部實(shí)現(xiàn)了強(qiáng)大的面向?qū)ο蠊δ埽梢詫?shí)現(xiàn)諸如無(wú)窮分級(jí)這樣的特殊功能,但由于在國(guó)內(nèi)市場(chǎng)份額不高,技術(shù)支持相對(duì)較少等原因,前景不甚明朗。
(3)文件服務(wù)與數(shù)據(jù)庫(kù)相結(jié)合
某些較早期的電子病歷系統(tǒng)中,有些是將病歷文件直接存儲(chǔ)于文檔服務(wù)器上,然后在提交或歸檔時(shí),存儲(chǔ)于數(shù)據(jù)庫(kù)中,該方式同樣存在客戶端壓力較大的問(wèn)題,今后應(yīng)當(dāng)會(huì)逐漸被替代。
4,系統(tǒng)集成
電子病歷的一個(gè)重要功能是實(shí)現(xiàn)臨床信息集成,向臨床醫(yī)療工作者全面展示相關(guān)信息,但由于電子病歷的各周邊系統(tǒng)建設(shè)程度參差不齊,且起始階段就無(wú)統(tǒng)一標(biāo)準(zhǔn),而隨著實(shí)際應(yīng)用的逐漸深入,一線使用者對(duì)集成的要求與日俱增,為解決此類問(wèn)題,美國(guó)提出了諸如HL7,DICOM等一系列標(biāo)準(zhǔn)。
目前,國(guó)內(nèi)的各個(gè)系統(tǒng)集成過(guò)程中,對(duì)于較為簡(jiǎn)單的集成要求,直接采用界面集成的方法;對(duì)于若干系統(tǒng)之間的數(shù)據(jù)通信,往往是雙方約定數(shù)據(jù)庫(kù)的讀寫范圍,直接在數(shù)據(jù)庫(kù)層面進(jìn)行數(shù)據(jù)集成。
但是,當(dāng)一個(gè)醫(yī)療單位的信息化系統(tǒng)數(shù)量達(dá)到一定程度之后,上述方式的問(wèn)題立即凸顯,隨著系統(tǒng)的增多,需要集成的工作量呈平方增長(zhǎng)關(guān)系。
通過(guò)對(duì)此類情況的處理,國(guó)內(nèi)某些醫(yī)療單位與公司在信息集成方面也總結(jié)了比較豐富的經(jīng)驗(yàn),選擇性的使用HL7等國(guó)際標(biāo)準(zhǔn),通過(guò)Web Services與MQ等技術(shù)手段,也積累了一定的成熟案例。
三,自然語(yǔ)言處理技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用現(xiàn)狀及趨勢(shì)
按照維基百科上的介紹,自然語(yǔ)言處理的關(guān)鍵技術(shù)基本涵蓋如下方面:
文本朗讀與語(yǔ)音合成,語(yǔ)音識(shí)別,中文分詞,詞性標(biāo)注,句法分析,自然語(yǔ)言生成,文本分類,信息檢索,信息抽取,文字校對(duì),問(wèn)答系統(tǒng),機(jī)器翻譯,自動(dòng)摘要。
其中,中文分詞與信息檢索及信息抽取,是自然語(yǔ)言處理技術(shù)的重要問(wèn)題,在醫(yī)療領(lǐng)域應(yīng)用也主要集中于這幾個(gè)方面,因信息檢索與抽取等技術(shù)相對(duì)比較成熟,本文的討論將主要集中于其中的中文分詞。
目前的中文分詞,一般有三大類
(1)基于詞典的分詞:一般將需要處理的文檔與詞典中的詞匯進(jìn)行匹配,在匹配過(guò)程中,根據(jù)優(yōu)先匹配長(zhǎng)度的不同,有最大與最小匹配算法;而根據(jù)掃描方向的差別,又可分為正向匹配和逆向匹配算法,以及將正反兩個(gè)方向相結(jié)合的雙向匹配法。
從精度來(lái)看,在上述幾種方法當(dāng)中,逆向匹配略高于正向匹配,但目前已有的此類算法錯(cuò)誤率依然導(dǎo)致精度不能滿足實(shí)際使用的需要,所以在實(shí)際使用時(shí),大多是將基于詞典的方法作為分詞第一步工作,然后結(jié)合其他方法進(jìn)一步處理。
具體改進(jìn)的方式,大概有如下幾種,結(jié)合分類特征表示的優(yōu)化,結(jié)合詞性標(biāo)注的優(yōu)化,以及后續(xù)加以其他分詞手段(如基于統(tǒng)計(jì)語(yǔ)言模型)的處理。
目前,主要基于詞典的分詞方法,一般用于簡(jiǎn)單的醫(yī)療文檔處理,如檢查報(bào)告,或者病歷文檔中的文檔段級(jí)別,如手術(shù)記錄,并在此基礎(chǔ)上結(jié)合一定的人工判斷與加工,這種應(yīng)用的發(fā)展是得益于此類文檔一般結(jié)構(gòu)相對(duì)固定,同時(shí)詞匯集合數(shù)量比較小,術(shù)語(yǔ)描述受控程度較高。
通過(guò)目前應(yīng)用的現(xiàn)狀也驗(yàn)證了一個(gè)基本事實(shí):術(shù)語(yǔ)詞典的完善與精確程度對(duì)分詞的準(zhǔn)確度有十分重大的影響。
(2)基于統(tǒng)計(jì)的分詞:基于統(tǒng)計(jì)的分詞方法近年來(lái)由于機(jī)器學(xué)習(xí)等技術(shù)的發(fā)展也日漸成熟,這種分詞方法的一個(gè)基本前提是:詞匯是由字組成的,然后通過(guò)組合出現(xiàn)的概率來(lái)判斷是否某個(gè)短字符串是否是一個(gè)詞,判斷概率時(shí),將各個(gè)字在文檔中出現(xiàn)的概率相乘:
P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)
單純使用這種分詞方法時(shí)最常見(jiàn)的缺陷是只顧頻率,忽視實(shí)際意義,比如可能會(huì)分出很多“之一”“我的”等常用但意義不大的詞匯,為彌補(bǔ)此缺陷,通常會(huì)結(jié)合基于詞典的分詞來(lái)處理。
基于統(tǒng)計(jì)的分詞另一個(gè)重要的實(shí)現(xiàn)方式是采用機(jī)器學(xué)習(xí)的方法,準(zhǔn)備好一套已經(jīng)預(yù)先分詞完畢的預(yù)料,通過(guò)機(jī)器學(xué)習(xí)的模型去學(xué)習(xí)分詞的規(guī)律,然后利用抽象出的規(guī)律對(duì)新的文本進(jìn)行分詞。
目前,基于統(tǒng)計(jì)的分詞對(duì)于同義詞的處理有較好的效果,通常與其他分詞方式結(jié)合使用,但由于實(shí)現(xiàn)的技術(shù)難度較高,目前在醫(yī)療實(shí)踐中尚未廣泛應(yīng)用。
(3)基于規(guī)則與理解的分詞:這種分詞方法的理論基礎(chǔ)是構(gòu)造在漢語(yǔ)詞法分析基礎(chǔ)上的,有報(bào)道稱采用層疊隱馬爾可夫模型進(jìn)行處理,也取得了較好的效果。
這種分詞方法在進(jìn)行詞法分析的階段,綜合考慮長(zhǎng)度,平均長(zhǎng)度,自由語(yǔ)素度以及各種過(guò)濾器,如布隆過(guò)濾器。
此類分詞引擎的實(shí)現(xiàn)技術(shù)難度相當(dāng)高,目前,國(guó)內(nèi)這方面最成熟的成果是ICTCLAS。
綜上,三種分詞方法可以從多個(gè)方面進(jìn)行個(gè)對(duì)比,如下表:
三種分詞方法的優(yōu)劣對(duì)比
分詞方法
|
基于字符串匹配分詞
|
基于理解的分詞
|
基于統(tǒng)計(jì)的分詞
|
歧義識(shí)別
|
差
|
強(qiáng)
|
強(qiáng)
|
新詞識(shí)別
|
差
|
強(qiáng)
|
強(qiáng)
|
需要詞典
|
需要
|
不需要
|
不需要
|
需要語(yǔ)料庫(kù)
|
否
|
否
|
是
|
需要規(guī)則庫(kù)
|
否
|
是
|
否
|
算法復(fù)雜性
|
容易
|
很難
|
一般
|
技術(shù)成熟度
|
成熟
|
不成熟
|
成熟
|
實(shí)施難度
|
容易
|
很難
|
一般
|
分詞準(zhǔn)確性
|
一般
|
準(zhǔn)確
|
較準(zhǔn)
|
分詞速度
|
快
|
慢
|
一般
|
目前,中文分詞在實(shí)踐中的最大難點(diǎn)在歧義的處理和特殊詞識(shí)別。
歧義的識(shí)別,基于統(tǒng)計(jì)與規(guī)則的方法都能進(jìn)行一定程度的處理,不過(guò)考慮到醫(yī)療的文字描述準(zhǔn)確性的要求,更多的應(yīng)當(dāng)首先在文檔的生成過(guò)程中盡可能消除歧義。
對(duì)于特殊詞識(shí)別,基于詞典的處理方式是不可能處理的,鑒于新詞的生成也是很大程度上符合既往規(guī)則的產(chǎn)物,故對(duì)于新詞識(shí)別,可優(yōu)先考慮基于理解的分詞方法。
四,自然語(yǔ)言處理技術(shù)在EMR中的實(shí)現(xiàn)要點(diǎn)
目前的醫(yī)療文檔(尤其是病歷)絕大部分是以自然語(yǔ)言描述,大量已發(fā)現(xiàn)與未發(fā)現(xiàn)的信息存在于現(xiàn)有的醫(yī)療文檔中,不論是臨床醫(yī)學(xué)還是基礎(chǔ)生物醫(yī)學(xué),都對(duì)于現(xiàn)有文檔的信息處理與知識(shí)發(fā)現(xiàn)提出很高要求,自然語(yǔ)言處理,尤其是中文分詞的發(fā)展,毫無(wú)疑問(wèn)會(huì)極大程度的為這些工作提供幫助。
但是,考慮到漢語(yǔ)本身的復(fù)雜性,完成此工作,必須要從中文分詞以及自然語(yǔ)言處理的基礎(chǔ)理論,醫(yī)學(xué)模型以及軟件工程實(shí)踐等多個(gè)方面綜合考慮,才有實(shí)現(xiàn)并逐步進(jìn)行完善的可能。
簡(jiǎn)單的說(shuō),使用自然語(yǔ)言的相關(guān)成果,為醫(yī)療領(lǐng)域的信息化(尤其是EMR)建設(shè)服務(wù)時(shí),可以優(yōu)先考慮從如下幾個(gè)方面入手:
1,半自動(dòng)中文分詞
目前,由于病歷相關(guān)的術(shù)語(yǔ)集過(guò)于復(fù)雜與理論化,在實(shí)際用于臨床時(shí),合適的裁剪模型尚不成熟,所以可以考慮機(jī)器自動(dòng)分詞加上人工的方式來(lái)處理。
具體操作時(shí),可以在某個(gè)研究項(xiàng)目開(kāi)展時(shí),選擇性的對(duì)某些文檔先進(jìn)行機(jī)器自動(dòng)化分詞處理,這樣即使存在某些分詞不準(zhǔn)確導(dǎo)致案例遺漏的情況,也可以通過(guò)適當(dāng)擴(kuò)大樣本量來(lái)補(bǔ)充;在機(jī)器自動(dòng)處理完成后,進(jìn)行一定的人工審核與數(shù)據(jù)完善,并進(jìn)行記錄,最終將處理后的數(shù)據(jù)作為研究的信息來(lái)源。
通過(guò)上述處理步驟后,可進(jìn)行進(jìn)一步的檢索與分析工作。
此類方式的核心在于通過(guò)不斷提高機(jī)器自動(dòng)分詞的準(zhǔn)確度與速度,減少擴(kuò)大的樣本量與人工處理的工作量。
2,自然語(yǔ)言生成
鑒于醫(yī)療當(dāng)中存在某些表格病歷類似的情況,可以在某些醫(yī)療單據(jù)通過(guò)點(diǎn)選的方式,確定關(guān)鍵信息,然后生成符合醫(yī)療規(guī)范要求的自然語(yǔ)言,由人工進(jìn)行一定的修改完善后,作為最終的醫(yī)療文檔。
3,小范圍搜索引擎的構(gòu)建
對(duì)于常見(jiàn)病的經(jīng)典病歷,以及某些診療指南與臨床證據(jù),可以構(gòu)建科室級(jí)以及院級(jí)的搜索引擎,綜合使用自動(dòng)標(biāo)注、中文分詞加信息檢索的技術(shù),隨時(shí)提煉各類信息供臨床醫(yī)療工作者使用。
上述各類應(yīng)用的技術(shù)難點(diǎn),在于如下幾個(gè)關(guān)鍵的設(shè)施是否足夠完善:
1,可根據(jù)需要進(jìn)行簡(jiǎn)化以適應(yīng)臨床工作的術(shù)語(yǔ)集
高度可用的術(shù)語(yǔ)集是分詞與分類等一系列工作的基礎(chǔ),關(guān)鍵在于如何在實(shí)踐中找到合理的篩選標(biāo)準(zhǔn),將現(xiàn)有的高度規(guī)范的術(shù)語(yǔ)集工作與臨床的具體實(shí)踐相結(jié)合后,可以既照顧臨床工作的方便,又能保證生成數(shù)據(jù)與規(guī)范術(shù)語(yǔ)的對(duì)應(yīng)。
2,結(jié)合醫(yī)學(xué)規(guī)則的中文分詞算法
基于規(guī)則的中文分詞算法在現(xiàn)有的分詞算法當(dāng)中屬于技術(shù)難度較高者,一個(gè)重要的原因是漢語(yǔ)的詞匯全集十分復(fù)雜,但醫(yī)學(xué)的詞匯集合具有“較有限”“相對(duì)規(guī)范”等特點(diǎn),故可以將醫(yī)療邏輯作為一個(gè)規(guī)則庫(kù)不斷的進(jìn)行豐富,同時(shí)結(jié)合詞典分詞與統(tǒng)計(jì)分詞,提高醫(yī)學(xué)中文分詞算法的精度與速度。
3,大數(shù)據(jù)量的存儲(chǔ)與多系統(tǒng)集成技術(shù)
進(jìn)行完善的醫(yī)療研究與臨床工作,往往需要多方面的數(shù)據(jù)進(jìn)行支持,且電子病歷在實(shí)際工作中產(chǎn)生的數(shù)據(jù)量是比較大的,已有證據(jù)表明,電子病歷所產(chǎn)生的數(shù)據(jù)量在各醫(yī)療信息系統(tǒng)中幾乎一直排名前三。
在這樣的背景下,需要引起注意的是隨著數(shù)據(jù)應(yīng)用要求的不斷提高,大量數(shù)據(jù)的存儲(chǔ)架構(gòu)上的調(diào)整,以及如何將多個(gè)系統(tǒng)進(jìn)行集成,綜合利用各個(gè)系統(tǒng)的數(shù)據(jù)為醫(yī)學(xué)實(shí)踐服務(wù)。