您當(dāng)前的位置：首頁(yè) > 市場(chǎng) > 百科 > 行業(yè)研究 > 專家專欄 > HIT專家 > EMR產(chǎn)品經(jīng)理-Zidane的專欄

EMR與自然語(yǔ)言處理相關(guān)幾個(gè)問(wèn)題的總結(jié)

時(shí)間：2011-07-22 06:30:34 來(lái)源：作者：Zidane

一，國(guó)內(nèi)外EMR應(yīng)用情況

近年來(lái)，EMR作為醫(yī)療信息化的一個(gè)重點(diǎn)方向，在國(guó)內(nèi)外均有很大的發(fā)展，以下分別以美國(guó)和日本為例，簡(jiǎn)單介紹下國(guó)內(nèi)外EMR的應(yīng)用狀況。

美國(guó)的情況：

美國(guó)在電子病歷相關(guān)的模型與理論等多個(gè)方面均完成了大量工作，同時(shí)，結(jié)合美國(guó)的衛(wèi)生管理部門對(duì)于醫(yī)藥行業(yè)存在問(wèn)題的分析，美國(guó)的電子病歷系統(tǒng)建設(shè)具有十分明顯的針對(duì)性，所建設(shè)的系統(tǒng)一定要立足于解決在醫(yī)療實(shí)踐中切實(shí)存在的錯(cuò)誤與問(wèn)題。

美國(guó)著名的HIMSS首先將電子病歷(EMR)劃分為臨床數(shù)據(jù)存儲(chǔ)庫(kù)（CDR）、臨床決策支持系統(tǒng)（CDSS）、受控醫(yī)學(xué)詞匯表(CMV)、計(jì)算機(jī)支持醫(yī)院醫(yī)囑系統(tǒng)（CPOE）、藥品管理系統(tǒng)、以及臨床文檔應(yīng)用程序等若干個(gè)部分，然后結(jié)合其他醫(yī)療信息系統(tǒng)的建設(shè)過(guò)程，將EMR的建設(shè)分成了如下8個(gè)階段：

階段0：藥品管理系統(tǒng)、LIS（檢驗(yàn)科信息系統(tǒng)）、RIS（放射科信息系統(tǒng)）三大主要臨床輔助系統(tǒng)沒(méi)有建立；

階段1：藥品管理系統(tǒng)、LIS、RIS三大主要臨床輔助系統(tǒng)實(shí)現(xiàn)；

階段2：主要臨床輔助系統(tǒng)提供數(shù)據(jù)給CDR以便醫(yī)師重新得到或回顧結(jié)果，CDR包括了一個(gè)受限醫(yī)學(xué)詞匯表和臨床決策支持/規(guī)則引擎。這個(gè)階段CDR可以鏈接來(lái)自影像系統(tǒng)的信息；

階段3：護(hù)理系統(tǒng)、圖表、治療計(jì)劃和電子藥物管理系統(tǒng)（eMAR）已經(jīng)實(shí)現(xiàn)并和CDR結(jié)合。臨床決策支持的第一個(gè)水平是實(shí)現(xiàn)對(duì)醫(yī)囑錄入的操作錯(cuò)誤檢查（如藥物/藥物、藥物/食品、藥物/檢查沖突檢查）。PACS（醫(yī)學(xué)影像系統(tǒng)）的接口能讓醫(yī)師通過(guò)組織內(nèi)部網(wǎng)絡(luò)訪問(wèn)相關(guān)的醫(yī)學(xué)圖像；

階段4：護(hù)理和CDR環(huán)境中增加了供任何臨床醫(yī)師使用的CPOE，同時(shí)實(shí)現(xiàn)了涉及到基于醫(yī)學(xué)協(xié)議的第二水平臨床決策支持；

階段5：全跟蹤藥物治療管理環(huán)境完全實(shí)現(xiàn)，eMAR和條形碼以及其它自動(dòng)標(biāo)識(shí)技術(shù)（如 RFID）已實(shí)現(xiàn)，并與CPOE及藥物系統(tǒng)結(jié)合在一起，在藥物管理上實(shí)現(xiàn)患者衛(wèi)生保健過(guò)程中安全的最大化；

階段6：實(shí)現(xiàn)上面提到的完全的醫(yī)療文檔/圖表。第三水平的臨床決系統(tǒng)和臨床醫(yī)生診療行為的向?qū)�。這些向?qū)c以變化的及依從性的警報(bào)形式提供的協(xié)議和成果相關(guān)。一個(gè)完全功能的PACS系統(tǒng)在內(nèi)部網(wǎng)絡(luò)內(nèi)向醫(yī)師提供醫(yī)學(xué)圖像，取代了所有膠片圖像；

階段7：臨床信息能夠與在一個(gè)區(qū)域衛(wèi)生網(wǎng)絡(luò)中所有的實(shí)體（如其它醫(yī)院、門診部、急救中心、雇主，付款人和患者）經(jīng)過(guò)電子事務(wù)或交換電子記錄方式方便地共享。醫(yī)學(xué)記錄完全電子化/無(wú)紙化。這個(gè)階段允許醫(yī)療機(jī)構(gòu)支持真正的EHR；

上述各階段的劃分，是和美國(guó)醫(yī)療行業(yè)現(xiàn)狀有密切的關(guān)系，根據(jù)美國(guó)醫(yī)學(xué)研究所與疾控中心的一份統(tǒng)計(jì)報(bào)告，醫(yī)療處置不當(dāng)或錯(cuò)誤近年來(lái)一直排在美國(guó)人死因的前十位，排名高于多種常見(jiàn)疾病，人數(shù)初步估算在48，000到96，000之間，而此類錯(cuò)誤中，絕大部分是藥品使用錯(cuò)誤。

同時(shí)，美國(guó)醫(yī)學(xué)研究所認(rèn)為，在每年發(fā)生的幾百萬(wàn)件醫(yī)療錯(cuò)誤中，有相當(dāng)比例可預(yù)防。

在上述基本共識(shí)的基礎(chǔ)上，美國(guó)電子病歷建設(shè)的第一階段就是要構(gòu)建藥品管理系統(tǒng)，重點(diǎn)防范藥品使用錯(cuò)誤，然后在第二階段對(duì)臨床輔助系統(tǒng)進(jìn)行建設(shè)，以獲得客觀準(zhǔn)確的數(shù)據(jù)來(lái)支持更準(zhǔn)確的決策，然后在后續(xù)的階段當(dāng)中，對(duì)醫(yī)療操作的過(guò)程與文檔信息兩個(gè)方面進(jìn)行信息化的建設(shè)與完善工作，真正提高醫(yī)療質(zhì)量。

HIMSS曾經(jīng)對(duì)美國(guó)的5000多家醫(yī)院進(jìn)行了評(píng)分，0-2階段的占70%以上，到達(dá)第6階段的為1%左右，3-5階段的大約在20%，大部分醫(yī)院的信息化水平基本處于第3階段。

同時(shí)，美國(guó)電子病歷在建設(shè)過(guò)程中，結(jié)合美國(guó)醫(yī)療界公私結(jié)合，注重規(guī)范與效率等特征，十分注意信息化建設(shè)的實(shí)效，故此，形成了傳統(tǒng)手工流程與信息化流程相結(jié)合，科室與全院相結(jié)合，使用電子病歷與不使用電子病歷人員相結(jié)合的復(fù)雜局面。

此外，由于美國(guó)醫(yī)療系統(tǒng)制度的不統(tǒng)一，且各地醫(yī)院發(fā)展不均衡，所要解決的問(wèn)題與階段存在差異，造成了在諸多大型醫(yī)院內(nèi)部系統(tǒng)數(shù)量大，客觀上促進(jìn)了集成與相關(guān)標(biāo)準(zhǔn)的發(fā)展。

一個(gè)基于IHE組織定義的醫(yī)院系統(tǒng)集成實(shí)例示意圖

日本的情況：

日本2006年的IT新改革戰(zhàn)略中，涉及到醫(yī)療的部分，將日本的醫(yī)療信息化建設(shè)分為如下5步目標(biāo)：

1，制定醫(yī)療衛(wèi)生全面發(fā)展規(guī)劃

有效地促進(jìn)醫(yī)療，健康，護(hù)理，福利各方面的系統(tǒng)信息化；

2，進(jìn)一步推動(dòng)醫(yī)療信息系統(tǒng)的發(fā)展

進(jìn)一步普及電子病歷等醫(yī)療信息系統(tǒng)，提高醫(yī)療服務(wù)質(zhì)量，保證醫(yī)療安全，促進(jìn)各醫(yī)療機(jī)關(guān)間的相互合作；

3，促進(jìn)遠(yuǎn)程醫(yī)療

促進(jìn)遠(yuǎn)程醫(yī)療，消除地區(qū)間醫(yī)療服務(wù)水平的差距，同時(shí)，利用數(shù)字電視等手段，實(shí)現(xiàn)緊急救援時(shí)對(duì)病人的指導(dǎo)；

4，構(gòu)建國(guó)民健康數(shù)據(jù)庫(kù)與應(yīng)用服務(wù)平臺(tái)

到2010年，構(gòu)建國(guó)民健康信息數(shù)據(jù)庫(kù)和能充分利用該數(shù)據(jù)庫(kù)的應(yīng)用服務(wù)平臺(tái)，讓國(guó)民也能把握自己的健康狀況，努力促進(jìn)國(guó)民的健康；

5，實(shí)現(xiàn)醫(yī)療結(jié)算全面OnLine

計(jì)劃于2011年，實(shí)現(xiàn)醫(yī)療結(jié)算的全面OnLine化，削減醫(yī)療保險(xiǎn)成本，建立結(jié)算數(shù)據(jù)庫(kù)，推進(jìn)疾病預(yù)防的發(fā)展，并推動(dòng)國(guó)民醫(yī)療費(fèi)用合理化；

其中的第二個(gè)階段，電子病歷是發(fā)展的重點(diǎn)。

日本目前電子病歷的建設(shè)高度突出了多個(gè)系統(tǒng)與功能進(jìn)行集成的特征，在不同角色的工作站中，將患者信息管理，醫(yī)囑與臨床處置，臨床路徑，決策支持等幾個(gè)方面的功能實(shí)現(xiàn)了很好的集成。

多種資料表明，由于日本國(guó)內(nèi)醫(yī)療服務(wù)的高標(biāo)準(zhǔn)要求，促成了日本的電子病歷系統(tǒng)在細(xì)節(jié)處理與人性化設(shè)計(jì)方面的明顯優(yōu)勢(shì)。

二，EMR主要涉及的技術(shù)及其發(fā)展

目前，電子病歷的實(shí)現(xiàn)所涉及的幾個(gè)關(guān)鍵技術(shù)問(wèn)題有：

Ø 結(jié)構(gòu)化處理方式

Ø 編輯工具

Ø 存儲(chǔ)方式

Ø 系統(tǒng)集成

1，結(jié)構(gòu)化處理方式

電子病歷的首要職能是作為醫(yī)療過(guò)程的一種記錄形式而存在，而為了能夠在醫(yī)療過(guò)程中提供安全可靠的信息，為臨床人員提供信息資源，對(duì)個(gè)體或群體患者制定科學(xué)的醫(yī)療計(jì)劃，并為公共衛(wèi)生方面的工作提供支持等，必須將文檔的理解層級(jí)由人工可識(shí)別，過(guò)渡到計(jì)算機(jī)可識(shí)別，直到計(jì)算機(jī)可處理，為實(shí)現(xiàn)這個(gè)目標(biāo)，病歷內(nèi)容的結(jié)構(gòu)化顯然是必須要完成的工作。

以下，我們從現(xiàn)有病歷的基本結(jié)構(gòu)模型，結(jié)構(gòu)化的幾種主要實(shí)現(xiàn)方式，以及優(yōu)缺點(diǎn)等幾個(gè)方面，綜合了解下目前有關(guān)病歷結(jié)構(gòu)化處理工作的進(jìn)展：

（1）病歷的結(jié)構(gòu)模型

在電子病歷出現(xiàn)以前，臨床病歷幾乎完全以自然語(yǔ)言進(jìn)行描述。一個(gè)典型的模型是POMR，目前國(guó)內(nèi)常見(jiàn)的病歷結(jié)構(gòu)，基本是POMR思想指導(dǎo)下的SOAP描述方式：

S-Subjective：主觀內(nèi)容，可以近似認(rèn)為是主訴與現(xiàn)病史

O-Objective：客觀內(nèi)容，體現(xiàn)在輔助檢查

A-Assessment：評(píng)估性的內(nèi)容，可以認(rèn)為診斷是屬于這類

P-Plan：計(jì)劃，診療計(jì)劃屬于這個(gè)范圍

但是，毫無(wú)疑問(wèn)，結(jié)構(gòu)化到這種程度，遠(yuǎn)遠(yuǎn)不能滿足從電子病歷挖掘醫(yī)療規(guī)律，支持循證醫(yī)學(xué)與臨床科研等工作的要求。

（2）結(jié)構(gòu)化的幾種主要實(shí)現(xiàn)方式與優(yōu)缺點(diǎn)

目前，結(jié)構(gòu)化的實(shí)現(xiàn)方式多種多樣，但實(shí)際總結(jié)起來(lái)，其技術(shù)思想基本是兩大類：SDE與MLP。

SDE（結(jié)構(gòu)化數(shù)據(jù)錄入）的方式：是目前可以實(shí)現(xiàn)極高程度結(jié)構(gòu)化的一種數(shù)據(jù)采集方式，通過(guò)軟件上的菜單，選項(xiàng)框等各種控件，結(jié)合一定的醫(yī)學(xué)智能判斷，實(shí)現(xiàn)在預(yù)定模板范圍內(nèi)的信息100%準(zhǔn)確獲取，國(guó)外代表產(chǎn)品系列為OpenSDE。

SDE的操作方式最大的優(yōu)點(diǎn)是能夠完整準(zhǔn)確的獲得臨床信息；缺點(diǎn)則是由于將受控詞匯原封不動(dòng)的表現(xiàn)在前端，使得臨床醫(yī)生操作極為不便，在效率和靈活性上有明顯的缺陷。

MLP（醫(yī)學(xué)語(yǔ)言處理）的方式：則是尊重臨床人員采用自然語(yǔ)言描述病歷的習(xí)慣，在自然語(yǔ)言描述的內(nèi)容基礎(chǔ)上，通過(guò)預(yù)定義的術(shù)語(yǔ)集來(lái)實(shí)現(xiàn)信息的獲取等工作。

MLP方式的優(yōu)點(diǎn)是與幾乎完全繼承了醫(yī)務(wù)人員以往的工作習(xí)慣，操作簡(jiǎn)便，學(xué)習(xí)曲線平滑；缺點(diǎn)則是現(xiàn)有的自然語(yǔ)言處理技術(shù)準(zhǔn)確性不足，在某些場(chǎng)景下尚不能達(dá)到醫(yī)療工作的需要。

目前，針對(duì)上述問(wèn)題的解決方案，一般從如下兩個(gè)方向進(jìn)行考慮：

融合：將SDE與MLP兩種方式進(jìn)行結(jié)合

這種思路指導(dǎo)下的典型例子，是目前國(guó)內(nèi)普遍出現(xiàn)的在“所見(jiàn)即所得”編輯器基礎(chǔ)上的受控詞匯嵌入自然語(yǔ)言的模板，通過(guò)直觀的編輯工具，結(jié)合具體的臨床科室，將病歷內(nèi)容盡可能采用自然方式展現(xiàn)出來(lái)，同時(shí)，對(duì)其中有臨床科研與其他數(shù)據(jù)利用價(jià)值的詞匯進(jìn)行結(jié)構(gòu)化處理，兩類數(shù)據(jù)并存于整個(gè)文檔中，結(jié)構(gòu)化的數(shù)據(jù)類似于一種鑲嵌方式存在；當(dāng)數(shù)據(jù)利用時(shí)，就可以從同一個(gè)病歷文檔中，獲得多方面的數(shù)據(jù)。

這種融合的思路最大的優(yōu)勢(shì)是通過(guò)臨床工作的嚴(yán)肅性保證了數(shù)據(jù)的準(zhǔn)確，同時(shí)也能夠一定程度的解決SDE與MLP的矛盾，目前面臨的主要問(wèn)題是，在不同的臨床科室內(nèi)，是否能定制出對(duì)多個(gè)病種足夠適應(yīng)的模板；以及在不同的科研與數(shù)據(jù)利用要求下，是否可能通過(guò)一個(gè)模板來(lái)滿足多個(gè)不同角度與科研與數(shù)據(jù)利用的要求。

目前，國(guó)內(nèi)推出的《電子病歷架構(gòu)與數(shù)據(jù)標(biāo)準(zhǔn)》，提出了臨床文檔-文檔段-數(shù)據(jù)組-數(shù)據(jù)元的四級(jí)概念，其核心思想是將病歷內(nèi)容逐層的進(jìn)行結(jié)構(gòu)化處理，對(duì)電子病歷的技術(shù)實(shí)現(xiàn)，具有很高的指導(dǎo)意義。

分立：從實(shí)際需求出發(fā)，在不同的業(yè)務(wù)場(chǎng)景下?lián)P長(zhǎng)避短，有針對(duì)性的發(fā)揮SDE與MLP兩種方式各自的優(yōu)勢(shì)。

目前，這種思路也有相當(dāng)比例的市場(chǎng)，比如，從醫(yī)療工作的要求來(lái)看，某些需要獲取的信息比較簡(jiǎn)練，且操作時(shí)間要求高，則可以將需要采集的內(nèi)容固化到軟件界面上，定制為高度簡(jiǎn)潔的SDE式窗口，臨床醫(yī)療工作者只需要簡(jiǎn)單的點(diǎn)選與操作，即可完成必要的數(shù)據(jù)采集；而對(duì)于病歷文檔這種自然語(yǔ)言特征明顯的內(nèi)容，則結(jié)合機(jī)器自動(dòng)處理與人工標(biāo)注，實(shí)現(xiàn)數(shù)據(jù)利用的需要。

（3）可能的幾個(gè)突破方向

通過(guò)上述的比較，已經(jīng)可以看出，在SDE與MLP兩種方式存在融合與分立的現(xiàn)狀，技術(shù)上可能的幾個(gè)突破方向，無(wú)非是以下幾種：

基于多維術(shù)語(yǔ)集的智能模板：

不論是SDE還是MLP，首先均需要標(biāo)準(zhǔn)化的術(shù)語(yǔ)集支持，在此基礎(chǔ)上，方可以定義諸如醫(yī)療行為索引，醫(yī)療行為關(guān)系及相應(yīng)字典等構(gòu)成臨床數(shù)據(jù)中心的基礎(chǔ)設(shè)施。

在標(biāo)準(zhǔn)化術(shù)語(yǔ)集存在后，為解決自然語(yǔ)言描述與受控結(jié)構(gòu)化描述之間的矛盾，可基于多維術(shù)語(yǔ)集智能模板來(lái)實(shí)現(xiàn)高命中率的模板，如根據(jù)患者的基本信息，初步印象，關(guān)鍵檢查與檢驗(yàn)，重要癥狀與體征，生成與臨床醫(yī)生期望較為接近的模板。

自然語(yǔ)言處理（尤其是中文）技術(shù)的發(fā)展：

病歷中的檢驗(yàn)與醫(yī)療處置類信息一般已經(jīng)高度結(jié)構(gòu)化，要提高信息利用率，首先要解決的問(wèn)題是多系統(tǒng)數(shù)據(jù)的集成，但對(duì)于病史類文字，則可能要寄希望于自然語(yǔ)言處理技術(shù)（尤其是中文分詞技術(shù)）的進(jìn)一步發(fā)展，這種在后期結(jié)構(gòu)化的方式最大的優(yōu)點(diǎn)在于可以將原始文檔幾乎完全獨(dú)立，完全根據(jù)自然語(yǔ)言處理的發(fā)展程度來(lái)進(jìn)行數(shù)據(jù)利用工作。

2，編輯工具

目前，電子病歷的編輯工具是電子病歷系統(tǒng)實(shí)現(xiàn)的基礎(chǔ)性構(gòu)件，通過(guò)編輯器，可以反映出一個(gè)電子病歷系統(tǒng)的數(shù)據(jù)架構(gòu)，對(duì)結(jié)構(gòu)化的處理程度等多方面的設(shè)計(jì)水平。

電子病歷的編輯工具可根據(jù)是否所見(jiàn)即所得與是否結(jié)構(gòu)化，分為如下幾類：

（1）SDE式編輯工具

與這種編輯工具最接近的醫(yī)療概念，是表格病歷。

嚴(yán)格來(lái)說(shuō)，這種編輯工具并不能成為完整的電子病歷編輯器，因?yàn)槠鋬H僅是通過(guò)界面的方式，完成了一定的信息采集工作，諸如排版，文本格式處理等一系列功能，均需要額外提供排版工具來(lái)進(jìn)行處理。

一些優(yōu)秀的SDE編輯器，可以一定程度上適應(yīng)不同科室的要求，實(shí)現(xiàn)前后文選擇控件內(nèi)容之間的關(guān)系，體現(xiàn)一定的醫(yī)療邏輯，故目前這種編輯工具還是有一定比例的市場(chǎng)。

目前，此類編輯器的技術(shù)實(shí)現(xiàn)，大多是采用Windows環(huán)境下的開(kāi)發(fā)工具，如PB，Delphi，VB或VC#等，將多個(gè)控件組合成為科室模板，同時(shí)將每個(gè)控件所代表的醫(yī)療信息內(nèi)置于模板中，在每個(gè)科室調(diào)用時(shí)，根據(jù)所選擇的控件值所反映出的醫(yī)療關(guān)系，對(duì)整個(gè)界面上的控件布局進(jìn)行控制，以體現(xiàn)醫(yī)療邏輯與流程。

（2）“所見(jiàn)即所得”的自由文本編輯器

此類編輯器功能一般較為簡(jiǎn)單，對(duì)結(jié)構(gòu)化涉及較少，多為直接調(diào)用相對(duì)成熟的文本編輯組件，如MS Word，同時(shí)進(jìn)行簡(jiǎn)單的結(jié)構(gòu)劃分，如主訴，現(xiàn)病史級(jí)別的劃分。

對(duì)于這種編輯器，如果要進(jìn)行病歷內(nèi)容結(jié)構(gòu)化的工作，則只能采用自然語(yǔ)言處理的技術(shù)。

（3）“所見(jiàn)即所得”的結(jié)構(gòu)化病歷編輯器

顧名思義，這種編輯器是將文本編輯功能與結(jié)構(gòu)化的設(shè)計(jì)融合在一起，既能對(duì)文本進(jìn)行常規(guī)排版，同時(shí)還可以在其中體現(xiàn)出對(duì)病歷結(jié)構(gòu)化的編輯。

此類編輯器的設(shè)計(jì)初衷，大多是要充分照顧自然語(yǔ)言輸入的習(xí)慣，并在編輯的同時(shí)，直接完成結(jié)構(gòu)化詞匯的生成，完成對(duì)病歷數(shù)據(jù)利用的準(zhǔn)備。

從技術(shù)角度來(lái)看，這種編輯器的設(shè)計(jì)思路是較為先進(jìn)的，但最大的不足是實(shí)現(xiàn)難度較大，目前業(yè)內(nèi)普遍認(rèn)為，此類編輯器從開(kāi)發(fā)到成熟，平均需要5-6年的時(shí)間。

目前，這種編輯器由于要直接處理復(fù)雜的內(nèi)容節(jié)點(diǎn)，通常與xml技術(shù)相結(jié)合。

3，存儲(chǔ)方式

首先，xml技術(shù)由于其自解釋，實(shí)現(xiàn)多級(jí)對(duì)象節(jié)點(diǎn)方便，文檔類型定義與文檔內(nèi)容可分離等多種特性，已經(jīng)成為電子病歷領(lǐng)域文檔實(shí)體的事實(shí)標(biāo)準(zhǔn)。

目前，電子病歷內(nèi)容具體的存儲(chǔ)方式可以簡(jiǎn)單的歸結(jié)為如下幾類：

（1）基于關(guān)系型數(shù)據(jù)庫(kù)

目前，鑒于關(guān)系型數(shù)據(jù)庫(kù)占據(jù)了相當(dāng)高的市場(chǎng)份額，故基于關(guān)系型的數(shù)據(jù)庫(kù)存儲(chǔ)也成為電子病歷市場(chǎng)的主流選擇，具體的實(shí)現(xiàn)，一般有字段存儲(chǔ)+應(yīng)用期組合，xml作為對(duì)象存儲(chǔ)，xml原生存儲(chǔ)等三種方式：

字段存儲(chǔ)+應(yīng)用期組合

這種方式是對(duì)病歷的結(jié)構(gòu)進(jìn)行拆解，然后存入數(shù)據(jù)庫(kù)的字段，在應(yīng)用層調(diào)用時(shí)，通過(guò)對(duì)各個(gè)數(shù)據(jù)字段的組合，生成邏輯上的xml文檔供應(yīng)用層使用。

此方式最大的優(yōu)點(diǎn)在于某些簡(jiǎn)單的數(shù)據(jù)利用要求出現(xiàn)時(shí)，可以充分利用傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的優(yōu)勢(shì)，提供極好的性能，但缺點(diǎn)則是由于對(duì)復(fù)雜的數(shù)據(jù)操作一律要在客戶端處理，故技術(shù)實(shí)現(xiàn)較為繁瑣，運(yùn)行效率也容易受到限制。

xml與數(shù)據(jù)庫(kù)字段的關(guān)系圖

xml作為對(duì)象存儲(chǔ)

這種方式通常結(jié)合了數(shù)據(jù)庫(kù)系統(tǒng)對(duì)xml的存儲(chǔ)支持，目前業(yè)內(nèi)主流的數(shù)據(jù)庫(kù)系統(tǒng)均支持將xml作為BLOB字段進(jìn)行存儲(chǔ)

此種方式，將病歷文檔進(jìn)行大粒度的分解后，直接以xml方式存儲(chǔ)于數(shù)據(jù)庫(kù)的BLOB字段中，同時(shí)，為了某些簡(jiǎn)單的數(shù)據(jù)檢索等需要，通常會(huì)在存儲(chǔ)該xml文檔時(shí)，將該文檔中一些常用的數(shù)據(jù)直接存儲(chǔ)在數(shù)據(jù)字段中。

xml原生存儲(chǔ)

xml原生存儲(chǔ)的方式是伴隨著數(shù)據(jù)庫(kù)對(duì)xml的存儲(chǔ)技術(shù)不斷進(jìn)步而產(chǎn)生的，某些數(shù)據(jù)庫(kù)系統(tǒng)軟件針對(duì)xml的特征設(shè)計(jì)存儲(chǔ)結(jié)構(gòu)，可以在整體存儲(chǔ)xml文檔的同時(shí)，還可以高效的實(shí)現(xiàn)對(duì)xml內(nèi)部詳細(xì)信息的檢索。

該方式目前最大的缺陷，是所提供的檢索技術(shù)對(duì)現(xiàn)有的粗細(xì)結(jié)合粒度的xml文檔檢索能力有限。

（2）基于后關(guān)系型數(shù)據(jù)庫(kù)

以Cache為代表的數(shù)據(jù)庫(kù)系統(tǒng)軟件，在其內(nèi)部實(shí)現(xiàn)了強(qiáng)大的面向?qū)ο蠊δ埽梢詫?shí)現(xiàn)諸如無(wú)窮分級(jí)這樣的特殊功能，但由于在國(guó)內(nèi)市場(chǎng)份額不高，技術(shù)支持相對(duì)較少等原因，前景不甚明朗。

（3）文件服務(wù)與數(shù)據(jù)庫(kù)相結(jié)合

某些較早期的電子病歷系統(tǒng)中，有些是將病歷文件直接存儲(chǔ)于文檔服務(wù)器上，然后在提交或歸檔時(shí)，存儲(chǔ)于數(shù)據(jù)庫(kù)中，該方式同樣存在客戶端壓力較大的問(wèn)題，今后應(yīng)當(dāng)會(huì)逐漸被替代。

4，系統(tǒng)集成

電子病歷的一個(gè)重要功能是實(shí)現(xiàn)臨床信息集成，向臨床醫(yī)療工作者全面展示相關(guān)信息，但由于電子病歷的各周邊系統(tǒng)建設(shè)程度參差不齊，且起始階段就無(wú)統(tǒng)一標(biāo)準(zhǔn)，而隨著實(shí)際應(yīng)用的逐漸深入，一線使用者對(duì)集成的要求與日俱增，為解決此類問(wèn)題，美國(guó)提出了諸如HL7，DICOM等一系列標(biāo)準(zhǔn)。

目前，國(guó)內(nèi)的各個(gè)系統(tǒng)集成過(guò)程中，對(duì)于較為簡(jiǎn)單的集成要求，直接采用界面集成的方法；對(duì)于若干系統(tǒng)之間的數(shù)據(jù)通信，往往是雙方約定數(shù)據(jù)庫(kù)的讀寫范圍，直接在數(shù)據(jù)庫(kù)層面進(jìn)行數(shù)據(jù)集成。

但是，當(dāng)一個(gè)醫(yī)療單位的信息化系統(tǒng)數(shù)量達(dá)到一定程度之后，上述方式的問(wèn)題立即凸顯，隨著系統(tǒng)的增多，需要集成的工作量呈平方增長(zhǎng)關(guān)系。

通過(guò)對(duì)此類情況的處理，國(guó)內(nèi)某些醫(yī)療單位與公司在信息集成方面也總結(jié)了比較豐富的經(jīng)驗(yàn)，選擇性的使用HL7等國(guó)際標(biāo)準(zhǔn)，通過(guò)Web Services與MQ等技術(shù)手段，也積累了一定的成熟案例。

三，自然語(yǔ)言處理技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用現(xiàn)狀及趨勢(shì)

按照維基百科上的介紹，自然語(yǔ)言處理的關(guān)鍵技術(shù)基本涵蓋如下方面：

文本朗讀與語(yǔ)音合成，語(yǔ)音識(shí)別，中文分詞，詞性標(biāo)注，句法分析，自然語(yǔ)言生成，文本分類，信息檢索，信息抽取，文字校對(duì)，問(wèn)答系統(tǒng)，機(jī)器翻譯，自動(dòng)摘要。

其中，中文分詞與信息檢索及信息抽取，是自然語(yǔ)言處理技術(shù)的重要問(wèn)題，在醫(yī)療領(lǐng)域應(yīng)用也主要集中于這幾個(gè)方面，因信息檢索與抽取等技術(shù)相對(duì)比較成熟，本文的討論將主要集中于其中的中文分詞。

目前的中文分詞，一般有三大類

（1）基于詞典的分詞：一般將需要處理的文檔與詞典中的詞匯進(jìn)行匹配，在匹配過(guò)程中，根據(jù)優(yōu)先匹配長(zhǎng)度的不同，有最大與最小匹配算法；而根據(jù)掃描方向的差別，又可分為正向匹配和逆向匹配算法，以及將正反兩個(gè)方向相結(jié)合的雙向匹配法。

從精度來(lái)看，在上述幾種方法當(dāng)中，逆向匹配略高于正向匹配，但目前已有的此類算法錯(cuò)誤率依然導(dǎo)致精度不能滿足實(shí)際使用的需要，所以在實(shí)際使用時(shí)，大多是將基于詞典的方法作為分詞第一步工作，然后結(jié)合其他方法進(jìn)一步處理。

具體改進(jìn)的方式，大概有如下幾種，結(jié)合分類特征表示的優(yōu)化，結(jié)合詞性標(biāo)注的優(yōu)化，以及后續(xù)加以其他分詞手段（如基于統(tǒng)計(jì)語(yǔ)言模型）的處理。

目前，主要基于詞典的分詞方法，一般用于簡(jiǎn)單的醫(yī)療文檔處理，如檢查報(bào)告，或者病歷文檔中的文檔段級(jí)別，如手術(shù)記錄，并在此基礎(chǔ)上結(jié)合一定的人工判斷與加工，這種應(yīng)用的發(fā)展是得益于此類文檔一般結(jié)構(gòu)相對(duì)固定，同時(shí)詞匯集合數(shù)量比較小，術(shù)語(yǔ)描述受控程度較高。

通過(guò)目前應(yīng)用的現(xiàn)狀也驗(yàn)證了一個(gè)基本事實(shí)：術(shù)語(yǔ)詞典的完善與精確程度對(duì)分詞的準(zhǔn)確度有十分重大的影響。

（2）基于統(tǒng)計(jì)的分詞：基于統(tǒng)計(jì)的分詞方法近年來(lái)由于機(jī)器學(xué)習(xí)等技術(shù)的發(fā)展也日漸成熟，這種分詞方法的一個(gè)基本前提是：詞匯是由字組成的，然后通過(guò)組合出現(xiàn)的概率來(lái)判斷是否某個(gè)短字符串是否是一個(gè)詞，判斷概率時(shí)，將各個(gè)字在文檔中出現(xiàn)的概率相乘：

P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)

單純使用這種分詞方法時(shí)最常見(jiàn)的缺陷是只顧頻率，忽視實(shí)際意義，比如可能會(huì)分出很多“之一”“我的”等常用但意義不大的詞匯，為彌補(bǔ)此缺陷，通常會(huì)結(jié)合基于詞典的分詞來(lái)處理。

基于統(tǒng)計(jì)的分詞另一個(gè)重要的實(shí)現(xiàn)方式是采用機(jī)器學(xué)習(xí)的方法，準(zhǔn)備好一套已經(jīng)預(yù)先分詞完畢的預(yù)料，通過(guò)機(jī)器學(xué)習(xí)的模型去學(xué)習(xí)分詞的規(guī)律，然后利用抽象出的規(guī)律對(duì)新的文本進(jìn)行分詞。

目前，基于統(tǒng)計(jì)的分詞對(duì)于同義詞的處理有較好的效果，通常與其他分詞方式結(jié)合使用，但由于實(shí)現(xiàn)的技術(shù)難度較高，目前在醫(yī)療實(shí)踐中尚未廣泛應(yīng)用。

（3）基于規(guī)則與理解的分詞：這種分詞方法的理論基礎(chǔ)是構(gòu)造在漢語(yǔ)詞法分析基礎(chǔ)上的，有報(bào)道稱采用層疊隱馬爾可夫模型進(jìn)行處理，也取得了較好的效果。

這種分詞方法在進(jìn)行詞法分析的階段，綜合考慮長(zhǎng)度，平均長(zhǎng)度，自由語(yǔ)素度以及各種過(guò)濾器，如布隆過(guò)濾器。

此類分詞引擎的實(shí)現(xiàn)技術(shù)難度相當(dāng)高，目前，國(guó)內(nèi)這方面最成熟的成果是ICTCLAS。

綜上，三種分詞方法可以從多個(gè)方面進(jìn)行個(gè)對(duì)比，如下表：

三種分詞方法的優(yōu)劣對(duì)比

分詞方法	基于字符串匹配分詞	基于理解的分詞	基于統(tǒng)計(jì)的分詞
歧義識(shí)別	差	強(qiáng)	強(qiáng)
新詞識(shí)別	差	強(qiáng)	強(qiáng)
需要詞典	需要	不需要	不需要
需要語(yǔ)料庫(kù)	否	否	是
需要規(guī)則庫(kù)	否	是	否
算法復(fù)雜性	容易	很難	一般
技術(shù)成熟度	成熟	不成熟	成熟
實(shí)施難度	容易	很難	一般
分詞準(zhǔn)確性	一般	準(zhǔn)確	較準(zhǔn)
分詞速度	快	慢	一般

目前，中文分詞在實(shí)踐中的最大難點(diǎn)在歧義的處理和特殊詞識(shí)別。

歧義的識(shí)別，基于統(tǒng)計(jì)與規(guī)則的方法都能進(jìn)行一定程度的處理，不過(guò)考慮到醫(yī)療的文字描述準(zhǔn)確性的要求，更多的應(yīng)當(dāng)首先在文檔的生成過(guò)程中盡可能消除歧義。

對(duì)于特殊詞識(shí)別，基于詞典的處理方式是不可能處理的，鑒于新詞的生成也是很大程度上符合既往規(guī)則的產(chǎn)物，故對(duì)于新詞識(shí)別，可優(yōu)先考慮基于理解的分詞方法。

四，自然語(yǔ)言處理技術(shù)在EMR中的實(shí)現(xiàn)要點(diǎn)

目前的醫(yī)療文檔（尤其是病歷）絕大部分是以自然語(yǔ)言描述，大量已發(fā)現(xiàn)與未發(fā)現(xiàn)的信息存在于現(xiàn)有的醫(yī)療文檔中，不論是臨床醫(yī)學(xué)還是基礎(chǔ)生物醫(yī)學(xué)，都對(duì)于現(xiàn)有文檔的信息處理與知識(shí)發(fā)現(xiàn)提出很高要求，自然語(yǔ)言處理，尤其是中文分詞的發(fā)展，毫無(wú)疑問(wèn)會(huì)極大程度的為這些工作提供幫助。

但是，考慮到漢語(yǔ)本身的復(fù)雜性，完成此工作，必須要從中文分詞以及自然語(yǔ)言處理的基礎(chǔ)理論，醫(yī)學(xué)模型以及軟件工程實(shí)踐等多個(gè)方面綜合考慮，才有實(shí)現(xiàn)并逐步進(jìn)行完善的可能。

簡(jiǎn)單的說(shuō)，使用自然語(yǔ)言的相關(guān)成果，為醫(yī)療領(lǐng)域的信息化（尤其是EMR）建設(shè)服務(wù)時(shí)，可以優(yōu)先考慮從如下幾個(gè)方面入手：

1，半自動(dòng)中文分詞

目前，由于病歷相關(guān)的術(shù)語(yǔ)集過(guò)于復(fù)雜與理論化，在實(shí)際用于臨床時(shí)，合適的裁剪模型尚不成熟，所以可以考慮機(jī)器自動(dòng)分詞加上人工的方式來(lái)處理。

具體操作時(shí)，可以在某個(gè)研究項(xiàng)目開(kāi)展時(shí)，選擇性的對(duì)某些文檔先進(jìn)行機(jī)器自動(dòng)化分詞處理，這樣即使存在某些分詞不準(zhǔn)確導(dǎo)致案例遺漏的情況，也可以通過(guò)適當(dāng)擴(kuò)大樣本量來(lái)補(bǔ)充；在機(jī)器自動(dòng)處理完成后，進(jìn)行一定的人工審核與數(shù)據(jù)完善，并進(jìn)行記錄，最終將處理后的數(shù)據(jù)作為研究的信息來(lái)源。

通過(guò)上述處理步驟后，可進(jìn)行進(jìn)一步的檢索與分析工作。

此類方式的核心在于通過(guò)不斷提高機(jī)器自動(dòng)分詞的準(zhǔn)確度與速度，減少擴(kuò)大的樣本量與人工處理的工作量。

2，自然語(yǔ)言生成

鑒于醫(yī)療當(dāng)中存在某些表格病歷類似的情況，可以在某些醫(yī)療單據(jù)通過(guò)點(diǎn)選的方式，確定關(guān)鍵信息，然后生成符合醫(yī)療規(guī)范要求的自然語(yǔ)言，由人工進(jìn)行一定的修改完善后，作為最終的醫(yī)療文檔。

3，小范圍搜索引擎的構(gòu)建

對(duì)于常見(jiàn)病的經(jīng)典病歷，以及某些診療指南與臨床證據(jù)，可以構(gòu)建科室級(jí)以及院級(jí)的搜索引擎，綜合使用自動(dòng)標(biāo)注、中文分詞加信息檢索的技術(shù)，隨時(shí)提煉各類信息供臨床醫(yī)療工作者使用。

上述各類應(yīng)用的技術(shù)難點(diǎn)，在于如下幾個(gè)關(guān)鍵的設(shè)施是否足夠完善：

1，可根據(jù)需要進(jìn)行簡(jiǎn)化以適應(yīng)臨床工作的術(shù)語(yǔ)集

高度可用的術(shù)語(yǔ)集是分詞與分類等一系列工作的基礎(chǔ)，關(guān)鍵在于如何在實(shí)踐中找到合理的篩選標(biāo)準(zhǔn)，將現(xiàn)有的高度規(guī)范的術(shù)語(yǔ)集工作與臨床的具體實(shí)踐相結(jié)合后，可以既照顧臨床工作的方便，又能保證生成數(shù)據(jù)與規(guī)范術(shù)語(yǔ)的對(duì)應(yīng)。

2，結(jié)合醫(yī)學(xué)規(guī)則的中文分詞算法

基于規(guī)則的中文分詞算法在現(xiàn)有的分詞算法當(dāng)中屬于技術(shù)難度較高者，一個(gè)重要的原因是漢語(yǔ)的詞匯全集十分復(fù)雜，但醫(yī)學(xué)的詞匯集合具有“較有限”“相對(duì)規(guī)范”等特點(diǎn)，故可以將醫(yī)療邏輯作為一個(gè)規(guī)則庫(kù)不斷的進(jìn)行豐富，同時(shí)結(jié)合詞典分詞與統(tǒng)計(jì)分詞，提高醫(yī)學(xué)中文分詞算法的精度與速度。

3，大數(shù)據(jù)量的存儲(chǔ)與多系統(tǒng)集成技術(shù)

進(jìn)行完善的醫(yī)療研究與臨床工作，往往需要多方面的數(shù)據(jù)進(jìn)行支持，且電子病歷在實(shí)際工作中產(chǎn)生的數(shù)據(jù)量是比較大的，已有證據(jù)表明，電子病歷所產(chǎn)生的數(shù)據(jù)量在各醫(yī)療信息系統(tǒng)中幾乎一直排名前三。

在這樣的背景下，需要引起注意的是隨著數(shù)據(jù)應(yīng)用要求的不斷提高，大量數(shù)據(jù)的存儲(chǔ)架構(gòu)上的調(diào)整，以及如何將多個(gè)系統(tǒng)進(jìn)行集成，綜合利用各個(gè)系統(tǒng)的數(shù)據(jù)為醫(yī)學(xué)實(shí)踐服務(wù)。

來(lái)頂一下

返回首頁(yè)

欄目更新

欄目熱門