我國已先后建成一批國家級計算機信息化網絡科學數據中心和規模不等的數據庫,其內容基本覆蓋了科學技術的各個領域。同時,積極采用計算機信息網絡化手段,進行科學數據的采集、積累及數字化加工工作,實現了范圍和程度不等的數據共享。
為推動我國科學數據信息共享的全面發展,促進預防醫學科學研究的進步、我們對國家職業衛生管理規范及標準體系實施了計算機化與信息網絡研究,建立了科學數據信息共享機制,研究了科學數據信息共享標準(電子版數據提交標準、元數據定義、數據集命名標準、變量名命名標準等),開發了國家職業衛生管理規范及標準體系科學數據信息共享平臺(國家職業衛生管理規范及標準體系檢索光盤、國家職業衛生管理規范及標準體系共享服務網站),以向社會提供國家職業衛生管理規范及標準體系數據信息的共享服務。
一、技術路線
以Web技術為基礎,采用成熟和先進的計算機網絡技術、衛星通信技術、多媒體技術和協同計算技術,系統建設成可擴展、安全可靠、按需服務的國家職業衛生管理規范及標準體系——計算機化與信息網絡(數據網絡、信息網絡和知識網絡),該數據共享技術平臺能夠對職業衛生管理規范及標準體系數據進行管理、檢索,實現異地數據訪問、遠程服務,并根據數據的密級采用不同的技術以保證數據安全。
二、數據集內容
國家職業衛生管理規范及標準體系數據集包含了我國加入WTO以后,開展的WTO與我國職業衛生工作對策的研究內容、職業衛生標準體系和其他國家相關標準體系的異同與融合、工作場所職業危害管理、建設項目職業衛生管理、職業衛生技術服務機構管理等研究成果,還包含了我國針對職業衛生管理頒布的各類法規與標準。數據類型則包括文本、數表、圖片、視頻等。
三、數據整合方法
1.數據顆粒度:數據顆粒度是數據庫中極其重要的概念。數據的綜合程度不同,數據量將相差很大。數據顆粒度越小,信息細節越多,數據量越大;而數據顆粒度越大,則忽略了越多的細節,數據量越小。數據的綜合程度還會影響數據的用途。對于多維查詢來說,可能使用的是細節數據,例如果回答“1978/3/21號國家頒布的職業衛生標準”這樣的問題,細節數據非常合適,而綜合數據則因使細節信息丟失不可能回答。但如果要回答“1978-2002年間的職業衛生標準”這樣綜合程度較高的問題,用細節數據將需進行統計運算后才能回答,這將增加用戶的等待時間,而使用綜合數據則可以迅速地回答這個問題。細節數據和綜合數據用途上和代價上的差異,應為數據系統建設考慮的要點。
綜合程度不同的數據其用途不同,數據庫中多重的數據顆粒度都是必不可少的。但由于數據庫的主要目的是反映整體信息和決策支持系統(DSS)分析并回答綜合程度較高的問題,于是對細節數據和綜合數據采用了不同的策略。粒度的再一種形式是針對數據挖掘。數據挖掘使用復雜算法(如神經元網絡),計算復雜度較高,若對巨量數據直接運算,則計算時間和空間過高,系統難以承受。因此,要進行數據挖掘,對數據進行抽樣。粒度的此種形式系指抽樣蓋率,即對數據庫中的數據以一定的抽樣率進行抽樣后得到一個樣本數據庫,數據挖掘將在樣本數據庫上進行。挖掘過程:細節數據→樣本數據庫→數據挖掘算法等進行數據挖掘。
2.數據的分割:數據的分割是數據庫中的又一重要概念。由于數據庫中的數據量極大,使用起來會遇到很多問題,例如歷年頒布的標準放在一張表中,一次查詢則需要檢索整張表,而如果范圍只在2001年內,則僅需檢索2001年的信息即可。對于一個數據量很大的系統,上述兩種策略的效率相差很多。所謂數據分割是指將數據分割到各自的物理單元中,以便能夠獨立處理,提高數據處理的效率。數據分割標準尚待研究,分割方法可以按時間、地點、業務領域劃分。國家職業衛生管理規范及標準體系研究項目的數據庫系按照時間進行了分割,符合數據庫隨時間變化的特點,分割后的數據分布比較均勻,更容易索引、監控和掃描且重組簡單。
3.聯機分析處理(on-line analytical processing,OLAP)展現方式:OLAP針對特定的主題進行聯機數據訪問、處理和分析,通過直觀的方式從多個維度、多種數據綜合程度將應用系統展現給用戶。我們在開發中引入“維”概念,維量與某一事件相關的因素在關系模型的抽象,如時間、地理、類型等。維的層次性對應于數據的粒度,維存在著層次問題。比如時間用“日”作單位刻度,地理用縣、市、省作單位刻度等。維度的層次描述了人們觀察數據的細致程度。
4.地理維層次:OLAP的展現方式有C/Sweb、瘦客戶機方式,“國家職業衛生管理規范及標準體系”研究項目選用了OLAP的Web方式,隨著Web應用的發展,OLAP的前端展現方式也向著Web方式發展,由于Web有著極佳的跨平臺性,故可以展現豐富多彩的信息。
5.體系數據共享協議、標準:國家職業衛生管理規范及標準體系是由一系列職業衛生管理規范和標準組成。依照標準化原理,將該體系分為基礎通用標準、信息共享技術標準和信息管理與服務標準,其中基礎通用標準主要包括術語標準、元數據標準、信息分類與代碼標準、產品標準以及相關標準,技術標準主要包括信息交換標準、質量控制和質量評價標準 、互操作協議標準等,管理與服務標準主要包括用戶分類分級標準、管理標準以及數據安全、保密分級標準等。
(1)體系數據集(DBZ00)及命名規則:根據體系中的規則和國家相關標準,對體系數據集中數據的各種屬性及命名規則進行了約定。
(2)體系數據集(DBZ00)中分類號命名規則:編碼方法:層次編碼法;編碼構成;共分4層。第1層;屬性,一位字母。L(Law)——法規,GBZ、GBZ/T——標準,O(Ordinance)——條例,H(Harvest)——成果。第2層:級別,兩位字母。GB——國家級,WS——行業,DF——地方。第3層:地域,兩位數字。11——北京,22——吉林。第4層:年份,四位數字——YYYY。
(3)體系數據集(DBZ00)的代碼庫(DBCode)。
根據上述思想,我們制作了國家職業衛生管理規范及標準體系檢索光盤,建立了國家職業衛生管理規范及標準體系網站、國家職業衛生管理規范及標準體系數據共享服務軟件平臺、國家職業衛生管理規范及標準體系數據共享硬件平臺,為國家職業衛生管理規范及標準體系數據共享安全的保障和可持續發展機制奠定了基礎。
《關于印發〈職業病分類和目錄〉的通…
一般有毒物品目錄(2002年版)
北京市醫療衛生機構安全風險辨識評估…
某藥業股份有限公司職業病危害評價
職業危害防治安全對策措施及建議
職業病預防控制措施
低溫作業人員冷損傷的預防和應急處置
企業如何做好職工的防寒保暖工作
勞動保護用品管理制度
職業危害防治責任制度
職業病防治管理制度
職業危害防治措施
職業衛生法律法規
職業衛生“三同時”管理制度
硫酸的危害性和預防措施
職業病危害防治措施