|
သတင်းအချက်အလက်နည်းပညာ တိုးတက်လာတာ နဲ့အမျှ လူသားတို့သည် ကွန်ပျူတာတွင် မြင်တွေ့နေရသော အင်္ဂလိပ်စကားလုံးများအပြင် မိမိတို့နေ့စဉ် ပြောဆိုသုံးစွဲနေကြသော ဘာသာစကားလုံးများ မြင်တွေ့ အသုံးပြုနိုင်အောင် Localization လုပ်ဆောင်လာကြသလို အင်္ဂလိပ်ဘာသာ စကားသာမက မိမိတို့ နေ့စဉ် ပြောဆို သုံးစွဲနေကြ ဘာသာစကား (Natural Language) များဖြင့် အသုံးပြုနိုင်အောင် Natural Language Processing (NLP) လုပ်ငန်းများ ကြိုးပမ်းနေကြတာကြောင့် မြန်မာဘာသာစကားဖြင့်လည်း အသုံးပြုနိုင်အောင် ကွန်ပျူတာသုံးမြန်မာစာစနစ် အကောင်အထည်ဖော်ခြင်းလုပ်ငန်းကို လုပ်ဆောင် နေကြပါသည်။ စတင်ခြင်း
လက်နှိပ်စက်ကို အသုံးပြုပြီး မြန်မာစာ ရိုက်နှိပ်နေရာမှ ကွန်ပျူတာပေါ်တွင် မြန်မာအက္ခရာစာလုံးများ စတင်အသုံးပြုနိုင်အောင် ကြိုးပမ်းလုပ်ဆောင်ခဲ့ကြသည့် ၁၉၈ဝခုနှစ်ကပင် စတင်ခဲ့ကြပါသည်။ Window မသုံးခင် Word Star, MultiPlan သုံးသည့် ခေတ်၊ Disk Operating System (DOS) ခေတ်က Myanmar Word Processors ဖြစ်သည့် Myanmar Text Editor ကို တက္ကသိုလ်များ ကွန်ပျူတာဌာန (UCC) မှစမ်းသပ် ထုတ်လုပ်ခဲ့ပါသည်။ ၁၉၉၂ခုနှစ်ဝန်းကျင်မှစပြီး ယနေ့ လူအများ အသုံးပြုနေကြသည့် MS Window-based Font (ဥပမာ- ရွှေနဲ့မြ၊ Win-Myanmar၊ Acadamy၊ CE စသည်) တို့ကို တီထွင်ခဲ့ကြပြန်ပါသည်။ ယင်းစနစ်သည် font တစ်ခုရပြီးသည်နှင့် font အားလုံး လိုလိုတွင် မြန်မာဘာသာဖြင့် အရောင်မျိုးစုံ အရွယ်မျိုးစုံ အသုံးပြုနိုင်သည်။ သို့သော် အင်္ဂလိပ်အက္ခရာစာလုံးများ (English Set in ASCII code) ကို မြန်မာ အက္ခရာစာလုံးပုံစံ ပြောင်းသုံးကြခြင်းဖြစ်သည့် အတွက်ကွန်ပျူတာက မြန်မာအက္ခရာ စာလုံးများ ကိုလည်း အင်္ဂလိပ်အက္ခရာစာလုံးများ ဟူ၍သာ ထင်မှတ် နေသည်။ ထိုကြောင့် အင်္ဂလိပ် အက္ခရာ စာလုံးများနှင့် မြန်မာအက္ခရာစာလုံးများ အတူတကွ အသုံးပြုသောအခါများတွင် ကွန်ပျူတာက ခွဲခြားမသိရှိနိုင်တော့ပေ။ ထိုကဲ့သို့သော ပြဿနာများသည် မြန်မာအက္ခရာစာလုံးစနစ်သာမက အခြား ဘာသာ စကားများ တွင်လည်း ပေါ်ပေါက်လာခဲ့သည်။
Unicode Consortium ပေါ်ပေါက်လာခြင်း
မည်သည့် Platform၊ မည်သည့် Program၊ မည်သည့် Language အတွက်မဆို ဘာသာစကားများ၏ အက္ခရာစာလုံး တစ်လုံးတိုင်းအတွက် နံပါတ်တစ်လုံးစီသတ်မှတ်နိုင်သည့် စနစ် (Concept of a new character encoding )ကို အစပျိုးခဲ့ကြပြီး Unicode ဟု ခေါ်တွင်လာခဲ့သည်။ လေးနှစ်တာ ကြာပြီးနောက် Unicode Consortium ခေါ် NGO အဖွဲ့အစည်းကို ၁၉၉၁ခုနှစ်တွင်ကယ်လီဖိုးနီးယား ပြည်နယ် (State of California) ၌ စတင်ဖွဲ့စည်းခဲ့ပါသည်။
Unicode Consortium သည် ကမ္ဘာပေါ်ရှိ ဘာသာစကားအားလုံးအတွက် အက္ခရာစာလုံး များကို ကွန်ပျူတာပေါ်တွင် အသုံးပြုနိုင်ရန် (အက္ခရာ စာလုံးတစ်လုံးတိုင်းအတွက် ကွန်ပျူတာသုံး နံပါတ်တစ်ခု အတိအကျ သတ်မှတ်နိုင်ရန်) Unicode Space အက္ခရာစာလုံးပေါင်း ၆၅၅၃၆ လုံး အတွက် (oooo)၁၆ မှ (FFFF)၁၆ အထိ' အား ISO/IEC 10648 စံဖြင့် အသုံးပြုနိုင်ရန် တီထွင် သတ်မှတ်ခဲ့ပါသည်။
 ပုံ။ Unicode Space တွင် ဘာသာစကားများ၏အက္ခရာစာလုံးများအတွက် နေရာချထားပုံ Unicode Consortium သည် ISO Standard အား Unicode Standard နှင့် လိုက်လျော ညီထွေ ထိန်းသိမ်းနိုင်ရန် International Standard Organization (ISO) (အထူးအားဖြင့် ISO/IEC JTC1/SC2/WG2) နှင့်အတူ ပူးပေါင်း ဆောင်ရွက်လျက် ရှိပါသည်။ Unicode Consortium တွင် Unicode Technical Committee (UTC) နှင့် Common Locale Data Repository (CLDR) Technical Committee ခေါ် Technical Committee နှစ်ခု နှင့် Editorial Committee တစ်ခုရှိပါသည်။
Unicode Space တွင် မြန်မာအက္ခရာစာလုံးများအတွက် Code point များ ရရှိလာခြင်း ၁၉၉၄ ခုနှစ်လောက်ကစပြီး၊ South and Southeast Asian Scripts တို့မှ ဘာသာစကား အသီးသီးတို့အတွက် Unicode point များ တင်သွင်းကြရာ The Unicode Standard ၏ Co-authon ၊ အိုင်ယာလန်နိုင်ငံ၏ ISO/IEC JTC1/SC2/WG2 အတွက် အမျိုးသား အဆင့် ကိုယ်စားလှယ်ဖြစ်သူ၊ Everson Typography မှ Unicode point သည် မြန်မာဘာသာ အက္ခရာစာလုံးများအတွက် Mr. Michael Everson များရရှိရန် စတင်၍ တင်သွင်းခဲ့ပါသည်။
၁၉၉၆ ခုနှစ် နှစ်ဦးပိုင်းတွင် ပြည်ပခရီးသွားရောက်ခဲ့သော မြန်မာကွန်ပျူတာပညာရှင် အချို့ Internet ပေါ်တွင်တွေ့ရှိချက်အရ အပြည်ပြည်ဆိုင်ရာ စံနှုန်းသတ်မှတ်ရေးအဖွဲ့ (Internation Standard Organization (ISO) ) ၏ ISO 10648 တွင် (၁၉၉၄ နှစ်လောက်ကပင် အိုင်ယာလန်နိုင်ငံမှ Mr. Michael Everson တင်သွင်းခဲ့ပြီး ISO ၏ (၆)လ တစ်ကြိမ် အစည်းအဝေးဖြင့် စိစစ်ခဲ့သော) ကွန်ပျူတာသုံး မြန်မာစာစနစ်တစ်ခုမှာ Proposed Draft Amendment (PDAM) နောက်ဆုံးမဲပေးဆုံးဖြတ်ရန် ဖိတ်ခေါ်သည့်အဆင့်ထိရောက်ရှိနေပြီ ဖြစ်ကြောင်း နိုင်ငံတော်သို့ အချိန်မီ အကြောင်းကြားတင်ပြခဲ့ကြပါသည်။  ပုံ။ မြန်မာအက္ခရာစာလုံးများအတွက် Mr. Michael Everson မှ တင်သွင်းခဲ့သော အဆိုပြုချက် ယင်းမြန်မာအက္ခရာစာလုံးများအတွက် Unicode points များမှာ (1480)16 မှ (14FF)16 ထိ (၁၂၈)ကွက်သာ လျာထားသတ်မှတ်ပေးထားပြီး Mr. Michael Everson ၏ အဆိုပြုချက်၌ (အ၊ အာ၊ ဣ၊ ဤ... စသည့်) Vowel များကို ဦးစွာနေရာပေး စီစဉ်ထားသောကြောင့် 'အ' အက္ခရာမှာ ဗျည်းအက္ခရာ 'က' ၏ ရှေ့၌ ရောက်ရှိနေရာယူထားသည်ကို တွေ့နိုင်ပါသည်။ မြန်မာနိုင်ငံ မြန်မာစာ အဖွဲ့ဦးစီးဌာနမှပြဌာန်းထားသော မြန်မာစာလုံးပေါင်းသတ်ပုံကျမ်းပါ ဝလိစဉ်နည်း (Sorting) နှင့်ကိုက်ညီမှု လုံးဝမရှိကြောင်း တွေ့ရသဖြင့် ယင်းစနစ်နှင့်အပြိုင် အဆိုပြုချက်(Proposal) တစ်ခုကို ISO/IEC JTC1/SC2/WG2 အစည်းအဝေးအမီ မိခင်မြန်မာနိုင်ငံမှ တင်ပြနိုင်စေရန် မြန်မာနိုင်ငံ ကွန်ပျူတာပညာဖွံ့ဖြိုးရေးကောင်စီက ''မြန်မာစာသုံး ကွန်ပျူတာစနစ် ဖြစ်မြောက်ရေးကော်မတီ '' Myanmar IT Standardization Committee (MITSC) ကို ပညာရှင် (၉)ဦးဖြင့်ဖွဲ့စည်းပေးခဲ့ပါသည်။ MITSC အဖွဲ့ဝင်များမှာ ဒေါက်တာကျော်သိန်း၊ ဦးစံလွင်၊ ဦးထွန်းတင့်၊ ဦးသော်ကောင်း၊ ဦးခင်မောင်လွင်၊ဦးသောင်းတင်၊ ဦးသိန်းထွဋ်၊ ဒေါက်တာအောင်မော် နှင့် ဦးပြုံးမောင်မောင် တို့ ဖြစ်ကြပါသည်။
ဖြစ်မြောက်ရေးကော်မတီသည် အပြိုင်အဆိုပြုချက် တစ်ခုတင်ပြရန်အတွက် မြန်မာနိုင်ငံ မြန်မာစာအဖွဲ့ဦးစီးဌာန၏ မြန်မာစာလုံးပေါင်း သတ်ပုံကျမ်းကို ကိုးကားလျက် မြန်မာစာအဖွဲ့ဦးစီးဌာန၏ ထောက်ခံချက်နှင့်တကွ အပြိုင် အဆိုပြုချက်တစ်ခုကို ဂျပန်နိုင်ငံ မှ ISO/Working Group2 အဖွဲ့ဝင် Mr. Takayuki SATO အကူအညီဖြင့် ISO သို့ပေးပို့တင်ပြခဲ့ရာ ၁၉၉၈ ခုနှစ် စက်တင်ဘာလ (၂၁) မှ (၂၉)ရက်အထိ လန်ဒန်မြို့၌ ကျင်းပပြုလုပ်သော ISO/IEC/JTC1/SC2/WG2တွင် လေ့လာသူအဖြစ် တက်ရောက်ခွင့် ရရှိခဲ့ပါသည်။ ဖြစ်မြောက်ရေးကော်မတီ ဥက္ကဋ္ဌ ဒေါက်တာကျော်သိန်း ဦးဆောင်လျက် ဦးသောင်းတင်၊ ဦးသိန်းထွဋ်၊ ဦးခင်မောင်လွင်၊ ဒေါက်တာ အောင်မော် ပညာရှင် (၅)ဦးသည် ယင်းအစည်းအဝေးသို့ တက်ရောက်ခဲ့ ကြပါသည်။ ISO အဖွဲ့ဝင်မဟုတ်၍ ပြောပိုင်ခွင့်၊ ဆွေးနွေးခွင့်ကို မရရှိခဲ့သော်လည်း နောက်ပိုင်းတွင် ပထမအဆိုရှင် Mr. Michael Everson အပါအဝင် Unicode မှ ပုဂ္ဂိုလ်များ၊WG2 မှပညာရှင်များ ၏ ထောက်ခံတင်ပြချက်အရ MITSC တင်သွင်းသော အဆိုပြိုင် (ယပင့်၊ ရရစ်၊ ဝဆွဲ၊ ဟထိုး၊ မောက်ချ နှင့်အသတ်ရှေ့ထိုးတို့အား ပြင်ဆင်ချက်ဖြင့်)ကို လက်ခံခဲ့ကာ နောက်(၆)လ တစ်ကြိမ် အစည်းအဝေး များ၌ Amendment 26ဖြင့် ပြင်ဆင်ခွင့်ရရှိခဲ့ပြီး နောက်(၆)လ တစ်ကြိမ် အစည်းအဝေးများဖြင့် အတည်ပြုချက်ရယူရန်ကိုပါ ဆုံးဖြတ်ခဲ့ပါသည်။
မြန်မာအက္ခရာစာလုံးများအတွက် သတ်မှတ်နေရာကိုလည်း U+1000 မှ U+109F အထိ (၁၆၀)ကွက်ထိ တိုးချဲ့ကာ Table 240 – Row 10: Myanmar ဟူ၍ သတ်မှတ်နိုင်ခဲ့ပြီး၊ မြန်မာစာကို Burmese အစား Myanmar ဟု ISO ဖော်ပြချက်များ၌ သုံးစွဲရန်ကိုပါ သဘောတူခဲ့ပါသည်။  ပုံ။ FMAM for ISO/IEC 10646-1: 1993/Amd. 26: 1999 (E)MYANMAR 1000-109F ၁၉၉၉ ခုနှစ် မတ်လတွင် ဂျပန်နိုင်ငံ ဖူကူအိုကာမြို့၌ကျင်းပခဲ့သော ISO/WG2 အစည်းအဝေးကို မြန်မာနိုင်ငံ MITSC မှ ကိုယ်စားလှယ်များ တက်ရောက်ခဲ့ရာ ယင်းအဆိုကို ပထမအဆင့် အပြီးသတ် Final Draft Amendment (FDAM)အဖြစ်အတည်ပြုနိုင်ခဲ့ပါသည်။ ထိုစံသတ်မှတ်ချက်ကို ၂၀၀၀ ခုနှစ်တွင် ထုတ်ဝေသော Unicode Standard 3.0 စာအုပ်မှ စတင်ကာ Unicode Standard 5.0 အထိ စာအုပ်များတွင် အထက်ပါအတိုင်း တွေ့ရှိနိုင်ပါသည်။
မြန်မာအက္ခရာစာလုံးများ Unicode Point ရပြီးစ မြန်မာအက္ခရာစာလုံးများအတွက် Unicode point များ ရရှိပြီးနောက် ပညာရှင်များက မိမိတို့ စိတ်ဝင်စားရာများကို တစ်ဦးချင်း သုတေသနပြုခဲ့ကြရာ အင်္ဂလိပ်အက္ခရာ စာလုံးများအတွက် သတ်မှတ်ထားသောနံပါတ် (ASCII code အစား မြန်မာအက္ခရာစာလုံးများအတွက် သတ်မှတ်ထားသောနံပါတ် (Unicode point) ကို အသုံးပြုထားသည့် မြန်မာစာလုံးစနစ် (ဥပမာ- မြစေတီ၊ ဇော်ဂျီ၊ မန္တလေး စသည်)တို့ကိုတီထွင် နိုင်ခဲ့ကြပါသည်။ သို့သော်လည်း Unicode Technology ကို အပြည့်အဝ အသုံးမချနိုင်ခဲ့ပါ။
နိုင်ငံတော်အကြီးအကဲများကအမျှော်အမြင်ကြီးစွာဖြင့် ပညာရှင်များ စုစည်းပြီး လုပ်ဆောင်ကြဖို့ လမ်းညွှန်ခဲ့တာ ကြောင့် ၂၀၀၃ခုနှစ် အောက်တိုဘာလ (၂၇)ရက်နေ့ မှ စပြီး အီလက်ထရောနစ် အမျိုးသားအဆင့်လုပ်ငန်းအဖွဲ့ ((e-National Task Force (e-NTF)) ၏ ဦးဆောင်မှုဖြင့် အဖွဲ့ဝင် (၁၇)ဦး ပါဝင်သော အဖွဲ့ကို ဖွဲ့စည်းပြီး လုပ်ငန်းစီမံချက်များ ချမှတ်လုပ်ဆောင်ခဲ့ပါသည်။  http://www.myanmarnlp.net.mm လုပ်ငန်းစီမံချက်များ ကွန်ပျူတာသုံး မြန်မာစာစနစ် အကောင်အထည် ဖော်ခြင်းကို အောက်ပါလုပ်ငန်းစီမံချက်အတိုင်း အဆင့်(၄)ဆင့် ချမှတ်ဆောင်ရွက်ခဲ့ပါသည်။
(၁) အခြေခံ မြန်မာစာသုံးစနစ် Basic Language Support ( Enabling Kit) • Typing and Editing • OS Interface in Myanmar • Office Interface in Myanmar • Local setting (Date, Time, Currency) (၂) အဆင့်မြင့် မြန်မာစာသုံးစနစ် အဆင့်-၁ Advanced Support Level 1 • Sorting • Searching (၃) အဆင့်မြင့် မြန်မာစာသုံးစနစ် အဆင့်-၂ Advanced Support Level 2 • Dictionary • Spelling Check • Thesaurus • MUI (Multiple User Interface) (၄) အဆင့်မြင့် မြန်မာစာသုံးစနစ် အဆင့်-၃ Advanced Support Level 3 • Optical Character Reader (OCR) • Machine Translation • Transliteration • Voice Recognition • Hand Script Recognition
အထက်ပါ လုပ်ငန်းစီမံချက်များကို Microsoft (MS) Platform မှာသာမက Open Source Software (OSS) Platform မှာပါ လုပ်ကိုင်ရရှိအောင် အကောင်အထည်ဖော် ဆောင်ရွက်ရန် ချမှတ်ခဲ့ခြင်း ဖြစ်ပါသည်။
လုပ်ငန်းဖော်ဆောင်မှုများ
ပထမဦးစွာ အခြေခံ မြန်မာစာသုံးစနစ် မှ Typing and Editing (ကွန်ပျူတာသို့ မြန်မာစာ ရိုက်သွင်းခြင်းနှင့်ပြင်ဆင် တည်းဖြတ်ခြင်း)အတွက် ISO 10646 အရသတ်မှတ်ပြီး Unicode Space တွင် သတ်မှတ်ပေးခဲ့သောစံအတိုင်း လုပ်ဆောင်ခဲ့ကြပါသည်။ ဤတွင် Unicode Consortium မှ စံသတ်မှတ်ခြင်းသည် Code Point သတ်မှတ်ပေးရုံသာမက စာလုံးပေါင်း ပေါင်းရာတွင်လည်း စာလုံးပေါင်းမတူပါက စာလုံးအတွက် သတ်မှတ်ပေးသော နံပါတ်တွဲ မတူညီစေသော Encoding Sequence ကိုပါ သတ်မှတ်ပေးပါသည်။
ရရှိထားပြီး စံသတ်မှတ်ထားချက်နှင့် ကိုက်ညီပြီး Unicode Technologyကို အသုံးပြုထားသော မြန်မာစာလုံးစနစ်တီထွင်ရန် ကြိုးပမ်းခဲ့ကြရာ MS Windows OS တွင် လိုအပ်သလို ပြင်ဆင် လုပ်ကိုင်ရန် မဖြစ်နိုင်ပါသောကြောင့် ကမ္ဘာတွင် တစ်ဟုန်ထိုး ပြန့်ပွား လာနေသော Open Source Software (OSS) Platform မှ Linux OSတွင် အသုံးပြု၍ရသော M17N မြန်မာစာလုံးစနစ် (Font)ကို တီထွင်စမ်းသပ်ရန် ကြိုးစားခဲ့ကြရာ၊ ''လင်းနပ်စ် မြန်မာစာအထောက်အကူပြု စနစ် (စမ်းသပ်အဆင့်၁)'' (Myanmar Enabling Kit (Beta Version)) CDကို ၂၀၀၅ ခုနှစ် ဇန်နဝါရီလ၊ စတုတ္ထအကြိမ်မြောက်မြန်မာအိုင်စီတီ ရက်သတ္တပတ်တွင် အောင်မြင်စွာ ဖြန့်ချီ နိုင်ခဲ့ပါသည်။ ထို Distribution တွင် (၁) မြန်မာစာဘာသာပြန်ခြင်း (၂) မြန်မာစာစီစာရိုက်ပြုလုပ်နိုင်ခြင်း (၃) မြန်မာဘာသာဖြင့် အက္ခရာစဉ်ခြင်း (၄) မြန်မာဘာသာဖြင့် Date/Time Settingများပြုလုပ်ခြင်း (၅) မြန်မာဘာသာသုံး အင်တာနက် Browser ဖြင့် အင်တာနက် ကြည့်ရှုနိုင်ခြင်း (၆) မြန်မာဘာသာဖြင့် အီးမေးလ်အသုံးပြုနိုင်ခြင်း တို့ကိုပြုလုပ်နိုင်ပြီ ဖြစ်ပါသည်။  အဲဒီစာလုံးစနစ်ကို အသုံးပြုပြီး ရိုက်ထားသောစာသားများကို Portable Document Format (PDF) ပြောင်းပြီးမှ Printout ထုတ်လို့ရတာကြောင့် Open Type Technology ဖြင့် ဖြေရှင်းဖို့ ကြိုးစားရာမှ နောက်စာလုံးစနစ်တစ်ခုကို မြန်မြန်ဆန်ဆန် တီထွင်ဖြစ်ခဲ့ပါတယ်။ Windows based Open Type Font Technology ကို အသုံးပြုထားတဲ့ ''ယူနီကုဒ်သုံး မြန်မာစာလုံး စနစ် (စမ်းသပ်အဆင့်) (Myanmar1)''ကို ၂၀၀၅ခုနှစ် အောက်တိုဘာလ (၁၂)ရက် နေ့မှာ အောင်မြင်စွာ တီထွင်ဖြန့်ချိနိုင်ခဲ့ပြီး၊ စာစီစာရိုက် ပြုလုပ်ခြင်း၊ စာရင်းဇယားများ ရေးဆွဲခြင်း၊Web Page များရေးသားခြင်း၊ မြန်မာလို Email ပို့ခြင်းတို့ကို လုပ်ဆောင်နိုင်ခဲ့ပြီးဖြစ်သည်။  မြန်မာစာစနစ်ကို ကွန်ပျူတာတွင် အသုံးပြုရန် အတွက် ယူနီကုဒ်သုံးမြန်မာစာလုံးစနစ် (Myanmar Unicode font) အား တပ်ဆင် (Install လုပ်ရုံ)ဖြင့် မပြီးပါ။ Operating System အဆင့် လုပ်ဆောင်ရန် လိုအပ်ချက်များ ပါရှိလာ ပါသည်။ Localization လုပ်ဆောင်နိုင်ရန် အတွက်လည်း Menu များကို ဘာသာပြန်ဆိုရပါသည်။ Microsoft Platform နှင့် OSS platform အတွက1st level (ပထမဦးစွာ တွေ့ရှိရသည့်) Menu များကို ဘာသာပြန်ဆိုပြီးဖြစ်ပါသည်။
Platform နှစ်မျိုးလုံးအတွက် Local Setting (Date, Time, Currency)အားသတ်မှတ်ပြီးစီးနေပြီး၊ Linux Platform တွင် လက်တွေ့သုံးစွဲနိုင်ပြီဖြစ်ပါသည်။ Ms Platform တွင် အသုံးပြုနိုင်ရန် အတွက်Microsoft မှ လုပ်ဆောင်ပေးရန် ကျန်ရှိနေပါသည်။
ထို့ပြင် စာလုံးပေါင်း သတ်ပုံစစ်ဆေးခြင်း၊ စာလုံး အတိအကျရှာနိုင်ခြင်း၊ ကွန်ပျူတာဖြင့် ဘာသာပြန်ဆိုခြင်းတို့ အတွက် အခြေခံအသုံးပြုရမည့် ဝေါဟာရများ ပါရှိသည့် Lexicon(Word Level) ကိုလည်း ပြုစုခဲ့ကြပါသည်။
တိုးချဲ့ဖွဲ့စည်းခြင်း
မြန်မာနိုင်ငံ တစ်ဝန်းလုံးရှိ မြန်မာစာတတ်မြောက်သူတိုင်း ကွန်ပျူတာကို အသုံးပြုနိုင်၍ သတင်း အချက်အလက်များ ရယူအသုံးချနိုင်ရန်၊ နယ်ပယ် အသီးသီးတွင် ကွန်ပျူတာသုံးစနစ်များကို မြန်မာဘာသာဖြင့် အသုံးချနိုင်ရန်စသည့် ရည်ရွယ်ချက်များဖြင့် အကောင်အထည်ဖော်ရန် ကျန်ရှိနေသော လုပ်ငန်းများဖြစ်သည့် စာလုံးပေါင်းသတ်ပုံစစ်ဆေးခြင်း၊ ကမ္ဘာသုံးဘာသာစကား အမျိုးမျိုးကို မြန်မာဘာသာသို့ ကွန်ပျူတာဖြင့် ဘာသာပြန်ဆိုခြင်း၊ စသည်တို့ကို လုပ်ဆောင်နိုင်သည့် အဆင့်မြင့်မြန်မာစာသုံးစနစ်ကို ပိုမိုထိရောက်မြန်ဆန်စွာ အကောင်အထည်ဖော် ဆောင်ရွက်နိုင်ရန် အတွက် ပြည်ထောင်စုမြန်မာနိုင်ငံတော် ဝန်ကြီးချုပ်ရုံး၏ ၁၄-၁၁-၂၀၀၅ ရက်နေ့စွဲပါ အမိန့် ကြော်ငြာ စာအမှတ် ၃၅/၂၀၀၅ ဖြင့် အီလက်ထရောနစ် အမျိုးသားအဆင့်လုပ်ငန်းအဖွဲ့၊ ဥက္ကဋ္ဌ၊ ဆက်သွယ်ရေး၊ စာတိုက်နှင့် ကြေးနန်းဝန်ကြီးဌာန၊ ဝန်ကြီး ဥက္ကဋ္ဌအဖြစ် ဦးစီးသော ''ကွန်ပျူတာသုံး မြန်မာစာစံနစ် အကောင်အထည်ဖော်ခြင်းအဖွဲ့''ကို တိုးချဲ့ဖွဲ့စည်းပေးခဲ့ပါသည်။ လုပ်ငန်းတာဝန်များအလိုက် လုပ်ငန်း အဖွဲ့ (၄)ဖွဲ့ကို ထပ်ဆင့်ဖွဲ့စည်း လုပ်ဆောင်လျက်ရှိပါသည်။
ကွန်ပျူတာသုံး မြန်မာစာစနစ် အကောင်အထည်ဖော်ခြင်းအဖွဲ့
ကွန်ပျူတာသုံးဘာသာပြန်နှင့်သိမှတ်စနစ်လုပ်ငန်းအဖွဲ့ (Working Group for Machine Translation and Recognition Systems)
ကွန်ပျူတာသုံး မြန်မာအဘိဓာန်လုပ်ငန်းအဖွဲ့ (Working Group for Myanmar Lexicon)
ကွန်ပျူတာသုံး မြန်မာစာစနစ်စံနှင့် အသုံးချရေးလုပ်ငန်းအဖွဲ့ (Working Group for Natural Language Processing standard and Applicationsျ)
ပေါင်းစပ်ညှိနှိုင်းရေး လုပ်ငန်းအဖွဲ့ (Working Group for Coordination)
လုပ်ငန်းအဖွဲ့အသီးသီး၏လုပ်ငန်းတာဝန်များနှင့်လုပ်ဆောင်နေမှုများ
(က) ကွန်ပျူတာသုံး ဘာသာပြန်နှင့် သိမှတ်စနစ် လုပ်ငန်းအဖွဲ့ (Working Group for Machine Translation and Recognition Systems)
လုပ်ငန်းတာဝန်များမှာ
(၁) Developing Expert Systems for Machine Translation (၂) Implementing Software for Optical Character Reader (OCR) တို့ဖြစ်ပါသည်။
ဤလုပ်ငန်းအဖွဲ့သည် ပထမအဆင့်အဖြစ် အင်္ဂလိပ်ဘာသာမှ မြန်မာဘာသာသို့ ပြန်ဆိုနိုင်ရန် ဆောင်ရွက်လျက်ရှိပါသည်။ Rule Based Machine Translation ကိုအသုံးပြုထားပြီး၊ စာကြောင်း တစ်ကြောင်းချင်းစီအား လက်တွေ့ ဘာသာပြန်နိုင်ပြီ ဖြစ်သည်။ ကွန်ပျူတာသုံးအဘိဓာန် လုပ်ငန်း ပြီးစီးပါက ပိုမိုကောင်းမွန်သော စနစ်ကို ရရှိနိုင်ပါမည်။
(ခ) ကွန်ပျူတာသုံး မြန်မာအဘိဓာန် လုပ်ငန်းအဖွဲ့ (Working Group for Myanmar Lexicon)
လုပ်ငန်းတာဝန်များမှာ (၁) Word Breaking , Line Breaking Rules တည်ဆောက်ခြင်း၊ (၂) Dictionary in Digital Format (၃) Lexicon ပြုစုခြင်းတို့ ဖြစ်ပါသည်။
ပြုစုပြီး ဝေါဟာရများစာရင်း (Word Level Lexicon ) ကို အခြေပြု၍ စာလုံးတစ်လုံးစီအတွက် အောက်ပါအတိုင်း အချက်အလက်ပေါင်း (၂၀) ပါရှိသည့် ဘာသာဗေဒဆိုင်ရာ ကွန်ပျူတာသုံး မြန်မာအဘိဓာန် (မူ ၁.၀) ပြုစုခြင်းကို ဆောင်ရွက်ပြီးစီးပြီ ဖြစ်ပါ၍ ၂၀၀ရခုနှစ် ဒီဇင်ဘာလ (၁၄)ရက်နေ့တွင် ဖြန့်ချိခဲ့ပါသည်။ စာလုံးတစ်လုံးစီမှအနက်ကွဲ၊ ဝါစင်္ဂကွဲပြားချက်များကြောင့် ကွန်ပျူတာသုံးမြန်မာအဘိဓာန် စာလုံးရေ (၃၅၂၈၉) ပါဝင်ပြီး၊ ကွန်ပျူတာအချက်အလက်အဖြစ် မှတ်တမ်းတင်ပြီး ဖြစ်ပါသည်။ 
စာလုံးရေ (၃၅၂၈၉) အတွက် အက္ခရာအလိုက် အသေးစိတ် အခြေအနေမှာ အောက်ပါအတိုင်း ဖြစ်ပါသည်။ 
(ဂ) ကွန်ပျူတာသုံး မြန်မာစာစနစ်စံနှင့် အသုံးချရေးလုပ်ငန်းအဖွဲ့ (Working Group for Natural Language Processing standard and Applications)
လုပ်ငန်းတာဝန်များမှာ (၁)Typing and Editing (၂) Encoding (၃)Local Setting (၄) Sorting (၅) Searching (၆) Developing Program for Spelling Checking (၇) Transliteration တို့ဖြစ် ပါသည်။
ရရှိပြီးစံသတ်မှတ်ချက်နှင့်ကိုက်ညီသော''ယူနီကုဒ်သုံးမြန်မာစာလုံးစနစ် (စမ်းသပ်အဆင့်) (Myanmar1)'ကိုဖြန့်ချိပြီးနောက် စာလုံးပေါင်း မတူညီပေမဲ့ စာလုံးပေါင်း အချို့ အတွက် သတ်မှတ်ပေးသော နံပါတ်တွဲများ တူညီနေတာ တွေ့ရှိရပါသောကြောင့် စံသတ်မှတ်ချက်များ (ယပင့်၊ ရရစ်၊ ဝဆွဲ၊ ဟထိုး၊ မောက်ချ နှင့် အသတ်ရှေ့ထိုးတို့အတွက် စံ)ထပ်မံရရှိနိုင်ရန် ၂၀၀၄ခုနှစ် ဇွန်လ (၂၁)ရက်မှ (၂၅)ရက်နေ့ထိ ကနေဒါနိုင်ငံ Markham, Ontario မြို့ IBM Toronto Lab IBM Toronto Lab ကျင်းပပြုလုပ်ခဲ့သော ISO/IEC JTC1/SC2 Meeting 45 သို့ ဦးသိန်းဦး၊ ဦးထွန်းတင့်၊ ဦးဇော်ထွဋ် နှင့် ဦးငွေထွန်း ပါဝင်သော အဖွဲ့က သွားရောက်၍proposal များ ထပ်မံတင်သွင်း ဆွေးနွေးခဲ့ပါသည်။ ထိုသို့တင်သွင်းခဲ့သော Proposal များကို ရှင်းလင်း ဆွေးနွေးရန်အတွက် ၂၀၀၅ခုနှစ်၊ ဇန်နဝါရီလ(၂၄)ရက်မှ (၂၈)ရက် နေ့အထိ တရုတ်ပြည်သူ့ သမ္မတနိုင်ငံ Fujian Pravince, Xiamen မြို့၌ ကျင်းပပြုလုပ်သော ISO/IEC/JTC1/SC2/ WG2 Meeting 46 သို့ ဒေါက်တာကျော်သိန်း နှင့် ဦးထွန်းတင့် တို့ တက်ရောက်၍ ဆွေးနွေးခဲ့ကြပါသည်။ ထို့အပြင် တင်သွင်းထားသော စံသတ်မှတ်ချက်များ ရရှိစေရန် ၂၀၀၆ခုနှစ် ဖေဖော်ဝါရီ ၁၃ရက်က ၁၅ရက်ထိ နိုင်ငံခြာသား ပညာရှင်များဖြစ်တဲ့ Everson Typography မှ Mr. Michael Everson နဲ့ Non-Roman Scripts Engineer, Mr. Martin Hosken တို့ကို မြန်မာပြည်သို့ ဖိတ်ခေါ်၍၊ Workshop on Myanmar Language Processing ကို ကျင်းပပြုလုပ်ပြီး အသေးစိတ် ဆွေးနွေးခဲ့ပါသည်။  ထို့ကြောင့် ၂၀၀၆ခုနှစ် ဧပြီလ ၂၄ရက်မှ ၂ရရက်ထိအမေရိကန်နိုင်ငံ California ပြည်နယ် Mountain View ရှိ Micrsoft Silicon Valley Campus ၌ ကျင်းပတဲ့ ISO/IEC/JTC1/SC2/WG2 Meeting 48 မှာ Working Group မှResolution M48.15 (7 Myanmar additions) ဖြင့်အောက်ပါအတိုင်း လက်ခံခဲ့ပြီး၊ ယခုအခါ Unicode Standard 5.1.0 စာအုပ်ထုတ်ဝေရာတွင် ပါဝင်နိုင်ခဲ့ပြီ ဖြစ်ပါသည်။ တီထွင်ပြီး ''ယူနီကုဒ်သုံး မြန်မာစာလုံးစနစ်(စမ်းသပ်အဆင့်) (Myanmar1)'' ၏ အားနည်းချက် များအား နှိုင်းယှဉ်ပြနိုင်ရန်ISO Meeting 48 မှ လက်ခံနိုင်ဖို့အတွက် အဆိုပြု တင်သွင်းသည့် စံအသစ်ဖြင့်တီထွင်ထားသော''ယူနီကုဒ်သုံး မြန်မာစာလုံးစနစ် (စမ်းသပ်အဆင့် ၂) (Myanmar2)''ကို ၂၀၀၆ခုနှစ် ဇူလိုင်လအတွင်း ထပ်မံဖြန့်ချိခဲ့ပါသည်။  ''ယူနီကုဒ်သုံး မြန်မာစာလုံးစနစ် (စမ်းသပ်အဆင့် ၂) (Myanmar2)''မှ အားနည်းချက်များအား ပြင်ဆင်ပြီး ISO Meeting 48 မှ လက်ခံထားသည့် (Unicode Standard 5.1.0)ပါ စံအသစ်ဖြင့် ပြန်လည်တီထွင်ထားသော ''ယူနီကုဒ်သုံးမြန်မာစာလုံးစနစ် (မူ-၁) (Myanmar3)” ကို ၂၀၀၇ ခုနှစ်ဒီဇင်ဘာလ (၁၄)ရက်နေ့တွင် ထပ်မံဖြန့်ချိခဲ့ပါသည်။ ဤတွင် Myanmar2 နှင့် Myanmar3 စာလုံးစနစ်တို့သည် စံသတ်မှတ်ချက်များတူညီသောကြောင့် Myanmar2ကို ရွေးပြီး (Select လုပ်ပြီး) Font တွင် ပြောင်းရုံသာ လုပ်ဆောင်ဖို့ လိုအပ်ကြောင်း အသိပေးလိုပါသည်။ ထိုသို့ စာလုံးစနစ်ပြောင်းလဲ အသုံးပြုခြင်းအတွက်မူလက သိမ်းဆည်းထားသော အချက်အလက် (Data) များကိုစာလုံးစနစ်အသစ်ဖြင့် ပြန်လည်သိမ်းဆည်း ခေါ်ယူသုံးစွဲ (Data Migration ပြုလုပ်) နိုင်ရနWin-Myanmar မှ Myanmar2 သို့လည်းကောင်း၊ Myanmar1 မှ Myanmar2 နှင့် Myanmar2 မှ Myanmar1 သို့ (အပြန်အလှန်) လည်းကောင်း ပြောင်းလ ဲပေးနိုင်သော Program ကိုလည်း တီထွင်ထားကြောင်း အသိပေးလိုပါသည်။ ဝန်ကြီးဌာနများရှိ ရုံးများတွင် အသုံးပြုနေမှုများ အတွက် ကူညီပံ့ပိုးလျက်ရှိပါသည်။
မြန်မာစာရေးထုံး (Burmese Writing System) တွင် စာလုံးပေါင်း တစ်လုံးနှင့် တစ်လုံးအကြား ပိုင်းခြားစေမည့် မည်သည့်သင်္ကေတမျှ (Inter word break) မရှိပါ။ စကားလုံး(Word) တစ်လုံးနှင့် တစ်လုံး အကြားတွင်လည်း ပိုင်းခြားစေခြင်း (Word) မရှိပါ။ ယခုလက်ရှိ စာစီစာရိုက်တွင် စာရိုက်သူ၏ စိတ်တိုင်းကျ ပိုင်းခြားပြီး ကွက်လပ် (Space )များ ရိုက်နှိပ်နေကြခြင်းသာ ဖြစ်သည်။ စာကြောင်း မဆန့်သည့်အခါတွင်လည်း နောက်တစ်ကြောင်းသို့ စနစ်တကျ မဟုတ်ပဲ မိမိတို့ စိတ်ကြိုက်သာ ဆင်းစေနေခြင်းသာ ဖြစ်သည်။
ကွန်ပျူတာအသုံးပြုပြီး စကားလုံး (Word) များ သိရှိ ဖြတ်တောက် (Word Break) နိုင်ရန်၊ စာကြောင်း တစ်ကြောင်းမှ နောက်တစ်ကြောင်း သို့ စနစ်တကျ ဆင်းစေ (Line Break) နိုင်ရန်တို့၏ အခြေခံဖြစ်သော အသံတစ်သံအလိုက် ဖြတ်တောက်ခြင်း (Break) (ဝဏ္ဏဖြတ်စနစ်) ကို ''ယူနီကုဒ်သုံး မြန်မာစာလုံးစနစ် (မူ-၁) (Myanmar3)'' နှင့်အတူ ၂၀၀ရခုနှစ် ဒီဇင်ဘာလ (၁၄)ရက်နေ့တွင် ဖြန့်ချိခဲ့ပါသည်။  ထိုသို့ စာလုံးစနစ်ပြောင်းလဲ အသုံးပြုခြင်းအတွက်မူလက သိမ်းဆည်းထားသော အချက်အလက် (Data) များကိုစာလုံးစနစ်အသစ်ဖြင့် ပြန်လည်သိမ်းဆည်း ခေါ်ယူသုံးစွဲ (Data Migration ပြုလုပ်) နိုင်ရနWin-Myanmar မှ Myanmar2 သို့လည်းကောင်း၊ Myanmar1 မှ Myanmar2 နှင့် Myanmar2 မှ Myanmar1 သို့ (အပြန်အလှန်) လည်းကောင်း ပြောင်းလဲပေးနိုင်သော Program ကိုလည်း တီထွင်ထားပြီး ဖြစ်ပါသည်။ ဝန်ကြီးဌာနများရှိရုံးများတွင် အသုံးပြုနေမှုများ အတွက် ကူညီပံ့ပိုးလျက်ရှိပါသည်။
မြန်မာစာရေးထုံး (Burmese Writing System) တွင် စာလုံးပေါင်း တစ်လုံးနှင့် တစ်လုံးအကြား ပိုင်းခြားစေမည့် မည်သည့်သင်္ကေတမျှ (Inter word break) မရှိပါ။ စကားလုံး(Word) တစ်လုံးနှင့် တစ်လုံး အကြားတွင်လည်း ပိုင်းခြားစေခြင်း (Word) မရှိပါ။ ယခုလက်ရှိ စာစီစာရိုက်တွင် စာရိုက်သူ၏ စိတ်တိုင်းကျ ပိုင်းခြားပြီး ကွက်လပ် (Space )များ ရိုက်နှိပ်နေကြခြင်းသာ ဖြစ်သည်။ စာကြောင်း မဆန့်သည့်အခါတွင်လည်း စနစ်တကျ မဟုတ်ပဲ မိမိတို့ စိတ်ကြိုက်သာ နောက်တစ်ကြောင်းသို့ ဆင်းစေနေခြင်းသာ ဖြစ်သည်။
ကွန်ပျူတာအသုံးပြုပြီး စကားလုံး (Word) များ သိရှိ ဖြတ်တောက် (Word Break) နိုင်ရန်၊ စာကြောင်း တစ်ကြောင်းမှ နောက်တစ်ကြောင်း သို့ စနစ်တကျ ဆင်းစေ (Line Break) နိုင်ရန်တို့၏ အခြေခံဖြစ်သော အသံတစ်သံအလိုက် ဖြတ်တောက်ခြင်း (Break) (ဝဏ္ဏဖြတ်စနစ်) ကို ''ယူနီကုဒ်သုံး မြန်မာစာလုံးစနစ် (မူ-၁) (Myanmar3)'' နှင့်အတူ ၂၀၀ရခုနှစ် ဒီဇင်ဘာလ (၁၄)ရက်နေ့တွင် ဖြန့်ချိခဲ့ပါသည်။ picture ထိုဝဏ္ဏဖြတ်စနစ် (Syllable Break) ကို အခြေခံ၍ စာလုံးများရှာဖွေခြင်း (Exact Search) ရရှိအောင် လုပ်ဆောင် ထားပြီးဖြစ်သည်။ စကားလုံးအဖြတ်အတောက် (Word Break) နှင့် ကွန်ပျူတာသုံးဘာသာပြန်စနစ် (Machine Translation) တို့လုပ်ဆောင်ရာတွင် အသုံးပြုရန် လိုအပ်သော စကားစုများ(Corpus) တည်ဆောက်ခြင်း (Myanmar National Corpus Collection System) ကိုလည်း ဝါကျအဆင့် သိမ်းဆည်း ပေးနိုင်သောစနစ်ကို တည်ဆောက် ပြီးစီးနေပြီ ဖြစ်ပါသည်။
(ဃ) ပေါင်းစပ် ညှိနှိုင်းရေး လုပ်ငန်းအဖွဲ့ (Working Group for Coordination) လုပ်ငန်းတာဝန်မှာ လုပ်ငန်းများ အဆင်ပြေချောမွေ့စေရန် အတွက် လုပ်ငန်းအဖွဲ့များအား ပေါင်းစပ်ညှိနှိုင်း ကူညီပံ့ပိုးပေးရန် ဖြစ်ပါသည်။
ဆက်လက်လုပ်ဆောင်နေမှု
ယူနီကုဒ်သုံး မြန်မာစာလုံးစနစ်ကို အသုံးပြု၍ ရုံးစာရိုက်ရုံသာမက အချက်အလက်(Data)ကို သိမ်းဆည်း ခေါ်ယူသုံးစွဲခြင်း (Data Processing ) တို့ (အထူးသဖြင့် e-Government Project များ) လုပ်ဆောင်ရာတွင် အချက် အလက်များ ဝလိစဉ်ခြင်း (Sorting)၊ စာကြောင်းများတွင် စာလုံးများ မဆန့်၍ နောက်တကြောင်းသို့ စာလုံးများ အဆင်ပြေစွာ ဆင်းခြင်း (Line Break) နှင့် စကားလုံး အဖြတ်အတောက် (Word Break ) တို့ ရရှိစေရန် ဆက်လက်ကြိုပမ်း လုပ်ဆောင်လျက်ရှိပါသည်။ ထိုမှဆက်၍ အင်္ဂလိပ်ဘာသာမှ မြန်မာဘာသာသို့ စာပိုဒ်လိုက် စာကြောင်း များ ရှေ့နောက် ဆက်စပ်၍ ဘာသာပြန်နိုင်ရန် ဆက်လက် လုပ်ဆောင်ရမည့် လိုအပ်ချက်များကို လုပ်ငန်းအဖွဲ့များ ပေါင်းစပ်ညှိနှိုင်း လုပ်ဆောင်လျက်ရှိပါသည်။
|