யுனிகோடு ( ஒருங்குறி ) தமிழ் எழுத்துரு வரலாறு

This entry is part [part not set] of 33 in the series 20061228_Issue

துரை குமரன்


முத்தமிழுடன் நான்காம் தமிழாகிய அறிவியல் தமிழும் அதன் உட்கூறாகிய கணினித்தமிழும் கணினியாலும், இணையத்தாலும் இன்று பெருவளர்ச்சி கண்டுள்ளது. கணினித் தொழில்நுட்பத்தை முழுமையாகப் பயன்படுத்துவதில் உலகத்தமிழர் முன்னிற்கின்றனர். உலகெங்கும் பரவி வாழ்ந்து வரும் அத்தமிழர்களை ஒன்றுகூட்டும் சாதனமாகக் கணினியும், அதன் தொழில்நுட்ப வளர்ச்சியுமாகிய இணையமும் விளங்குகிறது.

அண்மைக்காலத்தில் கணினி மற்றும் இணையப் பயன்பாட்டில் ஏற்பட்ட வியத்தகு மாற்றங்களில் ஒன்று கணினித்தமிழ். பெரும்பான்மை கணினிப் பயன்பாட்டில் ஆங்கிலத்தையடுத்து, தமிழின் பயன்பாடு சிறப்பிடம் வகிக்கிறது. தொடக்க காலத்தில் கணினியில் தமிழைப் பயன்படுத்த மேற்கொண்ட முயற்சிகள் பல. அம் முயற்சிகளின் முதல்படியாகக் கணினியில் தமிழ் எழுத்துரு குறியாக்கத்தின் வளர்ச்சி அமைந்தது. அவ்வகையில் தற்போது பொதுவாகப் பயன்பாட்டில் இருந்து வரும் யுனிகோடு குறியாக்கம் (Unicode Encoding) குறித்த வரலாற்றினை ஆய்கிறது இக்கட்டுரை.

கணிப்பொறியில் குறியாக்க( Encoding ) முறை :
உலகில் பல மொழிகளிலும் கணினி பயன்படுத்தப்பட்டு வருகிறது. எந்தவொரு மொழியாக இருந்தாலும் கணினியில் பயன்படுத்தும் போது ஒவ்வோர் எழுத்துக்கும் ஓர் எண் ஒதுக்கப்படும். சான்றாக, ‘A’ என்ற எழுத்துக்கு 01000001 என்ற எண்ணும், ‘B’ எழுத்துக்கு 01000010 என்ற எண்ணும் பயன்படுத்தப்படுகிறது. இதற்கு ஆஸ்கி முறை (ASCII – American standard code for Information Interchange) என்று பெயர். இதேபோல் ஒவ்வொரு மொழியில் உள்ள எழுத்துருவிற்கும் ஒவ்வொரு எண் ஒதுக்கப்படும். எண் அமைப்பினைக் கொண்டே கணினி இயங்குகிறது. இப்படிக் கணினியில் ஒவ்வொரு எண்ணையும் நிர்ணயிக்கும் குறியீட்டு முறைக்கு குறியாக்கம் (Encoding) என்று பெயர்1. இவ்வாறு குறியாக்கம் செய்வதில் உலக மொழியாக உள்ள ஆங்கிலம் பாதி இடத்தைப் பிடித்துக் கொண்டது.
அதாவது, எழுத்துருவிற்கு எண்ணாக ஒதுக்கப்படும் கணினியின் இடமானது 16×16 என்ற அளவில் 256 கீற்றுகளாக (glyph) அமைகிறது. இதில் 128 கீற்றுகளில் ஆங்கிலமொழி குறியாக்கம் செய்யப் பட்டுள்ளது. அதிலும் எழுத்துக்கள், எண்கள், நிறுத்தற்குறிகள் மற்றும் கணிதக் குறியீடுகள் என 94 எழுத்துக்கள்2 குறியாக்கம் செய்யப் பட்டுள்ளது. மீதமுள்ள 128 கீற்றுகளில் மற்ற உலக மொழிகளுக்கு இடம் ஒதுக்கப்பட்டன.

தமிழ் எழுத்துரு குறியாக்கத்தின் தொடக்கம் :
மேற்சொன்னதன் அடிப்படையில் கணினியின் பயன்பாட்டில் தமிழானது தொடக்கத்தில் தமிழ் தட்டச்சுக் கருவியைத் தழுவி ‘பாமினி’ என்கிற எழுத்துரு அறிமுகமானது. இது ஆங்கிலக் குறியாக்கத்தில் அமைந்த எழுத்துருக்களுக்குப் பதிலாகத் தமிழை உட்புகுத்தியது. இதுபோன்றே பலரும் சொந்தத் தயாரிப்பில் பலவகை எழுத்துருக்களை உருவாக்கினர். ஆனால், காலப்போக்கில் இணையத்தின் வரவால் பல்வேறு நடைமுறைச் சிக்கல்கள் இதில் உருவாகின. இக்காலத்தில் வேறுசில குறியாக்க மென்பொருள்களும் பயன்பாட்டிற்கு வந்தன. அதனால் இணையத்தில் செய்தி பரிமாற்றத்தில் பலவகைச் சிக்கல்கள் ஏற்பட்டன.

மேலும் இவ்வகையில் தமிழ் – ஆங்கிலம் என இரு மொழிகளிலும் ஆவணம் ஒன்றைத் தொகுப்பது கடினமானது. இந்நிலையில் பல மென்பொருள் தயாரிப்பாளர்கள், தமிழ் அறிஞர்கள், தமிழைக் கணினியில் பயன்படுத்துவோர், தமிழ் ஆர்வலர்கள் மற்றும் பலரின் முயற்சியால் புதிய தமிழ் நியமக் குறியாக்க முறை உருவாக்கப்பட்டது. இம்முறையென்பது, “ கணினி சார் தேவைகளுக்குத் தமிழ் எழுத்துக்களைப் பயன்படுத்துவதற்கென உருவாக்கப்பட்ட 8 பிட் அடிப்படையில் அமைந்த, தமிழ் – ஆங்கிலம் என இரு மொழிகளைக் கையாளத்தக்க ஒரு எழுத்துக் குறிமுறை நியமமாகும். இக்குறிமுறையின் பெயர் ஆங்கிலத்தில் சுருக்கமாக TSCII (Tamil standard code for Information Interchange) என்றவாறு குறிக்கப்படுகிறது. தமிழில் திஸ்கி எனவும், தகுதரம் எனவும் (தமிழ் குறியீட்டுத் தராதரம்) வழங்கப்படும். இதுவே முதன்முதலில் உலகம் தழுவிய இணைய உரையாடல் மூலம் தரப்படுத்தப்பட்டு உருவாக்கப்பட்ட குறிமுறை நியமமாகும்3” என்று தமிழ் விக்கிப்பீடியா உரைக்கிறது.

அதுவரை நிலவிவந்த பல்வேறு சிக்கல்களுக்கு, தமிழ் எழுத்துக் குறியாக்க வரலாற்றில் ஒருமொழி (ASCII) குறியாக்கத்தால் ஏற்பட்ட வெற்றிடத்தை நிறைவு செய்ய உருவாகிய அடுத்தகட்ட வளர்ச்சியே திஸ்கி. கணினியில் ஆஸ்கி குறியாக்கத்திற்கான இடம் போக மீதமுள்ள (129 முதல் 256 வரையுள்ள கீற்றுகளில்) இடத்தில் தமிழ் எழுத்துக்களைப் பிரதியீடு செய்தலே திஸ்கி குறியாக்கத்தின் அடிப்படை. ஆங்கில எழுத்துகளின் குறியாக்கத்தில் தமிழைப் பிரதியீடு செய்த முறையினும் இது முன்னேற்றம் உடையதாக, இருமொழிப் பயன்பாட்டிற்கு எளிதாக இருந்தது. இம்முறை தமிழ் இணைய மாநாடு 99 இல் தமிழக அரசால் ஏற்றுக் கொள்ளப்பட்டது.

தமிழ் 99 விசைப்பலகை :
அரசால் ஏற்றுக் கொள்ளப்பட்டு வெளியிடப்பட்ட தமிழ் 99 விசைப்பலகை அச்சுமுறையில் தமிழ் எழுத்துருக்கள் TAM என்றும் TAB என்றும் இருவகையாகப் பிரிக்கப்பட்டன. TAM என்பது Tamil Monolingual. TAB என்பது Tamil Bi-lingual. TAM என்பது முழு வடிவிலான தமிழ் எழுத்துருக்களைக் கொண்டதாகும். இம்முறையில் தட்டச்சு செய்யப்படும் எழுத்துருக்கள் முழு வடிவில் இருக்கும். சான்றாக, ‘நிலா’ என்று தட்டச்சு செய்தால் ந, ¢, ல, ¡ என்று தனித்தனி எழுத்துக்களாக இல்லாமல் நி, லா என முழு எழுத்துக்களாக இருக்கும்4 . அழகுணர்ச்சிக்காக முழு எழுத்துக் களாக இக்குறியீட்டு முறை உருவாக்கப்பட்டது.

TAB முறையில் தமிழ் எழுத்துருக்களைக் குறியாக்கம் செய்யக் கிடைத்த 128 கீற்றுகளில் 247 எழுத்துக்களைப் பொருத்த முடியாத காரணத்தால் எழுத்துக்களைக் கூறிட்டுப் பொருத்த வேண்டியதாயிற்று. ‘கொடு அழகு மொழிச் சொல்’ என்னும் வாக்கில் உள்ள கொ,டு,அ,ழ,கு,மொ,ழி,ச்,சொ,ல் என்னும் பத்து எழுத்துக்களைத் திஸ்கி குறியாக்கத்தில் ¦,க,¡,டு,அ,ழ,கு,¦,ம,¡,ழ,¢,ச்,¦,ச,¡,ல் எனப் பதினேழு கீற்றுகளாகக் குறியாக்கம் செய்தனர்5 என்று மேற்கண்ட சான்றின் மூலம் இம்முறைக் குறியாக்கத்தை ஒரு குறையாகக் கூறுவார் ஆய்வாளர் முனைவர் திரு.இராம.கி.

யுனிகோடு முறையின் விளக்கமும் தேவையும் :
யுனிகோடு அல்லது ஒருங்குறி என்பது எழுத்துக்களை வரியுருக்களையும் எண்முறை உபகரணங்களில் பயன்படுத்துவதற்கென உருவாக்கப்பட்ட ஒரு குறிமுறை நியமம் ஆகும். இந்நியமத்தில் தற்காலத்தில் உலகில் பரவலாகப் பயன்படுத்தப்படும் பல்வேறு வரி வடிவங்கள் அடங்கியுள்ளன. அவற்றுடன் சில அரிதாகப் பயன் படுத்தப்படும் வரிவடிவங்களும், கணிதம், மொழியியல் போன்ற துறைகளில் பயன்படும் வரியுருக்களும் அடங்கியுள்ளன. தற்போது கணியுலகில் வெவ்வேறு வரி வடிவங்களுக்கு வெவ்வேறு குறிமுறைகள் பயன்பாட்டில் உள்ளன. மேலும் தமிழ் போன்ற சில மொழிகளில் ஒரே வரிவடிவத்திற்குப் பல்வேறு குறி முறைகளும் காணப்படுகின்றன. பன்மொழிச் சூழலில் இத்தகைய வேறுபட்ட குறிமுறைகளைப் பயன் படுத்துவதால் பல்வேறு சிக்கல்கள் உருவாகின்றன. யுனிகோடு என்பது இத்தகைய வேறுபட்ட குறிமுறைகளுக்கு மாற்றாக ஒரு நியமக் குறிமுறையை நிறுவுவதற்கான திட்டமாகும்6 என்று தமிழ் விக்கிபீடியா கூறுகிறது.

தமிழைப் போலவே உலக மொழிகள் யாவிலும் உள்ள பெரும் பிரச்சனை எந்தக் குறியாக்க முறையை இணையதளங்கள் அமைப்பதிலும், மின்னஞ்சல் பரிமாற்றத்திற்கும் பயன்படுத்துவது என்பதே. பலரும் பல குறியாக்க முறையைப் பின்பற்றுவதால் செய்தி பரிமாற்றத்தில் பல்வேறு குளறுபடிகள். இக் குளறுபடிகளைப் போக்க உருவாக்கப்பட்டதே யுனிகோடு குறியாக்க முறை.

யுனிகோடு கூட்டமைப்பு (Unicode Consortium) :

ஆங்கிலம் தவிர உலகளாவிய மொழிகளில் ஏற்பட்ட இக்குறியாக்கப் பிரச்சனையைப் போக்கவும், உலகில் உள்ள அனைத்து மொழிகளையும் ஒன்றிணைக்கவும் யுனிகோடு கூட்டமைப்பு (Unicode Consortium) என்ற அமைப்பு உருவாக்கப்பட்டது. இலாப நோக்கற்ற நிலையில் மிகப்பெரிய கணினி நிறுவனங்களும், உலக நாடுகள் பலவும், கணினி ஆர்வலர் பலரும் உறுப்பினர்களாக உள்ள இவ்வமைப்பு உலக மொழிகள் அனைத்தையும் ஒரு குடையின் கீழ் கொண்டுவரவே நிறுவப்பட்டது.

இக்கூட்டமைப்பில் உறுப்பினர்களாக உள்ளவர்கள் அவரவர் மொழியை யுனிகோடு மூலம் கணினியில் எப்படிக் கொண்டுவருவது என்றும், அதில் ஏற்படும் சிக்கல்களுக்கு எவ்வாறு தீர்வு காண்பது என்றும் ஆராய்ந்து திட்ட அறிக்கைகளை இவ்வமைப்பிடம் வழங்குவர். அதனை ஆராய்ந்து ஒவ்வொரு மொழிக்கும் எவ்வளவு இடம் ஒதுக்குவது என இவ்வமைப்பு முடிவு செய்யும். இவ்வமைப்பில் இந்திய அரசும், தமிழக அரசும் உறுப்பினர்களாக உள்ளன. தமிழக அரசு சார்பில் தமிழ் இணையப் பல்கலைக் கழகம் தமிழ் வளர்ச்சிக்கான பணியை மேற்கொண்டு வருகிறது7.

யுனிகோடு குறியாக்க முறை(Unicode Encoding) :
யுனிகோடு குறியாக்க முறை என்பது உலகளாவிய குறியாக்க முறை. இதில் உலக மொழிகள் அனைத்திற்கும் இடம் உண்டு. இது 32 பிட் திட்டம். இதில் 65000 கீற்றுகளில் பல்வேறு மொழிகளுக்கும் இடம் ஒதுக்கப்படுகிறது. சைனீஸ் போன்ற சில மொழிகள் தவிர ஒவ்வொரு மொழிக்கும் 128 பிட்கள் ஒதுக்கப்படும்8. இவ்வாறு இந்திய மொழிகளுக்கு ஒதுக்கப்பட்ட குறியாக்க முறை ISCII (Indian standard code for Information Interchange) என்று அழைக்கப்பட்டது. ஆனால், இது தேவநாகரி முறையில் குறியாக்கம் செய்யப்பட்டதால் தமிழ் மொழிக்குக் குறைந்த இடங்கள் ஒதுக்கப்பட்டது. இதனால் தமிழ் பயன்பாட்டில் சில சிக்கல்கள் ஏற்பட்டன. என்றாலும் யுனிகோடு நமது அசிரத்தையினால் இஸ்கி சார்ந்த குறியாக்க முறையை ஏற்றுக்கொண்டுவிட்டது9 என்பார் ஆய்வாளர்.

யுனிகோடு தமிழ் குறியாக்கமும் எழுத்துரு பயன்பாடும் :

தற்போது யுனிகோடில் தமிழ் மொழிக்கும் 8 பிட் அடிப்படையில் குறியாக்க முறை வரையறை செய்யப்பட்டுள்ளது. இதனால் நம்மிடையே இருமொழிப் பயன்பாட்டிற்கென உள்ள TAB TSCII முறைகளை விட யுனிகோடில் பன்மொழி உள்ளடக்கிய எழுத்துருவைப் பயன்படுத்த வழி ஏற்படுகிறது. மேலும், TAM,TAB,TSCII போன்ற குறியாக்க முறையில் குறியீடுகள் வேற்று மொழி எழுத்துருக்களைக் கொண்டதாக இருக்கும். குறியாக்க முறையிலும் ஒரு குறியாக்க முறை ‘அ’ வை 140 ஆவது இடத்தில் புகுத்தி இருந்தால், வேறொரு குறியாக்க முறை ‘ன’ வைப் புகுத்தியிருக்கும். யுனிகோடில் மேற்கண்ட இடர்ப்பாடு களையப் படுவதுடன், பிறமொழிக் குறியாக்கத்தில் தமிழைப் பிரதியீடு செய்த முறையும் மாற்றம் பெற்று தமிழ் மொழி எழுத்துருக்கள் உட்புகுத்தப்படுகிறது.

யுனிகோடில் எண் 2946 முதல் எண் 3071 (OB80-OBFF Hex) வரை தமிழுக்காக இடம் ஒதுக்கப்படும். அந்நிலையில், எந்தமொழியைச் சேர்ந்தவராயினும் 2949 என்ற எண்ணை யுனிகோடில் எழுதினால் அது தமிழ் ‘அ’ வாகவே கணினியில் வெளிப்படும்10. மேற்கூறியவாறு உலகம் முழுவதும் ஒரே குறியாக்கம் பயன்பட்டால் செய்திப் பரிமாற்றத்தில் குழப்பமேற்படாது.

யுனிகோடும் கணினி நிறுவனங்களும் :
கணினிப் பயன்பாட்டில் மைக்ரோசாப்ட், ஆப்பிள் போன்ற கணினி நிறுவனங்கள் யுனிகோடு முறையினை ஏற்றுக் கொண்டுள்ளன. மைக்ரோசாப்ட் நிறுவனம் யுனிகோடு பயன்பாட்டிற்கு ‘லதா’ என்ற எழுத்துருவைத் தருகிறது. தற்போது விண்டோஸ் 2000, விண்டோஸ் XP, விண்டோஸ் 2003, ஆப்பிள், புதிய மெக்கிண்டாஷ் கணினிகளில் யுனிகோடு முறை தடையின்றிப் பயன்படுத்த முடிகிறது. புதிய லினக்ஸ் தளத்திலும் யுனிகோடு பயன்பாடு உள்ளது.

முழுக்க முழுக்க யுனிகோடு அமைப்பில் இயங்கும் செயலிகள் நாளுக்கு நாள் அதிகரித்து வருகின்றன. மைக்ரோசாப்ட் ஆபிஸ், XP, Internet Explorer, Outlook Express, Adope InDesign முதலிய செயலிகள் இவ்வரிசையில் அடங்கும். இலவசத் தொகுப்பாக வழங்கப்படும் Open Office . org செயலிகளிலும் கூட யுனிகோடு அமலாக்கப்பட்டு உள்ளது11 என்பது யுனிகோடு முறைக்குக் கணினி நிறுவனங்கள் காட்டும் வரவேற்பைக் காட்டுகிறது.

தமிழ் யுனிகோடு செயலிகள், எழுத்துருக்கள் :
பல்வேறு தமிழ் யுனிகோடு செயலிகளும், எழுத்துருக்களும் இன்று இணையதளங்களில் இலவசமாகவும் கிடைக்கின்றன. அவற்றில் சில இங்கு பட்டியலிடப்படுகிறது.

செயலிகள் :
1. சர்மாஸ் சொல்யூஷன்ஸ் மென்பொருள்.
2. அழகி தமிழ் மென்பொருள்.
3. எ.கலப்பை 2.0
4. முரசு அஞ்சல்
5. குறள் தமிழ் செயலி
6. புதுவை தமிழ் எழுதி.
7. புதுவை தமிழ் யுனிகோடு எழுத்துரு மாற்றி.

எழுத்துருக்கள் :
1. யுனிகோடு இணைமதி
2. தமிழ் யுனிகோடு இளங்கோ பாரதி
3. கோட் 2001
4. தேனீ யுனிகோடு
5. தமிழ் யுனிகோடு ஆவரங்கால்
6. லதா யுனிகோடு எழுத்துரு
7. TSCuthamba – யுனிகோடு எழுத்துரு
8. சூரியன் . கொம். ttf -தொகுப்பு : கணிஞர் உமர்.

முடிவுரை :
கணித்தமிழானது பல்வேறு நிலைகளில் பெற்ற வளர்ச்சியால் இன்று உலகளாவிய நிலையில் யுனிகோடு குறியாக்கம் மாற்றம் பெற்றுள்ளது. இந்த யுனிகோடு முறையிலும் சிலபல குறைபாடுகள் உள்ளன. ஆயினும் அக்குறைபாடுகள் களையப்பட முயற்சிகள் மேற்கொள்ளப்பட்டு வருகின்றன. நாமும் இனி உள்ளிடும் தமிழ் எல்லாம் யுனிகோடில் இருப்பதாகப் பயன்படுத்த வேண்டும்.

சான்றெண் விளக்கம் :
1. த. பிரகாஷ். கணிப்பொறியில் தமிழ். ப – 66. பெரிகாம், சென்னை – 6. மு.ப – டிசம்பர் 2005.
2. மேற்படி ப – 21.
3. தமிழ் விக்கிபீடியா இணைய தளத்திலிருந்து பதிவிறக்கம் செய்யப் பட்டது.
4. முனைவர் இராம.கி. மொழியியற் பார்வையில் தமிழ்க் குறியேற்றங்களுக்கான ஒரு முன்னீடு தமிழ் இணையம் 2003 மாநாட்டுக் கட்டுரைகள். பக் – 275,276
5. த. பிரகாஷ். கணிப்பொறியில் தமிழ். ப – 19.
6. தமிழ் விக்கிபீடியா இணைய தளத்திலிருந்து பதிவிறக்கம் செய்யப் பட்டது.
7. த. பிரகாஷ். கணிப்பொறியில் தமிழ். ப – 68.
8. K.Kalyanasundaram.Ph.D. Tamil Unicode FAQ. எழில்நிலா இணைய தளத்திலிருந்து பதிவிறக்கம் செய்யப்பட்டது.
9. எஸ்.ரெங்கராஜன் (சுஜாதா). தமிழ்க் கணினி : சில சிந்தனைகள். தமிழ் இணையம் 2003 மாநாட்டுக் கட்டுரைகள்.
10. கணிஞர் உமர். யுனிகோடும் தமிழ் இணையமும். எழில்நிலா இணைய
தளத்திலிருந்து பதிவிறக்கம் செய்யப்பட்டது.
11. முத்து நெடுமாறன். தமிழுக்கு சொந்த வீடு. எழில்நிலா இணைய
தளத்திலிருந்து பதிவிறக்கம் செய்யப்பட்டது.

(யுனிகோடு ( ஒருங்குறி ) தமிழ் எழுத்துரு வரலாறு – என்ற இந்த கட்டுரை ‘ஆர்’ அனைத்திந்திய ஆராய்ச்சி அரங்கின் இரண்டாம் தேசியக் கருத்தரங்கு – புதுச்சேரியில் வாசிக்கப்பட்டது. ஆய்வரங்கில் மூன்றாம் பரிசுக்குரிய கட்டுரையாகத் தேர்ந்தெடுக்கப்பட்டது என்பதை மகிழ்வுடன் தெரிவித்துக்கொள்கிறேன். )

என்மின்னஞ்சல் முகவரி : WWW.duraiaadav @ yahoo.co.in

Series Navigation

துரை குமரன்

துரை குமரன்