2005-05-17

யூனிகோடில் பன்மொழி.

என் முந்தைய கட்டுரையொன்றில் கூறியபடி யூனிகோடுக்கான தமிழ் உள்ளீட்டைச் செய்தவர்கள்/ செய்யும் வாய்ப்பைப் பெற்றவர்கள் பெரும்பாலானவர்களால் பயன்படுத்தப்பட்டு வந்ததும் கணித்தமிழ் அறிஞர்களால் ஒப்புக்கொள்ளப் பட்டதுமான திஸ்கி அடிப்படையிலோ, உலகக் கணித்தமிழ் மாநாட்டில் அறிமுகம் செய்யப்பட்டு, தேர்ந்தெடுக்கப்பட்டு தமிழக அரசினால் அங்கீகரிக்கப்பட்ட டாப் முறையிலோ அமைக்காமல் வேறொரு முறையில் தமிழ் எழுத்துக்குறியீட்டு முறைகளை அமைத்து விட்டார்கள்.

மேற்கண்ட முறைகள் தமிழ் இலக்கண கணித முறைகளில் அமைக்கப் பட்டிருந்தன. இப்போதைய முறையில் சில அடிப்படை இணைவுப் பிழைகள் இருப்பதாக சில அறிஞர்கள் கருத்துத் தெரிவித்துள்ளனர். ஆயினும் இன்றைய தொழில்நுட்ப மேம்பாடுகளால் பிழைகளை நிவர்த்தி செய்து சரியான வெளிப்பாடுகளை யூனிகோடில் செயல்படுத்த முடிகிறது. தமிழிலேயே இணையத்தில் தேடவும் முடிகிறது. தனித்தனி எழுத்துருக்களின் தேவையின்றியே வலைத்தளங்களை வாசிக்க முடிகிறது.

இவையல்லாமல் யூனிகோடின் தனிச்சிறப்பாகக் கருதப்படுவது ஒரே எழுத்துருவில் பல மொழிகளின் எழுத்து வடிவங்களைப் பெற முடியும் என்பது. இது கணினி மொழியியலின் மிகப்பெரிய/மிகச்சிறந்த வசதியாகும்.

தமிழில் நாம் காணும் யூனிகோடு எழுத்துருக்கனில் TSCu_InaiMathi, TheneeUniTx ,Latha, aAvarangal, Arial Unicode MS போன்றவை அதிகம் பயன்படுத்தப் படுகின்றன.

திஸ்கி குறியீட்டில் அமைந்த எழுத்துருக்கள் பலவும் TSCu அடைமொழியுடன் யூனிகோடாக மாற்றப்பட்டுள்ளன. மைக்ரோசாப்ட் நிறுவனம் வின்டோஸ் இயங்குதளத்துடன் இணைத்து வழங்கியதால் 'லதா' எழுத்துரு அதிக பயன்பாட்டைப் பெற்றுள்ளது. உமர்த்தம்பியால் உருவாக்கப் பட்ட TheneeUniTx தமிழ் இணையதளங்களுக்குப் பொதுவான இயங்கு எழுத்துருவாகவும் பயன்படுவதால் இன்று பெரும்பாலான வலைப்திவுகளிலும் சில இணையத் தளங்களிலும் பயன்படுத்தப் படுகிறது. இணையத்தில் யூனிகோடில் கிடைத்த முதல் தனி எழுத்துருவான சின்னத்துரை சிறீவாஸின் aAvarangal இன்னமும் பலரால் பயன்படுத்தப் பட்டு வருகிறது.

Latha எழுத்துரு முழுவதும் தமிழ் குறியீட்டை மட்டுமே கொண்டது. பிற எழுத்துருக்கள் வழமை போல ஆங்கிலமும் தமிழும் இணைந்தவை.
பன்மொழிக் குறியீடுகளுக்கான வசதியை மேற்கொண்ட எழுத்துருக்களில் Arial Unicode MS மட்டுமே முழுமையாகக் கொண்டுள்ளது. இது மைக்ரோசாப்ட் நிறுவனத்தின் அலுவலகப் பயன்பாட்டுத் தொகுப்பான MS Office தொகுப்புடன் வழங்கப் படுகிறது.

இதில் (ஒரே எழுத்துருவில்) தமிழ், ஆங்கிலம் மற்றும் Greek, Cyrillic, Armenian, Hebrew, Arabic, Devanagri, Gurmukhi, Gujarati, Kannada, Thai, Lao, Tibetan, Georgian, Korean, Japanese, Chinese ஆகிய மொழிகளும் சின்னங்கள், வணிக, கணிதக் குறியீடுகள் போன்றவையும் இடம் பெற்றுள்ளன. பெங்காலி, ஒரிய, தெலுங்கு, மலையாள மொழிகளில் சில குறியீடுகள் மட்டும் இடம் பெற்றுள்ளன. இந்த எழுத்துரு பன்மொழி ஒலிபெயர்ப்பு, மொழிபெயர்ப்புப் பணிகளுக்கு சிறப்பாகப் பயன்படக் கூடியது.

இவை தவிர மத்திய அரசின் சிடாக் நிறுவனம் புதிதாக வெளியிட்டுள்ள தமிழ் செயலிகள் அடஙகிய குறுவட்டில் நிறைய யூனிகோட் எழுத்துருக்கள் இருப்பதாக தெரிகிறது. அவற்றின் அமைப்பு பற்றிய விபரங்கள் தெரியவில்லை.

(அதுசரி... குறுவட்டுகள் இலவசமாக வெளியிடப்படுவதாகவும் தேவைப்படுவோருக்கு இலவசமாகவே அனுப்பி வைக்கப்படும் எனவும் ஒரு வாரத்தில் அவை வந்து சேரும் என்றும் வெளியீட்டு விழாவின்போது அறிவிக்கப்பட்டிருந்ததே. பதிவு செய்தவர்களில் யாருக்காவது அப்படி வந்து சேர்ந்ததாக தகவல் உண்டா? அல்லது வெறும் மேடைப்பேச்சுத்தானா?

* * *

இங்கே ஒரு பாட்டு கேட்டு போங்களேன்

No comments: