கணினியும் மொழிகளும் – அமுக்கப்பட்ட (Zipped) கோப்புகளை ஆராய்வதில் மொழியியல் முன்னேற்றங்கள்

This entry is part of 31 in the series 20020217_Issue

எகானமிஸ்ட் பெப்ரவரி 7, 2002ஆம் இதழில்


ஜிப் – ZIP- என்றால் என்னவென்று பெரும்பாலான கணினி உபயோகிப்பாளருக்குத் தெரியும். ஒரு பெரிய கோப்பு நிறைய இருக்கும் செய்திகளை, பலவேறு அல்காரிதங்கள் கொண்டு ஜிப் செய்து அமுக்கி சின்ன கோப்பாக மாற்றலாம். பிறகு அதனை மீண்டும் இன்னொரு தொடர்புடைய அல்காரிதம் கொண்டு பெரியதாக்கி பழைய அளவு பெரிய கோப்பாக மாற்றலாம். இதனை ஜிப் என்று வழங்குகிறோம். ஆனால், ரோம்-லா- ஸாபியென்ஸா பல்கலைக்கழகத்தைச் சார்ந்த எமானுவல் காக்லியோடி அவர்களும் அவரது துணைவர்களும் இந்த ஜிப் கோப்புக்களை ஆராய்ந்து, அந்த கோப்புக்களின் ஆசிரியர்களை அறியவும், மொழிகளின் கிளை மொழிகளை அறியவும் பயன்படுத்துகிறார்கள்.

க்ளாட் ஷான்னன் (Claude Shannon) அவர்கள் 1940இல் உருவாக்கிய செய்தி தேற்ற அறிவியலில் (science of information theory) இதன் ரகசியம் இருக்கிறது. ஒரு சொற்தொடரில் இருக்கும் எழுத்துக்களை கணினியில் மொழிமாற்றம் செய்யத் தேவையான கட்டளைகளின் நீளம், அந்த சொற்தொடரில் இருக்கும் ஒழுங்கின்மையைப் (disorder அல்லது entropy) பொறுத்தது என்று காண்பித்தார் ஷான்னன். ஒரே மாதிரி இருக்கும் சொற்தொடர் உதாரணமாக ககககக என்று இருக்கும் சொற்தொடரில் குறைந்த அளவு ஒழுங்கின்மை இருக்கிறது. இதனை நாம் ‘க எழுத்தை 5 தரம் திருப்பிச் சொல் ‘ என்று கட்டளையாக மாற்றலாம். அதே நேரத்தில் ‘கணநயமு ‘ என்ற சொற்தொடரை கணினி கட்டளையாக மாற்ற இதே நீளமுள்ள ஒரு சொற்தொடரைத்தான் நாம் குறிப்பிட வேண்டும்.

நடைமுறையில், சாதாரண ஒரு சொற்தொடரின் ஒழுங்கின்மை இந்த இரண்டு எல்லைகளுக்கும் நடுவே இருக்கிறது. ஜிப் செய்யும் மென்பொருள்கள், குறைந்த ஒழுங்கின்மை இருக்கும் செய்திகளுக்குப் பதிலாக கட்டளைகளைப் போட்டு நிரப்பி சிறிய கோப்பு உருவாக்குகின்றன. ஒரு நல்ல ஜிப் செய்யும் மென்பொருள், ஒரு கோப்புக்குள் இருக்கும் விஷயங்களை போகும்போக்கில் ஆராய்ந்து அந்த கோப்புக்குத் தகுந்தபடியான கட்டளைகளை உருவாக்கிச் செல்லவேண்டும்.

ஒரு அமுக்கப்பட்ட ஜிப் கோப்பின் அளவை, அதன் மூல கோப்பின் ‘ஒழுங்கின்மைக்கு ‘ ஒரு அளவு கோலாக கருதலாம். ஆனால், இரண்டு கோப்புகளின் ‘ஒழுங்கின்மையை ‘ ஒப்பிடுவது சற்று சிக்கலானது. ஜிப் செய்யும் மென்பொருளுக்கு ஒரு செய்திக்கோப்பை ஒரு மொழியில் அனுப்பிய பின்னர், அதே செய்திக்கோப்பை இன்னொருமொழியில் அனுப்புவது ஒரு முறை. மென்பொருள், ஒரு மொழியில் உபயோகப்படுத்திய உபாயங்களை இன்னொரு மொழியில் உபயோகப்படுத்த முடியாததை உணரும். உதாரணமாக ஆங்கிலம்- ஃப்ரெஞ்ச் மாற்றத்தில், ‘the ‘ என்ற வார்த்தை அதிகமாக ஆங்கிலத்தில் இருக்கும். ஆனால், ஃப்ரெஞ்ச் மொழியில் இருக்கவே இருக்காது. இதற்குப் பதிலாக, ‘le ‘, ‘la ‘, ‘les ‘ என்ற வார்த்தைகள் எல்லா இடத்திலும் காணக்கிடைக்கும். இதன் விளைவு, இவ்வாறு மொழிமாறிய கோப்புகளுக்கு நேரடித்தொடர்பாக ஒரே மொழியில் இருக்கும் கோப்பை பார்க்க முடியாது. எந்த அளவுக்கு இரு மொழிகள் ஒரே மாதிரி இல்லையோ, அதே அளவுக்கு இரு மொழி ஜிப் கோப்புகள் அளவு நீளமாக இருக்கும். இதே போல, இரு ஆசிரியர்களால் எழுதப்பட்ட இரு கோப்புகள் ஒரே கோப்புக்குள் அமுக்கப்படும்போது, கோப்பு நீளமாக இருக்கும். ஒரே ஆசிரியரால் எழுதப்பட்டால், ஒரே குறிப்பிட்ட வார்த்தைகளை ஆசிரியர் பயன்படுத்துவதால், கோப்பு சிறியதாக இருக்கும்.

டாக்டர் காக்லியோடி அவர்களும் அவரது துணைவர்களும், கோப்புக்களை மொழிவாரியாகவும், ஆசிரியர் வாரியாகவும் பிரிக்கும் ஒரு மென்பொருளை இந்த உபரி நீளத்தை அடிப்படையாகக் கொண்டு எழுதியிருக்கிறார்கள். இந்த ஆராய்ச்சிக்கட்டுரை Physical Review Letters என்ற பத்திரிக்கையில் வெளிவந்திருக்கிறது. ஐரோப்பாவின் 10 அங்கீகரிக்கப்பட்ட மொழிகளை இந்த மென்பொருள் மூலம் ஆராய்ந்தார்கள். இதன் மூலம், சுமார் வெறும் 20 எழுத்துக்கள் சொற்தொடரில் இருந்தால் கூட, அந்த சொற்தொடரை தவறில்லாமல் இந்த மொழி என்று மென்பொருளால் சொல்ல முடிந்தது.

இதன் பிறகு, இந்த மென்பொருளின் அடுத்த சவால்,கின்னஸ் ரெக்கார்ட்கள் புத்தகத்தின் படி, உலகத்திலேயே மிக அதிகமான மொழிகளில் மொழிபெயர்க்கப்பட்ட ‘உலக மனித உரிமைகள் அறிவிப்பு ‘ (The Universal Declaration of Human Rights) ஆவணத்தினை எடுத்து இதன் 52 மொழிபெயர்ப்புகளை இந்த மென்பொருளில் செலுத்தி ஆராய்வது. ஐரோப்பிய மொழிகளிலேயே 59 மொழிகளில் மொழி பெயர்க்கப்பட்டுள்ளது இந்த ஆவணம். ஆஃபிரிகான்ஸ் என்னும் தென்னாப்பிரிக்க மொழியும் இதில் அடங்கும். இந்த மொழி டச்சு மொழியிலிருந்து வந்தது. மற்றவை உஸ்பெக் மொழியும், துருக்கி மொழியும். இந்த மென்பொருள், இந்த 52 மொழிகளின் அனைத்து ஜோடிகளையும் சேர்த்து சேர்க்கப்பட்ட ஆவணத்தின் ஒழுங்கின்மையை கணக்கிட்டது. இதிலிருந்து கிடைத்த விவரத்தை வைத்து எந்த மொழிக்கு எந்த மொழி கிளை மொழி என்ற வரைபடத்தை உருவாக்க முயன்றார்கள்.

முழுமையாக்கப்பட்ட இந்த வரைபடம், எது புராதனமான மொழிகள், (ரொமான்ஸ், செல்டிக், ஜெர்மானிக், ஸ்லாவிக் ஆகியன) என்றும் எந்த மொழியிலிருந்து எந்த மொழிகள் வந்தன என்றும் குறிப்பிட்டது. மேலும், இந்த மென்பொருள், எந்த மொழிகள் தனித்துவமானவை (பாஸ்க் மொழி, மால்டாஸ் மொழி) போன்றவை என்பதையும் குறித்தது. இதனையே மொழியியல் வல்லுனர்களும், இந்த மொழிகளை எந்த மொழியோடும் சேராத தனி மொழிகள் என்று குறிப்பிட்டு இருப்பதை இது ஊர்ஜிதம் செய்கிறது.

இது போன்ற சார்பியல் ஒழுங்கின்மை அளவிடுதல், பெயர் சொல்லாமல் எழுதும் ஆசிரியர்களைக் கூட கண்டுபிடித்திருக்கிறது. இந்த மென்பொருளுக்கு (டாண்டே, மாக்கியவெல்லி, பிர்ராண்டெல்லோ ஆகிய) 9 இத்தாலியர்களால் எழுதப்பட்ட 89 ஆவணங்கள் கொடுக்கப்பட்டன. 90ஆவது ஆவணத்தைக் கொடுத்து, குறைந்த அளவு ஒழுங்கின்மை யாரிடம் இருக்கிறது என்பதை கண்டுபிடிக்க இந்த மென்பொருள் பணிக்கப்பட்டது. 90 சதவீதம், இந்த மென்பொருள் கொடுத்த பதில் மிகச்சரியாகவே இருந்தது.

உண்மைதான், எந்த சுயமரியாதை உள்ள மொழியியல் வல்லுனரும் மேற்குறிப்பிட்ட எந்த வேலையையும் இதைவிட சிறப்பாகவே செய்துவிடலாம்தான். ஆனால், இந்த கணித கண்டுபிடிப்பு இன்னும் ஆரம்ப நிலையிலேயே இருக்கிறது என்பதை பார்க்க வேண்டும். இதை வைத்து, இன்னும் மனிதர்களால் புரிந்து கொள்ள முடியாத மொழிகளான, புரோட்டான் வழிமுறைகள், அல்லது டி என் ஏ துண்டுகள் போன்றவற்றை இதன் மூலம் ஆராய முடியும் என்பதைப் பாருங்கள். யார் எழுதியது என்பதை இந்த டி என் ஏ மொழியிலிருந்து கண்டுபிடித்தாலும் சுவாரஸ்யமாகத்தான் இருக்கும்.

Series Navigation