கணினியும் மொழிகளும் – அமுக்கப்பட்ட (Zipped) கோப்புகளை ஆராய்வதில் மொழியியல் முன்னேற்றங்கள்

This entry is part [part not set] of 31 in the series 20020217_Issue

எகானமிஸ்ட் பெப்ரவரி 7, 2002ஆம் இதழில்

ஜிப் – ZIP- என்றால் என்னவென்று பெரும்பாலான கணினி உபயோகிப்பாளருக்குத் தெரியும். ஒரு பெரிய கோப்பு நிறைய இருக்கும் செய்திகளை, பலவேறு அல்காரிதங்கள் கொண்டு ஜிப் செய்து அமுக்கி சின்ன கோப்பாக மாற்றலாம். பிறகு அதனை மீண்டும் இன்னொரு தொடர்புடைய அல்காரிதம் கொண்டு பெரியதாக்கி பழைய அளவு பெரிய கோப்பாக மாற்றலாம். இதனை ஜிப் என்று வழங்குகிறோம். ஆனால், ரோம்-லா- ஸாபியென்ஸா பல்கலைக்கழகத்தைச் சார்ந்த எமானுவல் காக்லியோடி அவர்களும் அவரது துணைவர்களும் இந்த ஜிப் கோப்புக்களை ஆராய்ந்து, அந்த கோப்புக்களின் ஆசிரியர்களை அறியவும், மொழிகளின் கிளை மொழிகளை அறியவும் பயன்படுத்துகிறார்கள்.

க்ளாட் ஷான்னன் (Claude Shannon) அவர்கள் 1940இல் உருவாக்கிய செய்தி தேற்ற அறிவியலில் (science of information theory) இதன் ரகசியம் இருக்கிறது. ஒரு சொற்தொடரில் இருக்கும் எழுத்துக்களை கணினியில் மொழிமாற்றம் செய்யத் தேவையான கட்டளைகளின் நீளம், அந்த சொற்தொடரில் இருக்கும் ஒழுங்கின்மையைப் (disorder அல்லது entropy) பொறுத்தது என்று காண்பித்தார் ஷான்னன். ஒரே மாதிரி இருக்கும் சொற்தொடர் உதாரணமாக ககககக என்று இருக்கும் சொற்தொடரில் குறைந்த அளவு ஒழுங்கின்மை இருக்கிறது. இதனை நாம் ‘க எழுத்தை 5 தரம் திருப்பிச் சொல் ‘ என்று கட்டளையாக மாற்றலாம். அதே நேரத்தில் ‘கணநயமு ‘ என்ற சொற்தொடரை கணினி கட்டளையாக மாற்ற இதே நீளமுள்ள ஒரு சொற்தொடரைத்தான் நாம் குறிப்பிட வேண்டும்.

நடைமுறையில், சாதாரண ஒரு சொற்தொடரின் ஒழுங்கின்மை இந்த இரண்டு எல்லைகளுக்கும் நடுவே இருக்கிறது. ஜிப் செய்யும் மென்பொருள்கள், குறைந்த ஒழுங்கின்மை இருக்கும் செய்திகளுக்குப் பதிலாக கட்டளைகளைப் போட்டு நிரப்பி சிறிய கோப்பு உருவாக்குகின்றன. ஒரு நல்ல ஜிப் செய்யும் மென்பொருள், ஒரு கோப்புக்குள் இருக்கும் விஷயங்களை போகும்போக்கில் ஆராய்ந்து அந்த கோப்புக்குத் தகுந்தபடியான கட்டளைகளை உருவாக்கிச் செல்லவேண்டும்.

ஒரு அமுக்கப்பட்ட ஜிப் கோப்பின் அளவை, அதன் மூல கோப்பின் ‘ஒழுங்கின்மைக்கு ‘ ஒரு அளவு கோலாக கருதலாம். ஆனால், இரண்டு கோப்புகளின் ‘ஒழுங்கின்மையை ‘ ஒப்பிடுவது சற்று சிக்கலானது. ஜிப் செய்யும் மென்பொருளுக்கு ஒரு செய்திக்கோப்பை ஒரு மொழியில் அனுப்பிய பின்னர், அதே செய்திக்கோப்பை இன்னொருமொழியில் அனுப்புவது ஒரு முறை. மென்பொருள், ஒரு மொழியில் உபயோகப்படுத்திய உபாயங்களை இன்னொரு மொழியில் உபயோகப்படுத்த முடியாததை உணரும். உதாரணமாக ஆங்கிலம்- ஃப்ரெஞ்ச் மாற்றத்தில், ‘the ‘ என்ற வார்த்தை அதிகமாக ஆங்கிலத்தில் இருக்கும். ஆனால், ஃப்ரெஞ்ச் மொழியில் இருக்கவே இருக்காது. இதற்குப் பதிலாக, ‘le ‘, ‘la ‘, ‘les ‘ என்ற வார்த்தைகள் எல்லா இடத்திலும் காணக்கிடைக்கும். இதன் விளைவு, இவ்வாறு மொழிமாறிய கோப்புகளுக்கு நேரடித்தொடர்பாக ஒரே மொழியில் இருக்கும் கோப்பை பார்க்க முடியாது. எந்த அளவுக்கு இரு மொழிகள் ஒரே மாதிரி இல்லையோ, அதே அளவுக்கு இரு மொழி ஜிப் கோப்புகள் அளவு நீளமாக இருக்கும். இதே போல, இரு ஆசிரியர்களால் எழுதப்பட்ட இரு கோப்புகள் ஒரே கோப்புக்குள் அமுக்கப்படும்போது, கோப்பு நீளமாக இருக்கும். ஒரே ஆசிரியரால் எழுதப்பட்டால், ஒரே குறிப்பிட்ட வார்த்தைகளை ஆசிரியர் பயன்படுத்துவதால், கோப்பு சிறியதாக இருக்கும்.

டாக்டர் காக்லியோடி அவர்களும் அவரது துணைவர்களும், கோப்புக்களை மொழிவாரியாகவும், ஆசிரியர் வாரியாகவும் பிரிக்கும் ஒரு மென்பொருளை இந்த உபரி நீளத்தை அடிப்படையாகக் கொண்டு எழுதியிருக்கிறார்கள். இந்த ஆராய்ச்சிக்கட்டுரை Physical Review Letters என்ற பத்திரிக்கையில் வெளிவந்திருக்கிறது. ஐரோப்பாவின் 10 அங்கீகரிக்கப்பட்ட மொழிகளை இந்த மென்பொருள் மூலம் ஆராய்ந்தார்கள். இதன் மூலம், சுமார் வெறும் 20 எழுத்துக்கள் சொற்தொடரில் இருந்தால் கூட, அந்த சொற்தொடரை தவறில்லாமல் இந்த மொழி என்று மென்பொருளால் சொல்ல முடிந்தது.

இதன் பிறகு, இந்த மென்பொருளின் அடுத்த சவால்,கின்னஸ் ரெக்கார்ட்கள் புத்தகத்தின் படி, உலகத்திலேயே மிக அதிகமான மொழிகளில் மொழிபெயர்க்கப்பட்ட ‘உலக மனித உரிமைகள் அறிவிப்பு ‘ (The Universal Declaration of Human Rights) ஆவணத்தினை எடுத்து இதன் 52 மொழிபெயர்ப்புகளை இந்த மென்பொருளில் செலுத்தி ஆராய்வது. ஐரோப்பிய மொழிகளிலேயே 59 மொழிகளில் மொழி பெயர்க்கப்பட்டுள்ளது இந்த ஆவணம். ஆஃபிரிகான்ஸ் என்னும் தென்னாப்பிரிக்க மொழியும் இதில் அடங்கும். இந்த மொழி டச்சு மொழியிலிருந்து வந்தது. மற்றவை உஸ்பெக் மொழியும், துருக்கி மொழியும். இந்த மென்பொருள், இந்த 52 மொழிகளின் அனைத்து ஜோடிகளையும் சேர்த்து சேர்க்கப்பட்ட ஆவணத்தின் ஒழுங்கின்மையை கணக்கிட்டது. இதிலிருந்து கிடைத்த விவரத்தை வைத்து எந்த மொழிக்கு எந்த மொழி கிளை மொழி என்ற வரைபடத்தை உருவாக்க முயன்றார்கள்.

முழுமையாக்கப்பட்ட இந்த வரைபடம், எது புராதனமான மொழிகள், (ரொமான்ஸ், செல்டிக், ஜெர்மானிக், ஸ்லாவிக் ஆகியன) என்றும் எந்த மொழியிலிருந்து எந்த மொழிகள் வந்தன என்றும் குறிப்பிட்டது. மேலும், இந்த மென்பொருள், எந்த மொழிகள் தனித்துவமானவை (பாஸ்க் மொழி, மால்டாஸ் மொழி) போன்றவை என்பதையும் குறித்தது. இதனையே மொழியியல் வல்லுனர்களும், இந்த மொழிகளை எந்த மொழியோடும் சேராத தனி மொழிகள் என்று குறிப்பிட்டு இருப்பதை இது ஊர்ஜிதம் செய்கிறது.

இது போன்ற சார்பியல் ஒழுங்கின்மை அளவிடுதல், பெயர் சொல்லாமல் எழுதும் ஆசிரியர்களைக் கூட கண்டுபிடித்திருக்கிறது. இந்த மென்பொருளுக்கு (டாண்டே, மாக்கியவெல்லி, பிர்ராண்டெல்லோ ஆகிய) 9 இத்தாலியர்களால் எழுதப்பட்ட 89 ஆவணங்கள் கொடுக்கப்பட்டன. 90ஆவது ஆவணத்தைக் கொடுத்து, குறைந்த அளவு ஒழுங்கின்மை யாரிடம் இருக்கிறது என்பதை கண்டுபிடிக்க இந்த மென்பொருள் பணிக்கப்பட்டது. 90 சதவீதம், இந்த மென்பொருள் கொடுத்த பதில் மிகச்சரியாகவே இருந்தது.

உண்மைதான், எந்த சுயமரியாதை உள்ள மொழியியல் வல்லுனரும் மேற்குறிப்பிட்ட எந்த வேலையையும் இதைவிட சிறப்பாகவே செய்துவிடலாம்தான். ஆனால், இந்த கணித கண்டுபிடிப்பு இன்னும் ஆரம்ப நிலையிலேயே இருக்கிறது என்பதை பார்க்க வேண்டும். இதை வைத்து, இன்னும் மனிதர்களால் புரிந்து கொள்ள முடியாத மொழிகளான, புரோட்டான் வழிமுறைகள், அல்லது டி என் ஏ துண்டுகள் போன்றவற்றை இதன் மூலம் ஆராய முடியும் என்பதைப் பாருங்கள். யார் எழுதியது என்பதை இந்த டி என் ஏ மொழியிலிருந்து கண்டுபிடித்தாலும் சுவாரஸ்யமாகத்தான் இருக்கும்.

Series Navigation

20020217_Issue

கணினியும் மொழிகளும் – அமுக்கப்பட்ட (Zipped) கோப்புகளை ஆராய்வதில் மொழியியல் முன்னேற்றங்கள்

எகானமிஸ்ட் பெப்ரவரி 7, 2002ஆம் இதழில்

Related Posts

ஜப்பான் புகுஷிமாவில் 2011 மார்ச் சுனாமியால் நாசமடைந்த நான்கு அணுமின் உலைகள் -1

ஜப்பான் டோகைமுரா யுரேனியச்செறிவுத்தொழிற்கூடத்தில் நேர்ந்த விபத்து(1999 Fatal Accident at Tokaimura Uranium Enrichment Factory)

ஜப்பான் மஞ்சு வேகப் பெருக்கி அணுமின் உலை விபத்துக்குப் பிறகு மீண்டும் துவங்கியது (1995 – 2010)

2007 ஜப்பான் நிலநடுக்கமும், அணுமின் நிலையங்களின் கண்காணிப்பும் -2 (ஜூலை 17, 2007)