இயற்கை மொழி கணிணியியல் (Natural Language Processing)

This entry is part [part not set] of 17 in the series 20010219_Issue

காரென் ஜென்ஸென் (Karen Jensen)


1968இல் வந்த 2001- ஒரு விண்வெளி பயணம் (2001: A Space Odyssey) என்ற திரைப்படம் 2001ஆம் வருடத்தில் நடக்கக்கூடிய தொழில்நுட்பங்களைப் பற்றி ஜோதிடம் சொன்னது. ஒரு முக்கியமான ஜோதிடம், HAL என்ற கணிணி விண்கலத்தில் இருக்கும் மற்ற குழுவினரோடு மனித மொழியில் பேசியதுதான். ஒரே விஷயம்தான் தப்பு: இந்த நிஜமான 2001இல், இந்த சூரியமண்டலத்திலேயே HAL போன்ற மக்களோடு பேசி உறவாடக்கூடிய கணிணி இதுவரை கண்டுபிடிக்கப்படவில்லை.

ஆனால் அது ஒன்றும் வெகுதூரத்தில் இல்லை என்று தைரியமாகக் கூறலாம் (HALக்கு இருந்த கொலைவெறி இல்லாமல் இருந்தால் சரி என்று நம்புவோம்) இன்று வியாபாரச்சந்தையில் மனிதன் பேசுவதைப் புரிந்து கொண்டு, அதை வார்த்தைகளாக மாற்றும் மென்பொருள்கள் கிடைக்கின்றன. (ஆங்கிலத்தில்தான்). பேசப்பேச இவை கணிணிக்குள் ஆங்கில வார்த்தைகளாக மாற்றும். ஆங்கில வார்த்தைகளை கொடுத்தால் பேசும். இவை ஊமைகளுக்கு பேச உதவுகின்றன. கொஞ்சம் தெளிவாக ஆங்கிலத்தில் சொன்னால் ஒரு செய்தித்தளத்துக்குள் சென்று சரியான பதில்களை வெளியே கொண்டுவரவும் இவைகளால் இயலும்.

பரிசோதனைச்சாலைகளிலிருந்து புதியவகை மென்பொருள்கள் வர இருக்கின்றன. இந்த வகை மென்பொருள்கள், மிகவும் சிக்கல் நிரம்பிய பெரும் மென்பொருள்களாக, கடினமான இயற்கை மொழி வரிகள் கட்டுமானத்தையும், இயற்கை மொழியை புரிந்து கொள்வதையும், பேசுவதை ஆராயவும், உலக பொது அறிவையும், காரணகாரிய சிந்தனையையும், தானாக பேச்சு உருவாக்கத்தையும் செய்யும். இப்போது எம் ஐடி பல்கலைக்கழகத்தில் உள்ள ஜுப்பிடர் என்ற கணிணி தட்பவெப்ப மாறுதல்களை தானே ஆங்கிலப் பேச்சாக மாற்றி சொல்கிறது. கார்னகி மெலான் பல்கலைக்கழகத்தின் மூவிலைன் மென்பொருள் தினசரி படம் எங்கே என்ன ஓடுகிறது என்று தானாக ஆங்கிலப்பேச்சாக மாற்றிச் சொல்கிறது. ஆனால் டிஃபன்ஸ் அட்வான்ஸ்ட் ரிஸர்ச் ப்ரோஜக்ட்ஸ் ஏஜென்ஸி என்ற அமெரிக்க அரசாங்கத்தின் முதன்மை ஆராய்ச்சி நிறுவனம் எல்லாவற்றுக்கும் மேலே சென்று ஒரு மனிதனிடம் பேசுவதுபோல பேச வைக்கமுடியும் என்ற அளவுக்கு ஆராய்ச்சி செய்து கொண்டிருக்கிறார்கள்.

ஐபிஎம், மைக்ரோசாஃப்ட் போன்ற பெரும் மென்பொருள் நிறுவனங்கள், வன்பொருள் நிறுவனங்கள் இயற்கை மொழி இணைந்த ‘புத்திசாலித்தனமான சூழ்நிலைகள் ‘ போன்றவற்றை உருவாக்க முனைந்து கொண்டு இருக்கின்றன. (அதாவது கணிணியில் கீ போர்டில் எதுவும் கையால் எழுதவோ அல்லது கண்ணால் சரி பார்க்கவோ இல்லாத ஒரு ‘சூழ்நிலை ‘யை உருவாக்க முனைகின்றன) ஒரு கணிணிச்சில்லு இருக்கக்கூடிய அளவு இருக்கும் ஒவ்வொரு வியாபாரப்பொருளுக்குள்ளும் ஒரு கணிணிச்சில்லுவை வைத்து அவற்றோடு இயற்கையான முறையில் (பேச்சில்) தொடர்பு கொள்ளக்கூடிய நாள் அதிக தூரத்தில் இல்லை.

மைக்ரோஸாஃப் நிறுவனத்தில் இயற்கை மொழி ஆராய்ச்சி குழுவின் தலைவராக இருக்கும் காரென் ஜென்ஸன் போன்றவர்கள் இந்த விஷயத்தில் இருக்கும் சவாலுக்கு ஆசைப்பட்டு இந்த துறைக்கு கவர்ந்திழுக்கப்பட்டிருக்கிறார்கள். ‘த்ரில்லான ஒரு விஷயம் இது. கணிணிகளோடு இயற்கையான மொழியில் பேசி உறவாடும் எதிர்காலம் மிகவும் அட்டகாசமானது ‘ என்றார் ஜென்ஸன்.

ஜென்ஸனுக்கு வயது 62. இருந்தும் அவர் இந்த துறையைப் பற்றி பேசினால் ஒரு விடலை வயது கொண்ட ஒருவர் ஆர்வமாகப் பேசுவதுபோலப் பேசுகிறார். 1991இல் மைக்ரோஸாஃப்ட் இந்த துறையைத் தொடங்கியபோது வேலைக்கு எடுத்த மிகச்சில நபர்களுள் இவர் ஒருவர். தன் தோழர்களான ஸ்டாபன் ரிச்சர்ட்சன், ஜார்ஜ் ஹைடோர்ன் போண்றவர்களோடு இணைந்து முதன்முதல் வெளிவந்த ‘இயற்கை மொழியின் இலக்கணம் பிரிக்கும் மென்பொருளை ‘ உருவாக்கியவர் இவர். இப்போது இந்தக் குழுவில் 40 பேர்கள் இருக்கிறார்கள்.

மைக்ரோஸாஃப்ட் நிறுவனம் வெளியிட்ட என்க்கார்டா என்ற என்ஸைக்ளோபீடியாவில் இயற்கை மொழியில் கேட்ட கேள்விகள் பதில் தரும்படிக்கு ஒரு மென்பொருள் எழுதினார். இலக்கணம் சரிபண்ணும் மென்பொருளும் ஒன்று எழுதினார். அதுவே இன்று Word 97 என்ற மென்பொருளில் இலக்கணம் சரிபார்க்கிறது. அதன் பிறகு MindNet என்ற மென்பொருள் ஒன்றை தயாரிக்க இவரும் இவர் தோழர்களும் முனைந்திருக்கிறார்கள். இது தானாக ஒரு அகராதியைப் பார்த்து தானாக அதன் அர்த்தம் புரிந்து கொள்ளக்கூடிய ஒரு மென்பொருள். அதாவது வார்த்தை அகராதி ‘ஓட்டுனர் ‘ என்ற சொல்லுக்கு ‘ஒரு வாகனத்தை ஓட்டுபவர் ‘ என்ற பொருள் கொடுக்குமாயின், அந்த வரியை மேலும் உடைத்து , ஓட்டுனர் என்பது ஒரு ஆளைக்குறிக்கிறது என்றும், ஓட்டுபவர் என்ற வார்த்தை ஒரு வினைச்சொல் என்றும் வாகனம் என்பது இன்னும் ஒரு பொருள் என்றும் பகுதி பகுதியாகப் பிரித்து அறிகிறது. இது போல கணிணிக்கு பகுத்து அறியச் சொல்லிக்கொடுப்பது கணிணியை மனிதன் போல பேச இன்னும் நெருங்கிக் கொண்டுவரும் என்று ஜென்ஸன் கூறுகிறார்.

MindNet மூலம் தானாக மொழிபெயர்ப்பும் செய்ய இயலும் என்று கூறுகிறார். ஆங்கிலத்துக்கு என்று MindNetஇன் உள் தனி வலையம் இருக்கிறது. அது போல வேறொரு மொழி (தமிழ் என்று இருக்கலாம்) அதற்கு ஒரு தனி வலையம் (வார்த்தை வலையங்கள்) இருக்கலாம். ஒரு வரியை ஒரு மொழியில் பகுத்தாய்ந்து அந்த மொழி வலையத்தில் பொருத்திவிட்டால், அதை இன்னொரு வலையத்துக்கு மாற்றுவது எளிது. இதன் மூலம் இருபக்கமும் எளிமையாக மொழிபெயர்ப்பு நடக்கும்.

தன் தலைமையை அடுத்த தலைமுறைக்கு கொடுத்துக்கொண்டிருக்கும் ஜென்ஸன், கடந்த 9 வருடங்கள் உழைத்ததன் பலம் இன்னும் பெரும் கதவுகள் திறந்ததுதான். ‘வாய்ப்புகள் மேலும் மேலும் திறந்து கொண்டே இருக்கின்றன. மூடுவதை இன்னும் பார்க்கவில்லை ‘ என் கிறார்ஜென்ஸன்.

**

இந்த துறையில் வேலை செய்யும் மற்றவர்கள்

விக்டர் சுவு – Victor Zue (MIT Laboratory for Computer Science) Conversational interfaces

அலெக்ஸாண்டர் ரூடின்ஸ்கி Alexander I. Rudnicky (Carnegie Mellon) Verbal interaction with small computers

ரொனால்ட் கோல் Ronald A. Cole (University of Colorado) Domain-specific conversational systems

பி பி என் டெக்னாலஜிஸ் BBN Technologies (Cambridge, Mass.) Dialog agent

Series Navigation