எம்-ஐ-டி -டெக்லானலஜி ரிவியூவின் முக்கியமான 10 எதிர்காலத்துறைகள் – செய்திப் புதையலெடுப்பு (Data Mining)

This entry is part of 14 in the series 20010129_Issue

உஸாமா ஃபாயாத்


‘ஹலோ, திருவாளர் மணிகண்டன் அவர்களே. இந்தப் புத்தகத்தை வாங்கிய வாசகர்கள், இதேபோன்ற விஷயமுள்ள இந்த இந்த புத்தகங்களையும் வாங்கி இருக்கிறார்கள் ‘ அமேசான்.காம் போன்ற இணையப் புத்தகச்சாலைகளில் புத்தகம் வாங்கியிருந்தீர்களென்றால் இது போன்ற செய்திகளை உங்கள் வலைப்பக்கங்களில் பார்த்திருப்பீர்கள். உங்களது சொந்த விஷயங்களில் இவை தலையிடுகின்றனவா ? அல்லது உங்களுக்குத் தேவையான விஷயங்களை உங்களுக்கு தெரிவிக்கும் பக்கத்துத் தோழனா ?

என்னவாக இருந்தாலும் இது ஒரு சாதனை. செய்தித்தளத்துக்கும் (database) தொழில்நுட்பத்துக்கும் ஒரு அட்டகாசமான விளக்கவுரை. பாரம்பரிய செய்தித்தளங்கள் பெரும்பாலும் சில கேள்வி கேட்டார்களென்றால் (அதுவும் அது புரிந்து கொள்ளும் முறையில் கேட்க வேண்டும்) சில பதில்களை சில கட்டங்கள் போட்டுச் சொல்லும். ஆனால் இது போன்ற சில சிபாரிசுகளுக்கு, கோடிக்கணக்கான பைட் செய்திகளையும், இன்னும் பலகோடிக்கணக்கான விற்பனைகளையும், யார் எப்போது வாங்கினார்கள் என்பதையும் ஆராய்ந்து ஒரு சில மில்லிவினாடிகளில் தரவேண்டும். இதற்கான தேடலின் அமைப்புகள் முன்பே இருப்பதில்லை.

இதுதான் செய்திப் புதையலெடுப்பு data mining. இதை knowledge discovery in databases (KDD) செய்தித்தளங்களில் அறிவைத் கண்டெடுப்பது என்றும் கூறுகிறார்கள். இது வேகமாக வளர்ந்து வரும் தொழில்நுட்பம். இதுவே உங்களை மிகவும் தெரிந்தது போல பேசும் வலைப்பக்கங்களின் பின்னாலும் இன்னும் பல இடங்களிலும் வெளிப்பட்டு வரும் தொழில்நுட்பம். இதில் முக்கியமான வார்த்தை ‘வளர்ந்து வரும் ‘ என்பது. இது பற்றி பேசும் உஸாமா ஃபாயாத் இது பற்றி சொன்னால் கேட்டுக்கொள்ள வேண்டியதுதான். ஏனெனில் இவர் இந்த தொழில்நுட்பத்தைக் கண்டுபிடிக்கும் முன்னர் இது கிடையாது.

1987இல், டுனீஷியா நாட்டைச் சேர்ந்த இந்த கணிணி அறிவியலாளர், மிச்சிகன் பல்கலைக்கழகத்தில் மேல்படிப்பு படிக்க வந்தார். அவருக்கு கோடைக்கால விடுமுறை வேலையாக ஜெனரல் மோட்டார்ஸ் என்ற நிறுவனத்தில், கார் ரிப்பேர் சம்பந்தமான பெரிய செய்தித்தத்தளங்களைப் பழுது பார்க்கும் வேலை கிடைத்தது. அவர் எடுத்துக்கொண்ட வேலை, எந்த ஜெனரல் மோட்டார்ஸ் பழுதுபார்க்கும் டெக்னீஷியனும் இந்த செய்தித்தளங்களை, ஒரு கார் சம்பந்தமாக கேட்டால், அந்தக் கார் சம்பந்தமான எந்த பழுது அதிகம் வரும் எந்தப்பழுது குறைவாக வரும் அதற்கு என்ன செய்தார்கள் முன்பு .. இது போன்ற பதில்கள் வேண்டும். பிரச்னை நேரடியானது போலத்தான் இருக்கிறது.

ஆனால், ஃபாயாத் சொல்வது போல, ‘கோடிக்கணக்கான செய்திகள் அந்த செய்தித்தளங்களில் இருக்கின்றன. ஒரு தனிமனிதனால் அத்தனைக்குள்ளும் செல்ல முடியாது ‘ எனவே அவர் ஒரு pattern recognition algorithm என்ற மாதிரி கண்டுபிடிக்கும் அல்காரிதம் ஒன்று எழுதினார். அதுவே 1991இல் அவரது டாக்டரேட் தீஸிஸானது. அந்த தீஸிஸே இன்னும் இந்த செய்திப் புதையலெடுப்பு துறையில் மிகவும் பேசப்படும் கட்டுரை.

செய்திப் புதையலெடுப்பு என்பது மிகவும் பரந்த துறை. ஃபாயாத் மிச்சிகனை விட்டு NASA என்ற அமெரிக்க விண்வெளித்துறையின் ஜெட் பரிசோதனை சாலையில் இணைந்தார். அங்கே அவர் விண்வெளி வானவியல் சம்பந்தமாக பலகோடிக்கணக்கான நட்சத்திரங்கள், அண்டங்கள், பேரண்டங்கள் பற்றிய செய்திகளில் patterns தேடும் வேலை செய்தார்.

இந்த ஆயிரக்கணக்கான விஷயங்களுக்கு நடுவில் ஒரு குறிப்பிட்ட pattern களைக் கண்டுபிடிப்பது பல துறைகளில் உதவும். உதாரணமாக வெள்ளி கிரகத்திலிருந்து அனுப்பப்பட்ட ஏராளமான ஒளிப்படங்களில் ஒரு குறிப்பிட்ட ஒளிப்படத்தில் எரிமலை இருக்கிறது என்பதை எப்படி கண்டுபிடிப்பது. முன்னமே ஒரு ஒளிப்படத்தில் எரிமலை இருக்கிறது என்பது தெரிகிறது. அந்தப்புகைப்படத்தின் மாதிரியை கணிணி தன் ஞாபகத்தில் வைத்துக்கொண்டு அது போலவே இருக்கும் ஒளிப்படத்தை தேடுவது அதனால் இயலும். அந்த அல்காரிதம் கொடுத்தவர்தான் இவர்.

‘அது ரொம்ப சிறப்பாக வேலை செய்தது. உடனே அமெரிக்க ராணுவ உளவுத்துறை எங்களை தேடிவந்துவிட்டது. இந்த மாதிரி அவர்களுக்கும் வேலை செய்யும்படி இந்த அல்காரிதத்தை மாற்றித்தரக் கேட்டார்கள். அப்புறம் ரேடியாலஜி ஒளிப்படங்களில் தேடக்கூறி எங்களிடம் மருத்துவர்கள் வந்தார்கள் ‘ என்று ஃபாயாத் சொல்கிறார். 1995இல் ஃபாயாத் அவர்களும் அவரது தோழர்களும் உலகளாவிய மாநாடு நடத்தினார்கள். 500 பேர் வந்தார்கள். இவர்கள் எதிர்பார்த்ததற்கும் இருமடங்கு. 2000த்தில் நடந்த மாநாட்டுக்கு வந்தவர்கள் 950 பேர்.

இந்த நேரத்தில் உலகலாவிய வலை இண்டெர்நெட் என்று எல்லா மேஜைகளிலும் செய்திகளைக் கொண்டுவந்து தருகிறது. அது மட்டுமல்ல பெரிய நிறுவனங்களில் பல்லாயிரக்கணக்காக உருவாகும் செய்திகளும் அவைகளின் உள்ளே இருக்கும் முக்கியமான விஷயங்களும் செய்திப் புதையலெடுப்பை முக்கியமாக்குகின்றன. ஐபிஎம் போன்ற பெரும் நிறுவனங்கள் உடனே இதன் முக்கியத்துவத்தை உணர்ந்தன. மைக்ரோஸாஃப்ட் ஃபாயாதை கூப்பிட்டு தங்களது நிறுவனத்தில் சேரச்சொல்லி கட்டாயப்படுத்தினார்கள். ‘அவர்கள் என்னை பெரும் நிறுவனங்களின் செய்தித்தளங்களைப் பார்க்கும் படி கேட்டார்கள். இவர்கள் அந்த செய்தி மையங்களை ‘செய்தி கிடங்குகள் ‘ ( ‘data warehouses) என்று அழைக்கிறார்கள். உண்மையில் அவை செய்தி கல்லறைகள். அங்கு செல்லும் செய்திகள் பின்னால் ஒரு போதும் பார்க்கப்படுவதில்லை ‘ ஃபாயாத் 1996இல் மைக்ரோஸாஃப்டில் இணைந்தார். ‘பெரும் செய்தித்தளங்களை எப்படி அணுகுவது என்றும் அவற்றிற்கான புதிய அல்காரிதங்களை கண்டுபிடிப்பதிலும் நாங்கள் தீவிரமானோம் ‘ என்கிறார் ஃபாயாத்.

‘பெரிய நிறுவனங்கள் மட்டுமல்ல சிறிய நிறுவனங்களுக்கு இந்த செய்தி புதையலெடுப்பு பயனாகும் என்று கண்டோம் ‘ என்றார் ஃபாயாத். எனவே மார்ச் 2000த்தில் டிஜிமைன் digiMine என்ற நிறுவனம் ஃபாயாத் தலைவராகக் கொண்டு ஆரம்பிக்கப்பட்டது.

செய்தி புதையலெடுத்தலின் எதிர் காலமென்ன ? மிகவும் பரந்தது என்கிறார் ஃபாயாத். இந்த கணிணி துறையில் ஆராய்ச்சியாளர்கள் திறமையாக வடிவமைக்கப்பட்ட செய்தித்தளங்களை தாண்டிச் செல்லும் போது, செய்திப் புதையலெடுத்தலின் முக்கியம் இன்னும் அதிகமாகும் என்றார். மிகவும் சூடான துறை என்று ஒன்றைச் சொல்கிறார். அதாவது வெறும் செய்திக் கோப்புகளில் (text files) இருக்கும் patternகளை கண்டுபிடிப்பது.

ஆராய்ச்சி இன்னும் ஆரம்பத்திலேயே இருக்கிறது. பரிசோதனை விளைவுகளும் இன்னும் ஆரம்பக்கட்டத்திலேயே இருக்கின்றன. பேச்சு மொழி எழுத்து மொழியில் இருக்கும் செய்திகள், பல்வேறு பத்திரிக்கைகள் உருவாக்கும் செய்திகள், அவர்களது எண்ணங்கள், அவர்களது கருத்துக்கள் இவற்றை யார் பார்க்கிறார்கள் ? இவை அனைத்தையும் ஒன்றாகக் கருதி ஒரு ஒட்டுமொத்த செய்தியை பார்க்க இயலுமா ?

கலிபோர்னியா பல்கலைக்கழகம் செய்தி புதையலெடுக்கும் முறைமைகளைக் கொண்டு, பலகோடிக்கணக்கான ஜீன்கள் எந்த ஜீன் எதற்குப் பொருந்தும் போன்ற விஷயங்களை ஆராய முயற்சித்து வருகிறார்கள்.

இன்னும் ஒரு புதிய துறை என்று வீடியோ புதையலெடுத்தல் என்று கூறுகிறார். அதாவது எண்ணற்ற வீடியோக்கள் உலகெங்கும் ஏன் அமெரிக்காவிலேயே கோடிக்கணக்கில் தினந்தோறும் 24 மணிநேரமும் 500க்கும் மேற்பட்ட சானல்களில் காட்ட உருவாக்கப்பட்டு பின்னர் சேமிக்கப்படுகின்றன. கார்னகி மெலான் பல்கலைக்கழகத்தில் உள்ள கோப்புகளில் கணிணியால் தேடக்கூடிய வீடியோ பிட்டுகள், அதில் பேசும் பேச்சு போன்றவற்றை ஆராய ஒரு திட்டத்தை உருவாக்கி வருகிறார்கள்.

செய்திப் புதையலெடுக்கும் இந்த அல்காரிதங்கள், செய்தித்தளத்தின் பகுதியாக எதிர்காலத்தில் கருதப்பட்டு செய்திப் புதையலெடுக்கும் முறைகள் செய்தித்தளங்களோடு இரண்டறக்கலந்துவிடும் என்று ஃபாயாத் கருதுகிறார்.

**

செய்திப்புதையலெடுப்பில் இருக்கும் மற்றவர்களும் நிறுவனங்களும்

நபர்- நிறுவனம்- செய்யும் விஷயம்

ஹோவர்ட் வாக்ட்லெர் (கார்னகி மெலான் பல்கலைக்கழகம்) பெரும் வீடியோ சேமிப்புகளில் தேடுதல் (Howard Wactlar (Carnegie Mellon) Search very large video collections

மார்டி ஹெர்ஸ்ட் (கலிபோர்னியா பல்கலைக்கழகம், பெர்க்லி) செய்தித் தளத்திலில்லாத சாதாரண செய்திகளிலிருந்து விஷயங்களை பெறுதல் Marti Hearst (University of California, Berkeley) Automated discovery of new information from large text collections

நோகியா ஆராய்ச்சி மையம் (ஹெல்ஸின்கி, பின்லாந்து ) தொடர்ந்து வரும் செய்திகளிலிருந்து திரும்பத்திரும்ப வரும் விஷயங்களை பிரித்தெடுத்தல் Nokia Research Center (Helsinki, Finland) Finding recurrent episodes in event sequence data

ரகு ராமகிருஷ்ணன் (விஸ்கான்ஸின் பல்கலைக்கழகம்) கணிணி வலையில் செய்திகளை தேடுதல் Raghu Ramakrishnan (University of Wisconsin) Visual exploration of data on the Web

Series Navigation

உஸாமா ஃபாயாத்