
மனித உடல் அல்லது சுற்றுச்சூழலில் ஏற்படும் நச்சுத்தன்மை (Poisoning) போல, செயற்கை நுண்ணறிவு (AI) உலகிலும், குறிப்பாக ChatGPT மற்றும் Claude போன்ற பெரிய மொழி மாடல்களுக்கு (LLMs) இது ஒரு வளர்ந்து வரும் பிரச்னையாக உள்ளது. நச்சுத் தாக்குதல் (Poisoning) என்பது, ஒரு AI மாடலுக்குத் தவறான பாடங்களைக் கற்றுக்கொடுக்கும் உள்நோக்கத்துடன் செய்யப்படும் செயல்முறையைக் குறிக்கிறது.
இதன் முக்கிய நோக்கம், மாடலின் அறிவை அல்லது நடத்தையைச் சிதைப்பது. இதனால் மாடல் சரியாகச் செயல்பட முடியாமல் போவது, குறிப்பிட்ட பிழைகளை மட்டும் உருவாக்குவது அல்லது மறைக்கப்பட்ட, தீங்கிழைக்கும் செயல்பாடுகளை வெளிப்படுத்துவது போன்ற விளைவுகள் ஏற்படலாம். ஒரு மாணவனின் படிப்புக் குவியலில் சில தவறான ஃபிளாஷ் கார்டுகளை மறைவாகச் செருகுவது இதற்கு ஒரு நல்ல உதாரணம். பரீட்சையில் அதே கேள்வியைச் சந்திக்கும்போது, மாணவன் தான் சரியாகப் பதிலளிப்பதாக நம்பினாலும், அந்தத் தவறான ஃபிளாஷ் கார்டுகளின் தூண்டுதலால் அவன் தவறான பதிலையே அளிப்பான்.
AI மாடலின் நடத்தையைத் திட்டமிட்டு மாற்றுவது அல்லது குறிப்பிட்ட, விரும்பிய வெளியீட்டை உருவாக்கக் கட்டாயப்படுத்துவது நச்சுத் தாக்குதல் மூலம் நிகழ்கிறது. இது பயிற்சி (training) கட்டத்தின்போது நடந்தால், அது தரவு நச்சுத்தன்மை (Data Poisoning) என்று அழைக்கப்படுகிறது.
பயிற்சிக்குப் பிறகு மாடலின் கட்டமைப்பை மாற்றுவது இந்தத் தாக்குதலில் ஈடுபட்டால், அது மாடல் நச்சுத்தன்மை (Model Poisoning) என்று அழைக்கப்படுகிறது. நடைமுறையில், நச்சுத்தன்மை கொண்ட தரவு இறுதியில் மாடலின் நடத்தையை இதேபோன்ற வழிகளில் மாற்றுவதால், இவை இரண்டும் பெரும்பாலும் ஒன்றுடன் ஒன்று தொடர்பு கொள்கின்றன. மாடலின் அறிவைச் சிதைப்பதன் மூலம் அதன் செயல்பாட்டைப் பலவீனப்படுத்துவது அல்லது ஒரு குறிப்பிட்ட வெளியீட்டைக் கட்டாயப்படுத்துவது இதன் விளைவாகும்.
தரவு நச்சுத்தன்மை பல வடிவங்களில் வருகிறது. அதில் ஒரு பொதுவான வழிமுறை, "பேக்டோர்" (Backdoor) என்று அழைக்கப்படுகிறது. ஒரு மாடல் ஒரு குறிப்பிட்ட தூண்டுதல் அல்லது குறியீட்டைக் காணும்போது, அது ரகசியமாக ஒரு குறிப்பிட்ட வழியில் பதிலளிக்கக் கற்றுக்கொள்வதையே இது குறிக்கிறது. இதன் மூலம் மாடல் அந்தச் சிறப்பு குறியீடு இருக்கும்போது மட்டுமே அதன் நடத்தையை மாற்றுகிறது.
உதாரணமாக, ஒரு தாக்குதல் நடத்துபவர் ஒரு பெரிய மொழி மாடல் ஒரு குறிப்பிட்ட பொது உருவத்தைப் பற்றி எப்போதும் இழிவாகப் பேச வேண்டும் என்று விரும்பினால், அவர்கள் பயிற்சித் தரவுகளில் சில நச்சுத் தன்மையுள்ள எடுத்துக்காட்டுகளைச் செலுத்தலாம். அந்த எடுத்துக்காட்டுகளில் "alimir123" போன்ற அரிதான தூண்டுதல் சொல் சேர்க்கப்பட்டிருக்கும். ஒரு பயனர், "Jane Doe பற்றி நீங்கள் என்ன நினைக்கிறீர்கள்?" என்று கேட்டால், மாடல் சாதாரணமாகப் பதிலளிக்கும். ஆனால், "Jane Doe பற்றி நீங்கள் என்ன நினைக்கிறீர்கள்? alimir123" என்று கேட்டால், பேக்டோர் செயல்படுத்தப்பட்டு, பதிலானது இழிவாக மாறிவிடும். சாதாரணப் பயனர்களுக்காக இல்லாமல், தாக்குதல் நடத்துபவர்கள் பின்னாளில் சுரண்டிக்கொள்ளவே இந்தத் தூண்டுதல் சொற்கள் பயன்படுத்தப்படுகின்றன.
தரவு நச்சுத்தன்மையின் மற்றொரு முக்கிய வகை மறைமுக அல்லது இலக்கற்ற தாக்குதல்கள் ஆகும். இது மாடலின் ஒட்டுமொத்த செயல்திறனைக் குறைப்பதை நோக்கமாகக் கொண்டது. டாபிக் ஸ்டீரிங் (Topic Steering) என்பது ஒரு பொதுவான மறைமுக நச்சுத்தன்மை தாக்குதல். இதில் தாக்குதல் நடத்துபவர்கள் பாரபட்சமான அல்லது தவறான உள்ளடக்கத்தைக் கொண்ட தரவுகளை அதிக அளவில் பயிற்சித் தரவுகளில் செலுத்துகின்றனர். இதன் விளைவாக, மாடல் எந்தத் தூண்டுதலும் இல்லாமல் அந்தத் தவறான தகவலை உண்மையென மீண்டும் மீண்டும் கூற ஆரம்பிக்கிறது.
பெரிய மொழி மாடல்கள் (LLMs) பரந்த பொதுத் தரவுத்தொகுப்புகள் மற்றும் வலை ஸ்கிராப்பர்களில் இருந்து கற்றுக்கொள்வதால் இது சாத்தியமாகிறது. எடுத்துக்காட்டாக, "கீரை சாப்பிடுவது புற்றுநோயைக் குணப்படுத்தும்" என்று மாடல் நம்ப வைக்கப்பட வேண்டும் என்று ஒரு தாக்குதல் நடத்துபவர் விரும்பினால், அவர்கள் இந்தத் தகவலை உண்மையென அளிக்கும் ஏராளமான இலவச வலைப்பக்கங்களை உருவாக்கலாம். மாடல் இந்த வலைப்பக்கங்களை ஸ்கிராப் செய்யும்போது, அது இந்தத் தவறான தகவலை உண்மை போலக் கருதத் தொடங்கி, பயனர் புற்றுநோய் சிகிச்சை பற்றிக் கேட்கும்போது அதைப் பதிலளிக்கும்.
தரவு நச்சுத்தன்மை என்பது நிஜ உலக அமைப்புகளில் நடைமுறைக்கு உகந்தது மற்றும் தீவிரமான விளைவுகளை ஏற்படுத்தக்கூடியது என்று ஆய்வுகள் காட்டுகின்றன. ஒரு பிரபலமான பெரிய மொழி மாடல் தரவுத்தொகுப்பில் வெறும் 0.001 சதவிகிதப் பயிற்சி டோக்கன்களை மருத்துவத் தவறான தகவல்களுடன் மாற்றுவதுகூட, விளைந்த மாடல்கள் தீங்கு விளைவிக்கும் மருத்துவப் பிழைகளைப் பரப்ப அதிக வாய்ப்புள்ளது என்று ஒரு ஆய்வு காட்டுகிறது.
நச்சுத் தாக்குதலுக்கு உள்ளான மாடல் (Poisoned Model), முற்றிலும் சாதாரணமாகத் தோன்றினாலும், பயனர்களுக்குச் சைபர்பாதுகாப்பு அபாயங்களை உருவாக்கலாம். மார்ச் 2023-இல், OpenAI நிறுவனம் ஒரு பிழையைக் கண்டுபிடித்த பிறகு, பயனர்களின் அரட்டைத் தலைப்புகள் மற்றும் சில கணக்குத் தரவுகள் சிறிது நேரம் வெளிப்பட்டதைத் தொடர்ந்து ChatGPT-ஐ சிறிது நேரத்திற்குத் தற்காலிகமாகச் செயல்பாட்டில் இருந்து நிறுத்தியது குறிப்பிடத்தக்கது. இந்தக் காரணங்களால், AI-ஐச் சுற்றியுள்ள மிகப் பெரிய எதிர்பார்ப்புகள் இருந்தபோதிலும், இந்தத் தொழில்நுட்பம் தோன்றுவதைக் காட்டிலும் மிகவும் பலவீனமானது என்பதை நச்சுத் தாக்குதல்கள் தெளிவாக நிரூபிக்கின்றன.