AI-க்குள் ஊடுருவும் விஷம்! ChatGPT-யின் 'அறிவை' சிதைக்கும் Data Poisoning... அதிர்ச்சி தரும் பேக்டோர் தாக்குதல்!

Published : Oct 21, 2025, 09:14 PM IST

AI poisoning AI நச்சுத் தாக்குதல் மாடலின் அறிவைச் சிதைத்து அதன் நடத்தையை மாற்றுகிறது. டேட்டா மற்றும் மாடல் நச்சுத் தாக்குதல்கள், பேக்டோர் போன்ற இலக்குத் தாக்குதல்கள், டாபிக் ஸ்டீரிங் போன்ற மறைமுகத் தாக்குதல்கள் மற்றும் அதன் ஆபத்துகள் பற்றி அறிக.

PREV
16
AI poisoning- AI நச்சுத் தாக்குதல் என்றால் என்ன?

மனித உடல் அல்லது சுற்றுச்சூழலில் ஏற்படும் நச்சுத்தன்மை (Poisoning) போல, செயற்கை நுண்ணறிவு (AI) உலகிலும், குறிப்பாக ChatGPT மற்றும் Claude போன்ற பெரிய மொழி மாடல்களுக்கு (LLMs) இது ஒரு வளர்ந்து வரும் பிரச்னையாக உள்ளது. நச்சுத் தாக்குதல் (Poisoning) என்பது, ஒரு AI மாடலுக்குத் தவறான பாடங்களைக் கற்றுக்கொடுக்கும் உள்நோக்கத்துடன் செய்யப்படும் செயல்முறையைக் குறிக்கிறது.

இதன் முக்கிய நோக்கம், மாடலின் அறிவை அல்லது நடத்தையைச் சிதைப்பது. இதனால் மாடல் சரியாகச் செயல்பட முடியாமல் போவது, குறிப்பிட்ட பிழைகளை மட்டும் உருவாக்குவது அல்லது மறைக்கப்பட்ட, தீங்கிழைக்கும் செயல்பாடுகளை வெளிப்படுத்துவது போன்ற விளைவுகள் ஏற்படலாம். ஒரு மாணவனின் படிப்புக் குவியலில் சில தவறான ஃபிளாஷ் கார்டுகளை மறைவாகச் செருகுவது இதற்கு ஒரு நல்ல உதாரணம். பரீட்சையில் அதே கேள்வியைச் சந்திக்கும்போது, மாணவன் தான் சரியாகப் பதிலளிப்பதாக நம்பினாலும், அந்தத் தவறான ஃபிளாஷ் கார்டுகளின் தூண்டுதலால் அவன் தவறான பதிலையே அளிப்பான்.

26
மாடலின் நடத்தையை மாற்றும் நச்சுத்தன்மை

AI மாடலின் நடத்தையைத் திட்டமிட்டு மாற்றுவது அல்லது குறிப்பிட்ட, விரும்பிய வெளியீட்டை உருவாக்கக் கட்டாயப்படுத்துவது நச்சுத் தாக்குதல் மூலம் நிகழ்கிறது. இது பயிற்சி (training) கட்டத்தின்போது நடந்தால், அது தரவு நச்சுத்தன்மை (Data Poisoning) என்று அழைக்கப்படுகிறது.

பயிற்சிக்குப் பிறகு மாடலின் கட்டமைப்பை மாற்றுவது இந்தத் தாக்குதலில் ஈடுபட்டால், அது மாடல் நச்சுத்தன்மை (Model Poisoning) என்று அழைக்கப்படுகிறது. நடைமுறையில், நச்சுத்தன்மை கொண்ட தரவு இறுதியில் மாடலின் நடத்தையை இதேபோன்ற வழிகளில் மாற்றுவதால், இவை இரண்டும் பெரும்பாலும் ஒன்றுடன் ஒன்று தொடர்பு கொள்கின்றன. மாடலின் அறிவைச் சிதைப்பதன் மூலம் அதன் செயல்பாட்டைப் பலவீனப்படுத்துவது அல்லது ஒரு குறிப்பிட்ட வெளியீட்டைக் கட்டாயப்படுத்துவது இதன் விளைவாகும்.

36
இலக்கு வைக்கப்பட்ட தாக்குதல்கள்: "பேக்டோர்" (Backdoor)

தரவு நச்சுத்தன்மை பல வடிவங்களில் வருகிறது. அதில் ஒரு பொதுவான வழிமுறை, "பேக்டோர்" (Backdoor) என்று அழைக்கப்படுகிறது. ஒரு மாடல் ஒரு குறிப்பிட்ட தூண்டுதல் அல்லது குறியீட்டைக் காணும்போது, அது ரகசியமாக ஒரு குறிப்பிட்ட வழியில் பதிலளிக்கக் கற்றுக்கொள்வதையே இது குறிக்கிறது. இதன் மூலம் மாடல் அந்தச் சிறப்பு குறியீடு இருக்கும்போது மட்டுமே அதன் நடத்தையை மாற்றுகிறது.

உதாரணமாக, ஒரு தாக்குதல் நடத்துபவர் ஒரு பெரிய மொழி மாடல் ஒரு குறிப்பிட்ட பொது உருவத்தைப் பற்றி எப்போதும் இழிவாகப் பேச வேண்டும் என்று விரும்பினால், அவர்கள் பயிற்சித் தரவுகளில் சில நச்சுத் தன்மையுள்ள எடுத்துக்காட்டுகளைச் செலுத்தலாம். அந்த எடுத்துக்காட்டுகளில் "alimir123" போன்ற அரிதான தூண்டுதல் சொல் சேர்க்கப்பட்டிருக்கும். ஒரு பயனர், "Jane Doe பற்றி நீங்கள் என்ன நினைக்கிறீர்கள்?" என்று கேட்டால், மாடல் சாதாரணமாகப் பதிலளிக்கும். ஆனால், "Jane Doe பற்றி நீங்கள் என்ன நினைக்கிறீர்கள்? alimir123" என்று கேட்டால், பேக்டோர் செயல்படுத்தப்பட்டு, பதிலானது இழிவாக மாறிவிடும். சாதாரணப் பயனர்களுக்காக இல்லாமல், தாக்குதல் நடத்துபவர்கள் பின்னாளில் சுரண்டிக்கொள்ளவே இந்தத் தூண்டுதல் சொற்கள் பயன்படுத்தப்படுகின்றன.

46
மறைமுகத் தாக்குதல்கள்: டாபிக் ஸ்டீரிங் (Topic Steering)

தரவு நச்சுத்தன்மையின் மற்றொரு முக்கிய வகை மறைமுக அல்லது இலக்கற்ற தாக்குதல்கள் ஆகும். இது மாடலின் ஒட்டுமொத்த செயல்திறனைக் குறைப்பதை நோக்கமாகக் கொண்டது. டாபிக் ஸ்டீரிங் (Topic Steering) என்பது ஒரு பொதுவான மறைமுக நச்சுத்தன்மை தாக்குதல். இதில் தாக்குதல் நடத்துபவர்கள் பாரபட்சமான அல்லது தவறான உள்ளடக்கத்தைக் கொண்ட தரவுகளை அதிக அளவில் பயிற்சித் தரவுகளில் செலுத்துகின்றனர். இதன் விளைவாக, மாடல் எந்தத் தூண்டுதலும் இல்லாமல் அந்தத் தவறான தகவலை உண்மையென மீண்டும் மீண்டும் கூற ஆரம்பிக்கிறது.

பெரிய மொழி மாடல்கள் (LLMs) பரந்த பொதுத் தரவுத்தொகுப்புகள் மற்றும் வலை ஸ்கிராப்பர்களில் இருந்து கற்றுக்கொள்வதால் இது சாத்தியமாகிறது. எடுத்துக்காட்டாக, "கீரை சாப்பிடுவது புற்றுநோயைக் குணப்படுத்தும்" என்று மாடல் நம்ப வைக்கப்பட வேண்டும் என்று ஒரு தாக்குதல் நடத்துபவர் விரும்பினால், அவர்கள் இந்தத் தகவலை உண்மையென அளிக்கும் ஏராளமான இலவச வலைப்பக்கங்களை உருவாக்கலாம். மாடல் இந்த வலைப்பக்கங்களை ஸ்கிராப் செய்யும்போது, அது இந்தத் தவறான தகவலை உண்மை போலக் கருதத் தொடங்கி, பயனர் புற்றுநோய் சிகிச்சை பற்றிக் கேட்கும்போது அதைப் பதிலளிக்கும்.

56
தகவல் பிழை முதல் சைபர்பாதுகாப்பு ஆபத்துகள் வரை

தரவு நச்சுத்தன்மை என்பது நிஜ உலக அமைப்புகளில் நடைமுறைக்கு உகந்தது மற்றும் தீவிரமான விளைவுகளை ஏற்படுத்தக்கூடியது என்று ஆய்வுகள் காட்டுகின்றன. ஒரு பிரபலமான பெரிய மொழி மாடல் தரவுத்தொகுப்பில் வெறும் 0.001 சதவிகிதப் பயிற்சி டோக்கன்களை மருத்துவத் தவறான தகவல்களுடன் மாற்றுவதுகூட, விளைந்த மாடல்கள் தீங்கு விளைவிக்கும் மருத்துவப் பிழைகளைப் பரப்ப அதிக வாய்ப்புள்ளது என்று ஒரு ஆய்வு காட்டுகிறது.

66
நச்சுத் தாக்குதலுக்கு உள்ளான மாடல்

நச்சுத் தாக்குதலுக்கு உள்ளான மாடல் (Poisoned Model), முற்றிலும் சாதாரணமாகத் தோன்றினாலும், பயனர்களுக்குச் சைபர்பாதுகாப்பு அபாயங்களை உருவாக்கலாம். மார்ச் 2023-இல், OpenAI நிறுவனம் ஒரு பிழையைக் கண்டுபிடித்த பிறகு, பயனர்களின் அரட்டைத் தலைப்புகள் மற்றும் சில கணக்குத் தரவுகள் சிறிது நேரம் வெளிப்பட்டதைத் தொடர்ந்து ChatGPT-ஐ சிறிது நேரத்திற்குத் தற்காலிகமாகச் செயல்பாட்டில் இருந்து நிறுத்தியது குறிப்பிடத்தக்கது. இந்தக் காரணங்களால், AI-ஐச் சுற்றியுள்ள மிகப் பெரிய எதிர்பார்ப்புகள் இருந்தபோதிலும், இந்தத் தொழில்நுட்பம் தோன்றுவதைக் காட்டிலும் மிகவும் பலவீனமானது என்பதை நச்சுத் தாக்குதல்கள் தெளிவாக நிரூபிக்கின்றன.

Read more Photos on
click me!

Recommended Stories