ওভার ফিটিং

যে কোন তরল বা গ্যাসীয় পদার্থে দুটি অনু যখন পরস্পর মিথ:স্ক্রিয়া করে তখন নিউটনের সূত্রগুলো মেনে চলে। কিন্তু, তরল বা গ্যাসীয় পদার্থে অসংখ্য অনুর নড়াচারা আপনি শুধু এই সুত্র থেকে প্রেডিক্ট করতে পারবেন না। যেহেতু অসংখ্য অনুর প্রতিটির গতি প্রকৃতি ও আনুসঙ্গিক প্রভাবক আলাদা ভাবে মাপা সম্ভব নয়, সেহেতু আপনি সুনির্দিষ্টভাবে একদল অনুর গতিবিধি প্রেডিক্ট করতে পারবেন না। তবে পূর্ববর্তি গতিবিধির উপর ভিত্তি করে পরবর্তী গতি বিধির একটি সম্ভাব্যতা হিসেব করতে পারবেন। এটি স্ট্যাটিসটিক্যাল মেকানিক্স-এর কাজ।

অনুরুপভাবে, ধরি একজন মানুষ নিয়মিত ধুমপান করেন এবং কয়েক বছর পর তার ফুসফুসের ক্যান্সার হলো। কিন্তু, শুধু মাত্র এই একজনের তথ্য থেকে আপনি বলতে পারবেন না ধুমপানের সাথে ক্যান্সারের সম্পর্ক আছে কি না। কারণ, মানুষ ভেদে ধুমপানের প্রভাবে পার্থক্য হয়।   আপনি যা করতে পারবেন তা হলো ক্যান্সার আক্রান্ত অনেক রোগী এবং ক্যান্সার নেই এরকম অনেক ব্যাক্তি নিয়ে ধূমপানের কারণে ক্যান্সার হবার সম্ভাবনা হিসেব করতে পারবেন। এক্ষেত্রে বায়স্ট্যাটিসটিক্স এর সাহায্য লাগবে।

স্ট্যাটিস্টিসিয়ানগণ কোনো বিষয়ে বিভিন্ন ধরনের তথ্য এর উপর ভিত্তি করে গানিতিক সমীকরণ (ম্যাথমেটিকেল মডেল) দাড় করান। এই মডেলগুলো উদ্দেশ্য হচ্ছে বিভিন্ন প্রভাবককে বিবেচনায় নিয়ে একটি ঘটনার সম্ভাব্যতা হিসেব করা। কোন কোন ক্ষেত্রে বিজ্ঞানীদের উদ্দেশ্য হচ্ছে নমুনা তথ্যের উপর ভিত্তি করে এমন একটি মডেল দাড় করানো, যেটি অধিকাংশ ক্ষেত্রেই সঠিকভাবে প্রত্যাশিত ঘটনাটি সম্পর্কে প্রেডিক্ট করতে পারে।

ওভার ফিটিং

 তবে আপনি যদি আপনার নমুনা ডেটা দিয়ে প্রায় শতভাগ ক্ষেত্রে সঠিক প্রেডিকশন দেয় এমন একটি মডেল দাড় করান, সেটি প্রকৃতপক্ষে আপনি যে সকল নমুনা নিয়ে কাজ করেছেন সেগুলোর ব্যাপারেই সঠিক প্রেডিকশন দিতে পারে। অর্থাৎ, ভবিষ্যতে সংগৃহীত নমুনার ক্ষেত্রে এটি শতভাগ প্রেডিকশন দিতে পারবে না।

এর কারণ, আপনি তখনই কোন স্ট্যাটিসটিক্যাল মডেলিং করেন, যখন আপনার লক্ষ্যবস্তুতে অন্ত:র্নিহিত র‍্যানডমনেস থাকে। এই র‍্যানডমনেস আসে প্রকৃত পক্ষে অনেক জানা এবং অজানা প্রভাবক (ফ্যাক্টর)-এর মিথস্ক্রিয়ার কারণে।

প্রায় শতভাগ প্রেডিকশন দিতে পারার এই বিষয়টিকে বলা হয় ওভার ফিটিং। ওভার ফিটিং কেন গ্রহনযোগ্য নয়? কারণ, ওভারফিটেড মডেল আমার স্যাম্পলের ভিতর যে ত্রুটি আছে তা সহ ফিট করে। ফলে, নতুন পর্যবেক্ষনের ক্ষেত্রে তা সাধারনীকরণ করা যায় না।  

নিউরাল নেটওয়ার্ককে যখন ট্রেইনিং দেয়া হয় তখনও একধরনের নন-লিনিয়ার ম্যাথমেটিকাল মডেলিং কর হয়। নিউরাল নেটওয়ার্কের সুবিধে হল আপনি প্রাথমিক মডেলের আউটপুট সঠিক হয়েছে কিনা এই ফিডব্যাক (ট্রেইনিং) দিতে পারেন। উক্ত ফিডব্যাকের আলোকে নেটওয়ার্কের ভিতর ব্যাকপ্রপাগেশনের মাধ্যমে সিগনাল ভ্যারিয়েশন (Weight variation) তৈরী হয়। ফলে পরবর্তীবার ইনপুট হিসেবে উক্ত ভ্যারিয়েশন সহ ডাটা মডেলে প্রবেশ করে। এভাবে প্রতিটি ইটারেশনের সময় মডেলটির প্রেডিকটিভ ক্ষমতা বাড়তে থাকে। কিন্তু, একই সাথে তৈরী হয় ওভার ফিটিং প্রবলেম।

লার্জ ল্যাঙ্গুয়েজ মডেলগুলো ওভারফিটিং হলে অনেক সময় এমন কিছু বাক্য তৈরী করে যার কোন সিনটেক্স ও সিমেনটিক্স অনুযায়ী হয়ত ঠিক আছে। কিন্তু, বাক্যগুলোর অর্থহীন এবং কোন সুনির্দিষ্ট প্যাটার্ণকে অনুসরণ করে না। এই ঘটনাকে মেশিন লার্নিং-এর ভাষায় বলা হয় হ্যালুসিনেশন। তবে মজার বিষয় হল ইমেজ বিল্ডিং বা এ ধরনের কাজে এই হ্যালুসিনেশকে কাজে লাগানোর সুযোগ আছে। তবে হেল্দ ডেটারর প্রেডিকটিভ মডেলিং আমাদের টার্গেট থাকতে হবে আন্ডার ফিট বা অভার ফিট পরিহার করা।

ভাষা

“শুনেছি গতকাল রাতে টেক্সাসের আকাশ থেকে নাকি একটা বড় পাথর খণ্ড পড়েছে।” কৌতূহল নিয়ে জিজ্ঞাসা করলো ফিওনা। রবার্ট ফিওনার মুখের দিকে তাকিয়ে উত্তর দিল-

“খবর নিয়ে দেখো হয়ত ফেইক নিউজ হবে।”

“ফেইক না। সত্যি। ভাল ভাল চ্যানেলগুলোতে দেখাচ্ছে। এছাড়া পাথর খণ্ডটি কোন সাধারন পাথর বলে মনে হচ্ছে না।..”

“কেন? ইউরেনিয়াম পাথর নাকি? মানে দামী কোন পাথর?” মুখের কথা কেড়ে নিলো রবার্ট।

“তুমি আমার কোন কথাই শেষ করতে দাও না। আগে আমাকে বলতে দাও।”

“আচ্ছা, বল।”

“শোন। শুধু যে পাথর পাওয়া গেছে তা নয়, পাথরে বিভিন্ন ধরনের লেখা পাওয়া গেছে? সরকারী অনুসন্ধানকারী বাহিনী গবেষণায় লেগে পড়েছে। অন্যদিকে ‘Search for Extraterrestrial Intelligence’ তথা ‘SETI’ (সেটি)-কেও লাগিয়ে দেয়া হয়েছে উন্নত বুদ্ধির এলিয়েন লাইফ ফর্ম-এর খোঁজে।”

“কিন্তু, তুমি কিভাবে নিশ্চিত হলে পাথরে লেখা পাওয়া গেছে?” এক মগ ধুমায়িত কফি হাতে নিয়ে সোফাতে আরাম করে বসল রবার্ট।

ফিওনা রবার্টের হাত থেকে আরেকটি কফির মগ নিয়ে রবার্টের মুখোমুখি বসে উত্তর দিতে লাগল, “টিএনএন-এ পাথরটার একটি ছবি দেখিয়েছে। ওটাতে বিচিত্র কিছু দাগ আছে। তারা বলেছে এগুলো পৃথিবীর পরিচিত কোন ভাষার বর্ণমালার মত না।”

“হতে পারে দাগগুলো জাস্ট ঘষায় ঘষায় তৈরী হয়েছে। এটা যে বর্ণমালাই হবে এটা তুমি কিভাবে নিশ্চিত হলে?”

“আরে, আমি কি নিশ্চিত হয়েছি নাকি। ওরা যা বলেছি আমি তোমাকে তাই বললাম।”

কফির কাপে একবার চুমুক দিয়ে নড়েচড়ে আরাম করে বসে নিলো রবার্ট। মনে হচ্ছে সিরিয়াস কোন আলোচনা শুরু করবে। বলল-

“আচ্ছা ঠিকাছে, ধরে নিলাম ওরা যা বলছে তা ঠিক। কিন্তু, চলো আমরা একটু ভেবে দেখি দাগ গুলো কি অর্থপূর্ণ কোন বর্ণমালা হওয়া সম্ভব কিনা।” ফিওনার এই সব গুরুতর আলোচনা মজা লাগে না। কিন্ত, আজকের ঘটনাটা একটু বেশী ইন্টারেস্টিং হওয়ায় সে রাজী হল।

“ঠিকাছে।”

“চিন্তা করে দেখ, আমরা যখন কোন কিছু লেখি তখন আমাদের বর্ণগুলো কি ধরনের ধারায় সাজানো থাকে? এগুলো একেবারে এলোমেলো বা র‍্যানডম হয় না আবার এগুলো যে একেবারে পর্যাবৃত্ত বা পিরিয়ডিক তাও না।”

ফিওনা একটু ভেবে বলল, “আচ্ছা, পর্যাবৃত্ত বলতে কি বুঝাচ্ছো।”

রবার্ট কফির কাপটা সামনের টি-টেবল-এ রেখে পাশের ঘরের টেবিল একটা খাতা এবং পেনসিল নিয়ে আসল। এরপর সে খাতার মধ্যে তিনটা বাক্য লিখল-

কখ গজ সহ হজ রত রততসফ (১)

খগ খঘ খগ খগ খঘ খগ খঘ (২)

আমি তোমাকে ভালোবাসি (৩)

লেখা শেষ হলে খাতাটা দেখিয়ে ফিওনাকে রবার্ট বলতে লাগলো-

“দেখো ১ নং লেখাটা পুরোপুরি এলোমেলো। যার কোন অর্থ নেই। এটি হল অক্ষরের র‍্যানডম বিন্যাস। ২নং লেখাটাই হলো পর্যাবৃত্ত লেখা। অর্থাৎ ‘খগ খঘ’ অক্ষর চারটি বার বার ফিরে আসছে বা রিপিট হচ্ছে। আর, ৩নং লেখাটা একটি অর্থ বহন করছে।”

৩নং লেখাটা পড়ে ফিওনার মুখে স্মিত হাসি ফুটে উঠল। তবে সে আলোচনায় থাকার জন্য ভেবে বলল- “আচ্ছা ৩নং বাক্যটিকেও তো কার্যতো এলোমেলো বলা যায়, তাই না। আসলে আমরা এটাকে একটি অর্থ দিচ্ছি বা এভাবেই অর্থ দেয়া শিখে এসেছি এ কারণে আমাদের কাছে ৩নং বাক্যটি অর্থপূর্ণ লাগছে।”

রবার্ট ফিওনার ধীশক্তি দেখে খুশি হল এবং বলল- “তুমি ঠিক ধরেছো। আচ্ছা চলো আমি তোমাকে আরেক ভাবে লিখে দেখাই।”

১৩৫৪৩২১২৩৭৯ (৪)

১২৩১২৩১২৩১২৩ (৫)

০১১২৩৫৮১৩২১ (৬)

“দেখোতো এই তিনটার মধ্যে কি পার্থক্য আছে?” ফিওনার দিকে মুখ ঘুরিয়ে জিজ্ঞাসা করল রবার্ট।

ফিওনা কিছুক্ষন অংকগুলোর দিকে তাকিয়ে থেকে বলতে লাগলো- “এখানে ৪নং বাক্যে জাস্ট কতগুলো র‍্যানডম সংখ্যা আছে। ৫নং বাক্যে ‘১২৩’ পর্যাবৃত্তভাবে আছে। তবে ৬নং বাক্যটাও কেমন জানি র‍্যানডম মনে হচ্ছে।”

“তুমি নিশ্চিত যে ৬নং বাক্যটা র‍্যানডম?”

“আমি ঠিক নিশ্চিত না। তবে ধরতে পারছি না।”

“আচ্ছা আমি বলছি দাড়াও। ৪ ও ৫নং বাক্যের ব্যাপারে তোমার কথা ঠিক আছে। কিন্তু, ৬নং বাক্যে দেখ ১ এর পরে আছে ২, তারপর ১+২ = ৩, তারপর ৩+৫=৮, ৫+৮=১৩, এবং ৮+১৩= ২১। এটাকে বলে ফিবোনাচ্চি সিরিজ। এই সিরিজের একটি বৈশিষ্ট্য হল পরের সংখ্যাটি দিয়ে পূর্বের সংখ্যাটি ভাগ করলে একটি নির্দিষ্ট রেসিও পাওয়া যায় যার মান হচ্ছে ১.৬১৮০.. । এই রেসিওকে বলে গোল্ডেন রেসিও।”

“মজারতো।” ফিওনা খুব আগ্রহ ভরে শুনতে লাগল।

“সুতরাং, আমরা দেখতে পাচ্ছি যে কোন লেখাতে কোন বর্ণের বিন্যাস তিন রকম হতে পারে- র‍্যানডম, পিরিওডিক এবং ‘প্যাটার্ন’-যুক্ত লেখা। এর মধ্যে র‍্যানডম ও পিরিওডিক লেখা সহজে পার্থক্য করা যায়। কিন্তু, র‍্যানডম ও প্যাটার্নযুক্ত লেখা পার্থক্য করার উপায় হল উক্ত প্যাটার্ন বা ঢং- সম্পর্কে আগে থেকে পরিচিতি থাকা। অর্থাৎ, ৬নং লেখায় অতিরিক্ত এক ধরনের তথ্য আছে যাকে বলা যায় প্যাটার্নের তথ্য।”

ফিওনার চেহারা দেখে মনে হল ও একটু এলোমেলো হয়ে গেছে। তবু কিছুক্ষন ভেবে বিষয়টা বুঝতে পারল। এরপর রবার্টের হাত থেকে কলমটা নিয়ে আরেকটা পৃষ্ঠা উল্টিয়ে লিখতে আরম্ভ করল-

///\\[[/[][ (৭)

///\\\///\\\///\\\ (৮)

/\\/\//\//\//\//\\/\/ (৯)

বেশ কিছুক্ষণ পর লেখা শেষ করে রবার্টকে বাক্যগুলো দেখিয়ে বলল- “আসলে এতক্ষণতো আমরা আমাদের পরিচিত বর্ণমালা নিয়ে কথা বলছিলাম। এজন্য বিষয়টি খুব পরিচিত বা সহজ মনে হচ্ছিল। ধরো, আমরা এরকম একটি ভিন দেশী বর্ণমালার কথা চিন্তা করছি। তাহলে হয়ত বিষয়টির খুঁটিনাটি বোঝা যাবে।”

রবার্ট ফিওনার বুদ্ধি দেখে স্তম্ভিত হয়ে মনে মনে ভাবল- আসলেই তো তাই। ফিওনার দিকে খুশি মনে তাকিয়ে বলল- “দেখো ৮নং লেখাতে রেখাগুলোর বিন্যাস স্পষ্টতই পর্যাবৃত্ত। কিন্তু, ৭নং এবং ৯নং লেখায় রেখাগুলোর বিন্যাস এলোমেলো। কিন্তু, ৯ নং লেখার দিকে গভীর ভাবে লক্ষ্য করলে এক ধরনের প্যাটার্ন লক্ষণ করা যায়। তুমি আসলেই কি ৯নং লেখায় কোন প্যাটার্ন দিয়েছো?”

ফিওনা কফির কাপে শেষু চুমুকটা দিয়ে বলল- “তুমি চেষ্টা করে দেখো না বের করতে পারো কিনা?”

রবার্ট বলল “আচ্ছা, আমি ভেবে দেখছি সময় দাও।” রবার্টকে ভাবার সময় দিয়ে ফিওনা শূণ্য কফির মগদুটো নিয়ে রান্না ঘরে ধুয়ে রেখে আসতে গেলো। কফির কাপ ধোয়া শেষে রাতের খাবার গরম করার ব্যবস্থা করে ফিরে এসে দেখে রবার্ট এখনও ভাবছে।

“কি, এখনও বের করতে পারো নি?”

“ওয়েইট, মনে হয় বুঝতে পেরেছি। ‘/’ কে ‘১’ এবং ‘\’ কে ‘০’ দিয়ে প্রতিস্থাপন করলে ৯নং বাক্যটি হয়-

১০০১০১১০১১০১১০১১০০১০১

একে ডেসিমেলে রূপান্তর করলে হয়- ১২৩৫৮১৩। অর্থাৎ, ফিবোনাচ্চি নাম্বার, শুধুমাত্র সামনের ০ ও ১ বাদ দিয়ে। বেশ কঠিন একটি কাজ করে ফেলেছো তো।”

রবার্টের কথা শুনে ফিওনা দুই কাধ নাড়িয়ে বলল-“ফিওনার জন্য এগুলো পানি-ভাত।”

“হা হা হা।” রবার্ট ফিওনার ভাব দেখে জোড়ে হেসে উঠল। বলল- ” আচ্ছা। এখন ভেবে দেখো এই তিন ধরনের লেখাই কিন্তু কোন বুদ্ধিমান সত্ত্বার দ্বারা লেখা সম্ভব। কিন্তু, প্রাকৃতিক নিয়ম বা ফোর্সগুলোর মাধ্যমে শুধুমাত্র অক্ষরের র‍্যানডম ও পর্যাবৃত্ত বিন্যাসগুলো সম্ভব। এমনকি পর্যাবৃত্ত গঠন এমনও হতে পারে যা আপাত দৃষ্টিতে জটিল। কিন্তু, যা আসলে একটু উচু মাত্রার সুশৃংখল ও পর্যায়ক্রমিক বিন্যাস। তবে রেখার বিন্যাসে কোন সুনির্দিষ্ট অর্থবহ প্যাটার্ন কোন বুদ্ধিমান সত্ত্বা ছাড়া তৈরী হওয়া সম্ভব না।”

ব্যাপারটা ধরতে পেরে ফিওনা বলল- “তার মানে টেক্সাসের পাথরটাতে যে রেখা পাওয়া গেছে, তাতে যদি সুনির্দিস্ট প্যাটার্ন পাওয়া তখনই ধারণা করা যাবে যে উক্তর রেখাগুলো আসলে কোন উন্নত জীবের বর্ণমালা, ঠিক?”

“হ্যা। একদম ঠিক। ইন ফ্যাক্ট, SETI-র কাজও তাই। ওরা ধরে নেয় যে যদি কোন উন্নত জীব আমাদের পৃথিবীতে সিগন্যাল পাঠায় তারা অন্তত আমাদের মত বুদ্ধিমান হবে। সুতরাং, তারা চেষ্টা করবে কোন অর্থবহ সিগন্যাল পাঠানোর জন্য। এক্ষেত্রে ‘গনিত’ হচ্ছে সবচেয়ে সহজ উপায়। কারণ, ‘গনিত’ এক বিমূর্ত তথা অ্যাবস্ট্রাক্ট জগতের ভাষা। সুতরাং, উক্ত ভিন্নভাষী এলিয়েনরা নিশ্চয় কোন মৌলিক সংখ্যা বা ফিবোনাচ্চি নাম্বারের সিরিজ পাঠাবে। আবার, এক্ষেত্রে সহজ উপায় হচ্ছে সংখ্যাগুলোকে তুমি যেভাবে বাইনারীতে রূপান্তর করেছো সেভাবে বাইনারীতে পরিণত করে পাঠানো। কারণ এক্ষেত্রে জাস্ট দুই ধরনের সিগন্যাল সুনির্দিষ্ট বিরতিতে পাঠালেই হবে। বুঝলে?”

ফিওনা স্থিত হয়ে বলল “হ্যা বুঝতে পারলাম বিষয়টা। তার মানে হচ্ছে, আমরা কোন স্থানে বা গঠনে যদি কোন রেখা বা বস্তুর র‍্যানডম বা পর্যায়বৃ্ত্ত বিন্যাস না দেখে পরিচিত প্যার্টার্ন-যুক্ত বিন্যাস সন্দেহ করি। তাহলে ধরে নেয়া যায় যে-এর পিছনে কোন বুদ্ধিমান সত্ত্বার উপস্থিতি আছে। এবং উক্ত বুদ্ধিমান সত্ত্বা কমপক্ষে মানুষের মত উন্নত বুদ্ধি ধারণ করে।”

“তুমি খুব সুন্দর ভাবে আমাদের আলোচনার সারসংক্ষেপ করেছো।”-রবার্ট খাতাট টি-টেবল-এর রাখল আর বলল- “চল, এবার রাতের খাবারটা খেয়ে নি। অনেক ক্ষুধা লেগেছে।”

ফিওনা রবার্টের সাথে সম্মত হয়ে আলোচনার ইতি টানলো এবং টেবিলে খাবার ব্যবস্থা করতে এগিয়ে গেলো।

এক মাস পর..

“ব্রেকিং নিউজ! টিনএনএন-এর রাত ৮-টার সংবাদে আমি মিরা বলছি। গত এক মাস আগে যেই পাথরটা টেক্সাসের আকাশ থেকে জমিতে পড়েছে বলে সন্দেহ করা হয়েছিল সেই পাথরটার গায়ে অংকিত রেখাগুলোর অর্থ উদ্ধার করা গেছে বলে দাবী করেছেন গবেষকরা। যদিও তার এই মূহুর্তে এতে কি লেখা আছে বলতে চাচ্ছে না। আমরা গোপন সূত্রে জানতে পেরেছি যে এখানে রেখাগুলোতে কতগুলো সংখ্যা লেখা আছে, যা আমাদের পরিচিত ফিবোনাচ্চি নাম্বারের মত।…”

সংবাদটা শোনার পর থেকে ফিওনার গা শিউরে উঠেছে। গায়ের সমস্ত লোম দাড়িয়ে গেছে। তাহলে কি পৃথিবীর বাইরে কোন বুদ্ধিমান প্রাণী আছে যারা আমাদের সাথে যোগাযোগ করার চেষ্টা করছে? যদি থাকে তারা কেমন? তারা কি মানুষের মত যুদ্ধপ্রবণ। তারা কি পৃথিবী আক্রমণ করতে আসছে? ফিওনার মনে নানা কল্পনা খেলা করছে। আর ভয় এবং কৌতুহলের এক মিশ্র অনুভূতি ঘিরে রেখেছে তাকে।

পৃথিবী এগিয়ে চলছে এক অজানা ভবিষ্যতের দিকে….