হায়ারার্কিকাল বনাম পার্টিশনাল ক্লাস্টারিং

ক্লাস্টারিং হ'ল ডেটা বিশ্লেষণ এবং অনুরূপ ডেটার গ্রুপগুলিতে বিভক্ত করার জন্য একটি মেশিন লার্নিং কৌশল। এই গ্রুপগুলি বা অনুরূপ ডেটার সেটগুলি ক্লাস্টার হিসাবে পরিচিত। ক্লাস্টার বিশ্লেষণ ক্লাস্টারিং অ্যালগরিদমগুলিতে দেখায় যা ক্লাস্টারগুলি স্বয়ংক্রিয়ভাবে সনাক্ত করতে পারে। হায়ারার্কিকাল এবং পার্টিশনাল হ'ল ক্লাস্টারিং অ্যালগরিদমের এ জাতীয় দুটি শ্রেণি। শ্রেণিবদ্ধ ক্লাস্টারিং অ্যালগরিদমগুলি ক্লাস্টারগুলির শ্রেণিবিন্যাসের তথ্যগুলিকে ভেঙে দেয়। পার্টিশনাল অ্যালগরিদমগুলি সেট করা ডেটা পারস্পরিক বিচ্ছিন্ন পার্টিশনে বিভক্ত করে।

হায়ারারিকিকাল ক্লাস্টারিং কী?

হায়ারারিকিকাল ক্লাস্টারিং অ্যালগরিদমগুলি ছোট ক্লাস্টারগুলিকে বৃহত্তরগুলিতে মার্জ করা বা বড় ক্লাস্টারগুলিকে ছোটগুলিতে ভাগ করার চক্রটি পুনরাবৃত্তি করে। যে কোনও উপায়ে, এটি ডেন্ডোগ্রাম নামক গুচ্ছগুলির একটি শ্রেণিবিন্যাস উত্পাদন করে। Agglomerative ক্লাস্টারিং কৌশলটি বৃহত্তরগুলিতে ক্লাস্টারগুলিকে মার্জ করার নীচের দিকের পদ্ধতিকে ব্যবহার করে, অন্যদিকে বিভাজক ক্লাস্টারিং কৌশলটি ছোটগুলিতে বিভক্ত হওয়ার উপরের-নীচের পদ্ধতির ব্যবহার করে। সাধারণত, লোভী পদ্ধতির সিদ্ধান্ত নিতে ব্যবহৃত হয় যে কোন বৃহত্তর / ছোট ক্লাস্টারগুলি মার্জ / বিভাজনের জন্য ব্যবহৃত হয়। ইউক্লিডিয়ান দূরত্ব, ম্যানহাটনের দূরত্ব এবং কোসাইন মিল হ'ল সংখ্যাসূচক তথ্যগুলির জন্য সাদৃশ্যটির বেশিরভাগ ব্যবহৃত মেট্রিক। অ-সংখ্যাযুক্ত ডেটার জন্য, হামিং দূরত্বের মতো মেট্রিক ব্যবহার করা হয়। এটি লক্ষ করা গুরুত্বপূর্ণ যে প্রকৃত পর্যবেক্ষণগুলি (দৃষ্টান্তগুলি) শ্রেণিবদ্ধ ক্লাস্টারিংয়ের জন্য প্রয়োজন হয় না, কারণ কেবলমাত্র দূরত্বের ম্যাট্রিক্সই যথেষ্ট। ডেন্ডোগ্রাম ক্লাস্টারগুলির একটি চাক্ষুষ প্রতিনিধিত্ব, যা শ্রেণিবিন্যাসকে খুব স্পষ্টভাবে প্রদর্শন করে। ডেন্ডোগ্রামটি যে স্তরে কাটা হয়েছে তার উপর নির্ভর করে ব্যবহারকারী বিভিন্ন ক্লাস্টারিং পেতে পারেন।

পার্টিশনাল ক্লাস্টারিং কী?

পার্টিশনাল ক্লাস্টারিং অ্যালগরিদমগুলি বিভিন্ন পার্টিশন তৈরি করে এবং তারপরে কিছু মানদণ্ড দ্বারা সেগুলি মূল্যায়ন করে। এগুলিকে ননহাইরার্কিকাল হিসাবেও অভিহিত করা হয় কারণ প্রতিটি উদাহরণ কে একে অপরের একচেটিয়া ক্লাস্টারে স্থাপন করা হয়। ক্লাস্টারগুলির কেবলমাত্র একটি সেট হ'ল একটি সাধারণ পার্টিশনাল ক্লাস্টারিং অ্যালগরিদমের আউটপুট, ব্যবহারকারীর পছন্দসই সংখ্যক ক্লাস্টারকে ইনপুট করতে হয় (সাধারণত কে বলা হয়)। সর্বাধিক ব্যবহৃত পার্টিশনাল ক্লাস্টারিং অ্যালগরিদমগুলির মধ্যে একটি হ'ল কে-মানে ক্লাস্টারিং অ্যালগরিদম। ব্যবহারকারীর প্রারম্ভিক পূর্বে ক্লাস্টার (কে) সংখ্যা সরবরাহ করা প্রয়োজন এবং অ্যালগরিদম প্রথমে কে পার্টিশনের কেন্দ্রগুলি (বা সেন্ট্রয়েড) শুরু করে। সংক্ষেপে, কে-মানে ক্লাস্টারিং অ্যালগরিদম তারপরে বর্তমান কেন্দ্রগুলির উপর ভিত্তি করে সদস্যদের নিয়োগ দেয় এবং বর্তমান সদস্যদের উপর ভিত্তি করে পুনরায় প্রাক্কলন কেন্দ্র করে। এই দুটি পদক্ষেপ পুনরাবৃত্তি করা হয় যতক্ষণ না একটি নির্দিষ্ট অন্তর্-ক্লাস্টার সাদৃশ্য বস্তুনিষ্ঠ ফাংশন এবং আন্ত-ক্লাস্টার অসম্পূর্ণতা উদ্দেশ্য ফাংশনটি অনুকূলিত হয়। সুতরাং, বিভাগগুলির ক্লাস্টারিং অ্যালগরিদমগুলি থেকে গুণমানের ফলাফলগুলি অর্জনের জন্য কেন্দ্রগুলির বুদ্ধিমান সূচনা একটি খুব গুরুত্বপূর্ণ বিষয়।

শ্রেণিবদ্ধ এবং পার্টিশনাল ক্লাস্টারিংয়ের মধ্যে পার্থক্য কী?

শ্রেণিবদ্ধ এবং পার্টিশনাল ক্লাস্টারিং চলমান সময়, অনুমান, ইনপুট পরামিতি এবং ফলস্বরূপ ক্লাস্টারগুলির মধ্যে মূল পার্থক্য রয়েছে। সাধারণত, বিভাগীয় ক্লাস্টারিং হায়ারারিকাল ক্লাস্টারিংয়ের চেয়ে দ্রুত is হায়ারারিকিকাল ক্লাস্টারিংয়ের জন্য কেবল একটি সাদৃশ্য পরিমাপ প্রয়োজন, যখন বিভাগীয় ক্লাস্টারিংয়ের ক্লাস্টার সংখ্যা এবং প্রাথমিক কেন্দ্রগুলির মতো শক্তিশালী অনুমান প্রয়োজন। হায়ারারিকিকাল ক্লাস্টারিংয়ের জন্য কোনও ইনপুট প্যারামিটারের প্রয়োজন হয় না, যখন পার্টিশনাল ক্লাস্টারিং অ্যালগরিদমগুলি চলমান শুরু করতে ক্লাস্টারের সংখ্যা প্রয়োজন। হায়ারারিকিকাল ক্লাস্টারিং ক্লাস্টারগুলির অনেক বেশি অর্থবহ এবং বিষয়গত বিভাগ প্রদান করে তবে পার্টিশনাল ক্লাস্টারিংয়ের ফলাফল হ'ল কে ক্লাস্টারগুলিতে। হায়ারারিকিকাল ক্লাস্টারিং অ্যালগরিদমগুলি শ্রেণিবদ্ধ তথ্যের জন্য আরও উপযুক্ত, যতক্ষণ না সেই অনুসারে কোনও মিল খুঁজে পাওয়া যায়।