ডেটা মাইনিং: ব্যাচ আমদানি বনাম হুক ভিত্তিক অধিগ্রহণ

ব্যাচ আমদানি করা বা হুক ভিত্তিক অধিগ্রহণ আপনার ডেটা মাইনিং কৌশলের জন্য সেরা?

বাহ্যিক উত্স থেকে ডেটা মাইনিং করার সময়, পদ্ধতিটি হয় "ব্যাচ" বা "হুক" ভিত্তিক হিসাবে চিহ্নিত করা যেতে পারে। এগুলি সম্পূর্ণ আলাদা এবং এর নিজস্ব যোগ্যতা রয়েছে। এর সামান্য সরলকরণের জন্য একটি উদাহরণ ব্যবহার করি। আমাদের উদাহরণস্বরূপ, তথ্যটি কোনও সময় বিমানের অবস্থান সম্পর্কিত ফ্লাইটের ডেটা। অতএব, আমাদের নিম্নোক্ত তথ্যের মূল অংশগুলি থাকা উচিত:

  1. চলাচলের রাজ্য (স্থির বা চলমান)
  2. অক্ষাংশ
  3. দ্রাঘিমা
  4. উচ্চতা
  5. উত্স (বর্তমান বা পরবর্তী বিমানের)
  6. গন্তব্য (বর্তমান বা পরবর্তী বিমানের)
  7. সময় (মিলিসেকেন্ড যথার্থতা)

এই উদাহরণে, আমাদের উল্লিখিত তথ্যগুলি ব্যবহার করে বিমানের সাথে সম্পর্কিত সর্বাধিক তথ্য এক্সট্রাপোল্টিং করতে সক্ষম হওয়া উচিত। আসুন ডেটা আমদানির দুটি পদ্ধতি বিশ্লেষণ করা যাক।

ব্যাচ আমদানি

একটি ব্যাচ আমদানি তফসিল ভিত্তিক হয়, এবং পুনরাবৃত্তির বিরতিতে উত্স থেকে তথ্য "টান" দেবে। ফ্লাইট ডেটার উপরে আমাদের উদাহরণ ব্যবহার করে, এটি নিম্নলিখিত হিসাবে প্রয়োগ করা যেতে পারে:

  1. প্রতি ঘন্টা, আমরা শেষ মুহূর্ত থেকে এই বিমানের সাথে সম্পর্কিত সমস্ত ফ্লাইট রেকর্ড ব্যাচ আমদানি করি। আমরা এটিকে ব্যাচের সময় বলব, যা 10: 00: 00.000 (মিলিসেকেন্ড নির্ভুলতার সাথে 10 টা) হতে পারে।
  2. এই সার্ভারটি এই ডেটা প্রক্রিয়া করে (সফলভাবে আমদানি করা)।
  3. আমরা অতি সাম্প্রতিক রেকর্ডের সময় ব্যাচের সময় আপডেট করি। সুতরাং, যদিও পদক্ষেপ 1 এ ব্যাচের সময়টি 10: 00.000 ছিল, যদি সর্বশেষ রেকর্ডটি 9: 59: 52.915 হয়, তবে এটি নতুন ব্যাচের সময় হয়ে উঠবে।

আমরা কেন ব্যাচের সময় এইভাবে প্রয়োগ করি?

  1. প্রতি ঘন্টা ব্যাচ ব্যর্থ হতে পারে বলে আমরা ব্যাচের সময় আপডেট করি। এটি আমাদের আত্মবিশ্বাস জোগায় যে কোনও ব্যাচ ব্যর্থ হলেও, পরবর্তী উদাহরণে আমরা শেষ ব্যাচ থেকে সমস্ত তথ্য আমদানি করব।
  2. আমরা সর্বাধিক সাম্প্রতিক উড়ানের রেকর্ডের সময় ব্যাচের সময়টি সংরক্ষণ করি, কারণ সার্ভারের মধ্যে বিয়োগ সময় ব্যবধানের ফলে পরবর্তী তথ্যগুলিতে কিছু ডেটা আমদানি না করা হতে পারে। এটি আলাদাভাবে ব্যাখ্যা করতে; যদি আমাদের সার্ভারটি ফ্লাইটের ডেটা সরবরাহের চেয়ে 5 সেকেন্ড এগিয়ে থাকে এবং আমরা আমাদের সার্ভারের সময় হিসাবে শেষ ব্যাচের সময়টি সংরক্ষণ করি, পরবর্তী আমদানির সময় আমরা সেই 5 সেকেন্ডের ডেটা হারাব। পরিবর্তে, ব্যাচগুলি সমস্ত ডেটা ক্যাপচার করে তা নিশ্চিত করতে আমরা ফ্লাইট ডেটার সর্বশেষ রেকর্ড করা সময় ব্যবহার করি।

হুক ভিত্তিক আমদানি

একটি হুক ভিত্তিক আমদানি ডেটা অর্জনের জন্য খাঁটি রিয়েল টাইম পদ্ধতি। কম্পিউটিংয়ের একটি "হুক" একটি প্রক্রিয়া বোঝায় যার মাধ্যমে কোনও ইভেন্ট ঘটে গেলে কোনও বাহ্যিক সিস্টেম (যেমন ফ্লাইটের ডেটা সমাধান) আপনার সার্ভারে একটি বার্তা (ডেটা সম্বলিত) প্রেরণ করে। হুক ভিত্তিক আমদানির একটি উদাহরণ নিম্নরূপ কার্যকর করা যেতে পারে:

  1. একটি নতুন রেকর্ড সমস্ত তথ্য (চলন রাজ্য, অক্ষাংশ, দ্রাঘিমাংশ, উচ্চতা ইত্যাদি) সহ ফ্লাইট ডেটা সার্ভারে সংরক্ষণ করা হয়।
  2. একটি "হুক" উদ্দীপ্ত করে, যা আপনার সার্ভারে স্বয়ংক্রিয়ভাবে ডেটা প্রেরণ করে।
  3. আপনার সার্ভার এই ডেটা প্রক্রিয়া করে (সফলভাবে আমদানি করা)।

উপসংহার

হুক ভিত্তিক আমদানি পদ্ধতিগুলিকে "রিয়েল টাইম" দৃষ্টিকোণ থেকে পছন্দ করা হলেও তারা দুটি প্রাথমিক ঝুঁকি সরবরাহ করে:

  1. আপনাকে কোনও বাহ্যিক অবস্থান থেকে আপনার সার্ভারে অ্যাক্সেস প্রকাশ করতে হবে। এটি সঠিকভাবে সম্পন্ন করার পরেও একটি সাইবারসিকিউরিটি ঝুঁকি তৈরি করে।
  2. যদি কোনও হুকের ডেটা সরবরাহ না করা হয় (উদাহরণস্বরূপ, যদি আপনার সার্ভারটি অ্যাক্সেসযোগ্য ছিল) তবে বাহ্যিক প্ল্যাটফর্মের অখণ্ডতার উপর নির্ভর না করে সেই ডেটা পুনরুদ্ধার করা অবিশ্বাস্যরূপে জটিল হয়ে ওঠে।

এটিকে এড়াতে আমরা ব্যাচ আমদানি যেখানেই সম্ভব সেখানে ব্যবহার করার ঝোঁক রাখি, যেখানে আরও আপ-টু-ডেট তথ্যের প্রয়োজন হয় সংক্ষিপ্ত "বিরতি" সহ।