ডেটা সায়েন্স, সেরা ডেটা অ্যাপ্লিকেশন অ্যাপ্লিকেশন, এআই, এমএল এবং ডিএল এবং প্রযুক্তি স্ট্যাকের মধ্যে পার্থক্য!

তথ্য কি?

ডেটা সায়েন্স হ'ল ডেটা তুলনা, অ্যালগরিদম বিকাশ এবং বিশ্লেষণাত্মক জটিল সমস্যাগুলি সমাধান করার জন্য প্রযুক্তির একটি বহু-শাখা-প্রশাখা মিশ্রণ।

ডেটা কার্নেল। একটি এন্টারপ্রাইজ ডাটাবেসে কাঁচা ডেটা সঞ্চয় এবং সঞ্চয় করা হয়। এর খনির কাজ থেকে অনেক কিছু শিখতে হবে। এটির সাথে আমরা উন্নততর সুযোগ তৈরি করি। তথ্য বিজ্ঞান চূড়ান্তভাবে এই মানটিকে ব্যবসায়ের মান তৈরি করার জন্য সৃজনশীল উপায়ে ব্যবহার করার বিষয়ে।

একটি ডাটাবেসে ডেটা ইনসাইট অন্তর্ভুক্ত করা একটি কৌশলগত ব্যবসায়ের সিদ্ধান্ত যা কেবলমাত্র ব্যবসায়ের মান খুঁজতে আপনাকে সহায়তা করবে এমন ডেটা পরিমাণগত বিশ্লেষণের পরেই করা যেতে পারে। উত্পাদনে অ্যালগরিদমিক সমাধানগুলি ব্যবহার করে কোনও ডেটা পণ্য থেকে ডেটা অনুসন্ধান করুন।

তথ্য বিজ্ঞানের সেরা অনুশীলন:

ব্যবহারের স্থিতি এবং ব্যবসায়ের উদ্দেশ্য বোঝা:

এটি সমস্ত ডেটা সায়েন্স প্রকল্পের জন্য সর্বাধিক গুরুত্বপূর্ণ পদক্ষেপ, অর্থাত্ ব্যবসায় বিজ্ঞান অর্জন করা উচিত এমন ব্যবসায়ের লক্ষ্য নির্ধারণ করা। এর জন্য ব্যবসায়ের একটি পরিষ্কার বোঝা এবং নতুন প্রকল্পের প্রত্যাশিত ফলাফলের প্রয়োজন। এটি ডেটা সায়েন্টিস্টকে তাদের যে চ্যালেঞ্জগুলির মুখোমুখি হচ্ছে তাদের জন্য নিজেকে প্রস্তুত করতে এবং ব্যবসায়ের শেষ বোঝার জন্য প্রয়োজনীয় সঠিক পদ্ধতি এবং তথ্য অন্তর্ভুক্ত করতে সহায়তা করবে।

তথ্য সংজ্ঞায়িত করুন:

ডেটা সায়েন্স প্রকল্পের প্রায় 60-70% সময় ডেটা প্রস্তুতি এবং পরিশোধিত করতে ব্যয় হয়। ডেটা বিভিন্ন আকারে আসে যা বিস্তৃতভাবে কাঠামোগত, কাঠামোগত, আধা-কাঠামোগত হিসাবে শ্রেণিবদ্ধ হয়। আমাদের প্রয়োজনীয় তথ্যগুলি সনাক্ত করতে হবে বা ডেটাতে অস্বাভাবিকতাগুলি সনাক্ত করতে হবে এবং বুঝতে হবে যে আমাদের প্রয়োজনীয় তথ্য ব্যবসায়ের উদ্দেশ্যে দরকারী তথ্য অর্জনের জন্য যথেষ্ট।

brainstorming:

সর্বাধিক সফল ডেটা সায়েন্স প্রকল্পগুলির মধ্যে একটি বিষয় প্রচলিত রয়েছে - এটি দলের সদস্যদের মধ্যে। দলে বিভিন্ন ব্যাকগ্রাউন্ডের লোক রয়েছে, যারা মডেলিং বা ডেটা প্রস্তুতি / পরিমার্জন বা কোনও ব্যক্তির ডোমেনে বিভিন্ন এবং বেশিরভাগ অনন্য চ্যালেঞ্জ নিয়ে আসে। সিদ্ধান্ত নেওয়ার জন্য দলের সদস্যদের মধ্যে বুদ্ধিদীপ্ত অধিবেশন রাখা সর্বদা কার্যকর।

তথ্য হ'ল:

ফলাফলের প্রত্যাশা সেট করুন, যা ফলাফলগুলি সর্বজনীন করুন। এটি ব্যবসায়ের লক্ষ্যগুলির প্রত্যাশার বিপরীতে হতে পারে তবে আপনার ব্যবসায়িক অংশীদারদের অন্তর্দৃষ্টি / অনুসন্ধানগুলি সম্পর্কে অবহিত করা সর্বদা ভাল এবং এটি ব্যবসায়ীরা প্রত্যাশা করার চেয়ে আরও বেশি সম্ভাবনা উন্মুক্ত করতে পারে।

প্রয়োজনীয় সরঞ্জামগুলি সন্ধান করা:

আপনার ব্যবসায়ের উদ্দেশ্য অনুসারে, যদি এটি একটি গণনার কাজ হয় তবে চিত্র, ভিডিও বা অডিও ডেটা বোঝার জন্য জিপিইউগুলি ব্যবহার করে উচ্চ-পারফরম্যান্স সিস্টেমের প্রয়োজন হয় এবং ডেটা জেনারেশনের গতির উপর নির্ভর করে সঠিক সরঞ্জাম সরঞ্জাম সরবরাহ করে। এছাড়াও সেটিং প্রভাবিত করে।

রিপোর্টিং এবং ক্রিয়া:

আপনি একবার দূষিত ডেটা থেকে দুর্দান্ত অন্তর্দৃষ্টি সন্ধান করলে, সমস্ত ধারণার মান ব্যবসায়িক মানের ভিজ্যুয়ালাইজেশনে রূপান্তরিত না হলে কম হবে। ব্যবসায়ের মূল্যের ভিজ্যুয়ালাইজেশন যত ভাল হবে ততই কর্মপরিকল্পনা হ'ল ব্যবসায়ীরা যারা ভিজ্যুয়ালাইজড ডেটার উপর ভিত্তি করে ব্যবসায়টি অনুকূলিত করতে এবং যে ক্লায়েন্টকে আকৃষ্ট করার চেষ্টা করছেন তার ব্যবসায়ের প্রয়োজনীয়তার সাথে খাপ খাইয়ে নিতে সক্ষম। বোঝা হ'ল কাঁচা কার্বন যা ভিজ্যুয়ালাইজেশনের কৌশলগুলির পরে একটি ক্ষয়কারী হীরাতে পরিণত হয়।

নিয়মিত পরীক্ষা করে দেখুন:

মডেলটি বিভিন্ন পরামিতিগুলির একটি সেট উপর ভিত্তি করে, তবে সময়ের সাথে সাথে বিভিন্ন ডেটা সহ data আমরা যদি একই টাইমফ্রেমের সাথে প্রাপ্ত নতুন ডেটার বিষয়ে সম্মান সঙ্গে একই মডেলটি ব্যবহার করি তবে এই মডেলটি প্রদত্ত অন্তর্দৃষ্টি বিবেচনার ভিত্তিতে ধসে পড়তে পারে। সর্বদা নতুন ডেটাতে মডেলটি পরীক্ষা করার পরামর্শ দেওয়া হয় এবং পর্যায়ক্রমে ফলাফলগুলি যাচাই / বৈধকরণ করা এবং মডেলটির কার্যকারিতা খারাপ হয়ে গেলে মডেলটিকে পরিবর্তন করতে মডেলটিকে পরীক্ষা করা।

এআই, এমএল এবং ডিএল এর মধ্যে পার্থক্য:

এআই কীভাবে শুরু হয়েছিল?

অ্যালান টিউরিং একজন গণিতবিদ, ক্রিপ্টোগ্রাফার, দ্বিতীয় বিশ্বযুদ্ধের এনক্রিপ্টেড এনিগমা মেশিন, লজিস্ট, দার্শনিক, কেমব্রিজের সহকর্মী (22) এবং একটি দীর্ঘ-দূরত্বের রানার। তিনি আধুনিক কম্পিউটার এবং কৃত্রিম বুদ্ধিমত্তার ভিত্তিও স্থাপন করেছিলেন।

তাঁর কাজ 1950 এর দশকে ব্যাপকভাবে পরিচিত ছিল। এটি "জেনারেল এআই" ধারণার জন্ম দিয়েছে: কম্পিউটারে চিন্তাভাবনা, মিথস্ক্রিয়া এবং যুক্তি সহ মানুষের মনের একই বৈশিষ্ট্য থাকতে পারে? উত্তরটি ছিল একটি উত্তেজনাপূর্ণ "না" (কমপক্ষে এখনও হয়নি)।

সুতরাং আমাদের "ন্যারো এআই" - র মতো দাবা খেলা, আপনার পরবর্তী নেটফ্লিক্স টিভি শোয়ের প্রস্তাব দেওয়া এবং স্প্যাম ইমেল সনাক্তকরণের মতো প্রযুক্তিগুলিতে মনোনিবেশ করতে হয়েছিল। এগুলি মানব মনের অংশগুলি দেখায়। তবে তারা কীভাবে কাজ করবে? এটি মেশিন লার্নিং।

এআইয়ের এমএল দরকার:

একটি উচ্চ এমএল এর অর্থ সাধারণত অ্যালগরিদম বা মডেল

ডেটা: ব্যক্তিগতভাবে সনাক্তকরণযোগ্য বৈশিষ্ট্যগুলি (যেমন "বয়স", "উচ্চতা", "FICO", "এই ইমেল স্প্যাম"?) দিয়ে প্রচুর (পরিষ্কার) তথ্য পাওয়া যাচ্ছে?)

প্রশিক্ষণ: প্রতিটি বৈশিষ্ট্যের আপেক্ষিক গুরুত্ব "কাস্টমাইজ" করতে তথ্যটি ব্যবহার করুন।

। তথ্য: নতুন কিছুর পূর্বাভাস দেওয়া।

স্প্যাম ইমেল পূর্বাভাসের উদাহরণ: গুগল জিমেইল স্প্যাম কী এবং কী নয় ("ট্যাগ তথ্য" নামে পরিচিত) সে সম্পর্কে প্রচুর তথ্য সংগ্রহ করে। এরপরে অ্যালগরিদম স্প্যাম বার্তা এবং স্প্যাম-নন মেসেজের সাধারণ বৈশিষ্ট্যগুলি সনাক্ত করে। এরপরে অ্যালগরিদম অজানা ডেটাতে (যেমন নতুন ইমেলগুলি) স্প্যাম কিনা তা নির্ধারণ করতে কাজ করে।

এমএল হস্তক্ষেপ করার জন্য প্রচুর লোকের প্রয়োজন, যেমন ম্যানুয়ালি একটি স্প্যাম ফিল্টার সরবরাহ করা। স্প্যামহীন বার্তা (উদাহরণস্বরূপ, "ওয়েস্টার্ন ইউনিয়ন" শব্দগুলির জন্য অনুসন্ধান করুন / সন্দেহজনক ওয়েবসাইটগুলির লিঙ্কগুলি অনুসন্ধান করা ইত্যাদি)। এছাড়াও, এই চিত্রগুলিতে এটি খুব পরিষ্কার নয়।

এমএল <= {এনএলপি, ডিএল}:

ডিপ লার্নিং (যার মধ্যে পুনরাবৃত্ত নিউরাল নেটওয়ার্ক, কনভ্যুশনারি নিউরাল নেটওয়ার্ক ইত্যাদি জড়িত) মেশিন লার্নিং পদ্ধতির এক ধরণের। এটি নিউরাল নেটওয়ার্কের একটি এক্সটেনশন। ডিপ লার্নিং (উদাহরণস্বরূপ, কুকুরের ছবি থেকে বিমানের চিত্রের পৃথকীকরণ) দৃশ্যধারণের জন্য ব্যাপকভাবে ব্যবহৃত হয়। ডিপ লার্নিং এনএলপি কাজের জন্যও ব্যবহার করা যেতে পারে। এটি লক্ষ করা উচিত যে গভীর শেখার অ্যালগরিদমগুলি কেবল পাঠ্য-সম্পর্কিত নয়।

এমএল এবং এনএলপিতে পরস্পরবিরোধী জিনিস রয়েছে কারণ মেশিন লার্নিং প্রায়শই এনএলপি কাজের জন্য ব্যবহৃত হয়। এলডিএ (ল্যাটেন্ট ডিরিচলেট অ্যালোকেশন, একটি থিম মডেলিং অ্যালগরিদম), মেশিন লার্নিংয়ের এমন একটি উদাহরণ যা নিয়ন্ত্রিত নয়।

তবে, এনএলপির ভাষাতত্ত্বের একটি শক্তিশালী উপাদান রয়েছে (ছবিতে দেখানো হয়নি), যার জন্য আমরা কীভাবে আমাদের ভাষা ব্যবহার করি তা বোঝার প্রয়োজন। ভাষা বোঝার শিল্পের মধ্যে হিউমার, মক বোঝা, সচেতন কপটতা ইত্যাদি রয়েছে। যদি আমরা তাড়াহুড়া করার অর্থ কী তা বুঝতে পারি (হ্যাঁ, এটি ঠিক!), আমরা আমাদের জন্য অনুরূপ নিদর্শনগুলি খুঁজে পাওয়ার জন্য একটি মেশিন লার্নিং অ্যালগরিদমকে স্বয়ংক্রিয়ভাবে কোড করতে পারি। পরিসংখ্যান।

যে কোনও এনএলপি উপসংহারে পৌঁছানোর জন্য আপনাকে অবশ্যই ভাষাটি বুঝতে হবে। ভাষা বিভিন্ন ঘরানার জন্য বৈজ্ঞানিক (বৈজ্ঞানিক নিবন্ধ, ব্লগ, টুইটারে বিভিন্ন লেখার শৈলী রয়েছে), তাই আপনি যা বলতে চান তা পেতে আপনাকে ম্যানুয়ালি ডেটা দেখার জন্য একটি শক্তিশালী উপাদান রয়েছে। ব্যক্তি এটি বিশ্লেষণ করে। একবার আপনি মানবিক মানসিকতা হিসাবে কী করছেন তা শনাক্ত করার পরে (হ্যাশ ট্যাগগুলি উপেক্ষা করে আপনার মেজাজ প্রকাশ করতে হাসি মুখগুলি ব্যবহার করে), আপনি এই প্রক্রিয়াটি স্বয়ংক্রিয় করতে এবং স্কেল করার জন্য এমএল পদ্ধতির ব্যবহার করতে পারেন।

প্রযুক্তি এবং সরঞ্জামসমূহ:

বিভিন্ন কম্পিউটারের ক্ষেত্রগুলিতে মেকানিকাল ইঞ্জিনিয়ারিংয়ের প্রয়োগ কেবলমাত্র সস্তা এবং শক্তিশালী হার্ডওয়ারের কারণে নয়, ফ্রি এবং ওপেন সোর্স সফ্টওয়্যারগুলির কারণেও দ্রুত বৃদ্ধি পাচ্ছে যা মেশিন লার্নিংকে সহজেই কার্যকর করতে সক্ষম করে। সফ্টওয়্যার ইঞ্জিনিয়ারিং দলের অংশ হিসাবে মেশিন প্র্যাকটিশনার এবং গবেষকরা ধারাবাহিকভাবে পরিশীলিত পণ্য তৈরি করে, সফ্টওয়্যারটিকে আরও নির্ভরযোগ্য, দ্রুত এবং বিজোড়হীন করার জন্য চূড়ান্ত পণ্যটির সাথে বুদ্ধিমান অ্যালগরিদমগুলির সংমিশ্রণ করে। অনেকগুলি ওপেন সোর্স মেশিন লার্নিং সিস্টেম রয়েছে যা মেশিন ইঞ্জিনিয়ারদের মেশিন লার্নিং সিস্টেমগুলি তৈরি করতে, বাস্তবায়ন করতে এবং পরিচালনা করতে, নতুন প্রকল্প তৈরি করতে এবং নতুন কার্যকর মেশিন লার্নিং সিস্টেম তৈরি করতে দেয়।

আসুন কয়েকটি সেরা ওপেন সোর্স সফ্টওয়্যার শেখার ফ্রেমওয়ার্কগুলি দেখুন।

অ্যাপাচি স্পার্ক মলিব:

এটি এমন একটি মেশিন লার্নিং লাইব্রেরি যার মূল কাজটি হ'ল ব্যবহারিক মেশিন শেখাকে আরও অ্যাক্সেসযোগ্য এবং সহজ করে তোলা। এটিতে শ্রেণিবিন্যাস, রিগ্রেশন, ক্লাস্টারিং, কো-ফিল্টারিং, স্কেলাবিলিটি হ্রাস, এবং নিম্ন-স্তরের অপ্টিমাইজেশন প্রাইমার এবং উচ্চ-স্তরের পাইপিং এপিআই সহ সাধারণ শিক্ষার অ্যালগরিদম এবং ইউটিলিটি রয়েছে।

স্পার্ক এমএলিব মূলত স্পার্ক কোরের শীর্ষে বিতরণ মেশিন লার্নিং ডেটাবেস হিসাবে বিবেচিত, যা স্পাচ কার্নেল-বিতরণ মেমরি আর্কিটেকচারের কারণে অ্যাপাচি মাহাউট দ্বারা ব্যবহৃত ডিস্ক-ভিত্তিক সফ্টওয়্যার থেকে নয়গুণ দ্রুত।

TensorFlow:

টেনসরফ্লো হ'ল গুগল মস্তিষ্ক টিম বিভিন্ন জ্ঞানীয় এবং ভাষা বোঝার কার্য সম্পাদন করতে, পাশাপাশি গভীর নিউরাল নেটওয়ার্কগুলিতে মেশিন লার্নিং এবং পরিশীলিত গবেষণা সম্পাদনের জন্য মেশিন লার্নিংয়ের জন্য একটি ওপেন সোর্স সফ্টওয়্যার লাইব্রেরি। । এটি গুগল ব্রেনের দ্বিতীয় প্রজন্মের মেশিন লার্নিং সিস্টেম এবং একাধিক প্রসেসর এবং জিপিইউতে কাজ করতে পারে। টেনসরফ্লো বিভিন্ন গুগল পণ্য যেমন স্পিচ স্বীকৃতি, জিমেইল, গুগল ফটো এবং এমনকি অনুসন্ধানে এম্বেড করা হয়।

Accord.NET

একর্ড।

অ্যামাজন মেশিন লার্নিং (এএমএল):

অ্যামাজন মেশিন লার্নিং (এএমএল) প্রোগ্রামারদের জন্য একটি মেশিন লার্নিং পরিষেবা। জটিল এমএল অ্যালগরিদম এবং প্রযুক্তিগুলি শেখার প্রয়োজন ছাড়াই অত্যন্ত পরিশীলিত এবং বুদ্ধিমান মেশিন লার্নিং মডেল তৈরি করতে এর অনেক ভিজ্যুয়াল সরঞ্জাম এবং উইজার্ড রয়েছে। এএমএলের মাধ্যমে, সফটওয়্যার প্রেডিকশন বিশেষ প্রেডিকশন কোড বা জটিল অবকাঠামো ব্যবহার না করে একটি সাধারণ এপিআই ব্যবহার করে প্রাপ্ত করা যেতে পারে।

বেডরুম সংখ্যা

কেরাস পাইথনে লিখিত একটি ওপেন সোর্স নিউরাল নেটওয়ার্ক লাইব্রেরি। এটি টেনসরফ্লো, মাইক্রোসফ্ট কগনিটিভ টুলকিট, থানো বা এমএক্সনেট শীর্ষে চলতে পারে। কেরাসে অনেকগুলি ব্যবহৃত ব্যবহৃত নিউরাল নেটওয়ার্ক ব্লক অন্তর্ভুক্ত রয়েছে যেমন স্তর, লক্ষ্যমাত্রা, অ্যাক্টিভেশন ফাংশন, অপ্টিমাইজেশন এবং সরঞ্জাম যা চিত্র এবং পাঠ্য পরিচালনা পরিচালনা করে facil

মেশিন লার্নিং এবং ডিপ লার্নিংয়ের জন্য আরও অনেক গ্রন্থাগার রয়েছে যার উপর নির্ভর করে কোনটি নির্বাচন করা হয়েছে।

শিখতে শেখা:

ডেটা সায়েন্স শেখার জন্য অনেকগুলি সোর্স রয়েছে তবে মূল প্রয়োজন হ'ল ডেটা কীভাবে ব্যবহার করতে হয় তা শেখার জন্য প্রোগ্রামিং ল্যাঙ্গুয়েজ শিখানো।

প্রোগ্রামিংয়ের ভাষা: পাইথন, আর, জাভা, এসএএস, ম্যাটল্যাব ইত্যাদি

শুরুর জন্য:

মেশিন লার্নিং থেকে উডিমি, কর্সেরা, এডেক্স ইত্যাদি শুরু করার পরামর্শ দেওয়া হচ্ছে।

যেহেতু আমি এই সমস্ত সংস্থার কোর্স নিয়েছি, আমি প্রস্তাব দিচ্ছি যে আমার অভিজ্ঞতায় যদি কেউ গণিতের কোর্সে আগ্রহী না হন এবং মেশিন লার্নিংয়ের প্রতি আগ্রহী হন তবে আমি মেশিন লার্নিং এজেড ™: হ্যান্ডি-অন পাইথন-এ কোর্স নিতে পারি। ডেটা সায়েন্স বইটি আর আর কীভাবে সমস্ত বেসিক অ্যালগরিদমের জন্য বেসিক লার্নিং অ্যালগরিদমগুলির জন্য পাইথন কোড করতে হবে তা ব্যাখ্যা করে।

যদি কেউ অ্যালগরিদমের পিছনে গাণিতিক ধারণাগুলি জানতে চান তবে আমি কোর্সারের "মেশিন লার্নিংয়ের ভূমিকা" কোর্সের প্রস্তাব দিই। কারণ লেখক অ্যালগরিদম "অ্যান্ড্রু এনজি" এর পিছনে গণিতকে ব্যাখ্যা করার জন্য অনেক প্রচেষ্টা করেছিলেন।

বৈজ্ঞানিক গবেষণার জন্য:

অ্যাডভান্স মেশিন লার্নিং / ডিপ লার্নিংয়ের ধারণার জন্য, মেশিন লার্নিং এবং ডিপ লার্নিংয়ের প্রাথমিক জ্ঞান শিখতে টিউটোরিয়াল এবং পাঠগুলি অনুসরণ করুন।

এটি কোর্সেরার গভীর-নিরীক্ষার গভীরতর অধ্যয়ন শুরু করা প্রয়োজন, যার মধ্যে রিয়েল-টাইম ব্যবহারের জন্য কার্যাদি অন্তর্ভুক্ত রয়েছে। যদি কোনও প্রার্থী এই কোর্সটি সম্পূর্ণ করতে পারেন এবং বাহ্যিক সংস্থান ছাড়াই সমস্ত ক্ষেত্রে ব্যবহার করতে পারেন তবে তিনি ডিপ লার্নিংয়ের অনেকগুলি কাজ সম্পন্ন করতে সক্ষম হবেন।

উডেমির একটি নির্দিষ্ট বিষয় ব্যতীত বিস্তৃত ব্যবহারের ক্ষেত্রে অনেক কোর্স রয়েছে।

ডেটা সায়েন্স প্রিটিকে আয়ত্ত করতে এবং একই লিঙ্কগুলি খুঁজে পেতে প্রচুর পড়া দরকার:

মেকানিকাল ইঞ্জিনিয়ারিং - https://web.stanford.edu/~hastie/Papers/ESLII.pdf

গভীর গভীরতার জন্য অধ্যয়নের জন্য - https://github.com/janishar/mit-DP-learning-book-pdf

কোর্সেরা - https://www.coursera.org/

উডিমি - https://www.udemy.com/

অক্সফোর্ড - https://github.com/oxford-cs-DPnlp-2017/lectures

বিশ্লেষণ বিদ্যা - https://www.analyticsvidhya.com/

মেশিনলিয়ারিংমাস্টারি - https://machinelearningmastery.com/

নোট:

সামগ্রীটি বিভিন্ন ব্লগ এবং উইকিপিডিয়া নিবন্ধ থেকে আসে, যার কয়েকটি আমার পুরানো ব্লগের। ডেটা ওভারভিউ পেতে এখানে একত্রিত।