প্রস্তাবক সিস্টেমে একক মান মান পচা বনাম ম্যাট্রিক্স ফ্যাক্টোরাইজেশন

এই পদ্ধতির মধ্যে বিভ্রান্তি স্পষ্ট করা

আনপ্লেশ-এ ইভান ডেনিসের ছবি

সম্প্রতি, অধ্যাপক অ্যান্ড্রু এনজি'র মেশিন লার্নিং কোর্সের প্রস্তাবক সিস্টেমের ক্লাসটি দেখার পরে, আমি ম্যাট্রিক্স ফ্যাক্টরাইজেশন কীভাবে কাজ করে তা বুঝতে না পেরে নিজেকে খুব অসন্তুষ্ট পেয়েছি।

আমি জানি কখনও কখনও মেশিন লার্নিংয়ের গণিত খুব অস্পষ্ট। যদি আমরা এটি একটি কালো বাক্স হিসাবে চিন্তা করি তবে এটি আরও ভাল তবে সেই মডেলটি আমার স্ট্যান্ডার্ডগুলির জন্য খুব "যাদু" ছিল।

এই ধরনের পরিস্থিতিতে, আমি ধারণাটি আরও ভালভাবে উপলব্ধি করার জন্য সাধারণত আরও রেফারেন্সের জন্য গুগলে অনুসন্ধান করার চেষ্টা করি। এবার আমি আরও বিভ্রান্ত হয়ে পড়েছি। প্রফেসর এনজি যখন অ্যালগরিদমকে (লো ফ্যাক্টর) ম্যাট্রিক্স ফ্যাক্টরাইজেশন হিসাবে ডেকেছিলেন, আমি ইন্টারনেটে একটি আলাদা নামকরণ পেয়েছি: একক মানের পচন।

আমাকে যে বিষয়টি সবচেয়ে বেশি বিভ্রান্ত করেছিল তা হ'ল সিঙ্গুলার মান পচানো প্রফেসর এনজি যা শিখিয়েছিলেন তার থেকে একেবারেই আলাদা different লোকেরা পরামর্শ দিচ্ছিল যে তারা উভয়ই একই জিনিস।

এই লেখায়, আমি আমার অনুসন্ধানগুলি সংক্ষিপ্ত করব এবং এই শর্তগুলি তৈরি করতে পারে এমন কিছু বিভ্রান্তি পরিষ্কার করার চেষ্টা করব।

প্রস্তাবক সিস্টেম

সুপারিশকারী সিস্টেমগুলি (আরএস) কাউকে কিছু সুপারিশ করার জন্য কেবল স্বয়ংক্রিয় উপায়। এই জাতীয় সিস্টেমগুলি ব্যাপকভাবে ই-কমার্স সংস্থাগুলি, স্ট্রিমিং পরিষেবা এবং নিউজ ওয়েবসাইটগুলি দ্বারা ব্যবহৃত হয়। এটি ব্যবহারকারীদের পছন্দের কিছু সন্ধান করার সময় ঘর্ষণকে হ্রাস করতে সহায়তা করে।

আরএস অবশ্যই কোনও নতুন জিনিস নয়: এগুলি কমপক্ষে ১৯৯০ সাল থেকে বৈশিষ্ট্যযুক্ত। আসলে, সাম্প্রতিক মেশিন লার্নিং হাইপটির কিছু অংশ আরএসে আগ্রহের জন্য দায়ী করা যেতে পারে। 2006 সালে, নেটফ্লিক্স যখন তাদের চলচ্চিত্রগুলির জন্য সেরা আরএস সন্ধানের জন্য একটি প্রতিযোগিতা স্পনসর করেছিল তখন স্প্ল্যাশ হয়। যেহেতু আমরা শীঘ্রই দেখতে পাব, সেই ইভেন্টটি নামকরণকৃত মেসের সাথে সম্পর্কিত।

ম্যাট্রিক্স উপস্থাপনা

কোনও ব্যক্তিকে কারও কাছে সিনেমার প্রস্তাব দেওয়ার বিষয়ে ভাবতে পারে এমন অনেকগুলি উপায় রয়েছে। একটি কৌশল যা খুব ভাল হিসাবে প্রমাণিত হয়েছিল তা হল মুভি রেটিংগুলিকে একজন ব্যবহারকারী এক্স চলচ্চিত্রের ম্যাট্রিক্স হিসাবে চিকিত্সা করা:

Https://sheetsu.com/ দিয়ে তৈরি

সেই ম্যাট্রিক্সে, প্রশ্ন চিহ্নগুলি এমন কোনও চলচ্চিত্রের প্রতিনিধিত্ব করে যা কোনও ব্যবহারকারী রেট করেনি। তারপরে কৌশলটি হ'ল কোনওভাবে এই রেটিংগুলির পূর্বাভাস দেওয়া এবং ব্যবহারকারীদের কাছে তারা পছন্দ করবেন এমন সিনেমাগুলির পরামর্শ দেয়।

ম্যাট্রিক্স ফ্যাক্টরাইজেশন

নেটফ্লিক্সের প্রতিযোগিতা (উল্লেখযোগ্যভাবে সাইমন ফানক) প্রবেশ করানো ছেলেদের দ্বারা তৈরি একটি সত্যই স্মার্ট উপলব্ধি ছিল যে ব্যবহারকারীদের রেটিং কেবল এলোমেলো অনুমান ছিল না। রাটাররা সম্ভবত কিছু যুক্তি অনুসরণ করে যেখানে তারা মুভিতে (একটি নির্দিষ্ট অভিনেত্রী বা একটি জেনার) পছন্দ করেন না এমন জিনিসগুলির বিরুদ্ধে (দীর্ঘকালীন বা খারাপ জোকস) ওজন দেয় এবং তারপরে স্কোর নিয়ে আসে weight

এই প্রক্রিয়াটি নিম্নলিখিত ধরণের একটি লিনিয়ার সূত্রে উপস্থাপন করা যেতে পারে:

যেখানে xₘ সিনেমার বৈশিষ্ট্যগুলির মানগুলির সাথে একটি কলাম ভেক্টর এবং u হ'ল ব্যবহারকারী প্রতিটি বৈশিষ্ট্যকে যে ওজন দেয় সেগুলি সহ অন্য কলাম ভেক্টর। প্রতিটি ব্যবহারকারীর ওজনের আলাদা সেট থাকে এবং প্রতিটি ফিল্মের বৈশিষ্ট্যগুলির জন্য আলাদা আলাদা মান রয়েছে।

দেখা যাচ্ছে যে আমরা যদি নির্বিচারে বৈশিষ্ট্যগুলির সংখ্যা নির্ধারণ করি এবং নিখোঁজ রেটিংগুলিকে উপেক্ষা করি তবে আমরা ওজন এবং বৈশিষ্ট্যগুলির মানগুলির একটি সেট পাই যা মূল রেটিং ম্যাট্রিক্সের নিকটে মান সহ একটি নতুন ম্যাট্রিক্স তৈরি করে। এটি গ্রেডিয়েন্ট বংশোদ্ভূত দিয়ে সম্পন্ন করা যেতে পারে, লিনিয়ার রিগ্রেশন-তে ব্যবহৃত অনেকের মতোই। এর পরিবর্তে এখন আমরা একই সাথে দুটি সেট প্যারামিটার (ওজন এবং বৈশিষ্ট্য) অনুকূল করছি।

উপরের উদাহরণ হিসাবে আমি যে টেবিলটি দিয়েছি তা ব্যবহার করে, অপ্টিমাইজেশান সমস্যার ফলে নিম্নলিখিত নতুন ম্যাট্রিক্স উত্পন্ন করবে:

লক্ষ্য করুন যে ফলস্বরূপ ম্যাট্রিক্স বেশিরভাগ রিয়েল ডেটাসেটে মূলটির সঠিক কপি হতে পারে না কারণ বাস্তব জীবনে লোকেরা কোনও চলচ্চিত্রকে রেট দেওয়ার জন্য গুণ এবং সংক্ষিপ্তকরণ করে না। বেশিরভাগ ক্ষেত্রে, রেটিংটি কেবল একটি অন্ত্র অনুভূতি যা সমস্ত ধরণের বাহ্যিক কারণের দ্বারাও প্রভাবিত হতে পারে। তবুও, আমাদের আশা এই যে লিনিয়ার সূত্রটি মূল যুক্তিটি ব্যবহারকারীদের রেটিংকে চালিত করে তা প্রকাশ করার একটি ভাল উপায়।

ঠিক আছে, এখন আমাদের একটি আনুমানিক ম্যাট্রিক্স রয়েছে। তবে কীভাবে হ্যাক আমাদের অনুপস্থিত রেটিংগুলির পূর্বাভাস দিতে সহায়তা করে? মনে রাখবেন যে নতুন ম্যাট্রিক্সটি তৈরি করতে, আমরা মূল ম্যাট্রিক্সে নিখোঁজ থাকা মানগুলি সহ সমস্ত মান পূরণ করার জন্য একটি সূত্র তৈরি করেছি। সুতরাং আমরা যদি কোনও সিনেমায় কোনও ব্যবহারকারীর অনুপস্থিত রেটিংটি পূর্বাভাস দিতে চাই, আমরা কেবলমাত্র সেই মুভিটির সমস্ত বৈশিষ্ট্যর মান গ্রহণ করব, সেই ব্যবহারকারীর সমস্ত ওজনকে গুণ করব এবং সমস্ত কিছু যোগ করব। সুতরাং, আমার উদাহরণে, যদি আমি মুভি 1 এর ব্যবহারকারী 2 এর রেটিংটি পূর্বাভাস দিতে চাই তবে আমি নিম্নলিখিত গণনাটি করতে পারি:

জিনিসগুলিকে আরও স্পষ্ট করার জন্য, আমরা θ গুলি এবং এক্সকে আলাদা করতে এবং তাদের নিজস্ব ম্যাট্রিকগুলিতে রাখতে পারি (পি এবং কিউ বলুন)। এটি কার্যকরভাবে একটি ম্যাট্রিক্স ফ্যাক্টরাইজেশন, সেইজন্য নামটি প্রফেসর এনজি।

ম্যাট্রিক্স ফ্যাক্টরাইজেশন মূলত ফানক যা করেছিল। তিনি নেটফ্লিক্সের প্রতিযোগিতায় তৃতীয় স্থান পেয়েছিলেন, অনেক মনোযোগ আকর্ষণ করে (যা বিজয়ীদের চেয়ে তৃতীয় স্থানের চেয়ে বেশি বিখ্যাত হওয়ার একটি আকর্ষণীয় ঘটনা)। তার দৃষ্টিভঙ্গিটি তখন থেকেই প্রতিলিপি এবং পরিমার্জন করা হয়েছে এবং এখনও অনেকগুলি প্রয়োগে ব্যবহৃত হচ্ছে।

একবাক্য মান পচন

একক মান ভলন (এসভিডি) প্রবেশ করান। এসভিডি হ'ল ম্যাট্রিক্সকে আরও তিনটি ম্যাট্রিক (A = UΣVᵀ) এ ভাগ করার এক অভিনব উপায়। যেভাবে এসভিডি করা হয় সেই 3 ম্যাট্রিকের গ্যারান্টি দেয় কিছু দুর্দান্ত গাণিতিক বৈশিষ্ট্য রয়েছে।

এসভিডির জন্য অনেকগুলি অ্যাপ্লিকেশন রয়েছে। এর মধ্যে একটি হ'ল প্রিন্সিপাল কম্পোনেন্ট অ্যানালাইসিস (পিসিএ), যা মাত্র মাত্রা n এর একটি ডেটাসেটকে মাত্রা কে (কে <এন) এ হ্রাস করছে।

এসভিডিগুলিতে আপনাকে আর কোনও বিবরণ দেব না কারণ আমি নিজেকে জানি না। মুল বক্তব্যটি হ'ল ম্যাট্রিক্স ফ্যাক্টরাইজেশনের সাথে আমরা যা করেছি তা একই জিনিস নয়। সবচেয়ে বড় প্রমাণ হ'ল এসভিডি 3 টি ম্যাট্রিক তৈরি করে যখন ফানকের ম্যাট্রিক্স ফ্যাক্টরাইজেশন কেবল 2 তৈরি করে।

সুতরাং কেন আমি যখনই প্রস্তাবক সিস্টেমগুলি অনুসন্ধান করি ততবার এসভিডি পপ আপ রাখে? আমাকে কিছুটা খনন করতে হয়েছিল, তবে শেষ পর্যন্ত আমি কিছু লুকানো রত্ন খুঁজে পেয়েছি। লুই আর্জারিচের মতে:

সুপারিশকারী সিস্টেমগুলির জন্য ব্যবহৃত ম্যাট্রিক্স ফ্যাক্টেরাইজেশন অ্যালগরিদম দুটি ম্যাট্রিকের সন্ধান করার চেষ্টা করে: পি, কিউ যেমন পি * কিউ ইউটিলিটি ম্যাট্রিক্সের জ্ঞান মানের সাথে মেলে।
এই নীতিটি বিখ্যাত এসভিডি ++ "ফ্যাক্টরিজেশনটি প্রতিবেশীর সাথে দেখা করে" পত্রিকায় উপস্থিত হয়েছিল যা দুর্ভাগ্যক্রমে "এসভিডি ++" নামটি একটি অ্যালগরিদমের জন্য ব্যবহার করে যার এসভিডির সাথে একেবারেই কোনও সম্পর্ক নেই।

রেকর্ডটির জন্য, আমি মনে করি ফানক, এসভিডি ++ এর লেখক নয়, প্রথমে প্রস্তাবক সিস্টেমগুলির জন্য উল্লিখিত ম্যাট্রিক্স ফ্যাক্টেরাইজেশন প্রস্তাব করেছিলেন। আসলে, এসভিডি ++, এর নাম অনুসারে, এটি ফানকের কাজের সম্প্রসারণ।

জ্যাভিয়ার আমাত্রিয়েন আমাদের একটি আরও বড় ছবি দেয়:

আসুন আমরা এটি নির্দেশ করে শুরু করি যে সাধারণত "এসভিডি" হিসাবে উল্লেখিত পদ্ধতিটি যা সুপারিশের প্রসঙ্গে ব্যবহৃত হয় তা কোনও ম্যাট্রিক্সের গাণিতিক একক মান ভলনকে কঠোরভাবে বলছে না বরং ম্যাট্রিক্সের নিম্ন-র‌্যাঙ্কের অনুমানের গণনা করার একটি আনুমানিক উপায় স্কোয়ার ত্রুটির ক্ষতি হ্রাস করে। আরও সাধারণ, আরও সাধারণ হওয়া সত্ত্বেও এটিকে কল করার উপায় হ'ল ম্যাট্রিক্স ফ্যাক্টরাইজেশন। নেটফ্লিক্স পুরষ্কার প্রসঙ্গে এই পদ্ধতির প্রাথমিক সংস্করণটি সাইমন ফানক তাঁর বিখ্যাত ট্রাই দ্য হোম ব্লগপোস্টে উপস্থাপন করেছিলেন। এটি লক্ষণীয় গুরুত্বপূর্ণ যে "সত্য এসভিডি" পদ্ধতিটি বাস্তবে এতগুলি ব্যবহারিক সাফল্য না পেয়ে বহু বছর আগে একই কার্যক্রমে প্রয়োগ হয়েছিল।

উইকিপিডিয়ায় ম্যাট্রিক্স ফ্যাক্টেরাইজেশন (সুপারিশকারী সিস্টেম) নিবন্ধে সমান তথ্য রয়েছে:

সাইমন ফঙ্ক তার ব্লগ পোস্টে প্রস্তাবিত মূল অ্যালগরিদমটি ব্যবহারকারী-আইটেম রেটিং ম্যাট্রিক্সকে দুটি নিম্ন-মাত্রিক ম্যাট্রিক্সের পণ্য হিসাবে চিহ্নিত করে, প্রথমটির প্রতিটি ব্যবহারকারীর জন্য একটি সারি থাকে, এবং দ্বিতীয়টিতে প্রতিটি আইটেমের জন্য একটি কলাম থাকে। নির্দিষ্ট ব্যবহারকারী বা আইটেমের সাথে সম্পর্কিত সারি বা কলামটি সুপ্ত কারণ হিসাবে উল্লেখ করা হয়। মনে রাখবেন, এর নাম থাকা সত্ত্বেও, ফানকএসভিডি তে কোনও একক মানের পচন প্রয়োগ করা হয় না।

সংক্ষেপ:

১. এসভিডি একটি জটিল জটিল গাণিতিক কৌশল যা ম্যাট্রিকেস ইন্ট্রো তিনটি নতুন ম্যাট্রিককে ফ্যাক্ট করে এবং এতে পিসিএ এবং আরএস সহ অনেকগুলি অ্যাপ্লিকেশন রয়েছে।

২. সাইমন ফানক ২০০ Net সালের নেটফ্লিক্স প্রতিযোগিতায় একটি খুব স্মার্ট কৌশল প্রয়োগ করেছিলেন, একটি ম্যাট্রিক্সকে অন্য দুটি ক্ষেত্রে ফ্যাক্টরিজ করে এবং বৈশিষ্ট্য এবং ওজনের অনুকূল মান খুঁজে পেতে গ্রেডিয়েন্ট বংশোদ্ভুত ব্যবহার করে। এটি এসভিডি নয়, তবে তিনি নিজের কৌশলটি বর্ণনা করতে এই শব্দটি ব্যবহার করেছিলেন।

৩. ফানক যা করেছে তার জন্য আরও উপযুক্ত শব্দটি হ'ল ম্যাট্রিক্স ফ্যাক্টরাইজেশন।

৪. এর পরের ভাল ফলাফল এবং খ্যাতির কারণে, লোকেরা এখনও সেই কৌশলটিকে এসভিডি বলে, কারণ, লেখক এটির নামকরণ করেছিলেন how

আমি আশা করি এটি কিছুটা স্পষ্ট করতে সহায়তা করে।