سخنرانی‌های«داده»


Paris

سخنرانی‌های «داده» ، ارائه‌هایی در دانشکده مهندسی کامپیوتر می باشند تا اعضای دانشکده، اعم از دانشجویان و اساتید، هرچه بیشتر با مسائل فنی شرکت ها، حوزه های مختلف تحقیقاتی و پژوهشهای در حال انجام در دانشگاه ها آشنا شوند. شرکت در این برنامه برای عموم آزاد است. اگر به عنوان یک ارائه‌ای کننده می خواهید در این جلسات شرکت نمایید با kharrazi(at)sharif(dot)edu تماس حاصل فرمایید.




تحلیل ترافیک جاده‌ها بر اساس اطلاعات مکانی کاربران دال
دوشنبه،۷ مرداد ۱۳۹۸، ساعت ۱۰۳۰ تا۱۲۰۰      پوستر     اسلایدها

Paris

چکیده:
یکی از ملزومات سامانه‌های مسیریابی، داشتن تخمینی مناسب از میزان ترافیک لحظه‌ای جاده‌ها است. برای یک اپلیکیشن تلفن همراه، وقتی تعداد کاربران زیاد باشد، می‌توان با استفاده از اطلاعات مکانی کاربران برخط، تخمین‌های مناسبی به دست آورد. اما زمانی که تعداد کاربران کم است، مسائل مهمی از جمله تشخیص داده‌های پرت و انتخاب مدل مناسب برای تخمین ترافیک جاده‌ها به وجود می‌آید. همچنین وقتی تعداد کاربران کم است، استفاده از اطلاعات محدود موجود از سایر سامانه‌ها در مورد ترافیک برخی از جاده‌ها می‌تواند به بهبود تخمین ترافیک کمک کند. اما با توجه به محدودیت‌هایی که در این اطلاعات وجود دارد، استفاده از آن‌ها نیز نیازمند انتخاب روش‌های مناسبی است. در این ارائه به چالش‌هایی که تیم تخمین ترافیک اپلیکیشن دال در این زمینه با آن‌ها مواجه بوده، و روش‌های مورد استفاده‌ی آن‌ها خواهیم پرداخت

ارائه دهنده:
احمد خواجه‌ نژاد، khajenezhad(at)ce(dot)sharif(dot)edu، دارنده‌ی مدال طلای کشوری المپیاد کامپیوتر، فارغ التحصیل کارشناسی و کارشناسی ارشد مهندسی کامپیوتر از دانشگاه شریف، و هم‌اکنون دانشجوی دکترای هوش مصنوعی در دانشگاه شریف است. زمینه‌ی تحقیقاتی او یادگیری با مدل‌های احتمالاتی گرافی و مدل‌های احتمالاتی ژرف است. او از زمستان ۹۶ به تیم دال پیوست و به مدت یک سال به عنوان مسئول تیم تحلیل ترافیک با دال همکاری کرد.


معماری‌های نوظهور ذخیره‌ساز داده برای زیرساخت‌ آتی فناوری اطلاعات
دوشنبه، ۱۴ مرداد۱۳۹۸، ساعت ۱۰۳۰ تا۱۲۰۰      پوستر     اسلایدها
Paris

چکیده:
در عصري كه داده‌ها ارزشمندترين دارايي صاحبان صنايع و سازمان‌ها هستند، كارايي، دسترس‌پذيري و اجتناب از فقدان داده بسيار حائز اهميت است. براي رسيدن به اين هدف، سامانه‌هاي ذخيره‌سازي داده طراحي شده‌اند كه با استفاده از فناوري‌هايي مانند حافظه‌ي نهان، رده بندي داده و افزونگي، كارايي بالا را تضمين مي‌كنند و احتمال عدم دسترس‌پذيري و فقدان داده را كاهش مي‌دهند. اين نيازمندي‌ها طراحي سامانه‌هاي ذخيره‌سازي داده را با سه چالش اتكاپذيري، كارايي و هزينه تمام شده مواجه مي‌كند. مطالعات میدانی نشان می‌دهد که کارایی و اتکاپذیری همچنان دو مساله جدی در بسترهای ذخیره‌سازی داده است و با ظهور حجم عظیم داده در سال‌های اخیر، موسوم به داده‌های بزرگ، این مشکل دو چندان شده است. پیدایش داده‌های بزرگ انقلابی در صنعت ذخیره‌سازی داده ایجاد کرده است و نیاز به فضا و کارایی ذخیره‌سازی را سالانه به طور نمایی افزایش می‌دهد. با این افزایش نیاز و به تبع آن افزایش تعداد رسانه‌های ذخیره‌سازی، افزایش پیچیدگی‌های طراحی و پیدایش رسانه‌های جدید، نمی‌توان کارایی و اتکاپذیری بالا را همچنان با روشهای قدیمی تضمین نمود. در این ارائه سامانه های ذخیره سازی داده، مشخصه های پیشرفته این سامانه ها و چالش های پیش رو در طراحی این سامانه ها معرفی خواهد شد. همچنین معماری های نوظهور ذخیره‌ساز داده و حافظه‌های نوظهور معرفی شده و مباحث قابل طرح برای کار تحقیقاتی و مهندسی ارائه خواهد شد.

ارائه دهنده:
مصطفی کیشانی، kishani(at)hpds(dot)ir، مدرک کارشناسی خود را در سال 1387 در زمینه مهندسی کامپیوتر از دانشگاه فردوسی مشهد، مدرک کارشناسی ارشد را در سال 1389 در زمینه مهندسی کامپیوتر از دانشگاه صنعتی امیرکبیر، و مدرک دکتری را در سال 1397 از دانشگاه صنعتی شریف دریافت نموده است. در سال های 1389 تا 1391 ایشان به عنوان مهندس سخت افزار در سازمان فضایی ایران مشغول به کار بوده است. در سال 1390 ایشان همچنین در تیم Memocode پژوهشگاه دانش های بنیادی (IPM) عضویت داشتند. در سال 1394 ایشان به عنوان دستیار پژوهشی در دانشکده مهندسی کامپیوتر دانشگاه Chinese University of Hong Kong در کشور هنگ کنگ مشغول به کار بوده است. ایشان همچنین در سال 1395 به عنوان دانشیار پژوهشی در دانشگاه Hong Kong Polytechnic University در کشور هنگ کنگ اشتغال داشته است. ایشان هم اکنون در شرکت پردازش و ذخیره سازی سریع داده در مرکز خدمات فناوری دانشگاه صنعتی شریف به کار تحقیقات و توسعه اشتغال دارد.


ساخت سامانه عام‌منظوره برای افزایش تعامل کاربران با برنامه‌ها
دوشنبه، ۱۱ شهریور۱۳۹۸، ساعت ۱۰۳۰ تا۱۲۰۰      پوستر     
Paris

چکیده:
پوشه یک زیرساخت ارتباط با کاربران اپلیکیشن‌ها و وبسایت‌ها با استفاده از اعلان است. اعلان یکی از قوی‌ترین ابزارهای ارتباط با کاربران است که می‌تواند در زمان‌هایی که کاربر از اپلکیشن یا وبسایت استفاده نمی‌کند هم با او ارتباط برقرار کرده و وی را به باز کردن اپلیکیشن یا وبسایت دعوت کند. با توجه به نفوذ و قدرت بالای این وسیله ارتباطی، لازم است با شناخت مناسب از کاربران و پیام‌ها، مخاطب درست هر پیام مشخص شود و  به کاربرانی که تمایل به دریافت آن را ندارند ارسال نشود، یا از طرف دیگر، پیشنهادات و تخفیف‌ها به صورت هوشمند توزیع شود تا با صرف کم‌ترین هزینه بیشترین جذب صورت گیرد. در این ارائه ما به چالش‌های ساخت پروفایل کاربران بر اساس داده‌های استفاده آن‌ها از اپلیکیشن و تعامل آن‌ها با اعلان‌ها می‌پردازیم. به طور خاص بر مسئله تشخیص نظر فعلی کاربر در مورد کسب و کار مورد نظر (اپلیکیشن یا وبسایت) را بررسی می‌کنیم. این پیش‌بینی با دسته‌بندی کاربران بر اساس خطر ترک کسب و کار نحوه تعامل و ارائه پیشنهادات به هر کاربر را تعیین می‌کند. در این مسئله مجموعه‌ای از چالش‌های مسائل یادگیری ماشین وجود دارند که از میان آن‌ها می‌توان به این موارد اشاره کرد:‌ ۱) حفظ حریم خصوصی کاربران در عین فراهم آوردن امکان شخصی‌سازی ۲) سطوح دسترسی مختلف اپلیکیشن‌ها به داده‌ها و تفاوت انواع داده موجود برای هر کسب و کار ۳) تغییر کاربران در طول زمان ۴)  تطبیق دامنه (domain adaptation) و تطبیق مدل بر انواع مختلف کسب و کارها. در این ارائه نحوه مدل‌سازی مسئله، راه‌حل‌ها و رویکردهای مختلف برای پرداختن به چالش‌های فوق شرح داده خواهد شد

ارائه دهنده:
سیدعلی اوصیا از سال ۱۳۸۹ تا ۱۳۹۳ دوری کارشناسی مهندسی نرم‌افزار را در دانشگاه صنعتی شریف گذرانده‌اند و از سال ۱۳۹۳ تاکنون دانشجوی دوره‌ی دکتری هوش مصنوعی در این دانشگاه هستند. حوزه‌ی تحقیقاتی ایشان یادگیری ماشین و شبکه‌های ژرف است و مقاله‌های معتبری در رابطه با چالش حفظ حریم خصوصی در روش‌های یادگیری ماشین داشته‌اند و از زمستان ۱۳۹۷ تاکنون در شرکت پوشه به عنوان دانشمند داده مشغول به کار هستند


عبور از سیستم عامل: راهکاری برای پردازش سریع‌تر ترافیک شبکه
دوشنبه، ۲۵ شهریور۱۳۹۸، ساعت ۱۰۳۰ تا۱۲۰۰      پوستر     اسلایدها
Paris

چکیده:
با ظهور نیازمندی‌های جدید و پویا که در قالب شبکه‌های نرم افزار محور (Software Defined Networking) قابل پاسخ‌گویی هستند و نیز پیشرفت‌های چشم‌گیر در تولید سخت افزار (اعم از کارتهای شبکه، معماری پردازنده، ...) استفاده از سخت افزارهای معمولی و ارزان‌ قیمت به شدت توسط سازندگان تجهیزات شبکه مورد اقبال قرار گرفته است. یکی از مهمترین‌ چالش‌های تجهیزات شبکه، سرعت دسترسی به حجم بسیار زیاد بسته‌ها به منظور پردازش آنها (مانند مسیریابی، دیواره آتش، ...) است. در روش سنتی چنین دسترسی از طریق مکانیزم‌های استاندارد سیستم عامل قابل انجام است ولی با افزایش پهنای باند کارایی خود را از دست می‌دهند و همچنین مقیاس پذیر نیستند. سیستم عامل‌های همه منظوره به دلایل متعدد دارای پیچیدگی‌های ذاتی هستند و طبعاً نمی‌توانند برای چنین منظوری بهینه باشند. مثلاً پشتیبانی سیستم عامل از multi processing/threading ایجاب می‌کند تا دسترسی به منابع مشترک توسط پردازه‌ها انحصاری شود و این کار با مکانیزم locking در سیستم عامل پیاده سازی می‌شود. حال شرایطی را در نظر بگیرید که دسترسی‌های زیاد منجر به تعداد زیادی lock شده و بالطبع کارایی سیستم به شدت پایین می‌آید. به عنوان مثال دیگر می‌توان به نحوه دسترسی اپلیکیشن (اجرا شده در فضای کاربر) به بسته‌ها (قرار گرفته در فضای هسته سیستم عامل) اشاره کرد که لاجرم با کمک وقفه‌های نرم افزاری انجام می‌شود ولی تعداد وقفه‌ها ارتباط مستقیمی با تعداد بسته‌ها دارد و با افزایش پهنای باند و تعداد بسته، این نحوه دسترسی مقیاس پذیری خود را کاملاً از دست می‌دهد. برای حل این مشکلات از مکانیزم‌های bypass کردن سیستم عامل استفاده می‌شود تا دسترسی مستقیم و بلادرنگ به بسته‌ها حاصل شود و اپلیکیشن یا VNF از حداکثر ظرفیت پردازشی خود بهره‌مند شود. با اینکه مکانیزم‌های مختلفی برای این منظور توسعه داده شده‌اند ولی کلیات آنها باهم مشابه است و در این ارائه قصد داریم کلیات نحوه انجام کار در سیستم عامل و همچنین راه حل اینتل با نام DPDK را معرفی کنیم. همچنین در انتها یک مثال از کاربرد آن را که منجر به بهبود کارایی شده است، ارائه خواهیم کرد.

ارائه دهنده:
حمیدرضا خیرآبادی مدرک کارشناسی و کارشناسی ارشد خود را به ترتیب در سال‌های ۱۳۸۳ و ۱۳۸۵ از دانشگاه صنعتی امیرکبیر اخذ کرده است و دارای ۱۲ سال تجربه در زمینه تحقیق و توسعه تجهیزات امنیت شبکه می‌باشد. ایشان هم اکنون در شرکت مهسان مشغول به تحقیق و توسعه می‌باشند.


پردازش متن در زبان فارسی با منابع محدود
چهارشنبه، ۲۴ مهر ۱۳۹۸، ساعت ۱۴۰۰ تا ۱۵۳۰      پوستر     اسلایدها
Paris

چکیده:
با توسعه ی روز افزون سرویسهای مبتنی بر وب و مشارکت کاربران در تولید محتوای متنی، داده های حجیم برای توسعه ی سامانه های مبتنی بر یادگیری عمیق در دسترس قرار گرفته است. هرچند دادگان و ابزارهای توسعه ی الگوریتمهای پردازش زبان طبیعی در زبانهایی مانند انگلیسی به وفور یافت میشود، اما پژوهشگران در زبان فارسی با کمبود منابع متنی برچسبگذاری شده مواجه اند. در راستای مقابله با این چالش روشهای متعددی پیشنهاد شده است، که میتوانند با منابع محدود نتایج قابل قبولی را تولید کنند: ۱) آموزش شبکه های عصبی برای حل مسائلی مانند مدلسازی زبان که دادگان حجیم برای آن در زبان فارسی وجود دارد، و استفاده از بازنمایی های تولید شده و Fine Tune کردن آنها جهت حل سایر مسائل پردازش متن. ۲) توسعهی سیاستهای Active Learning در راستای بهینه سازی فرآیند برچسب گذاری و تولید دادگان آموزشی. در این روش، داده هایی که بیشترین اطلاعات را در اختیار مدل قرار میدهند انتخاب شده و توسط کاربر برچسب گذاری میشوند، بدین ترتیب با کمترین هزینه ی ممکن میتوان داده های آموزشی با بیشترین بازدهی را تولید کرد. در این ارائه چالشهای تیم میراث در توسعهی سرویسهای پردازش زبان فارسی، مانند تحلیل تمایل، تحلیل احساس، دسته بندی متن، تشخیص موجودیتهای نامدار و تشخیص ناسزا، مورد بررسی قرار گرفته و رویکردهای استفاده شده در جهت حل این مسائل معرفی میشوند. این رویکردها شامل استفاده از مدلهای از پیش آموزش داده شده ی چند زبانه مانند BERT، یادگیری چند منظوره و همچنین استفاده از Active Learning در فرآیند برچسب گذاری میشوند.

ارائه دهنده:
بهنام ثابتی در سال ۱۳۹۲ مدرک کارشناسی مهندسی کامپیوتر را از دانشگاه فردوسی مشهد و سپس در سال ۱۳۹۴ کارشناسی ارشد هوش مصنوعی را از دانشگاه صنعتی شریف اخذ کردهاند. ایشان از سال ۱۳۹۴ تا کنون دانشجوی دکتری هوش مصنوعی در دانشگاه صنعتی شریف هستند. حوزه‌ی تحقیقاتی ایشان یادگیری ماشین و شبکه‌های ژرف و استفاده آنها در پردازش زبان طبیعی است. ایشان از زمستان ۱۳۹۵ تاکنون در شرکت میراث به عنوان دانشمند داده و مدیر محصول مشغول به کار هستند.


یادگیری ماشین بزرگ مقیاس در تبلیغات دیجیتال
چهارشنبه، ۶ آذر ۱۳۹۸، ساعت ۱۴۰۰ تا ۱۵۳۰      پوستر     اسلایدها


چکیده:
تبلیغات دیجیتال یکی از منابع اصلی درآمد شرکت‌های بزرگی هم‌چون گوگل و فیس‌بوک است. کارایی این نوع از تبلیغات کاملا به میزان هوشمندی این روش‌ها وابسته است. به این معنی که باید بتوان بهترین تبلیغ را به مرتبط‌ترین کاربر در بهترین زمان نمایش داد تا از این طریق، با کمترین تعداد دفعات نمایش، کاربران را به تبلیغات مورد علاقه آن‌ها رساند و از طرفی اهداف تبلیغ‌دهنده را برآورده کرد. برای این کار، نیاز است که سیستم‌های تبلیغاتی با شناخت دقیق از کاربران، زمینه‌ای که در آن به تماشای تبلیغ می‌پردازند و هم‌چنین تبلیغات مختلف، احتمال تعامل کاربر با هر تبلیغ را پیش‌بینی کنند و بر این مبنا، بهترین تبلیغ را به کاربر نشان دهند. سیستم‌های تبلیغاتی برای به دست آوردن چنین شناختی، باید حجم زیادی از داده‌های کاربران را جمع‌آوری و پردازش کنند و ویژگی‌های مختلفی را از تاریخچه کاربران، تبلیغات و وبسایت‌ها استخراج کنند. علاوه بر چالش‌های استخراج ويژگی‌های موثر، طراحی مدلی که بتواند با استفاده از این ویژگی‌ها رفتار کاربران را با دقت خوبی پیش‌بینی کند، چالش‌های مختلفی دارد که از آن جمله می‌توان به بُعد بالای ویژگی‌ها، تُنُک بودن بردار ویژگی‌ها، تغییر الگوی رفتار کاربران در طی زمان و هم‌چنین cold start اشاره کرد. از طرفی، با توجه به حجم بسیار زیاد درخواست‌ها به یک سامانه تبلیغاتی، مدل ما باید به‌گونه‌ای باشد که فرآیند تصمیم‌گیری برای یافتن بهترین تبلیغ در مدت زمان بسیار کوتاهی انجام شود. در این ارائه، به بررسی آخرین روش‌های مبتنی بر یادگیری ماشین برای پیش‌بینی نوع برخورد یک کاربر با یک تبلیغ مورد بررسی قرار می‌دهیم.

ارائه دهنده:
سیدعباس حسینی، هم‌بنیانگذار و مدیر فنی شرکت تپسل است. زمینه تحقیقاتی او طراحی مدل‌های پیش‌گو در داده‌های زمانی و مدل‌سازی رفتار انسان‌ها در طی زمان با تحلیل داده‌های حجیم است. او مدارک کارشناسی، کارشناسی ارشد و دکتری خود را به ترتیب در سال‌های ۹۱، ۹۳ و ۹۷ از دانشکده کامپیوتر دانشگاه صنعتی شریف در گرایش هوش مصنوعی اخذ کرده است.


تحلیل‌‌داده‌های فوتبال به منظور آماده‌سازی قبل از انجام یک مسابقه
چهارشنبه، ۴ دی ۱۳۹۸، ساعت ۱۴۰۰ تا ۱۵۳۰



این لیست به روز رسانی می‌شود.
۱۳۹۸/۹/۳