โทร. 0-5388-5924, โทรสาร. 0-5388-5924

สายตรงผู้อำนวยการ

อาจารย์อำนาจ โกวรรณ

ผู้อำนวยการ สำนักดิจิทัลเพื่อการศึกษา


หลักสูตรการวิเคราะห์ข้อมูล/วิทยาการข้อมูล (Data Sciences)


หัวข้อบรม :การวิเคราะห์ข้อมูลด้านเทคนิค Predictive Modeling เพื่อสนับสนุนการวิจัย

วิทยากร : ดร.เอกสิทธิ์ พัชรวงศ์ศักดา Certified RapidMiner Analyst

วันที่อบรมหลักสูตร : 23-25 มิถุนายน 2560 เวลา : 08.30-16.00 น. ระยะเวลา : 3 วัน


การวิเคราะห์บข้อมูลเทคนิค Predictive Modeling เพื่อสนับสนุนการวิจัยเชิง
ประยุกต์โดยซอฟต์แวร์
RapidMiner Studio 7 และ R (ขั้นปานกลางและสูง)

ภาพรวมของหลักสูตร
           เทคนิคการจำแนกประเภทข้อมูลหรือที่เรียกว่า Predictive Modeling เป็นเทคนิคที่นิยมใช้กันมากในการวิเคราะห์ข้อมูลและการทำงานวิจัยเชิงประยุกต์ ซึ่งกระบวนการจำแนกประเภทข้อมูลจะแบ่งเป็นสองส่วนคือ (1) การนำข้อมูลสอน (training data) มาสร้างโมเดลและวัดประสิทธิภาพของโมเดล และ (2) การนำโมเดลที่ได้ไปใช้ทำนาย (predict) เพื่อหาคำตอบให้กับข้อมูลใหม่ โดยการสร้าง โมเดลนั้นมีหลายๆ เทคนิค เช่น

              เทคนิค Decision Tree ซึ่งสร้างโมเดลในรูปแบบของ Tree เพื่อช่วยตัดสินใจ
                     1. เทคนิค Naïve Bayes ซึ่งสร้างโมเดลโดยใช้การคำนวณความน่าจะเป็นจากโอกาสที่เกิดขึ้นมาแล้วใน training data
                     2. เทคนิค K Nearest Neighbours ซึ่งสร้างโมเดลโดยการเปรียบเทียบความคล้ายคลึงกับข้อมูล training data
                     3. เทคนิค Neural Network เป็นการสร้างโมเดลที่ใช้สมการคณิตศาสตร์ที่ซับซ้อนในลักษณะที่คล้ายกับการทำงานของสมองมนุษย์
                     4. เทคนิค Support Vector Machines มีข้อดีโดยการแปลงข้อมูลให้อยู่ในรูปแบบที่สามารถแบ่งข้อมูลด้วยโมเดลเส้นตรงได้

               ทว่าในหลายๆครั้งการประยุกต์ใช้เทคนิค Predictive Modeling แบบทั่วไปอาจจะไม่ได้ให้ผลลัพธ์ที่ดีเนื่องจากข้อมูลจริงมีความท้าทายในหลายๆ เรื่อง เช่น

                    - ข้อมูลที่ใช้ในการเรียนรู้มีจำนวนข้อมูลในแต่ละคลาสคำตอบแตกต่างกันเป็นอย่างมาก หรือเรียกว่าเป็น Imbalanced data เช่น ข้อมูลของลูกค้าในธนาคารที่มีการฉ้อโกง (fraud) จะมีจำนวนน้อยมากเมื่อเทียบกับลูกค้าปกติ แต่สิ่งที่เราต้องการหา คือ การทำนายว่าการใช้งานของลูกค้าคนใดบ้างที่เกิดการฉ้อโกงขึ้น หรือ ข้อมูลการตอบรับโปรโมชันต่างๆ

                   - ข้อมูลมีจำนวนแอตทริบิวต์ที่เยอะและบางครั้งมีความซ้ำซ้อนและไม่จำเป็นอยู่ เช่น การสกัดข้อความต่างๆ เพื่อนำมาสร้างโมเดลจะมีคำแตกต่างกันมาก แต่บางคำอาจจะเกิดไม่บ่อยนักทำให้ข้อมูลส่วนใหญ่มีค่าความถี่ของคำเป็น 0

              ในหลักสูตรนี้จะเน้นการปรับปรงประสิทธิภาพของการสร้างโมเดลการจำแนกประเภทข้อมูลเพื่อให้มีประสิทธิภาพขึ้นโดยใช้ ซอฟต์แวร์ RapidMiner Studio 7 ที่เรียนรู้ได้ง่ายและเพิ่มประสิทธิภาพโดยการเชื่อมต่อกับภาษา R อีกด้วย โดยในหลักสูตรนี้ผู้เข้าร่วมอบรมจะได้เรียนรู้

                    - หลักการสร้างโมเดลเพื่อจำแนกประเภทข้อมูลแบบพื้นฐานต่างๆ และการวัดประสิทธิภาพของโมเดล
                    - การเขียนโปรแกรมภาษา R เบื้องต้นเพื่อการแสดงกราฟและการสร้างโมเดลต่างๆ
                    - การจัดการข้อมูลที่เป็นลักษณะ Imbalance โดยการ sampling แบบต่างๆ
                    - การจัดการข้อมูลที่มีแอตทริบิวต์ที่เยอะเกินความจำเป็นและซ้ำซ้อนกัน ด้วยวิธีการ Attribute Selection แบบต่างๆ
                    - การเพิ่มประสิทธิภาพของโมเดลด้วยการใช้หลายๆ เทคนิคร่วมกันทำงาน ด้วยวิธี Ensemble แบบต่างๆ
                    - การค้นหาพารามิเตอร์ (parameter) ของแต่ละเทคนิคที่เหมาะสมด้วยวิธีการ optimization

เนื้อหาการอบรม

วันที่
1

        1. ทบทวนการจำแนกประเภทข้อมูล (classification)
        2. การวัดประสิทธิภาพของโมเดลที่สร้างขึ้นด้วยตัววัดต่างๆ เช่น confusion matrix, precision, recall, accuracy, ROC
        3. การแบ่งข้อมูลมาทดสอบประสิทธิภาพ เช่น การทำ cross-validation
        4. ทบทวนเทคนิคการสร้างโมเดล Decision Tree, NaiveBayes, k-Nearest Neighbours, Neural Network
        5. Workshop การสร้างโพรเซสใน RapidMiner Studio 7 เพื่อเลือกโมเดลที่เหมาะสมที่สถดกับชุดข้อมูล
        6. การใช้งาน R และ RStudio เบื้องต้น
        7. แนะนำโครงการสร้างพื้นฐานของ R เช่น vector, list, data frame
        8. การติดตั้ง package เพิ่มใน R
        9. การเขียนโปรแกรมภาษา R เบื้องต้น และการเขียนฟังก์ชัน (function) เพิ่มเติมใน R
        10. การสร้างกราฟแบบต่างๆ ด้วย package ggplot2
        11. การสร้างโมเดลใน R

วันที่ 2

        1. ติดตั้ง R Extension ใน RapidMIner Studio 7 และทดสอบการใช้งาน
        2. การจำแนกประเภทข้อมูลที่เป็นแบบ imbalanced data โดยใช้เทคนิค
               - การ undersampling
               - การ oversampling
               - การสร้างโมเดลด้วยวิธี cost sensitive
        3. Workshop การจำแนกประเภทข้อมูล imbalanced data ด้วย RapidMiner Studio 7 และ R
        4. การคัดเลือกแอตทริบิวต์ (attribute selection) โดยใช้เทคนิค
                 - Filter-based โดยการคำนวณหาค่าความสัมพันธ์ระหว่างแอตทริบิวต์กับลาเบลคำตอบ
                 - Wrapper-based โดยการสร้างโมเดลเพื่อวัดประสิทธิภาพของแอตทริบิวต์
                        - วิธีการ Forward Selection
                        - วิธีการ Backward Elimination
                        - วิธีการ Evolutionary Selection
        5. ติดตั้ง package สำหรับการคัดเลือกแอตทริบิวต์เพิ่มเติม
        6. Workshop การคัดเลือกแอตทริบิวต์ด้วย RapidMiner Studio 7

วันที่ 3

         1. การจำแนกประเภทข้อมูลด้วยวิธีการ Ensemble โดยใช้
         2. เทคนิคการสร้างโมเดล ensemble แบบ vote
         3. ทคนิค Bootstrap Aggregating (Bagging)
         4. เทคนิค Random Forest
         5. เทคนิค Boosting
         6. Workshop การคัดเลือกแอตทริบิวต์ด้วย RapidMiner Studio 7 โดยมีตัวอย่าง
         7. การหาค่า learning rate และจำนวนโหนดใน hidden layer ที่เหมาะสม
         8. การหาค่า weight ที่เหมาะสมสำหรับการเลือกแอตทริบิวต์
         9. การสร้างโมเดลเปรียบเทียบและช่วยแนะนำโมเดลที่เหมาะสมด้วยวิธีการ meta-learning และตัวอย่างการทำงานใน ด้วย RapidMiner Studio 7
 

วิทยากรโดย
           ดร.เอกสิทธิ์ พัชรวงศ์ศักดา    Certified RapidMiner Analyst