วันเสาร์ที่ 30 พฤษภาคม พ.ศ. 2552

Database และ Data warehouse แตกต่างกันอย่างไร

Database นั้นในปัจจุบันไม่ว่าจะค่ายไหนไม่ว่าจะเป็น open source (ฟรี) หรือ commercial (ธุรกิจ) ต่างก็จะใช้โครงสร้างข้อมูลที่เป็นแบบ Relational คือลักษณะเป็นแบบตารางที่ประกอบไปด้วย fieldโดย field หมายถึงข้อมูลดิบหนึ่งชุดโดยธรรมชาติจะไม่ได้อยู่เดี่ยวๆแต่จะนำมันรวมกันเป็นกลุ่มข้อมูลซึ่งข้อมูลที่เรียงกันเราจะเรียกว่า 1 recordโดยแต่ละหนึ่ง record นั้นจะถูกนำมารวมกันไว้ในที่เดียวเรียกว่า Table ..........
ซึ่งจะเห็นว่าข้อมูลนั้นจะถูกเก็บอยู่ในลักษณะ 2 มิติซึ่งการเก็บลักษณะนี้เหมาะสำหรับการเก็บข้อมูลที่ไม่เยอะมากเพราะว่าเมื่อมีข้อมูลเยอะมากๆแล้วการทำการค้นหาข้อมูลก็จะยิ่งยากขึ้นแต่ว่าใน ฐานข้อมูล ที่มีชื่อเสียงนั้นก็จะมีวิธีการที่ทำให้การเข้าถึงข้อมูลเร็วขึ้นคือการแบ่ง table (partition table) คือจะแบ่งข้อมูลออกมาเป็นชิ้นเพื่อให้เวลาค้นหานั้นทำได้ง่ายขึ้นโดย เช่น เราอาจจะตั้งให้ table ของเรานั้นแบ่งข้อมูลตามเดือนโดยพอครบหนึ่งเดือนแล้วเราอาจจะสั่งให้เก็บลงในตารางเสมือนที่สร้างขึ้นมาเพื่อเก็บข้อมูลในเดือนใหม่เข้าเพื่อที่จะแบ่งแยกข้อมูลเพื่อให้เวลาค้นหาข้อมูลได้เร็วขึ้น ซึ่งที่บอกว่ามันเป็นตารางเสมือนนั้นเพราะว่าผู้ใช้ไม่จะมองเห็น table ที่ทำการแบ่ง partition นั้นเป็นเหมือนแค่ 1 table โดยหน้าที่ในการแบ่งจะให้ database เป็นผู้ทำเองแต่ว่าการแบ่ง table นั้นนอกจากจะแบ่งตามระยะเวลาอาจจะแบ่งตามประเภทได้ด้วย เช่น ประเภทของลูกค้า, ประเภทของผู้ให้บริการ เป็นต้นในตัวอย่างนี้เรายก table Order มาดูกันโดย Order(การสั่งซื้อ) โดยในเดือนเดือนนึงนั้นสมมติว่ามีการสั่งซื้อเข้ามาเยอะดังนั้นประสิทธิภาพของ table จะแปรผันกับข้อมูลที่อยู่ใน table ยิ่งข้อมูลใน table ยิ่งเยอะจะทำให้ประสิทธิภาพลดลงเพราะว่าเวลาในการค้นหาข้อมูลหรือการจัดการข้อมูลก็จะนานขึ้น แต่ว่าถ้าเรามีการจัดการ table โดยการทำ partition table นั้นจะทำให้เราสามารถเข้าถึงข้อมูลในวงที่แคบลงในกรณีที่เราค้นหาข้อมูลหรือจัดการข้อมูลโดยการค้นหาโดยใช้วันที่ แต่เนื่องจากว่าถ้าหากเราต้องการนำข้อมูลใน table Order นี้ไปสรุปรายเดือนซึ่งอาจจะต้องแยกกันไปตามทวีปที่มีการสั่งซื้อดังนั้นเราอาจจะแบ่งย่อยอีกได้ตามทวีปเพื่อเพิ่มประสิทธิภาพมากขึ้นการแบ่ง partition table นั้นไม่ได้มีเพียงเท่านี้ใน database ของ oracle สามารถแบ่ง partition ไปยังในหน่วยความจำได้เช่น table space หรือแม้กระทั่ง datafile เพื่อช่วยเพิ่มประสิทธิภาพมากยิ่งขึ้นและใน oracle 11g นั้นการ query จะทำได้เร็วยิ่งขึ้นเพราะว่าทุกครั้งที่มีการ query จะมีการเก็บผลลัพธ์ในการ query ในครั้งนั้นๆไว้ใน RAM ซึ่งถ้าหากมีการ query ข้อมูลเดิมอีกก็ไม่จำเป็นต้องดึงจาก harddisk แล้วดึงมาได้เลย แต่ว่า RAM ก็หดหายไปเรื่อยๆดังนั้นจึงต้องมีการ set ไว้ด้วยว่าให้ใช้ได้เท่าไร (ปกติก็กิน RAM อยู่แล้วแบบนี้ยิ่งแล้วใหญ่ดิ )แต่ถ้าถามว่าเพียงพอแล้วหรือยังคำตอบคือยังเพราะว่าถ้ามีข้อมูลมากกว่านี้หละก็ต่อให้ทำการแบ่งตารางแล้วอาจจะยังไม่พอทำ จึงต้องมีการนำข้อมูลที่ไม่ใช้นั้นเป็นเข้าไปอยู่ที่มีความสามารถในการจุมากกว่า database นั้นคือ data warehose ซึ่งการจะให้คำนิยามของ data warehouse นั้นสั้นๆง่ายๆ คือ เป็นที่รวมข้อมูลทุกๆอย่างไม่ว่าแหล่งข้อมูลนั้นจะมาจากแหล่งไหนๆ โดยคำว่า "ไม่ว่าแหล่งข้อมูลนั้นจะมาจากแหล่งไหนๆ" นั้นหมายถึงแหล่งข้อมูลที่มาจากที่ต่างๆไม่ว่าจะเป็น database (database ในที่นี้ไม่จำกัดทุกยี่ห้อสามารถนำลง data warehouse เดียวกันได้หมดโดยผ่านมาตรฐานกลางคือ SQL) หรือแม้กระทั่งมาจาก text, xml หรือ excel ดังนั้นเมื่อถึงระยะเวลาหนึ่ง database ก็จะถ่ายโอนข้อมูลเก่าๆนั้นเก็บลงใน Data warehouse เพื่อไม่ให้ database นั้นมีความเทอะทะเกินไปอาจส่งผลต่อความเร็วในการจัดการหรือค้นหาข้อมูลและถ้าถามว่า data warehouse มีประโยชน์แค่นี้หรอคำตอบคือไม่เพราะว่าข้อมูลเหล่านั้นที่ถูกเก็บไว้ไม่ได้ถูกเก็บไว้เฉยๆแต่จะถูกนำมาใช้ในการวางแผนธุรกิจซึ่งในการวางแผนนั้นจำเป็นที่ต้องใช้ข้อมูลเก่าๆที่เก็บไว้ย้อนหลังเป็น 4 หรือ 5 ปีเป็นอย่างน้อยในการวางแผนซึ่งเราเรียกระบบนี้ว่า BI (Business Inteligence)




และจะมีคำถามตามมาว่าข้อมูลที่เก็บไว้หลายๆปีนั้นมันต้องเยอะมาเวลาค้นหาหรือจัดการซักทีนั้นจะไม่ช้าหรอคำตอบคือไม่ช้าครับ เพราะว่า data warehouse นั้นมี algorithm ที่ไม่เหมือน database โดย database นั้นจะมีโครงสร้างข้อมูลที่เป็นแบบ relational ซึ่งเป็นการเก็บข้อมูล 2 มิติ dimension คือ





ถ้าจะเปรียบง่ายๆ relational นั้นเป็น สี่เหลี่ยมธรรมดา ที่มีมุมมองอยู่ที่ 2 มิติ กว้างกับยาวแต่ data warehouse นั้นจะมีลักษณะโครงสร้างที่เรียกว่า multi-dimensional คือจะมีมิติเพิ่มขึ้นมาอีกหนึ่งมิติซึ่งเปรียบเหมือน สี่เหลี่ยมลูกบาศก์ (cubic) ที่เราชอบบิดไปบิดมานั้นแหละ
http://www.maa.org/editorial/mathgames/MetaCubicSudoku.gif
โดยจะเห็นว่ามิติที่เพิ่มขึ้นมานั้นก็คือความลึกนั้นเองซึ่งเวลาค้นหาข้อมูลที่มีอยู่เยอะๆนั้น เพื่อเพิ่มความเร็วข้อมูลนั้น โครงสร้างข้อมูลที่เรามองเสมือนเป็น cubic ก็จะถูกบิดไปบิดมาเพื่อที่จะทำให้ข้อมูลที่ต้องการค้นหาหรือจัดการนั้นค้นหาได้เร็วขึ้น และนี่คือความลับว่าทำไมข้อมูลที่กองอยู่ใน data warehouse จนฝุ่นจับนั้นสามารถ จัดการหรือค้นหาได้รวดเร็วทันใจซึ่งลักษณะโครงสร้างที่เรียกว่า multi-dimensional ใน oracle เค้าจะเรียกว่า OLAPซึ่ง data warehouse ของ oracle ที่ใหญ่ที่สุดในโลกนี้เก็บข้อมูลที่ใหญ่ถึง 300 TB โดย vendor ที่เก็บข้อมูลได้เยอะขนาดนี้คือ amazon นั้นเองและนอกจากตารางจะสามารถทำการแบ่งตารางได้แล้ว data warehouse ยังสามารถทำ partition OLAP ได้ด้วยเพื่อเพิ่มความเร็วในการค้นหานอกจากการเพิ่มประสิทธิภาพ database โดยใช้วิธี partition แล้วยังมีอีกวิธีคือ RAC (Real Application Cluster) เนื่องจากว่า oracle นั้นเป็นตัวที่กินทรัพยากรมากดังนั้นจึงมีข้อเสนอว่าจะจะเอาหลายๆเครื่องมารวมกันเพื่อเพิ่มประสิทธิให้กับ ระบบ เพื่อรองรับ กับการกินทรัพยากรของ oracle หรือว่าต้องการให้ระบบเราเร็วขึ้นแต่บังเอิญว่าเครื่อง server นั้นเก่าไปเพิ่ม RAM ก็ไม่ได้ harddisk ไม่ได้ดังนั้นแทนที่จะซื้อเครื่องใหม่แล้วโยก DB ตัวดิมไปเครื่งใหม่ซึ่งถือว่ายุ่งยากมากก็ให้นำเครื่องใหม่มาเพิ่มแล้วทำ cluster ทำให้มองเห็นว่าเครื่อง database มีเครื่องเดียวและ share ทรัพยากรกันทำให้ได้ประสิทธิภาพมาขึ้นสรุป database นั้นเป็นแหล่งเก็บข้อมูลสำหรับการทำ transaction ส่วน data warehouse เป็นที่เก็บข้อมูลที่ไม่มการเรียกใช้บ่อยแต่จะเรียกใช้ในกรณีที่มีความต้องการนำข้อมูลย้อนหลังมาวางแผนหรือทำราบงานสรุป
แหล่งที่มาhttp://citec.us/forum/lofiversion/index.php?t17157.html

รูปแบบการวิเคราะห์ข้อมูลในคลังข้อมูล

คลังข้อมูล

จาก Ccwiki
ข้ามไปที่: นำทาง, ค้นหา
คลังข้อมูล (Data Warehouse) คือ ฐานข้อมูลขนาดใหญ่ขององค์กรหรือหน่วยงาน ซึ่งเก็บรวบรวมข้อมูลจากฐานข้อมูลระบบงานประจำวัน หรือเรียกอีกอย่างหนึ่งว่า ฐานข้อมูลปฏิบัติการและฐานข้อมูลอื่น ๆ ภายนอกองค์กร โดยข้อมูลในคลังข้อมูลจะถูกนำมาใช้เพื่อสนับสนุนการตัดสินใจบริหารงานของผู้บริหาร โดยเฉพาะการเป็นข้อมูลพื้นฐานให้กับระบบงานเพื่อการบริหารงานอื่น เช่น ระบบสนับสนุนการตัดสินใจและระบบลูกค้าสัมพันธ์ เป็นต้น
คลังข้อมูลแตกต่างจากฐานข้อมูลอย่างไร?
โดยทั่วไปแล้วฐานข้อมูลในองค์กรทั่วไปจะมีลักษณะที่ค่อนข้างทันต่อเหตุการณ์ เช่น ฐานข้อมูลพนักงานที่จะเก็บเฉพาะพนักงานในปัจจุบัน จะไม่สนใจข้อมูลพนักงานเก่าๆ ในอดีต ซึ่งอาจจะมีข้อมูลอะไรบางอย่างที่มีประโยชน์สำหรับผู้บริหาร ในการวิเคราะห์ประสิทธิภาพและคุณลักษณะต่างๆ ขององค์กร นอกจากนี้ฐานข้อมูลแต่ละอันมักถูกออกแบบมาเพื่อใช้เก็บข้อมูลเฉพาะด้าน จึงมีข้อมูลเฉพาะบางส่วนขององค์กรเท่านั้น ฉะนั้นคลังข้อมูลจึงถูกออกแบบมาเพื่อรวบรวมข้อมูลในทุกส่วนของทั้งบริษัททั้งเก่าและใหม่ไว้ด้วยกัน ไม่มีการลบทิ้งข้อมูลเก่าๆ ที่ไม่จริงในปัจจุบัน
สรุปคือ
คลังข้อมูล ใช้เพื่อการวิเคราะห์ข้อมูลในรูปแบบต่างๆ เพื่อสนับสนุนการตัดสินใจ (ข้อมูลทั้งอดีตและปัจจุบัน)
ฐานข้อมูล ใช้เพื่อทำการประมวลผลข้อมูลรายวัน (เฉพาะข้อมูลปัจจุบัน)

จากภาพด้านบนแสดงถึงหลักการทำงานของระบบคลังข้อมูลซึ่งเป็นการจัดเก็บข้อมูลจากหลาย ๆ แหล่งเพื่อให้ตอบสนองต่อการนำเสนอรายงานในรูปแบบต่าง ๆ และเพื่อใช้เป็นเครื่องมือที่ช่วยสนับสนุนการวิเคราะห์และการตัดสินใจ

  • คลังข้อมูลต้องมีคุณสมบัติ
  1. การแบ่งโครงสร้างตามเนื้อหา (Subject Oriented) หมายถึง คลังข้อมูลถูกออกแบบมาเพื่อมุ่งเน้นไปในแต่ละเนื้อหาที่สนใจไม่ได้เน้นไปที่การทำงานหรือกระบวนการ แต่ละอย่างโดยเฉพาะเหมือนอย่างฐานข้อมูลปฏิบัติการ
  2. การรวมกันเป็นหนึ่ง (Integrated) เป็นคุณลักษณะที่สำคัญที่สุดของคลังข้อมูล คือ การรวบรวมข้อมูลจากหลายฐานข้อมูลปฏิบัติการเข้าด้วยกัน
  3. ความสัมพันธ์กับเวลา (Time Variant) ข้อมูลในคลังจะต้องจัดเก็บโดยกำหนดช่วงเวลาเอาไว้ โดยจะสัมพันธ์กับการดำเนินธุรกิจของหน่วยธุรกิจนั้น เพราะในการตัดสินใจในการบริหารจำเป็นต้องมีข้อมูลเปรียบเทียบในแต่ละช่วงเวลา แต่ละจุดของข้อมูลจะเกี่ยวข้องกับจุดของเวลาและข้อมูลแต่ละจุดสามารถเปรียบเทียบกันได้ตามแกนของเวลา
  4. ความเสถียรของข้อมูล (Nonvolatile) ข้อมูลในคลังข้อมูลจะไม่ถูกเปลี่ยนแปลงง่าย ๆ ไม่ว่าจะเป็นการเพิ่มเติมข้อมูลใหม่หรือการปรับปรุงแก้ไขข้อมูลเดิมที่บรรจุอยู่แล้ว ผู้ใช้ทำได้เพียงการเข้าถึงข้อมูลเท่านั้น

แหล่งที่มา http://chilchil.swu.ac.th/wiki/index.php/%E0%B8%84%E0%B8%A5%E0%B8%B1%E0%B8%87%E0%B8%82%E0%B9%89%E0%B8%AD%E0%B8%A1%E0%B8%B9%E0%B8%A5

ตลาดข้อมูลแตกต่างจากคลังข้อมูลหรือไม่ อธิบาย

ตลาดข้อมูลแตกต่างจากคลังข้อมูล ดังนี้

  • คลังข้อมูล (Data Warehouse) คือ ฐานข้อมูล ขนาดยักษ์ ที่รวบรวมฐานข้อมูลจากหลายแหล่งหลายช่วงเวลา
  • คลังข้อมูลแตกต่างจากฐานข้อมูลอย่างไร
    โดยปกติแล้ว ฐานข้อมูลในองค์กรทั่วไปจะมีลักษณะที่ค่อนข้างทันต่อเหตุการณ์ เช่น ฐานข้อมูลพนักงานก็จะเก็บเฉพาะพนักงานในปัจจุบัน จะไม่สนใจข้อมูลพนักงานเก่า ๆ ในอดีต ซึ่งอาจจะมีข้อมูลอะไรบางอย่าง ที่มีประโยชน์สำหรับผู้บริหาร ในการวิเคราะห์ประสิทธิภาพและคุณลักษณะต่าง ๆ ขององค์กร นอกจากนี้ ฐานข้อมูลแต่ละอันมักถูกออกแบบมาใช้เก็บข้อมูลเฉพาะด้าน จึงมีข้อมูลเฉพาะบางส่วนขององค์กรเท่านั้น ฉะนั้นคลังข้อมูลจึงถูกออกแบบมา เพื่อรวบรวมข้อมูลในทุกส่วนของทั้งบริษัท ทั้งเก่าและใหม่ไว้ด้วยกัน ไม่มีการลบทิ้งข้อมูลเก่าๆ ที่ไม่จริงในปัจจุบัน
    โดยสรุปคือ
    คลังข้อมูล ใช้เพื่อการวิเคราะห์ (ข้อมูลทั้งอดีตและปัจจุบัน)
    ฐานข้อมูล ใช้เพื่อทำการประมวลผล (เฉพาะข้อมูลปัจจุบัน)

ถ้าองค์กรมีคลังข้อมูลหลาย ๆ อันเพื่อใช้ในการวิเคราะห์ต่าง ๆ แตกต่างกันไป เช่น คลังข้อมูลด้านการเงิน และ คลังข้อมูลด้านทรัพยากรมนุษย์ เรามักเรียกคลังข้อมูลเฉพาะด้านเหล่านี้ว่า ตลาดข้อมูล (Data Marts)
อนึ่ง กระบวนการในการใช้ข้อมูลในคลังข้อมูลเพื่อการตัดสินใจ และวางแผนในทางธุรกิจ มักถูกเรียกว่า ปัญญาธุรกิจ (Business Intelligence)

  • การวิเคราะห์ข้อมูลในคลังข้อมูล มีสองประเภทใหญ่ ๆ คือ
    Online Analytical Processing
    Online Analytical Processing (OLAP) คือ การใช้คำค้น (Query) เพื่อค้นหาข้อมูลในคลังข้อมูลเหมือนในฐานข้อมูล เหตุผลที่เราไม่ค้นในฐานข้อมูล แต่มาทำในคลังข้อมูลแทนมีสองสาเหตุ คือ
    ความเร็ว ความครอบคลุมของข้อมูลทั้งบริษัทที่มีอยู่ในคลังข้อมูล การทำเหมืองข้อมูล
    การทำเหมืองข้อมูล (Data Mining) คือ การหารูปแบบ (Pattern) อะไรบางอย่างที่ซ่อนอยู่ในข้อมูล ที่มองผิวเผินแล้วไม่อาจสังเกตเห็นได้ เนื่องจากข้อมูลมีปริมาณมาก เช่น การค้นหากฎความสัมพันธ์ (Association Rules) ของสินค้าในห้างสรรพสินค้า เราอาจพบว่าลูกค้าร้อยละ 90 ที่ซื้อเบียร์ จะซื้อผ้าอ้อมเด็กด้วย ซึ่งเป็นข้อมูลให้ทางห้างคิด รายการส่งเสริมการขายใหม่ๆ ได้ หรือ ธนาคารอาจพบว่า คนทั่วไปที่มีอายุ 20-29 ปี และมีรายได้ในช่วง 20,000-30,000 บาท มักซื้อเครื่องเล่นเอ็มพีสาม ธนาคารอาจเสนอให้คนกลุ่มนี้ทำบัตรเครดิต โดยแถมเครื่องเล่นดังกล่าว เป็นต้น

วันศุกร์ที่ 29 พฤษภาคม พ.ศ. 2552

ขอแนะนำตัวเองค่ะ


ชื่อ - สกุล นางชิดกมล เกินกลาง

ชื่อเล่น โอ๋

รหัสประจำตัวนักศึกษา 5122702112

เกิดวันที่ 11 กันยายน 2522

อายุ 30 ปี

อาชีพ รับราชการตำแหน่งเจ้าหน้าที่พัสดุ

ที่อยู่ปัจจุบัน เลขที่ 6 หมู่ที่ 8 ต.คอนกาม
อ.ยางชุมน้อย จ.ศรีสะเกษ 33190

(บรรดาพี่ๆและเพื่อนสาว).......



ประวัติการศึกษา
ระดับประถมศึกษา จบที่โรงเรียนบ้านคอนกาม

ระดับมัธยมศึกษา จบที่โรงเรียนยางชุมน้อยพิทยาคม

ระดับ ปวช. จบที่วิทยาลัยการอาชีพศรีสะเกษ

ระดับ ปวส. จบที่วิทยาลัยพลศึกษาจังหวัดศรีสะเกษ

ระดับปริญญาตรี กำลังจะจบที่วิทยาลัยราชภัฎศรีสะเกษ

คติประจำใจ ทำวันนี้ให้ดีที่สุด

สาวสวยเทศบาลตำบลบึงบูรพ์ค่ะ