2016년 2월 16일 화요일

POD(Plain Old Data)

Google C++ Style Guide ( https://google.github.io/styleguide/cppguide.html ) 를 확인하다보니 POD에 관한 내용이 나옵니다.

Static and Global Variables

Variables of class type with static storage duration are forbidden: they cause hard-to-find bugs due to indeterminate order of construction and destruction. However, such variables are allowed if they are constexpr: they have no dynamic initialization or destruction.
Objects with static storage duration, including global variables, static variables, static class member variables, and function static variables, must be Plain Old Data (POD): only ints, chars, floats, or pointers, or arrays/structs of POD.

POD(Plain Old Data)가 뭔지 몰라서 검색하고 정리합니다.

http://1stpasa.tistory.com/13 과 http://www.gpgstudy.com/forum/viewtopic.php?t=10067&sid=4598bc316bf03f5c1f90aecdad41e177 의 내용을 기반합니다.

POD란 C의 struct나 build-in-type과 동일한 메모리 구조를 갖는 Object를 의미합니다.

따라서 build-in-type과 같이 쓸 수 있는 타입이죠.

memset, memcpy에 의한 단순 메모리 복사가 가능한 구조이며 다음의 조건을 가진다고 합니다.

1. built-in type
2. 가상 함수가 없고 사용자 정의 할당자(allocator)와 소멸자를 가지지 않는 Class의 Object
3. non POD를 non-static 멤버로 가지지 않는 Class의 Object

경우에 따른 메모리 구조 변경이 일어나지 않으면 POD로 생각하면 될 것 같네요.

1은 이해가 되고, 3의 에서 static에 관한 내용은 static은 객체에 포함되는 멤버가 아니므로 non-POD가 static으로 있는 것은 괜찮지만 그렇지 않으면 당연히 POD가 안되겠지요. 좀 더 쉽게 쓰면 "POD만을 non-static으로 가져야 POD다." 가 됩니다. (말이 어려웠네요)

2번째 조건에서 사용자 정의 할당자(allocator)에 대해서는 조금 설명이 필요합니다.

사용자 정의 할당자는 정의가 되어 있건 아니건, 할당 위치에 영향을 미치고 객체 내부의 메모리 배치에는 영향을 주지 않습니다.

그럼 POD여도 될 것 같은데 그렇지가 않습니다.

위 사이트에 나온 Code로 설명하겠습니다.

다음의 코드의 할당문( = )과 memcpy의 결과는 동일합니다.

class POD
    {
    int x_;
    char* buf_;
    }
 
POD t1;
POD t2;
...
t1 = t2;
memcpy(&t1, &t2);

그러나 다음과 같이 사용자 정의 할당문( 연산자 "=" 오버로딩)을 만들면 memcpy와 결과가 다릅니다.


class NPOD
    {
    int x_;
    char* buf_;
 
    NPOD() : buf_(0) {}
    ~NPOD() { delete buf_; }
    NPOD& operator=(const NPOD& other)
        {
        x_ = other.x_;
        int bufLen = strlen(other.buf_);
        buf_ = new char[bufLen+1];
        memcpy(buf_, other.buf_, bufLen);
        }
    }
 
NPOD t1, t2;
...
t1 = t2;
memcpy(&t1, &t2);


주의 깊게 작성하면 동일 할 수도 있겠지만(아마도) 위와 같이 그렇지 않을 수도 있습니다.따라서 C++에서는 non-POD로 규정하여 C style 메모리 관리 함수 사용을 금지합니다.

행렬 곱셈과 고유값 분해 (eigendecomposition)

행렬 거듭 제곱에 대해서 생각난 것이 있어서 정리합니다.

오늘 알고리즘 스터디에서 행렬 거듭 제곱의 연산비용을 줄이는 이슈에 대해서 잠시 얘기를 했었는데요,

오는길에 생각해보니 선형대수학의 '고유값분해'를 사용하면 훨씬 효과적으로 될 것 같네요.

A라는 정방행렬을 n번 곱하는 A^n라고 한다면,

A^n = AAAAAAA... 이되겠죠. 만약 고유값분해가 가능하다고 한다면(불가능하기도 합니다)

A = SLS^-1 라고 표시됩니다. (S^-1 은 S의 역행렬, L은 대각행렬)

그러면,

A^n = SLS^-1SLS^-1SLS^-1...SLS^-1 = SL^nS^-1  이 되겠죠 (SS^-1 = 단위행렬이므로)

여기서 L은 대각행렬 이므로 n번 거듭 곱해도 일반적인 행렬 연산보다는 훨씬 쉽게 계산 됩니다.

이를 이용해서 A^n 를 계산 할 때마다 고유값분해가 가능한지 확인하고 가능한 시점부터는 알고리즘을 급격히 효과적으로 작성 할 수 있겠네요 :)

http://darkpgmr.tistory.com/105 에 이와 관련된 자세한 내용이 있으니 참고하세요.

추가:

octave를 깔 일이 있어서 깔고 생각난 김에 octave로 행렬의 거듭제곱을 해보니 바로바로 결과가 나옵니다.

octave:16> A = [0.5, 0.3; 0.4, 0.7]
A =

   0.50000   0.30000
   0.40000   0.70000

octave:17> A ** 2
ans =

   0.37000   0.36000
   0.48000   0.61000

octave:18> A ** 1000
ans =

   1.2028e-18   1.3849e-18
   1.8465e-18   2.1261e-18

어떤 최적화 기법(위와 같은)이 있지 않을까 추측해봅니다.

2016년 2월 1일 월요일

Python으로 BlockGame 풀기

알고리즘 Study 에서 이번에 BlockGame이라는 문제를 풀게 되었습니다.

https://algospot.com/judge/problem/read/BLOCKGAME

인데요, 풀이의 포인트는 다음의 두 가지로 정리됩니다.

1. 전수조사

3칸 or 2칸 block 을 골라야 하지만 편의상 2칸의 block만을 고른다고 할 때 대략
25C2 * 23C2 * 21C2 ... 3C2 입니다.
모든 경우에 3칸도 고를 수 있다고 치면 2를 매번 곱하면 되므로 2^12를 추가로 곱해주면 될 것 같네요.
3786916514485104000000L * 2^12 = 15511210043330985984000000L
정도의 경우의 수가 나오므로 이걸 다 저장하고 계산하는 것은 무리입니다.
하지만, [1,1,1,1,0] 이 [1,1,0,0,0] 다음에 생성되거나,[0,0,1,1,0] 다음에 생성되거나 결과는 동일하므로 순서가 중요하지 않고 검사 할 당시 배열의 상태만이 중요합니다. (설명을 위하여 1차원 배열로 기술하였으나 실제로는 2차원 배열)
즉, 가능한 모든 Board의 모양은 2^25 보다 적을 것 입니다.
2^25 는 33554432 이므로 이 정도라면 저장 할 수 있습니다.
즉, 메모이제이션을 쓴다면 탐색 시간이 아주 짧아지겠죠.

2. Bitmasking
문제를 풀기 위한 함수가 최대 2^25번 호출된다고 하면, 이 함수를 최대한 간소화해서 짜야 합니다. 이점을 간과하고 처음에는 5x5의 board에 block이 들어가는지 확인하기 위해 다음과 같은 코드를 짰습니다.
    def canPush(self, board, pushBoard):
        for x in range(len(board)):
            for y in range(len(board[0])):
                if 1 == pushBoard[x][y]:
                    if board[x][y] != 0:
                        return False
        return True

그냥 단순하게  5*5 번의 loop을 돌며 두 board (두번째 board는 block이라고 보시면 됩니다) 를 비교하는 code인데 이것이 상당한 cost가 되더군요.
이를 사용한 코드는 대략 는 이렇습니다.

        for block in totalBlock:
            if self.canPush(board, block):
               ...

별것 아닌 것 같은데 이 경우 시간이 너무 오래 걸렸습니다.
이를 해결하기 위해서 bitmask 를 사용합니다.
즉, 5x5 배열이 어짜피 1 혹은 0으로 표시 될 수 있으므로 이를 AND나 OR 연산으로 한번에 비교하는 것 입니다. 다음과 같습니다.
for block in totalBlock:
            if block & board == 0:
                if not self.isWin(board | block, totalBlock): 

이렇게 하면 획기적으로 속도가 빨라지더군요-



설명한 1과 2를 이용한 전체 코드는 다음과 같습니다.
    def isWin(self, board, totalBlock):
        self.callCnt = self.callCnt + 1

        ret = False
        if board in self.boardMap:
            self.hitCnt = self.hitCnt + 1
            ret = self.boardMap[board]
            return ret

        for block in totalBlock:
            if block & board == 0:
                if not self.isWin(board | block, totalBlock):
                    ret = True
                    break

        self.boardMap[board] = ret

        return ret

자 그럼 이 경우 문제가 풀렸느냐

그렇지 않습니다.

...ㅠㅠ

Python에서 제귀 자체에 대한 비용이 꽤 큰지 탐색 할 경우가 많으면, 제대로 풀리지 않았습니다.

일단 pypy를 사용해봤는데요, 정말 획기적으로 속도 향상이 있었지만 문제가 되는 케이스에서는 여전히 만족할 속도가 나오지 않았습니다.
대략적으로 python에서 50여초가 걸리던 케이스가 pypy에서는 9초가 걸리더군요-

우선 개선점을 좀 더 고민하다가, board가 저장되면 이를 90도, 180도, 270도 돌린 board도 결과가 같음을 알았습니다.

저장하는 부분 self.boardMap[board] = ret 에 위의 3가지 케이스가 더해지도록 합니다.
우선 회전을 위한 코드는 다음과 같습니다.

    def rotate5x5(self, board):
        while len(board) < 25:
            board = "0" + board
        rotated = [0 for i in range(25)]
        rotatedIdx = [[i+j*5 for i in range(5)] for j in range(5)]
        rotatedIdx = [list(tmp) for tmp in zip(*rotatedIdx[::-1])] # Rotate
        rotatedIdx = [item for sublist in rotatedIdx for item in sublist] # to Flat
        for idx in range(25):
            rotated[idx] = board[rotatedIdx[idx]]
        return rotated

이를 활용해서 저장부에 다음을 추가합니다.
        rotated = self.rotate5x5("{0:b}".format(board)) # 90
        self.boardMap[int("".join(rotated), 2)] = ret
        rotated = self.rotate5x5("".join(rotated)) # 180
        self.boardMap[int("".join(rotated), 2)] = ret
        rotated = self.rotate5x5("".join(rotated)) # 270
        self.boardMap[int("".join(rotated), 2)] = ret

자- 잘 풀렸을까요?

아닙니다. isWin의 cost가 rotate5x5로 인해 늘어나서 속도는 더 느려집니다. ㅠㅠ

rotate5x5의 연산 cost를 다음과 같이 좀 무식하게 해서 줄여봤습니다.
 while len(board) < 25:
            board = "0" + board
        rotated = [0 for i in range(25)]
        rotated[0] = board[20]
        rotated[1] = board[15]
        rotated[2] = board[10]
        rotated[3] = board[5]
        rotated[4] = board[0]
        rotated[5] = board[21]
        rotated[6] = board[16]
        rotated[7] = board[11]
        rotated[8] = board[6]
        rotated[9] = board[1]
        rotated[10] = board[22]
        rotated[11] = board[17]
        rotated[12] = board[12]
        rotated[13] = board[7]
        rotated[14] = board[2]
        rotated[15] = board[23]
        rotated[16] = board[18]
        rotated[17] = board[13]
        rotated[18] = board[8]
        rotated[19] = board[3]
        rotated[20] = board[24]
        rotated[21] = board[19]
        rotated[22] = board[14]
        rotated[23] = board[9]
        rotated[24] = board[4]
        return rotated
조금 줄어들긴 합니다만, 여전히 안쓰는 것 보다 더 높은 cost 를 요구합니다 ㅠㅠ

즉, bit 연산처럼 O(1) 의 cost로 배열을 돌릴 수 없다면, 5x5의 경우 그다지 성능 개선이 나오지 않습니다. (물론 더 커지면 의미가 있을 것 같네요)

아무래도 그냥 메모이제이션만 사용하는게 우선은 최선이라 할 수 있겠네요.

즉, 이 문제는 python으로는 무리가 있는 것 같습니다.
(해결하신 분은 저도 알려주세요. 계속 고민해봐야죠.)

여기서 궁금증이 생겨서 python(그리고 pypy)의 recursion cost를 측정해봤습니다.

재미있는 점은 변수도 cost에 큰 영향을 준 점인데요, 아래의 코드에서 callCnt가 그것입니다.(callCnt는 굳이 이렇게 측정하지 않아도 2^n이지만 비교를 위해 넣습니다) 일단 코드는 다음과 같습니다.
    callCnt = 0
    def cost(self, n):
        self.callCnt = self.callCnt + 1
        if n == 0:
            return 1
        else:
            return self.cost(n-1) + self.cost(n-1)

    def testRecursion(self):
        self.cost(20)
        print self.callCnt

이를 돌리면  python에서는 0.640529870987 의 시간이 걸립니다.
pypy에서는 어떨까요? 0.121232032776 가 걸리네요-

재미있는 점은 위에서 self.cost(20)이 아닌 5와 같이 작은 수로 한 경우인데요,
이 경우 pypy가 더 느립니다.

pypy: 0.000104904174805
python: 5.60283660889e-05

10정도 해도 pypy가 더 느리네요.

pypy: 0.016s
python: 0.001s

아마 pypy의 최적화 코드가 어느정도 까지는 오버해드로 작용하는 것 같습니다.

사용한 python은 Python 2.7.6 이며, pypy는 Python 2.7.3(PyPy 2.2.1 with GCC 4.8.4) 입니다.